Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)項目化教程(陳秀玲)
Hadoop是當(dāng)前熱門的大數(shù)據(jù)處理與分析平臺!禜adoop大數(shù)據(jù)開發(fā)基礎(chǔ)項目化教程》將大數(shù)據(jù)平臺相關(guān)內(nèi)容劃分為8個項目,分別是大數(shù)據(jù)時代、Hadoop基礎(chǔ)環(huán)境、Hadoop環(huán)境搭建、分布式存儲HDFS、MapReduce分布式編程、Hadoop數(shù)據(jù)倉庫Hive、Hadoop數(shù)據(jù)庫HBas、協(xié)調(diào)系統(tǒng)Zookeeper,每個項目按照知識點拆解分為相關(guān)的多個任務(wù),每個任務(wù)都有詳細的操作步驟實現(xiàn),由淺入深、將理論和實踐相融合,循序漸進地介紹Hadoop集群的相關(guān)知識點,使讀者能夠?qū)W以致用,融會貫通,快速理解和掌握。
本書可作為高職高專院校大數(shù)據(jù)技術(shù)及應(yīng)用等計算機相關(guān)專業(yè)的教材使用,也適用于應(yīng)用型本科院校數(shù)據(jù)科學(xué)與大數(shù)據(jù)、大數(shù)據(jù)管理與應(yīng)用等專業(yè)的師生使用,還可供大數(shù)據(jù)零基礎(chǔ)的初學(xué)者入門和進階、大數(shù)據(jù)相關(guān)領(lǐng)域的廣大程序設(shè)計人員參考。
陳秀玲,計算機專業(yè)教授,1999年7月畢業(yè)于哈爾濱理工大學(xué),同年就職于黑龍江職業(yè)學(xué)院,從事計算機相關(guān)專業(yè)的教學(xué)工作至2019年8月。由2019年8月至今在重慶化工職業(yè)學(xué)院從事大數(shù)據(jù)應(yīng)用相關(guān)專業(yè)的教學(xué)工作。近十年共計完成課題20項(其中主持省教育廳、省科技處課題2項、院級重點課題1項,參與各類課題各4項,主持或參與職教學(xué)會、高教學(xué)會、院級一般課題13項),并且全部結(jié)題。將研究成果和教學(xué)經(jīng)驗整理發(fā)表論文十余篇、主編或編寫教材共計16部,申請實用新型專利2項,參與專利5項。主講《C語言》、《C++》、《Java語言》、《Python》、《MySQL》、《VB程序設(shè)計》、《SQL Server數(shù)據(jù)庫》、《軟件工程》、《軟件測試》、《操作系統(tǒng)》、《IT項目經(jīng)理》、《VFP數(shù)據(jù)庫》等多門課程。
項目1 大數(shù)據(jù)時代 1
任務(wù)1 認(rèn)識大數(shù)據(jù) 1
1.1.1 大數(shù)據(jù)定義 2
1.1.2 大數(shù)據(jù)核心特征 2
1.1.3 大數(shù)據(jù)體系架構(gòu) 3
任務(wù)2 大數(shù)據(jù)關(guān)鍵技術(shù) 4
1.2.1 大數(shù)據(jù)技術(shù)分類 4
1.2.2 大數(shù)據(jù)存儲基礎(chǔ) 5
1.2.3 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng) 6
任務(wù)3 大數(shù)據(jù)的應(yīng)用 6
1.3.1 大數(shù)據(jù)典型應(yīng)用—— 霍廷 6
1.3.2 大數(shù)據(jù)典型應(yīng)用——亞馬遜 7
1.3.3 大數(shù)據(jù)典型應(yīng)用——城管通 7
1.3.4 大數(shù)據(jù)典型應(yīng)用——智能公交站牌 7
1.3.5 大數(shù)據(jù)典型應(yīng)用——金融分析 7
1.3.6 大數(shù)據(jù)典型應(yīng)用——醫(yī)療決策 7
1.3.7 大數(shù)據(jù)典型應(yīng)用——農(nóng)業(yè)防稻瘟 8
1.3.8 大數(shù)據(jù)典型應(yīng)用——社會治理 8
1.3.9 大數(shù)據(jù)典型應(yīng)用——疫情阻擊 8
習(xí)題 8
項目2 Hadoop基礎(chǔ)環(huán)境 10
任務(wù)1 熟悉Linux 10
2.1.1 Linux簡介 11
2.1.2 Linux發(fā)行版 11
2.1.3 Linux文件 11
2.1.4 Linux常用命令應(yīng)用 12
任務(wù)2 認(rèn)識Hadoop 15
2.2.1 Hadoop簡介 15
2.2.2 Hadoop發(fā)展史 16
2.2.3 Hadoop發(fā)行版本 16
2.2.4 Hadoop基本概念 17
2.2.5 Hadoop的優(yōu)點 18
2.2.6 Hadoop基本使用 19
任務(wù)3 準(zhǔn)備Linux環(huán)境 20
2.3.1 虛擬機簡介 20
2.3.2 VMware虛擬機 20
2.3.3 安裝虛擬機 20
任務(wù)4 Hadoop基礎(chǔ)環(huán)境搭建 21
2.4.1 Hadoop核心知識 21
2.4.2 Hadoop生態(tài)社區(qū) 22
2.4.3 安裝主機master 24
2.4.4 拍快照保留歷史數(shù)據(jù) 28
2.4.5 更改主機名稱 29
2.4.6 設(shè)置共享文件夾 32
2.4.7 安裝Java并配置環(huán)境 35
任務(wù)5 Notepad++實現(xiàn)共享編輯 37
2.5.1 Notepad++簡介 37
2.5.2 下載并編輯Notepad++ 37
2.5.3 實現(xiàn)遠程連接Linux 39
習(xí)題 43
項目3 Hadoop環(huán)境搭建 45
任務(wù)1 Hadoop單節(jié)點環(huán)境搭建 45
3.1.1 單節(jié)點基礎(chǔ) 46
3.1.2 單節(jié)點安裝 46
3.1.3 單節(jié)點配置環(huán)境及檢驗 47
任務(wù)2 Hadoop偽分布式環(huán)境搭建 49
3.2.1 偽分布式環(huán)境基礎(chǔ) 49
3.2.2 偽分布式環(huán)境安裝 51
3.2.3 偽分布式環(huán)境配置及測試 53
任務(wù)3 Hadoop完全分布式環(huán)境搭建 60
3.3.1 完全分布式環(huán)境基礎(chǔ) 61
3.3.2 完全分布式環(huán)境安裝 62
3.3.3 完全分布式環(huán)境配置 72
任務(wù)4 使用Xshell遠程終端模擬器 78
3.4.1 Xshell簡介 78
3.4.2 Xshell特點 78
3.4.3 Xshell下載和安裝 78
3.4.4 Xshell遠程連接虛擬機 79
任務(wù)5 使用MobaXterm終端軟件 83
3.5.1 MobaXterm簡介 83
3.5.2 MobaXterm特點 84
3.5.3 MobaXterm下載并安裝 84
3.5.4 使用MobaXterm連接虛擬機 85
習(xí)題 88
項目4 分布式存儲HDFS 90
任務(wù)1 HDFS的組成與工作機制 90
4.1.1 HDFS簡介 91
4.1.2 機架感知與副本冗余存儲策略 91
4.1.3 HDFS體系結(jié)構(gòu) 92
4.1.4 NameNode工作原理 93
4.1.5 查看NameNode格式化后的數(shù)據(jù)文件 94
任務(wù)2 HDFS數(shù)據(jù)操作 96
4.2.1 HDFS shell簡介 96
4.2.2 HDFS用戶命令 97
4.2.3 啟動并查看HDFS進程 97
4.2.4 借助瀏覽器查看 98
4.2.5 HDFS管理員命令 99
4.2.6 HDFS完成數(shù)據(jù)文件的簡單操作 100
4.2.7 使用HDFS管理員命令完成相關(guān)服務(wù)操作 102
任務(wù)3 創(chuàng)建HDFS項目 103
4.3.1 IDEA開發(fā)工具使用 103
4.3.2 IDEA安裝 104
4.3.3 借助IDEA創(chuàng)建Maven項目 107
任務(wù)4 HDFS的文件讀寫 109
4.4.1 HDFS文件讀寫流程 110
4.4.2 啟動Hadoop進程 111
4.4.3 客戶端向HDFS寫文件 112
4.4.4 客戶端向HDFS讀文件 114
習(xí)題 115
項目5 MapReduce分布式編程 117
任務(wù)1 認(rèn)識MapReduce 117
5.1.1 MapReduce介紹 117
5.1.2 Wordcount程序體驗 118
任務(wù)2 MapReduce編程模型 124
5.2.1 MapReduce 設(shè)計構(gòu)思和框架結(jié)構(gòu) 124
5.2.2 MapReduce 編程規(guī)范 126
5.2.3 編寫自己的單詞統(tǒng)計程序 126
任務(wù)3 MapReduce案例實戰(zhàn)—— 去重 137
5.3.1 數(shù)據(jù)去重思想 137
5.3.2 MapReduce數(shù)據(jù)去重程序編寫 138
任務(wù)4 MapReduce案例實戰(zhàn)—— 排序 145
5.4.1 MapReduce數(shù)據(jù)排序 145
5.4.2 Shuffle工作原理 146
任務(wù)5 MapReduce案例實戰(zhàn)—— Map端join 153
5.5.1 Map端join的使用場景 154
5.5.2 Map端join的執(zhí)行流程 154
任務(wù)6 MapReduce優(yōu)化 162
5.6.1 資源相關(guān)參數(shù) 162
5.6.2 容錯相關(guān)參數(shù) 163
5.6.3 效率與穩(wěn)定性參數(shù) 163
習(xí)題 163
項目6 Hadoop數(shù)據(jù)倉庫Hive 165
任務(wù)1 Hive環(huán)境搭建 165
6.1.1 Hive簡介 166
6.1.2 Hive優(yōu)點 166
6.1.3 安裝Mysql 166
6.1.4 Mysql基本應(yīng)用 167
6.1.5 安裝Hive 173
6.1.6 配置Hive環(huán)境 174
6.1.7 啟動Hive 177
任務(wù)2 Hive數(shù)據(jù)庫基本操作 178
6.2.1 數(shù)據(jù)庫相關(guān)知識 179
6.2.2 數(shù)據(jù)庫操作 179
任務(wù)3 Hive表基本操作 181
6.3.1 表的相關(guān)知識 181
6.3.2 Hive內(nèi)置函數(shù) 182
6.3.3 Hive元數(shù)據(jù)存儲 182
6.3.4 表操作 184
習(xí)題 189
項目7 Hadoop數(shù)據(jù)庫HBase 190
任務(wù)1 HBase安裝配置基礎(chǔ) 190
7.1.1 HBase簡介 191
7.1.2 HBase發(fā)展歷史 191
7.1.3 HBase基本概念 191
7.1.4 HBase特點 192
7.1.5 HBase安裝前的準(zhǔn)備 193
任務(wù)2 HBase多種模式安裝 195
7.2.1 HBase安裝模式 195
7.2.2 HBase常用命令 195
7.2.3 HBase偽分布式安裝及配置 196
7.2.4 HBase完全分布式安裝及配置 201
任務(wù)3 HBase創(chuàng)建用戶表 205
7.3.1 HBase數(shù)據(jù)模型 205
7.3.2 HBase存儲機制 206
7.3.3 HBase存儲架構(gòu) 206
7.3.4 HBase表的基本命令 207
7.3.5 創(chuàng)建用戶表 207
任務(wù)4 操作表信息 209
7.4.1 對表的操作命令 209
7.4.2 增加表記錄 209
7.4.3 查看表信息 210
7.4.4 修改表結(jié)構(gòu) 211
7.4.5 更新表記錄 213
7.4.6 刪除記錄/表 214
習(xí)題 215
項目8 協(xié)調(diào)系統(tǒng)Zookeeper 216
任務(wù)1 Zookeeper基礎(chǔ)知識 216
8.1.1 Zookeeper概述 217
8.1.2 Zookeeper基本概念 217
8.1.3 Zookeeper應(yīng)用場景 218
任務(wù)2 Zookeeper安裝基礎(chǔ) 218
8.2.1 Zookeeper安裝模式 218
8.2.2 Zookeeper角色 219
8.2.3 Zookeeper常用命令 219
8.2.4 Zookeeper安裝前準(zhǔn)備 220
任務(wù)3 Zookeeper多種模式安裝 222
8.3.1 Zookeeper配置中的參數(shù) 222
8.3.2 單節(jié)點模式安裝及配置 222
8.3.3 偽集群模式安裝及配置 227
8.3.4 完全分布式模式安裝及配置 232
習(xí)題 235
參考文獻 237