本書是高校的大數(shù)據(jù)導(dǎo)論課程教材,清楚地介紹了大數(shù)據(jù)相關(guān)的概念、理論、術(shù)語與基礎(chǔ)技術(shù),并使用真實(shí)連貫的商業(yè)案例以及簡單的圖表,幫助讀者更清晰地理解大數(shù)據(jù)技術(shù)。本書可作為高等院校相關(guān)專業(yè)“大數(shù)據(jù)基礎(chǔ)”“大數(shù)據(jù)導(dǎo)論”等課程的教材,也可供有一定實(shí)踐經(jīng)驗(yàn)的軟件開發(fā)人員、管理人員和所有對大數(shù)據(jù)感興趣的人士閱讀。
1.囊括大數(shù)據(jù)的基本知識,也介紹了大數(shù)據(jù)與云計算、人工智能的關(guān)系
2.提供PPT等教學(xué)資源
安俊秀畢業(yè)于西安交通大學(xué)計算機(jī)科學(xué)與技術(shù)專業(yè),獲工學(xué)碩士學(xué)位。中國計算機(jī)學(xué)會高級會員;中國電子學(xué)會高級會員;成都市科技攻關(guān)計劃評審專家;成都軍區(qū)項(xiàng)目評審專家;汕尾市科技顧問團(tuán)首席顧問。 先后承擔(dān)了《Linux體系和編程》、《軟件項(xiàng)目管理》、《工程導(dǎo)論》、《計算機(jī)組成原理》等本科課程;承擔(dān)了《云計算與大數(shù)據(jù)》、《并行計算》、《Hadoop處理技術(shù)》等研究生課程。 在科研方面,一直從事云計算與大數(shù)據(jù)、信息智能搜索與計算社會方面的研究工作。近三年發(fā)表論文20余篇,其中第一作者10余篇,核心期刊以上占5篇。編寫出版了多本教材。
第1章 大數(shù)據(jù)概述 1
1.1 什么是大數(shù)據(jù) 1
1.1.1 大數(shù)據(jù)的來源 1
1.1.2 大數(shù)據(jù)的定義 5
1.1.3 從信息技術(shù)(IT)轉(zhuǎn)向數(shù)據(jù)
技術(shù)(DT) 5
1.2 大數(shù)據(jù)的數(shù)據(jù)特征及對科學(xué)研究的
影響 7
1.2.1 大數(shù)據(jù)的數(shù)據(jù)特征 7
1.2.2 大數(shù)據(jù)對科學(xué)研究的影響 8
1.3 大數(shù)據(jù)的數(shù)據(jù)類型 11
1.4 大數(shù)據(jù)的價值及相關(guān)技術(shù) 13
1.4.1 大數(shù)據(jù)的可用性及衍生
價值 13
1.4.2 大數(shù)據(jù)存儲及處理技術(shù) 14
1.5 大數(shù)據(jù)的發(fā)展趨勢 15
習(xí)題 16
第2章 大數(shù)據(jù)與云計算 17
2.1 云計算概述 17
2.1.1 云計算的提出 17
2.1.2 云計算的定義 18
2.1.3 云計算的概念模型 19
2.1.4 云計算的特點(diǎn) 20
2.2 云計算的主要部署模式 21
2.2.1 公有云 22
2.2.2 私有云 22
2.2.3 混合云 23
2.3 云計算的主要服務(wù)模式 24
2.3.1 基礎(chǔ)設(shè)施即服務(wù)(IaaS) 24
2.3.2 平臺即服務(wù)(PaaS) 26
2.3.3 軟件即服務(wù)(SaaS) 26
2.3.4 3種服務(wù)模式之間的關(guān)系 27
2.4 云計算與大數(shù)據(jù)體系架構(gòu)的關(guān)系 28
2.4.1 云計算基礎(chǔ)設(shè)施—
Google平臺 28
2.4.2 大數(shù)據(jù)基礎(chǔ)設(shè)施—
Hadoop平臺 29
2.5 物聯(lián)網(wǎng)、大數(shù)據(jù)和云計算之間的
關(guān)系 30
2.5.1 認(rèn)識物聯(lián)網(wǎng) 31
2.5.2 邊緣計算 31
2.5.3 霧計算 33
2.5.4 大數(shù)據(jù)和云計算之間的
關(guān)系 33
習(xí)題 34
第3章 從產(chǎn)業(yè)結(jié)構(gòu)來探索大數(shù)據(jù)技術(shù) 35
3.1 大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)概述 35
3.2 大數(shù)據(jù)的解決方案 37
3.2.1 大數(shù)據(jù)的產(chǎn)生、采集與處理
方式 37
3.2.2 大數(shù)據(jù)處理的基本流程及
相應(yīng)技術(shù) 40
3.3 大數(shù)據(jù)采集技術(shù) 43
3.3.1 大數(shù)據(jù)采集概述 43
3.3.2 日志采集系統(tǒng)—Flume 44
3.3.3 消息采集系統(tǒng)—Kafka 46
3.3.4 Scrapy網(wǎng)絡(luò)爬蟲框架 47
3.4 大數(shù)據(jù)預(yù)處理技術(shù) 50
3.4.1 數(shù)據(jù)預(yù)處理 50
3.4.2 數(shù)據(jù)清洗 51
3.4.3 數(shù)據(jù)集成 53
3.4.4 數(shù)據(jù)歸約 54
3.5 大數(shù)據(jù)可視化技術(shù) 56
3.5.1 數(shù)據(jù)可視化的概念 56
3.5.2 數(shù)據(jù)可視化的分類 57
3.5.3 數(shù)據(jù)可視化工具 61
3.5.4 大數(shù)據(jù)可視化技術(shù)的
發(fā)展方向 63
習(xí)題 64
第4章 大數(shù)據(jù)的硬件架構(gòu)——集群 65
4.1 集群的來源 65
4.1.1 并行計算機(jī)的發(fā)展 65
4.1.2 通過計算機(jī)食物鏈理解
集群 68
4.2 集群的產(chǎn)生促進(jìn)了大數(shù)據(jù)技術(shù)的
發(fā)展 70
4.3 集群系統(tǒng)的概念及分類 72
4.3.1 集群的基本概念 72
4.3.2 集群系統(tǒng)的分類 73
4.4 集群的結(jié)構(gòu)模型 75
4.5 集群文件系統(tǒng) 76
習(xí)題 79
第5章 大數(shù)據(jù)開發(fā)與計算技術(shù) 80
5.1 Hadoop—分布式大數(shù)據(jù)系統(tǒng) 80
5.1.1 Hadoop概述 80
5.1.2 Hadoop架構(gòu) 81
5.1.3 Hadoop生態(tài)系統(tǒng) 87
5.2 Spark—大規(guī)模數(shù)據(jù)實(shí)時處理
系統(tǒng) 89
5.2.1 Spark概述 89
5.2.2 彈性分布式數(shù)據(jù)集 94
5.2.3 Spark擴(kuò)展功能 96
5.3 Storm—基于拓?fù)涞牧鲾?shù)據(jù)實(shí)時
計算系統(tǒng) 99
5.3.1 Storm概述 99
5.3.2 Storm的組成結(jié)構(gòu) 101
5.3.3 Storm-Yarn概述 102
5.4 Hadoop、Spark與Storm的比較 103
5.5 大數(shù)據(jù)開發(fā)技術(shù)與Web應(yīng)用
開發(fā)技術(shù)的比較 105
5.5.1 Web應(yīng)用開發(fā)技術(shù)簡介 105
5.5.2 大數(shù)據(jù)開發(fā)技術(shù)簡介 109
5.5.3 大數(shù)據(jù)開發(fā)技術(shù)與Web應(yīng)用
開發(fā)技術(shù)的應(yīng)用環(huán)境 110
習(xí)題 112
第6章 大數(shù)據(jù)存儲技術(shù) 113
6.1 數(shù)據(jù)存儲概述 113
6.2 分布式文件系統(tǒng) 115
6.2.1 分布式文件系統(tǒng)的設(shè)計
思路 116
6.2.2 最早的分布式文件系統(tǒng) 118
6.2.3 大數(shù)據(jù)環(huán)境下分布式文件
系統(tǒng)的優(yōu)化思路 119
6.3 結(jié)構(gòu)化大數(shù)據(jù)的存儲—Hive 120
6.3.1 Hive簡介 120
6.3.2 Hive架構(gòu) 121
6.3.3 Hive數(shù)據(jù)模型與存儲 122
6.4 半結(jié)構(gòu)化大數(shù)據(jù)的存儲—HBase 124
6.4.1 HBase簡介 124
6.4.2 HBase數(shù)據(jù)模型 125
6.4.3 存儲架構(gòu) 127
6.5 云存儲技術(shù) 134
6.5.1 云存儲的概念及特性 134
6.5.2 云存儲系統(tǒng)的結(jié)構(gòu)模型 136
6.5.3 云存儲的應(yīng)用 138
習(xí)題 139
第7章 大數(shù)據(jù)分析 141
7.1 大數(shù)據(jù)分析與數(shù)據(jù)分析的關(guān)系 141
7.1.1 對數(shù)據(jù)分析師的要求 142
7.1.2 對大數(shù)據(jù)分析師的要求 142
7.2 大數(shù)據(jù)分析的重要性及認(rèn)識數(shù)據(jù) 143
7.2.1 大數(shù)據(jù)分析的重要性 143
7.2.2 認(rèn)識數(shù)據(jù) 145
7.3 統(tǒng)計數(shù)據(jù)分析 147
7.4 基于機(jī)器學(xué)習(xí)的數(shù)據(jù)分析 151
7.4.1 機(jī)器學(xué)習(xí)簡介 151
7.4.2 機(jī)器學(xué)習(xí)的主要用途 153
7.4.3 有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和
強(qiáng)化學(xué)習(xí) 154
7.5 經(jīng)典的機(jī)器學(xué)習(xí)算法 157
7.5.1 分類算法原理 157
7.5.2 決策樹分類算法 157
7.5.3 K-均值聚類算法 158
7.5.4 Apriori關(guān)聯(lián)規(guī)則算法 159
7.5.5 樸素貝葉斯分類算法 159
7.6 基于圖的數(shù)據(jù)分析 161
7.7 基于自然語言的數(shù)據(jù)分析 162
習(xí)題 163
第8章 大數(shù)據(jù)與人工智能 164
8.1 人工智能的概念及分類 164
8.2 人工智能的發(fā)展史 168
8.3 限制人工智能發(fā)展的因素 170
8.4 大數(shù)據(jù)與人工智能的關(guān)系 172
8.5 人工智能核心技術(shù)概述 173
8.5.1 深度學(xué)習(xí) 174
8.5.2 卷積神經(jīng)網(wǎng)絡(luò) 175
8.5.3 圖像處理 176
8.6 人工智能技術(shù)應(yīng)用 177
習(xí)題 179
參考文獻(xiàn) 180