本書從系統(tǒng)的角度出發(fā),按照大數(shù)據(jù)處理流程的順序,全面介紹了大數(shù)據(jù)技術(shù)的基礎(chǔ)知識(shí),提升讀者對(duì)大數(shù)據(jù)的認(rèn)知。全書分3個(gè)邏輯層次,共9章。
本書作為大數(shù)據(jù)技術(shù)的基礎(chǔ)教材,目的不在于讓讀者對(duì)具體的某個(gè)技術(shù)平臺(tái)細(xì)節(jié)有很深的理解,而是盡量讓讀者體會(huì)整個(gè)大數(shù)據(jù)處理的技術(shù)流程,使讀者能夠掌握大數(shù)據(jù)技術(shù)的整體框架,能夠在未來的學(xué)習(xí)和工作中通過系統(tǒng)化的大數(shù)據(jù)思維能力為所遇到的問題提供解決思路和方案。
本書作為大數(shù)據(jù)技術(shù)的入門教材,能夠幫助希望成為信息時(shí)代沖浪者的讀者,從一個(gè)外行跨入大數(shù)據(jù)技術(shù)的大門,幫助大數(shù)據(jù)技術(shù)的初學(xué)者盡快了解大數(shù)據(jù)技術(shù)。
本書從系統(tǒng)的角度出發(fā),按照大數(shù)據(jù)處理流程的順序,全面介紹了大數(shù)據(jù)技術(shù)的基礎(chǔ)知識(shí),提升讀者對(duì)大數(shù)據(jù)的認(rèn)知。
孟憲偉,遼寧科技學(xué)院-曙光大數(shù)據(jù)學(xué)院教授,碩士學(xué)位,主持省市級(jí)項(xiàng)目8項(xiàng),發(fā)表學(xué)術(shù)論文18篇,研究領(lǐng)域?yàn)樯鐣?huì)智能與復(fù)雜數(shù)據(jù)處理。中國教育信息化學(xué)會(huì)理事,本溪市網(wǎng)絡(luò)與信息安全專家。
第1章 什么是大數(shù)據(jù) 1
1.1 人類信息文明的發(fā)展 1
1.2 大數(shù)據(jù)時(shí)代的來臨 2
1.2.1 信息技術(shù)的發(fā)展 3
1.2.2 數(shù)據(jù)產(chǎn)生方式的變革 5
1.3 大數(shù)據(jù)的主要特征 7
1.3.1 大數(shù)據(jù)的數(shù)據(jù)特征 8
1.3.2 大數(shù)據(jù)的技術(shù)特征 10
1.4 大數(shù)據(jù)的社會(huì)價(jià)值 11
習(xí)題 12
本章參考文獻(xiàn) 13
第2章 大數(shù)據(jù)技術(shù)基礎(chǔ) 14
2.1 計(jì)算機(jī)操作系統(tǒng) 14
2.1.1 什么是操作系統(tǒng) 14
2.1.2 Linux操作系統(tǒng) 16
2.2 編程語言 18
2.2.1 編程語言的發(fā)展與種類 18
2.2.2 Python語言 21
2.3 數(shù)據(jù)庫 23
2.3.1 SQL數(shù)據(jù)庫的發(fā)展與成熟 24
2.3.2 NoSQL數(shù)據(jù)庫及其特點(diǎn) 25
2.3.3 NoSQL數(shù)據(jù)庫的分類 27
2.3.4 NewSQL數(shù)據(jù)庫 30
2.4 算法 30
2.4.1 什么是算法 30
2.4.2 大數(shù)據(jù)時(shí)代的算法 32
2.5 大數(shù)據(jù)系統(tǒng) 33
2.5.1 Hadoop平臺(tái) 33
2.5.2 Spark平臺(tái) 35
2.6 大數(shù)據(jù)的數(shù)據(jù)類型 37
2.6.1 結(jié)構(gòu)化數(shù)據(jù) 38
2.6.2 半結(jié)構(gòu)化數(shù)據(jù) 38
2.6.3 非結(jié)構(gòu)化數(shù)據(jù) 39
2.7 大數(shù)據(jù)應(yīng)用的開發(fā)流程 40
2.8 數(shù)據(jù)科學(xué)算法的應(yīng)用流程 41
習(xí)題 42
本章參考文獻(xiàn) 43
第3章 數(shù)據(jù)采集與預(yù)處理 44
3.1 大數(shù)據(jù)的來源 44
3.1.1 傳統(tǒng)商業(yè)數(shù)據(jù) 45
3.1.2 互聯(lián)網(wǎng)數(shù)據(jù) 45
3.1.3 物聯(lián)網(wǎng)數(shù)據(jù) 46
3.2 數(shù)據(jù)的采集方法 47
3.2.1 系統(tǒng)日志的采集方法 47
3.2.2 網(wǎng)頁數(shù)據(jù)的采集方法 52
3.2.3 其他數(shù)據(jù)的采集方法 55
3.3 數(shù)據(jù)預(yù)處理 56
3.3.1 影響數(shù)據(jù)質(zhì)量的因素 56
3.3.2 數(shù)據(jù)預(yù)處理的目的 59
3.3.3 數(shù)據(jù)預(yù)處理的流程 60
習(xí)題 67
本章參考文獻(xiàn) 67
第4章 大數(shù)據(jù)存儲(chǔ)與管理 68
4.1 數(shù)據(jù)存儲(chǔ)概述 68
4.1.1 數(shù)據(jù)的存儲(chǔ)介質(zhì) 68
4.1.2 數(shù)據(jù)的存儲(chǔ)模式 72
4.2 大數(shù)據(jù)時(shí)代的存儲(chǔ)管理系統(tǒng) 76
4.2.1 文件系統(tǒng) 76
4.2.2 分布式文件系統(tǒng) 77
4.2.3 數(shù)據(jù)庫 80
4.2.4 鍵-值數(shù)據(jù)庫 82
4.2.5 分布式數(shù)據(jù)庫 82
4.2.6 關(guān)系型數(shù)據(jù)庫 84
4.2.7 數(shù)據(jù)倉庫 85
4.2.8 文檔數(shù)據(jù)庫 87
4.2.9 圖形數(shù)據(jù)庫 89
4.2.10 云存儲(chǔ) 90
習(xí)題 93
本章參考文獻(xiàn) 93
第5章 大數(shù)據(jù)計(jì)算框架 94
5.1 計(jì)算框架 94
5.1.1 批處理框架 94
5.1.2 流式處理框架 95
5.1.3 交互式處理框架 96
5.2 MapReduce 96
5.2.1 MapReduce編程的特點(diǎn) 97
5.2.2 MapReduce的計(jì)算模型 97
5.2.3 MapReduce的資源管理框架 101
5.3 Spark 105
5.3.1 Spark的基本知識(shí) 105
5.3.2 Spark的生態(tài)系統(tǒng) 107
5.3.3 Spark的架構(gòu)與原理 109
5.3.4 Spark RDD的基本知識(shí) 111
習(xí)題 115
本章參考文獻(xiàn) 115
第6章 數(shù)據(jù)挖掘 116
6.1 什么是數(shù)據(jù)挖掘 116
6.2 數(shù)據(jù)挖掘的對(duì)象與價(jià)值 119
6.2.1 數(shù)據(jù)挖掘的對(duì)象 119
6.2.2 數(shù)據(jù)挖掘的價(jià)值 121
6.3 數(shù)據(jù)挖掘常用的技術(shù) 123
6.3.1 關(guān)聯(lián)分析 123
6.3.2 分類分析 126
6.3.3 聚類分析 129
6.4 數(shù)據(jù)挖掘常用的工具 132
6.4.1 RapidMiner 133
6.4.2 WEKA 133
6.4.3 Orange 134
6.4.4 R語言 134
6.4.5 Mining 135
6.5 數(shù)據(jù)挖掘的典型應(yīng)用 137
6.5.1 社交媒體領(lǐng)域的應(yīng)用 137
6.5.2 市場(chǎng)營銷領(lǐng)域的應(yīng)用 137
6.5.3 科學(xué)研究領(lǐng)域的應(yīng)用 138
6.5.4 電信領(lǐng)域的應(yīng)用 138
6.5.5 教育領(lǐng)域的應(yīng)用 138
6.5.6 醫(yī)學(xué)領(lǐng)域的應(yīng)用 139
習(xí)題 140
本章參考文獻(xiàn) 140
第7章 數(shù)據(jù)可視化 141
7.1 什么是可視化 141
7.1.1 可視化的含義 141
7.1.2 可視化的發(fā)展歷程 142
7.1.3 可視化的作用 143
7.2 數(shù)據(jù)可視化及其分類 144
7.2.1 科學(xué)可視化 144
7.2.2 信息可視化 146
7.2.3 可視化分析學(xué) 147
7.3 數(shù)據(jù)可視化工具 147
7.3.1 入門級(jí)工具 148
7.3.2 信息圖表工具 149
7.3.3 地圖工具 152
7.3.4 高級(jí)分析工具 155
7.4 數(shù)據(jù)可視化案例 157
7.4.1 數(shù)字美食 157
7.4.2 空中的間諜 157
習(xí)題 158
本章參考文獻(xiàn) 158
第8章 大數(shù)據(jù)與云計(jì)算 160
8.1 什么是云計(jì)算 160
8.1.1 云計(jì)算的概念與特點(diǎn) 160
8.1.2 云計(jì)算的分類 162
8.1.3 云計(jì)算與分布式計(jì)算的區(qū)別 163
8.1.4 云計(jì)算的體系架構(gòu) 163
8.1.5 云計(jì)算需要解決的問題 165
8.1.6 具有代表性的云計(jì)算廠商 166
8.2 大數(shù)據(jù)與云計(jì)算的關(guān)系 167
8.2.1 云計(jì)算將改變大數(shù)據(jù)分析 168
8.2.2 大數(shù)據(jù)與云計(jì)算的區(qū)別和
聯(lián)系 168
8.2.3 大數(shù)據(jù)與云計(jì)算未來的發(fā)展
方向和趨勢(shì) 169
8.2.4 大數(shù)據(jù)與云計(jì)算在生產(chǎn)生活中的
應(yīng)用 171
習(xí)題 173
本章參考文獻(xiàn) 174
第9章 大數(shù)據(jù)與人工智能 175
9.1 什么是人工智能 175
9.1.1 人工智能的發(fā)展歷史 176
9.1.2 人工智能的研究方向和方法 182
9.1.3 人工智能面臨的問題 184
9.2 數(shù)據(jù)驅(qū)動(dòng)的智能時(shí)代 185
9.2.1 人工智能與大數(shù)據(jù) 185
9.2.2 產(chǎn)業(yè)戰(zhàn)略 187
習(xí)題 188
本章參考文獻(xiàn) 188