本書全面闡述了大數(shù)據(jù)的內(nèi)涵與特征、體系架構(gòu)以及所涉及關(guān)鍵技術(shù)。全書共分7章,內(nèi)容包括大數(shù)據(jù)概論、大數(shù)據(jù)存儲、大數(shù)據(jù)處理、大數(shù)據(jù)分析、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用和大數(shù)據(jù)發(fā)展趨勢與展望,每章內(nèi)容都與主流技術(shù)和典型案例緊密結(jié)合,以便讀者對大數(shù)據(jù)及其關(guān)鍵技術(shù)有更好的了解和掌握。 本書適合作為高等院校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、計(jì)算機(jī)、軟件工程、電子信息等相關(guān)專業(yè)以及創(chuàng)新創(chuàng)業(yè)或素質(zhì)教育的大數(shù)據(jù)課程教材,也可作為其他讀者深入了解大數(shù)據(jù)技術(shù)的參考用書。
本書緊緊圍繞大數(shù)據(jù)技術(shù)這一中心,以淺顯易懂的語言詳細(xì)介紹了大數(shù)據(jù)的基本特征、體系結(jié)構(gòu)、相關(guān)技術(shù)及其應(yīng)用領(lǐng)域,做到由淺入深、環(huán)環(huán)緊扣
本書全面闡述了大數(shù)據(jù)的內(nèi)涵與特征、體系架構(gòu)以及所涉及關(guān)鍵技術(shù)。全書共分7章,內(nèi)容包括大數(shù)據(jù)概論、大數(shù)據(jù)存儲、大數(shù)據(jù)處理、大數(shù)據(jù)分析、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用和大數(shù)據(jù)發(fā)展趨勢與展望,每章內(nèi)容都與主流技術(shù)和典型案例緊密結(jié)合,以便讀者對大數(shù)據(jù)及其關(guān)鍵技術(shù)有更好的了解和掌握。
本書適合作為高等院校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、計(jì)算機(jī)、軟件工程、電子信息等相關(guān)專業(yè)以及創(chuàng)新創(chuàng)業(yè)或素質(zhì)教育的大數(shù)據(jù)課程教材,也可作為其他讀者深入了解大數(shù)據(jù)技術(shù)的參考用書。
"
"如今大數(shù)據(jù)已被提升為國家戰(zhàn)略并寫進(jìn)政府工作報告,相信該戰(zhàn)略的實(shí)施將對各行各業(yè)產(chǎn)生深遠(yuǎn)的影響,同時會觸發(fā)社會思維的新變革。大數(shù)據(jù)技術(shù)的應(yīng)用戰(zhàn)略落地生根,除政府政策支持外更需要大量的人才資源作為后盾。面對新需求,高等院校作為人才培養(yǎng)主陣地,將義不容辭地為普及相關(guān)技術(shù)知識作出應(yīng)有的貢獻(xiàn),本書正是出于此目的而編寫。
本書在結(jié)構(gòu)安排與內(nèi)容撰寫時遵循教學(xué)規(guī)律,考慮讀者對象特點(diǎn),緊緊圍繞大數(shù)據(jù)技術(shù)這一中心,以淺顯易懂的語言詳細(xì)介紹了大數(shù)據(jù)的基本特征、體系結(jié)構(gòu)、相關(guān)技術(shù)及其應(yīng)用領(lǐng)域,做到由淺入深、環(huán)環(huán)緊扣。章節(jié)中結(jié)合案例與典型應(yīng)用幫助讀者增強(qiáng)對大數(shù)據(jù)技術(shù)的感性認(rèn)識,了解大數(shù)據(jù)對未來學(xué)習(xí)、生活、工作與社會發(fā)展的重要性,理解構(gòu)建大數(shù)據(jù)應(yīng)用系統(tǒng)所需的技術(shù)、方法。
本書共分為7章,較全面地闡述分析了大數(shù)據(jù)的內(nèi)涵、體系結(jié)構(gòu)以及所涉及的相關(guān)支撐技術(shù)。第1章主要分析大數(shù)據(jù)提出的背景及內(nèi)涵特征,并基于大數(shù)據(jù)的來源分析了大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)與主要相關(guān)技術(shù);第2章介紹了大數(shù)據(jù)存儲相關(guān)技術(shù)的概念與原理,包括傳統(tǒng)大數(shù)據(jù)存儲系統(tǒng)的3種架構(gòu)、分布式文件系統(tǒng)(HDFS)、NoSQL數(shù)據(jù)庫、分布式數(shù)據(jù)庫(HBase)以及NewSQL數(shù)據(jù)庫技術(shù);第3章主要介紹了目前大數(shù)據(jù)處理主流技術(shù)和平臺以及Hadoop MapReduce并行處理和編程技術(shù);第4章主要介紹了大數(shù)據(jù)分析的特點(diǎn)、類型、流程及大數(shù)據(jù)分析的各種方法和主要應(yīng)用領(lǐng)域;第5章主要闡述了大數(shù)據(jù)可視化技術(shù)的基本概念、可視化流程、可視化編碼、可視化設(shè)計(jì)以及大數(shù)據(jù)可視化的一些軟件和工具;第6章主要介紹了大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)、醫(yī)療、交通、自動問答等領(lǐng)域的具體應(yīng)用;第7章主要介紹了大數(shù)據(jù)技術(shù)在安全與隱私保護(hù)、數(shù)據(jù)共享和數(shù)據(jù)科學(xué)等方面存在的挑戰(zhàn)與發(fā)展趨勢。
本書由周鳴爭、陶皖主編,楊丹、李臣龍、萬家山參與編寫。具體編寫分工如下:周鳴爭編寫第1章,李臣龍編寫第2、3章,陶皖編寫第4、6章,楊丹編寫第5章,萬家山編寫第7章。周鳴爭、陶皖負(fù)責(zé)全書的統(tǒng)稿及定編工作。
由于編者水平有限,書中疏漏與不足之處在所難免,望讀者提出意見和建議。
第1章 概論 1
1.1
什么是大數(shù)據(jù) 1
1.1.1
大數(shù)據(jù)產(chǎn)生的背景 1
1.1.2
大數(shù)據(jù)的概念及特征 5
1.2
大數(shù)據(jù)帶來的變革 7
1.3
大數(shù)據(jù)的價值與挑戰(zhàn) 9
1.3.1
大數(shù)據(jù)的價值 9
1.3.2
大數(shù)據(jù)時代面臨的新挑戰(zhàn) 10
1.4
大數(shù)據(jù)的相關(guān)技術(shù) 12
1.4.1
大數(shù)據(jù)存儲和管理技術(shù) 14
1.4.2
大數(shù)據(jù)分析技術(shù) 20
1.4.3
大數(shù)據(jù)處理工具與平臺 21
1.5
大數(shù)據(jù)的處理流程 22
1.5.1
數(shù)據(jù)抽取與集成 22
1.5.2
數(shù)據(jù)分析 23
1.5.3
數(shù)據(jù)解釋 23
1.5.4
大數(shù)據(jù)處理模型 24
1.6
大數(shù)據(jù)的發(fā)展機(jī)遇 28
習(xí)題 29
第2章 大數(shù)據(jù)存儲 30
2.1
大數(shù)據(jù)存儲概述 30
2.2
傳統(tǒng)的大數(shù)據(jù)存儲系統(tǒng) 30
2.3
分布式文件系統(tǒng) 33
2.3.1
HDFS相關(guān)概念 35
2.3.2
HDFS分布式文件系統(tǒng)的結(jié)構(gòu) 36
2.3.3
HDFS存儲原理 37
2.3.4
HDFS數(shù)據(jù)讀/寫 41
2.4
NoSQL數(shù)據(jù)庫 43
2.4.1
NoSQL的產(chǎn)生 44
2.4.2
NoSQL與RDBMS 45
2.4.3
NoSQL的分類 46
2.4.4
HBase數(shù)據(jù)庫 47
2.4.5
NoSQL與NewSQL 52
習(xí)題 53
第3章 大數(shù)據(jù)處理 55
3.1
多處理器技術(shù) 55
3.2
并行計(jì)算 59
3.3
MapReduce并行計(jì)算技術(shù) 65
3.3.1
MapReduce簡介 65
3.3.2
MapReduce編程模型 68
3.3.3
Hadoop MapReduce 1 73
3.3.4
Yarn/MapReduce2 76
3.3.5
MapReduce性能調(diào)優(yōu) 79
習(xí)題 82
第4章 大數(shù)據(jù)分析 83
4.1
大數(shù)據(jù)分析概述 83
4.1.1
數(shù)據(jù)分析的原則 84
4.1.2
大數(shù)據(jù)分析的特點(diǎn) 84
4.1.3
大數(shù)據(jù)分析路線及流程 85
4.1.4
大數(shù)據(jù)分析技術(shù) 87
4.1.5
大數(shù)據(jù)分析的難點(diǎn) 90
4.2
大數(shù)據(jù)分析模型 91
4.2.1
大數(shù)據(jù)分析模型建立方法 91
4.2.2
分類分析模型 93
4.2.3
關(guān)聯(lián)分析模型 94
4.2.4
聚類分析模型 95
4.3
大數(shù)據(jù)分析算法 98
4.3.1
大數(shù)據(jù)算法概述 99
4.3.2
決策樹算法簡介 101
4.3.3
Apriori算法簡介 105
4.3.4
K-Means算法簡介 109
4.4
大數(shù)據(jù)分析應(yīng)用 111
4.4.1
文本分析 111
4.4.2
情感分析 113
4.4.3
推薦系統(tǒng) 115
4.5
大數(shù)據(jù)分析常用工具 117
習(xí)題 119
第5章 大數(shù)據(jù)可視化 120
5.1
大數(shù)據(jù)可視化技術(shù)概述 120
5.1.1
數(shù)據(jù)可視化簡史 120
5.1.2
數(shù)據(jù)可視化的功能 122
5.1.3
大數(shù)據(jù)可視化簡介 123
5.2
大數(shù)據(jù)可視化技術(shù)基礎(chǔ) 126
5.2.1
數(shù)據(jù)可視化流程 126
5.2.2
數(shù)據(jù)可視化編碼 128
5.2.3
數(shù)據(jù)可視化設(shè)計(jì) 132
5.3
大數(shù)據(jù)可視化應(yīng)用 134
5.3.1
文本可視化 135
5.3.2
社交網(wǎng)絡(luò)可視化 138
5.3.3
日志數(shù)據(jù)可視化 140
5.3.4
地理信息可視化 140
5.3.5
數(shù)據(jù)可視化交互 141
5.4
大數(shù)據(jù)可視化軟件和工具 143
5.4.1
大數(shù)據(jù)可視化軟件分類 143
5.4.2
科學(xué)可視化軟件和工具 144
5.4.3
可視化分析軟件和工具 145
5.4.4
信息可視化軟件和工具 147
習(xí)題 148
第6章 大數(shù)據(jù)應(yīng)用 149
6.1
互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù) 149
6.2
交通大數(shù)據(jù) 153
6.3
醫(yī)療大數(shù)據(jù) 159
6.4
問答系統(tǒng) 164
習(xí)題 169
第7章 大數(shù)據(jù)發(fā)展趨勢與展望
170
7.1 大數(shù)據(jù)安全與隱私保護(hù)
170
7.1.1
數(shù)據(jù)安全與隱私保護(hù)的現(xiàn)狀 170
7.1.2
大數(shù)據(jù)帶來的安全挑戰(zhàn) 171
7.1.3
大數(shù)據(jù)安全與隱私保護(hù)關(guān)鍵技術(shù) 172
7.2 大數(shù)據(jù)共享 174
7.2.1
大數(shù)據(jù)共享面臨的挑戰(zhàn) 174
7.2.2
大數(shù)據(jù)共享的措施與機(jī)制 175
7.3 數(shù)據(jù)科學(xué) 176
7.3.1
數(shù)據(jù)科學(xué)的概念 176
7.3.2
數(shù)據(jù)分析的難題 176
習(xí)題 177
參考文獻(xiàn) 178