前言
IT產(chǎn)業(yè)在其發(fā)展歷程中,經(jīng)歷過幾次技術(shù)浪潮。如今,大數(shù)據(jù)浪潮正在迅速朝我們涌來,并將觸及各個(gè)行業(yè)和生活的許多方面。大數(shù)據(jù)浪潮將比之前發(fā)生過的浪潮更大、觸及面更廣,給人們的工作和生活帶來的變化和影響也更大。
毋庸置疑,大數(shù)據(jù)的應(yīng)用激發(fā)了一場(chǎng)思想風(fēng)暴,也悄然改變了我們的生活方式和思維習(xí)慣。大數(shù)據(jù)正以前所未有的速度顛覆人們探索世界的方法,引起工業(yè)、商業(yè)、醫(yī)學(xué)、軍事等領(lǐng)域的深刻變革。因此,在當(dāng)前大數(shù)據(jù)浪潮的猛烈沖擊下,人們迫切需要充實(shí)和完善自己原有的IT知識(shí)結(jié)構(gòu),掌握兩種全新的技能: 一是掌握大數(shù)據(jù)基本技術(shù)與應(yīng)用,使大數(shù)據(jù)為我們所用的技能; 二是掌握數(shù)據(jù)之間隱藏的規(guī)律與關(guān)系,以及可視化方法,使大數(shù)據(jù)更好地服務(wù)于社會(huì)發(fā)展的技能。
本書注重實(shí)用性,圍繞大數(shù)據(jù)及其相關(guān)技術(shù)這一主題,采用深入淺出、圖文并茂的敘述方式,簡明扼要地闡述了大數(shù)據(jù)及其相關(guān)技術(shù)的基本理論和發(fā)展趨勢(shì),使廣大讀者通過閱讀本書,深入了解和掌握大數(shù)據(jù)的理論和應(yīng)用,從而更好地把握時(shí)代發(fā)展的脈搏和歷史賦予的機(jī)遇。
本書的目標(biāo)是給廣大讀者提供一個(gè)既通俗易懂,又具有嚴(yán)謹(jǐn)、完整、結(jié)構(gòu)化特征的書籍。其獨(dú)到之處是既闡明了大數(shù)據(jù)技術(shù)的系統(tǒng)性和理論性,又對(duì)傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)在來源、結(jié)構(gòu)、特征、存儲(chǔ)方式、使用方法等方面,通過大量的表格和圖形方式進(jìn)行了有針對(duì)性的對(duì)比和闡述,使讀者對(duì)兩者的區(qū)別一目了然,對(duì)理解和掌握大數(shù)據(jù)理技術(shù)具有事半功倍的效果。另外,考慮到大數(shù)據(jù)技術(shù)涉及許多新名詞和專業(yè)性極強(qiáng)的詞匯,故在全書的每一章中均附有相關(guān)術(shù)語的注釋,方便讀者查閱和自學(xué)。
本書還力求將大數(shù)據(jù)技術(shù)晦澀難懂的理論知識(shí)以通俗易懂的語言和方式,由淺入深地展現(xiàn)在讀者面前,便于讀者理解和掌握。本書內(nèi)容重點(diǎn)突出,語言精練易懂,非常便于自學(xué),可作為想了解、使用大數(shù)據(jù)技術(shù)的相關(guān)人員,如工程技術(shù)人員、IT工作者、企業(yè)策劃和管理人員的參考書,也可作為相關(guān)學(xué)習(xí)班的培訓(xùn)教材。
全書共分成11章: 第1章大數(shù)據(jù)概論,第2章大數(shù)據(jù)采集及預(yù)處理,第3章大數(shù)據(jù)分析概論,第4章大數(shù)據(jù)可視化,第5章Hadoop概論,第6章HDFS和Common概論,第7章MapReduce概論,第8章NoSQL技術(shù)介紹,第9章Spark概論,第10章云計(jì)算與大數(shù)據(jù),第11章大數(shù)據(jù)解決方案相關(guān)案例。
本書在寫作過程中參閱了大量的中外書籍和相關(guān)資料,在此對(duì)各位作者表示真誠的謝意。另外本書得到了中國醫(yī)科大學(xué)沙憲政教授和東北大學(xué)楊廣明教授的大力支持,清華大學(xué)出版社對(duì)這本書的出版做了精心策劃及充分論證,特此感謝!由于作者水平有限,加之時(shí)間倉促,書中難免存在疏漏之處,懇請(qǐng)廣大讀者批評(píng)斧正!
婁巖2016年6月
第1章大數(shù)據(jù)概論
1.1大數(shù)據(jù)技術(shù)概述
1.1.1大數(shù)據(jù)的基本概念
1.1.2IT產(chǎn)業(yè)的發(fā)展簡史
1.1.3大數(shù)據(jù)的來源
1.1.4大數(shù)據(jù)產(chǎn)生的三個(gè)發(fā)展階段
1.1.5大數(shù)據(jù)的特點(diǎn)
1.1.6大數(shù)據(jù)處理流程
1.1.7大數(shù)據(jù)的數(shù)據(jù)格式特性
1.1.8大數(shù)據(jù)的特征
1.1.9大數(shù)據(jù)的應(yīng)用領(lǐng)域
1.2大數(shù)據(jù)技術(shù)架構(gòu)
1.3大數(shù)據(jù)的整體技術(shù)和關(guān)鍵技術(shù)
1.4大數(shù)據(jù)分析的五種典型工具簡介
1.5大數(shù)據(jù)未來發(fā)展趨勢(shì)
1.5.1數(shù)據(jù)資源化
1.5.2數(shù)據(jù)科學(xué)和數(shù)據(jù)聯(lián)盟的成立
1.5.3大數(shù)據(jù)隱私和安全問題
1.5.4開源軟件成為推動(dòng)大數(shù)據(jù)發(fā)展的動(dòng)力
1.5.5大數(shù)據(jù)在多方位改善我們的生活
本章小結(jié)
第2章大數(shù)據(jù)采集及預(yù)處理
2.1大數(shù)據(jù)采集
2.1.1大數(shù)據(jù)采集概述
2.1.2大數(shù)據(jù)采集的數(shù)據(jù)來源
2.1.3大數(shù)據(jù)采集的技術(shù)方法
2.2大數(shù)據(jù)的預(yù)處理
2.3大數(shù)據(jù)采集及預(yù)處理的工具
本章小結(jié)
第3章大數(shù)據(jù)分析概述
3.1大數(shù)據(jù)分析簡介
3.1.1什么是大數(shù)據(jù)分析
3.1.2大數(shù)據(jù)分析的基本方法
3.1.3大數(shù)據(jù)處理流程
3.2大數(shù)據(jù)分析的主要技術(shù)
3.2.1深度學(xué)習(xí)
3.2.2知識(shí)計(jì)算
3.2.3可視化
3.3大數(shù)據(jù)分析處理系統(tǒng)簡介
3.3.1批量數(shù)據(jù)及處理系統(tǒng)
3.3.2流式數(shù)據(jù)及處理系統(tǒng)
3.3.3交互式數(shù)據(jù)及處理系統(tǒng)
3.3.4圖數(shù)據(jù)及處理系統(tǒng)
3.4大數(shù)據(jù)分析的應(yīng)用
本章小結(jié)
第4章大數(shù)據(jù)可視化
4.1大數(shù)據(jù)可視化概述
4.1.1大數(shù)據(jù)可視化與數(shù)據(jù)可視化
4.1.2大數(shù)據(jù)可視化的過程
4.2大數(shù)據(jù)可視化工具
4.2.1常見大數(shù)據(jù)可視化工具簡介
4.2.2Tableau數(shù)據(jù)可視化入門
本章小結(jié)
第5章Hadoop概論
5.1Hadoop簡介
5.1.1Hadoop的發(fā)展簡史
5.1.2Hadoop應(yīng)用現(xiàn)狀和發(fā)展趨勢(shì)
5.2Hadoop的架構(gòu)與組成
5.2.1Hadoop架構(gòu)
5.2.2Hadoop組成模塊介紹
5.3Hadoop的應(yīng)用
5.3.1Hadoop平臺(tái)搭建
5.3.2Hadoop的開發(fā)方式
5.3.3Hadoop應(yīng)用分析
本章小結(jié)
第6章HDFS和Common概論
6.1HDFS概述
6.1.1HDFS相關(guān)概念
6.1.2HDFS特點(diǎn)
6.1.3HDFS體系結(jié)構(gòu)
6.1.4HDFS工作原理
6.1.5HDFS相關(guān)技術(shù)
6.1.6HDFS源代碼結(jié)構(gòu)
6.1.7HDFS接口
6.2Common概述
本章小結(jié)
第7章MapReduce概論
7.1MapReduce簡介
7.1.1如何理解MapReduce
7.1.2MapReduce功能和技術(shù)特征
7.2MapReduce的Map和Reduce任務(wù)
7.2.1Map與Reduce
7.2.2Map任務(wù)原理
7.2.3Reduce任務(wù)原理
7.3MapReduce架構(gòu)和工作流程
7.3.1MapReduce的架構(gòu)
7.3.2MapReduce工作流程
7.4MapReduce編程源碼范例
7.5MapReduce接口
本章小結(jié)
第8章NoSQL技術(shù)介紹
8.1NoSQL基礎(chǔ)知識(shí)
8.1.1NoSQL的產(chǎn)生
8.1.2NoSQL的特點(diǎn)
8.1.3NoSQL的技術(shù)基礎(chǔ)
8.2NoSQL的種類
8.2.1鍵值存儲(chǔ)
8.2.2列存儲(chǔ)
8.2.3面向文檔存儲(chǔ)
8.2.4圖形存儲(chǔ)
8.3典型的NoSQL工具
8.3.1Redis
8.3.2Bigtable
8.3.3CouchDB
8.3.4Neo4j
本章小結(jié)
第9章Spark概論
9.1Spark概述
9.1.1Spark簡介
9.1.2Spark發(fā)展
9.1.3Scala語言
9.2Spark與Hadoop
9.2.1Hadoop的局限與不足
9.2.2Spark的優(yōu)點(diǎn)
9.2.3Spark速度比Hadoop快的原因分解
9.3Spark大數(shù)據(jù)處理架構(gòu)及其生態(tài)系統(tǒng)
9.3.1底層的Cluster Manager和Data Manager
9.3.2中間層的Spark Runtime
9.3.3高層的應(yīng)用模塊
9.4Spark的應(yīng)用
9.4.1Spark的應(yīng)用場(chǎng)景
9.4.2應(yīng)用Spark的成功案例
本章小結(jié)
第10章云計(jì)算與大數(shù)據(jù)
10.1云計(jì)算概論
10.1.1云計(jì)算定義
10.1.2云計(jì)算與大數(shù)據(jù)的關(guān)系
10.1.3云計(jì)算基本特征
10.1.4云計(jì)算服務(wù)模式
10.2云計(jì)算核心技術(shù)
10.2.1虛擬化技術(shù)
10.2.2虛擬化軟件及應(yīng)用
10.2.3資源池化技術(shù)
10.2.4云計(jì)算部署模式
10.3云計(jì)算仿真
10.4云計(jì)算的安全
10.4.1云計(jì)算安全現(xiàn)狀
10.4.2云計(jì)算安全服務(wù)體系
10.5云計(jì)算應(yīng)用案例
本章小結(jié)
第11章大數(shù)據(jù)解決方案及相關(guān)案例
11.1大數(shù)據(jù)解決方案基礎(chǔ)
11.2Intel大數(shù)據(jù)
11.2.1Intel大數(shù)據(jù)解決方案
11.2.2Intel大數(shù)據(jù)相關(guān)案例——中國移動(dòng)廣東公司詳單、賬單
查詢系統(tǒng)
11.3百度大數(shù)據(jù)
11.3.1百度大數(shù)據(jù)引擎
11.3.2百度大數(shù)據(jù)+平臺(tái)
11.3.3相關(guān)應(yīng)用
11.3.4百度預(yù)測(cè)的使用方法
11.4騰訊大數(shù)據(jù)
11.4.1騰訊大數(shù)據(jù)解決方案
11.4.2相關(guān)實(shí)例——廣點(diǎn)通
本章小結(jié)
參考文獻(xiàn)