本書從數據查詢、數據分析和迭代計算平臺3個方面對大數據處理平臺的體系結構、基本原理、主流技術、國內外研究進展和成果進行了全面、深入的闡述,對大數據實時處理平臺的架構和核心技術進行了展望。企業(yè)技術人員可參考本書選擇合適的技術構建大數據處理平臺或對現(xiàn)有平臺進行優(yōu)化;高校院所的科研人員可參考本書了解大數據管理的基本原理和現(xiàn)有研究成果;學生讀者可通過學習本書全面了解大數據處理平臺。同時,本書也適用于對大數據技術擁有濃厚興趣的讀者。
適讀人群 :大數據相關領域的研究生、從事大數據研究的讀者、以及對于大數據處理平臺的設計人員和架構人員
本書結合筆者自身的研究經驗,從“學術研究”和“系統(tǒng)實現(xiàn)”相結合的角度,對平臺進行全面的介紹,書中既有原理,又有學術前沿綜述,但不包含使用方法、編程技術、構建步驟等類似工具書的內容。對于大數據相關領域的研究生、對于從事大數據研究的讀者、以及對于大數據處理平臺的設計人員和架構人員,本書均具有吸引力和獨特之處。
宋杰,博士,副教授,現(xiàn)任職于東北大學軟件學院云計算技術研究所。2003年畢業(yè)于東北大學,獲學士學位,之后碩博連讀,就讀于東北大學計算機軟件與理論專業(yè)。2008年獲博士學位,隨后在法國圖盧茲第三大學的IRIT實驗室由法方資助從事兩年的海外研究工作,2010年經人才引進方式回國任教,2013-2015年入東軟集團博士后工作站。近6年,以**作者發(fā)表期刊論文30篇,其中SCI期刊7篇,《計算機學報》6篇,《軟件學報》6篇;以**發(fā)明人申請專利6項,軟件著作權3項,維護開源項目2項;主持縱向科研項目10項,其中國家自然科學基金青年科學基金項目、國家自認科學基金面上項目、國家自然科學基金重點(子項)項目各1項,博士后基金項目1項,省部級項目6項,橫向科研項目3項;與世界500強企業(yè)聯(lián)手開發(fā)智能家電核心算法并得以應用,牽頭制定國家云計算相關標準一項。
主要研究方向為大數據存儲與管理、高效能計算和機器學習應用。
第1 章 體系結構
1.1 集群系統(tǒng)
1.1.1 Hadoop YARN
1.1.2 Apache Mesos
1.1.3 Apache ZooKeeper
1.2 文件系統(tǒng)
1.2.1 Google 分布式文件系統(tǒng)
1.2.2 Hadoop 分布式文件系統(tǒng)
1.2.3 其他分布式文件系統(tǒng)
1.3 NoSQL 和NewSQL
1.3.1 NoSQL 數據庫系統(tǒng)
1.3.2 NewSQL 數據庫系統(tǒng)
1.4 計算模型
1.4.1 MapReduce 編程模型
1.4.2 Spark 并行計算框架
參考文獻
第2 章 查詢平臺
2.1 基本原理
2.1.1 系統(tǒng)簡介
2.1.2 架構組織
2.2 現(xiàn)有研究
2.2.1 大數據精確查詢系統(tǒng)
2.2.2 大數據近似查詢系統(tǒng)
2.2.3 大數據多維查詢系統(tǒng)
2.3 近期成果
2.3.1 Haery
2.3.2 Probery
參考文獻
第3 章 分析平臺
3.1 基本原理
3.1.1 OLAP 技術
3.1.2 系統(tǒng)架構
3.2 現(xiàn)有研究
3.2.1 傳統(tǒng)OLAP 優(yōu)化方法
3.2.2 OLAP 存儲計算優(yōu)化
3.2.3 大數據OLAP 引擎
3.3 近期成果
3.3.1 DOLAP
3.3.2 MapReduce OLAP
3.3.3 HaoLap
參考文獻
第4 章 迭代計算平臺
4.1 基本原理
4.2 現(xiàn)有研究
4.2.1 MapReduce 迭代計算框架
4.2.2 其他迭代計算框架
4.2.3 增量迭代計算
4.2.4 迭代算法優(yōu)化
4.3 近期成果
4.3.1 增量迭代計算模型
4.3.2 歸并迭代計算
4.3.3 迭代初始點選擇
參考文獻
第5 章 實時處理平臺
5.1 基本原理
5.2 現(xiàn)有研究
5.2.1 Lambda 架構
5.2.2 隊列
5.2.3 流處理
5.2.4 數據流處理框架
5.3 近期成果
5.3.1 實時數據遷移模型
5.3.2 數據源層的優(yōu)化方法
5.3.3 遷移系統(tǒng)設計
參考文獻
后記