定 價:43.8 元
叢書名:普通高等教育人工智能與大數(shù)據(jù)系列教材
- 作者:劉春
- 出版時間:2021/12/1
- ISBN:9787111694939
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書針對大數(shù)據(jù)處理的兩種典型方式,即批處理和流處理,介紹了當前Apache軟件基金會三大軟件開源項目Hadoop、Spark和Storm中主要的存儲及計算框架。本書從初學者的角度出發(fā),聚焦于大數(shù)據(jù)處理框架的基本原理以及安裝和部署等實踐過程。通過本書的學習,讀者在了解處理框架的結(jié)構(gòu)、設計原理以及執(zhí)行流程等原理性知識的同時,還可以結(jié)合本書給出的完整部署過程以及WordCount等示例的完整源代碼,熟悉如何使用這些處理框架來編寫大數(shù)據(jù)處理程序以及大數(shù)據(jù)處理程序的基本結(jié)構(gòu)。
本書配套PPT、源代碼等資源,歡迎選用本書作為教材的老師登錄機工教育服務網(wǎng)www.cmpedu.com注冊下載。
本書可作為高等院校計算機、數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)及人工智能或相關專業(yè)的本科生或研究生教材,也可供相關工程技術(shù)人員閱讀參考。
隨著手機和攝像頭等大量移動設備的使用、Web 2.0和社交網(wǎng)絡帶來的數(shù)據(jù)產(chǎn)生方式的轉(zhuǎn)變,以及云計算、Hadoop、Spark等的出現(xiàn),大數(shù)據(jù)越來越多地對人們的生活、企業(yè)的運營以及國家的治理和安全產(chǎn)生深遠的影響。在這種情況下,研究大數(shù)據(jù)處理技術(shù),培養(yǎng)大數(shù)據(jù)專業(yè)人才得到了國家和社會各界的廣泛重視。當前,已經(jīng)有越來越多的高校開設數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè),也有越來越多的人學習大數(shù)據(jù)處理技術(shù)。
1本書的定位
對于初次接觸大數(shù)據(jù)處理技術(shù)的讀者來說,了解大數(shù)據(jù)處理框架的基本原理并能夠搭建運行和開發(fā)環(huán)境,編寫簡單的應用代碼,進而掌握大數(shù)據(jù)處理程序的基本結(jié)構(gòu)與編寫流程,往往是有難度的。
本書面向大數(shù)據(jù)處理技術(shù)的初學者,在介紹大數(shù)據(jù)處理框架的結(jié)構(gòu)、設計原理以及執(zhí)行流程等原理性知識的同時,還給出了大數(shù)據(jù)處理框架的完整安裝過程以及WordCount等示例的完整程序代碼,并對代碼進行詳細的注釋說明。本書強調(diào)完整的安裝過程和示例代碼,可以省去讀者查找安裝過程、代碼以及調(diào)試代碼Bug所帶來的麻煩。在介紹安裝過程和示例代碼的過程中盡可能地對大數(shù)據(jù)處理框架涉及的諸如Linux命令、文件系統(tǒng)、分布式日志收集工具Flume等相關知識點進行了簡單的介紹,可節(jié)省讀者了解相關背景知識所需要的時間。
2本書的主要內(nèi)容
本書主要聚焦于大數(shù)據(jù)處理的兩種主要方式,即批處理和流處理,介紹當前Apache軟件基金會的三大軟件開源項目Hadoop、Spark和Storm中的主要存儲和計算組件。由于Hadoop與Spark的組件眾多,從實際應用開發(fā)者的角度出發(fā),針對Hadoop主要介紹HDFS、MapReduce和HBase三個組件,針對Spark主要介紹Spark的核心框架以及Spark應用于流處理的Spark Streaming組件。
HDFS、MapReduce和HBase是Hadoop的核心組件。HDFS是Hadoop的分布式文件系統(tǒng),HBase是Hadoop的分布式數(shù)據(jù)庫,兩者主要解決的是大數(shù)據(jù)的可靠存儲。MapReduce和Spark的核心框架主要應用于大數(shù)據(jù)的批處理。Spark作為MapReduce之后發(fā)布的批處理框架,彌補了MapReduce的一些局限性,具有了更強的計算表達能力以及更快的處理速度。但是,本書仍然對MapReduce進行介紹,這是因為Spark的設計借鑒了MapReduce,理解MapReduce有助于更好地理解Spark。
對于流處理框架,將介紹Spark Streaming和Storm。兩者代表了實際中兩種不同的流處理方式。Spark Streaming基于Spark核心框架的批處理功能將數(shù)據(jù)流分成不同的時間片段,然后針對每個時間片段的數(shù)據(jù)進行批處理。因此,Spark Streaming對數(shù)據(jù)流的處理過程并不是完全的實時處理,而Storm采取的是實時處理。
本書的所有安裝和運行過程都是在單機的一個虛擬機中完成的,方便讀者進行實踐。所有的安裝過程和程序代碼都經(jīng)過作者的親自實踐,但是編寫這些安裝過程和代碼時可能出現(xiàn)錯誤,如果在學習過程中發(fā)現(xiàn)問題,請聯(lián)系作者,郵箱為liuchun@henu.edu.cn。
劉春
河南省時空大數(shù)據(jù)產(chǎn)業(yè)技術(shù)研究院
大數(shù)據(jù)基本處理框架原理與實踐
前言
第1章大數(shù)據(jù)與基本處理框架1
1.1大數(shù)據(jù)產(chǎn)生的背景1
1.1.1數(shù)字化1
1.1.2網(wǎng)絡化2
1.2大數(shù)據(jù)的特征2
1.3大數(shù)據(jù)的價值與意義3
1.3.1量變到質(zhì)變3
1.3.2數(shù)據(jù)科學的產(chǎn)生4
1.3.3思維的變革4
1.4大數(shù)據(jù)帶來的挑戰(zhàn)5
1.5大數(shù)據(jù)的基本處理框架5
1.5.1Hadoop6
1.5.2Spark7
1.5.3Storm8
1.6本章小結(jié)8
第2章運行與開發(fā)環(huán)境搭建10
2.1虛擬機的創(chuàng)建10
2.1.1虛擬化軟件的安裝10
2.1.2虛擬機的創(chuàng)建11
2.1.3VMware Tools的安裝17
2.2Linux的常用命令18
2.3JDK的安裝18
2.4IDEA+Maven的安裝20
2.4.1IDEA的安裝20
2.4.2Maven的安裝21
2.4.3在IDEA項目中配置JDK
和Maven22
2.5Hadoop運行環(huán)境部署23
2.5.1SSH的安裝23
2.5.2Hadoop的安裝24
2.5.3偽分布式環(huán)境配置25
2.6本章小結(jié)27
第3章Hadoop文件系統(tǒng)(HDFS)28
3.1文件系統(tǒng)28
3.2HDFS分布式文件系統(tǒng)28
3.2.1HDFS的設計目標29
3.2.2HDFS的原理與結(jié)構(gòu)30
3.3HDFS的操作流程31
3.3.1HDFS文件讀流程32
3.3.2HDFS文件寫流程32
3.4HDFS的接口34
3.4.1Shell命令34
3.4.2Web客戶端36
3.4.3Java API36
3.5本章小結(jié)40
第4章Hadoop分布式計算框架
MapReduce414.1MapReduce計算框架概述41
4.2MapReduce計算過程42
4.2.1map階段42
4.2.2shuffle階段43
4.2.3reduce階段45
4.3MapReduce的架構(gòu)與運行流程45
4.4WordCount的MapReduce程序47
4.4.1WordCount程序的pom.xml文件47
4.4.2WordCount程序的Java文件48
4.4.3WordCount代碼說明50
4.5Mapper/Reducer類源碼解析52
4.6Hadoop的數(shù)據(jù)類型55
4.6.1Hadoop基本數(shù)據(jù)類型55
4.6.2自定義Hadoop數(shù)據(jù)類型56
4.7數(shù)據(jù)輸入格式InputFormat58
4.7.1默認的TextInputFormat58
4.7.2getSplits()操作60
4.7.3LineRecordReader62
4.7.4自定義輸入格式65
4.8數(shù)據(jù)的輸出格式OutputFormat66
4.8.1默認的輸出格式
TextOutputFormat66
4.8.2LineRecordWriter68
4.8.3自定義輸出格式類型71
4.8.4Hadoop的SequenceFile71
4.9自定義Combiner類72
4.10自定義Partioner類73
4.11多MapReduce任務的串聯(lián)74
4.12本章小結(jié)78
第5章Hadoop數(shù)據(jù)庫系統(tǒng)HBase79
5.1HBase概述79
5.1.1數(shù)據(jù)庫與數(shù)據(jù)庫系統(tǒng)79
5.1.2傳統(tǒng)關系型數(shù)據(jù)庫系統(tǒng)80
5.1.3NoSQL數(shù)據(jù)庫系統(tǒng)80
5.1.4HBase數(shù)據(jù)庫系統(tǒng)80
5.2HBase的數(shù)據(jù)模型81
5.2.1HBase的邏輯視圖81
5.2.2HBase的物理視圖82
5.3HBase的架構(gòu)與運行機制83
5.3.1HBase分布式存儲策略83
5.3.2HBase的運行架構(gòu)85
5.4HBase的安裝與部署88
5.4.1安裝ZooKeeper88
5.4.2安裝HBase 90
5.4.3偽分布式環(huán)境配置90
5.5HBase操作接口與實踐92
5.5.1HBase Shell命令92
5.5.2Java API96
5.6本章小結(jié)107
第6章分布式內(nèi)存計算框架Spark108
6.1Spark概述108
6.1.1MapReduce計算框架的局限性108
6.1.2Spark的優(yōu)勢與特點109
6.2Spark的架構(gòu)110
6.2.1Spark的基本組件110
6.2.2Spark的運行流程111
6.3RDD112
6.3.1RDD的概念與Spark計算模型112
6.3.2RDD的各種操作114
6.3.3RDD之間的依賴關系118
6.3.4RDD計算過程的容錯處理121
6.4Scala語言介紹122
6.4.1變量和類型123
6.4.2控制結(jié)構(gòu)129
6.5Spark的安裝部署131
6.5.1Spark安裝文件的下載131
6.5.2Spark的安裝過程132
6.6基于Spark Shell的WordCount程序133
6.6.1啟動Spark Shell133
6.6.2從本地及HDFS讀取
WordCount數(shù)據(jù)134
6.6.3退出Spark Shell136
6.7基于IDEA+Maven的
WordCount程序136
6.7.1IDEA安裝Scala插件與SDK137
6.7.2基于Scala的WordCount Spark
應用程序139
6.7.3基于Java的WordCount Spark
應用程序144
6.8Spark與HBase的整合146
6.8.1pom.xml文件147
6.8.2Scala Class文件148
6.9Spark創(chuàng)建RDD的常用方式150
6.9.1基于Scala集合創(chuàng)建RDD150
6.9.2基于外部存儲系統(tǒng)創(chuàng)建RDD151
6.10Spark的共享變量152
6.10.1廣播變量152
6.10.2累加器153
6.11本章小結(jié)154
第7章Spark流計算框架
(Spark Streaming)1567.1流計算與流計算框架156
7.2Spark Streaming的原理與概念157
7.2.1Spark Streaming的設計原理157
7.2.2Dstream與Dstream graph157
7.2.3Spark Streaming的結(jié)構(gòu)
與執(zhí)行流程160
7.2.4Spark Streaming的容錯處理162
7.3Spark Streaming的WordCount案例163
7.3.1以Socket為數(shù)據(jù)源163
7.3.2以文本文件目錄為數(shù)據(jù)源166
7.4Spark Streaming整合Flume167
7.4.1Flume介紹167
7.4.2Flume的下載安裝與配置169
7.4.3整合Flume與Spark Streaming172
7.5Spark Streaming整合Kafka178
7.5.1Kafka介紹178
7.5.2Kafka的下載安裝180
7.5.3Kafka的常用命令181
7.5.4整合Kafka與Spark Streaming181
7.6本章小結(jié)184
第8章實時流計算框架Storm185
8.1Storm的邏輯架構(gòu)185
8.2Storm的物理架構(gòu)186
8.2.1Storm集群的架構(gòu)186
8.2.2數(shù)據(jù)流的分組策略187
8.3Storm的消息容錯機制188
8.4Strom的下載與安裝190
8.4.1Storm的安裝配置190
8.4.2Storm的啟動191
8.5Storm的WordCount程序192
8.5.1Pom.xml文件193
8.5.2Java Class文件193
8.5.3提交集群運行198