Spark大數(shù)據(jù)實時計算:基于Scala開發(fā)實戰(zhàn)
定 價:79.8 元
叢書名:大數(shù)據(jù)
- 作者:楊力
- 出版時間:2022/10/1
- ISBN:9787115597038
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:300
- 紙張:
- 版次:01
- 開本:16開
本書從大數(shù)據(jù)實時計算框架Spark的編程語言Scala入手,第1~4章重點介紹函數(shù)式編程語言Scala的基礎(chǔ)語法、面向?qū)ο缶幊桃约昂瘮?shù)式編程等,再通過編程訓(xùn)練案例介紹Scala這門語言的實際開發(fā)應(yīng)用,為讀者后面學(xué)習(xí)Spark框架打下牢固的編程基礎(chǔ)。第5~10章重點介紹Spark的安裝部署、SparkCore編程、Spark SQL結(jié)構(gòu)化數(shù)據(jù)處理以及Spark Streaming實時數(shù)據(jù)處理等,對它們進行詳細(xì)的剖析和解讀。最后,在第11章中通過網(wǎng)站運營指標(biāo)統(tǒng)計和IP經(jīng)緯度熱力圖分析兩個實戰(zhàn)開發(fā)項目,讓讀者充分掌握Spark大數(shù)據(jù)實時計算框架技術(shù)的應(yīng)用與實操方法。
本書適合所有對大數(shù)據(jù)技術(shù)感興趣的讀者。
1.貼近實戰(zhàn)場景
深度剖析企業(yè)級實時運營指標(biāo)項目案例,快速掌握實戰(zhàn)開發(fā)經(jīng)驗。
2.掌握實戰(zhàn)技術(shù)
詳細(xì)解讀Scala 函數(shù)式編程,SparkCore、Spark SQL、Spark Streaming 關(guān)鍵原理。
3.附贈豐富資源
隨書附贈實例源代碼、ppt和數(shù)據(jù)資源,方便讀者學(xué)習(xí)。
楊 力
曾任北大青鳥學(xué)術(shù)部經(jīng)理兼教學(xué)總監(jiān)、中信國安創(chuàng)客霸王課特聘講師、兄弟連IT教育大數(shù)據(jù)講師,致力于大數(shù)據(jù)技術(shù)的推廣與普及,通過了Apache Hadoop、OCM等多項技術(shù)認(rèn)證,在大中型企業(yè)的信息系統(tǒng)設(shè)計與實施方面有豐富的實踐經(jīng)驗。
第 1章 Scala入門基礎(chǔ) 1
1.1 Scala語言的特色 1
1.2 搭建Scala開發(fā)環(huán)境 3
1.2.1 安裝JDK 3
1.2.2 安裝Scala SDK 3
1.2.3 安裝IDEA Scala插件 4
1.3 Scala解釋器 7
1.3.1 啟動Scala解釋器 8
1.3.2 執(zhí)行Scala代碼 8
1.3.3 退出Scala解釋器 8
1.4 Scala語法基礎(chǔ) 8
1.4.1 定義變量 8
1.4.2 惰性賦值 9
1.4.3 字符串 10
1.4.4 數(shù)據(jù)類型與運算符 11
1.4.5 條件表達式 12
1.5 Scala控制結(jié)構(gòu)和函數(shù) 14
1.5.1 for表達式 14
1.5.2 while循環(huán) 16
1.5.3 函數(shù) 16
1.5.4 方法和函數(shù)的區(qū)別 17
1.6 方法 18
1.6.1 定義方法 18
1.6.2 方法參數(shù) 18
1.6.3 方法調(diào)用方式 19
1.7 數(shù)組 20
1.7.1 定長數(shù)組 21
1.7.2 變長數(shù)組 21
1.7.3 遍歷數(shù)組 22
1.8 元組和列表 23
1.8.1 元組 23
1.8.2 列表 24
1.8.3 Set集合 30
1.9 Map映射 32
1.9.1 不可變Map 32
1.9.2 可變Map 33
1.9.3 Map基本操作 33
1.10 函數(shù)式編程 35
1.10.1 遍歷(foreach) 35
1.10.2 使用類型推斷簡化函數(shù)定義 36
1.10.3 使用下畫線簡化函數(shù)定義 36
1.10.4 映射(map) 36
1.10.5 扁平化映射(flatMap) 37
1.10.6 過濾(filter) 38
1.10.7 排序 38
1.10.8 分組(groupBy) 40
1.10.9 聚合(reduce) 40
1.10.10 折疊(fold) 41
1.11 本章總結(jié) 42
1.12 本章習(xí)題 42
第 2章 Scala面向?qū)ο缶幊獭?3
2.1 類與對象 43
2.2 定義和訪問成員變量 44
2.3 使用下畫線初始化成員變量 46
2.4 定義成員方法 47
2.5 訪問修飾符 48
2.6 類的構(gòu)造器 51
2.6.1 主構(gòu)造器 51
2.6.2 輔助構(gòu)造器 52
2.7 單例對象 53
2.7.1 定義單例對象 53
2.7.2 在單例對象中定義成員方法 54
2.7.3 工具類案例 54
2.8 main方法 55
2.8.1 定義main方法 55
2.8.2 實現(xiàn)App trait來定義入口 55
2.9 伴生對象 56
2.9.1 定義伴生對象 56
2.9.2 apply和unapply方法 57
2.10 繼承 59
2.10.1 定義語法 60
2.10.2 類繼承 60
2.10.3 單例對象繼承 61
2.10.4 override和super 61
2.11 類型判斷 62
2.11.1 isInstanceOf和asInstanceOf方法 62
2.11.2 getClass和classOf 63
2.12 抽象類 64
2.13 匿名內(nèi)部類 65
2.14 特質(zhì) 66
2.14.1 trait作為接口使用 66
2.14.2 trait中定義具體的字段和抽象字段 68
2.14.3 使用trait實現(xiàn)模板模式 69
2.14.4 對象混入trait 70
2.14.5 使用trait實現(xiàn)調(diào)用鏈模式 71
2.14.6 trait調(diào)用鏈 72
2.14.7 trait的構(gòu)造機制 74
2.14.8 trait繼承類 74
2.15 本章總結(jié) 75
2.16 本章習(xí)題 75
第3章 Scala編程高級應(yīng)用 76
3.1 樣例類 76
3.1.1 定義樣例類 76
3.1.2 樣例類方法 77
3.1.3 樣例對象 78
3.2 模式匹配 79
3.2.1 簡單匹配 79
3.2.2 守衛(wèi) 80
3.2.3 匹配類型 80
3.2.4 匹配集合 81
3.2.5 變量聲明中的模式匹配 82
3.2.6 匹配樣例類 83
3.3 Option類型 83
3.4 偏函數(shù) 84
3.5 正則表達式 85
3.6 異常處理 86
3.6.1 捕獲異常 86
3.6.2 拋出異!87
3.7 提取器 88
3.8 泛型 89
3.8.1 定義泛型方法 90
3.8.2 定義泛型類 90
3.8.3 上下界 91
3.8.4 非變、協(xié)變和逆變 92
3.9 Actor 93
3.9.1 Java并發(fā)編程的問題 94
3.9.2 Actor并發(fā)編程模型 94
3.9.3 Java并發(fā)編程與Actor并發(fā)編程 95
3.10 Actor編程案例 95
3.10.1 創(chuàng)建Actor 95
3.10.2 發(fā)送消息/接收消息 96
3.10.3 持續(xù)接收消息 97
3.10.4 共享線程 99
3.10.5 發(fā)送和接收自定義消息 99
3.10.6 基于Actor實現(xiàn)WordCount案例 101
3.11 本章總結(jié) 103
3.12 本章習(xí)題 103
第4章 Scala函數(shù)式編程思想 104
4.1 作為值的函數(shù) 104
4.2 匿名函數(shù) 105
4.3 柯里化 105
4.4 閉包 106
4.5 隱式轉(zhuǎn)換 107
4.6 隱式參數(shù) 109
4.7 Akka并發(fā)編程框架 109
4.7.1 Akka特性 110
4.7.2 Akka通信過程 110
4.7.3 創(chuàng)建ActorSystem 111
4.8 Akka編程入門案例 111
4.8.1 實現(xiàn)步驟 112
4.8.2 配置Maven模塊依賴 112
4.9 Akka定時任務(wù) 114
4.10 實現(xiàn)兩個進程之間的通信 116
4.11 本章總結(jié) 119
4.12 本章習(xí)題 119
第5章 Spark安裝部署與入門 120
5.1 Spark簡介 120
5.1.1 MapReduce與Spark 120
5.1.2 Spark組件 122
5.1.3 Spark生態(tài)系統(tǒng) 123
5.1.4 Spark架構(gòu) 124
5.1.5 Spark運行部署模式 125
5.1.6 Spark遠(yuǎn)程過程調(diào)用協(xié)議 126
5.2 Spark環(huán)境搭建 126
5.2.1 本地模式部署 126
5.2.2 Standalone集群模式 128
5.2.3 Standalone-HA集群模式 130
5.2.4 YARN集群模式 132
5.2.5 Spark命令 137
5.3 編寫Spark應(yīng)用程序 139
5.3.1 Maven簡介 140
5.3.2 安裝Maven 140
5.3.3 Spark開發(fā)環(huán)境搭建 141
5.3.4 配置pom.xml文件 143
5.3.5 開發(fā)應(yīng)用程序——本地運行 147
5.3.6 修改應(yīng)用程序——集群運行 148
5.3.7 集群硬件配置說明 150
5.4 本章總結(jié) 152
5.5 本章習(xí)題 152
第6章 SparkCore編程 153
6.1 RDD概念與詳解 153
6.1.1 RDD簡介 153
6.1.2 RDD的主要屬性 154
6.1.3 小結(jié) 156
6.2 RDD API應(yīng)用程序 156
6.3 RDD的方法(算子)分類 157
6.3.1 Transformation算子 158
6.3.2 Action算子 160
6.4 基礎(chǔ)練習(xí) 160
6.4.1 實現(xiàn)WordCount案例 161
6.4.2 創(chuàng)建RDD 162
6.4.3 map 163
6.4.4 filter 163
6.4.5 flatMap 164
6.4.6 sortBy 164
6.4.7 交集、并集、差集、笛卡爾積 165
6.4.8 groupByKey 165
6.4.9 groupBy 166
6.4.10 reduce 166
6.4.11 reduceByKey 166
6.4.12 repartition 167
6.4.13 count 167
6.4.14 top 168
6.4.15 take 168
6.4.16 first 168
6.4.17 keys、values 168
6.4.18 案例 169
6.5 實戰(zhàn)案例 169
6.5.1 統(tǒng)計平均年齡 169
6.5.2 統(tǒng)計人口信息 171
6.5.3 在IDEA中實現(xiàn)WordCount案例 174
6.5.4 小結(jié) 176
6.6 RDD持久化緩存 176
6.7 持久化緩存API詳解 177
6.7.1 persist方法和cache方法 177
6.7.2 存儲級別 179
6.7.3 小結(jié) 181
6.8 RDD容錯機制Checkpoint 181
6.8.1 代碼演示 181
6.8.2 容錯機制Checkpoint詳解 182
6.9 本章總結(jié) 183
6.10 本章習(xí)題 183
第7章 SparkCore運行原理 184
7.1 RDD依賴關(guān)系 184
7.1.1 窄依賴與寬依賴 184
7.1.2 對比窄依賴與寬依賴 185
7.2 DAG的生成和劃分階段 186
7.2.1 DAG的生成 186
7.2.2 DAG劃分階段 186
7.2.3 小結(jié) 188
7.3 Spark原理初探 188
7.3.1 Spark相關(guān)的應(yīng)用概念 189
7.3.2 Spark基本流程概述 191
7.3.3 流程圖解 191
7.3.4 RDD在Spark中的運行過程 192
7.3.5 小結(jié) 193
7.4 RDD累加器和廣播變量 193
7.4.1 累加器 194
7.4.2 廣播變量 196
7.5 RDD的數(shù)據(jù)源 198
7.5.1 普通文本文件 198
7.5.2 Hadoop API 199
7.5.3 SequenceFile 200
7.5.4 對象文件 201
7.5.5 HBase 202
7.5.6 JDBC 204
7.6 本章總結(jié) 207
7.7 本章習(xí)題 207
第8章 Spark SQL結(jié)構(gòu)化數(shù)據(jù)處理入門 208
8.1 數(shù)據(jù)分析方式 208
8.1.1 命令式 208
8.1.2 SQL式 209
8.2 Spark SQL的發(fā)展 210
8.3 數(shù)據(jù)分類和Spark SQL適用場景 211
8.3.1 結(jié)構(gòu)化數(shù)據(jù) 211
8.3.2 半結(jié)構(gòu)化數(shù)據(jù) 212
8.3.3 非結(jié)構(gòu)化數(shù)據(jù) 213
8.4 Spark SQL特點 214
8.5 Spark SQL數(shù)據(jù)抽象 214
8.6 DataFrame簡介 215
8.7 Dataset簡介 215
8.8 RDD、DataFrame和Dataset的區(qū)別 216
8.9 Spark SQL初體驗 218
8.9.1 SparkSession入口 218
8.9.2 創(chuàng)建DataFrame 219
8.9.3 創(chuàng)建Dataset 222
8.9.4 兩種查詢風(fēng)格 224
8.10 本章總結(jié) 229
8.11 本章習(xí)題 229
第9章 Spark SQL結(jié)構(gòu)化數(shù)據(jù)處理高級應(yīng)用 230
9.1 使用IDEA開發(fā)Spark SQL 230
9.1.1 創(chuàng)建DataFrame和Dataset 231
9.1.2 花式查詢 233
9.1.3 相互轉(zhuǎn)換 235
9.1.4 Spark SQL詞頻統(tǒng)計實戰(zhàn) 237
9.2 Spark SQL多數(shù)據(jù)源交互 240
9.3 Spark SQL自定義函數(shù) 242
9.3.1 自定義函數(shù)分類 242
9.3.2 UDF 243
9.3.3 UDAF 244
9.4 Spark on Hive 247
9.4.1 開啟Hive的元數(shù)據(jù)庫服務(wù) 247
9.4.2 Spark SQL整合Hive元數(shù)據(jù)庫 248
9.4.3 使用Spark SQL操作Hive表 248
9.5 本章總結(jié) 249
9.6 本章習(xí)題 249
第 10章 Spark Streaming核心編程 250
10.1 場景需求 250
10.2 Spark Streaming概述 251
10.2.1 Spark Streaming的特點 252
10.2.2 Spark Streaming實時計算所處的位置 252
10.3 Spark Streaming原理 254
10.3.1 基本流程 255
10.3.2 數(shù)據(jù)模型 255
10.4 DStream相關(guān)的API 256
10.4.1 Transformation 257
10.4.2 Output 257
10.5 Spark Streaming原理總結(jié) 258
10.6 Spark Streaming實戰(zhàn) 258
Spark Streaming第 一個案例WordCount 258
10.7 updateStateByKey算子 262
10.7.1 WordCount案例問題分析 262
10.7.2 代碼實現(xiàn) 262
10.7.3 執(zhí)行步驟 263
10.8 reduceByKeyAndWindow算子 264
10.8.1 圖解reduceByKeyAndWindow算子 264
10.8.2 代碼實現(xiàn) 264
10.8.3 執(zhí)行步驟 266
10.9 統(tǒng)計一定時間內(nèi)的熱搜詞 266
10.9.1 需求分析 266
10.9.2 代碼實現(xiàn) 266
10.9.3 執(zhí)行步驟 268
10.10 整合Kafka 268
10.10.1 Kafka基本概念 268
10.10.2 Kafka的特性 268
10.10.3 核心概念圖解 269
10.10.4 Kafka集群部署 270
10.10.5 Kafka常用命令 275
10.10.6 Receiver接收方式 276
10.10.7 Direct直連方式 277
10.10.8 spark-streaming-kafka-0-8版本 277
10.10.9 spark-streaming-kafka-0-10版本 282
10.11 本章總結(jié) 285
10.12 本章習(xí)題 285
第 11章 Spark綜合項目實戰(zhàn) 286
11.1 網(wǎng)站運營指標(biāo)統(tǒng)計項目 286
11.1.1 需求分析 286
11.1.2 數(shù)據(jù)分析 287
11.1.3 代碼實現(xiàn) 287
11.2 熱力圖分析項目 289
11.2.1 需求分析 289
11.2.2 數(shù)據(jù)分析 289
11.2.3 項目開發(fā) 290
11.3 本章總結(jié) 300
11.4 本章習(xí)題 300