本書基于作者多年的教學(xué)與實(shí)踐進(jìn)行編寫,重點(diǎn)介紹Kafka消息系統(tǒng)的核心原理與架構(gòu),內(nèi)容涉及開發(fā)、運(yùn)維、管理與架構(gòu)。全書共11章,第1章,介紹Kafka體系架構(gòu)基礎(chǔ),包括消息系統(tǒng)的基本知識(shí)、Kafka的體系架構(gòu)與ZooKeeper;第2章,介紹Kafka的環(huán)境部署,以及基本的應(yīng)用程序開發(fā);第3章,介紹Kafka的生產(chǎn)者及其運(yùn)行機(jī)制,包括生產(chǎn)者的創(chuàng)建和執(zhí)行過(guò)程、生產(chǎn)者的消息發(fā)送模式和生產(chǎn)者的高級(jí)特性等;第4章,介紹Kafka的消費(fèi)者及其運(yùn)行機(jī)制,包括消費(fèi)者的消費(fèi)模式、消費(fèi)者組與消費(fèi)者、消費(fèi)者的偏移量與提交及消費(fèi)者的高級(jí)特性等;第5章,介紹Kafka服務(wù)器端的核心原理,包括主題與分區(qū)、消息的持久性與傳輸保障、Kafka配額與日志的管理;第6章,介紹Kafka的流處理引擎Kafka Stream;第7章,介紹使用不同的工具監(jiān)控Kafka,包括Kafka Manager、Kafka Tool、KafkaOffsetMonitor和JConsole;第8章至第11章,介紹Kafka與外部系統(tǒng)的集成,包括集成Flink、集成Storm、集成Spark和集成Flume。
趙渝強(qiáng)(趙強(qiáng)老師),18年以上的IT行業(yè)從業(yè)經(jīng)歷,清華大學(xué)計(jì)算機(jī)軟件專業(yè)畢業(yè),京東大學(xué)大數(shù)據(jù)學(xué)院院長(zhǎng),Oracle中國(guó)有限公司高級(jí)技術(shù)顧問(wèn),華為官方認(rèn)證講師,曾在BEA、甲骨文、摩托羅拉等世界500強(qiáng)公司擔(dān)任高級(jí)軟件架構(gòu)師或咨詢顧問(wèn)等要職,精通大數(shù)據(jù)、數(shù)據(jù)庫(kù)、容器技術(shù)、中間件技術(shù)和Java技術(shù)。
第1章 Kafka體系架構(gòu)基礎(chǔ) 1
1.1 什么是消息系統(tǒng) 1
1.2 消息系統(tǒng)的分類 2
1.2.1 同步消息機(jī)制與異步消息機(jī)制 3
1.2.2 隊(duì)列與主題 4
1.3 Kafka的體系架構(gòu) 5
1.3.1 消息服務(wù)器 6
1.3.2 主題、分區(qū)與副本 6
1.3.3 生產(chǎn)者 7
1.3.4 消費(fèi)者與消費(fèi)者組 8
1.4 分布式協(xié)調(diào)服務(wù)ZooKeeper 9
1.4.1 ZooKeeper集群的架構(gòu) 9
1.4.2 ZooKeeper的節(jié)點(diǎn)類型 10
1.4.3 ZooKeeper的觀察機(jī)制 13
1.4.4 ZooKeeper的分布式鎖 14
1.4.5 ZooKeeper在Kafka中的作用 17
1.5 準(zhǔn)備實(shí)驗(yàn)環(huán)境 17
1.5.1 安裝CentOS操作系統(tǒng) 17
1.5.2 配置CentOS操作系統(tǒng) 23
1.5.3 安裝JDK 24
第2章 部署Kafka 25
2.1 部署ZooKeeper 25
2.1.1 ZooKeeper的核心配置文件 26
2.1.2 部署ZooKeeper的Standalone模式 28
2.1.3 部署ZooKeeper的集群模式 32
2.1.4 測(cè)試ZooKeeper集群 35
2.2 安裝部署Kafka 36
2.2.1 單機(jī)單Broker的部署 40
2.2.2 單機(jī)多Broker的部署 42
2.2.3 多機(jī)多Broker的部署 43
2.2.4 使用命令行測(cè)試Kafka 44
2.3 Kafka配置參數(shù)詳解 45
2.4 Kafka在ZooKeeper中保存的數(shù)據(jù) 46
2.5 開發(fā)客戶端程序測(cè)試Kafka 47
2.5.1 開發(fā)Java版本的客戶端程序 48
2.5.2 開發(fā)Scala版本的客戶端程序 50
第3章 Kafka的生產(chǎn)者 53
3.1 Kafka生產(chǎn)者的執(zhí)行過(guò)程 53
3.2 創(chuàng)建Kafka生產(chǎn)者 54
3.2.1 創(chuàng)建基本的消息生產(chǎn)者 54
3.2.2 發(fā)送自定義消息對(duì)象 55
3.3 生產(chǎn)者的消息發(fā)送模式 60
3.4 生產(chǎn)者的高級(jí)特性 61
3.4.1 生產(chǎn)者分區(qū)機(jī)制 61
3.4.2 生產(chǎn)者壓縮機(jī)制 66
3.4.3 生產(chǎn)者攔截器 67
3.5 生產(chǎn)者的參數(shù)配置 71
第4章 Kafka的消費(fèi)者 77
4.1 Kafka消費(fèi)者的消費(fèi)模式 77
4.1.1 消息的推送模式 77
4.1.2 消息的拉取模式 77
4.1.3 推送模式與拉取模式的區(qū)別 78
4.1.4 消息者組 78
4.2 創(chuàng)建Kafka消費(fèi)者 79
4.2.1 創(chuàng)建基本的消息消費(fèi)者 79
4.2.2 接收自定義消息對(duì)象 80
4.3 消費(fèi)者與消費(fèi)者組 82
4.3.1 消費(fèi)者和消費(fèi)者組與分區(qū)的關(guān)系 82
4.3.2 分區(qū)的重平衡 85
4.4 消費(fèi)者的偏移量與提交 86
4.4.1 偏移量與重平衡 86
4.4.2 偏移量的提交方式 87
4.5 消費(fèi)者的高級(jí)特性 90
4.5.1 消費(fèi)者的分區(qū)策略 90
4.5.2 重平衡監(jiān)聽器 93
4.5.3 消費(fèi)者的攔截器 95
4.5.4 消費(fèi)者的優(yōu)雅退出 97
4.6 消費(fèi)者的參數(shù)配置 98
第5章 Kafka的服務(wù)器端 102
5.1 主題與分區(qū) 102
5.1.1 主題和分區(qū)的關(guān)系 102
5.1.2 主題的管理 103
5.1.3 使用KafkaAdminClient 109
5.2 消息的持久性 111
5.2.1 Kafka消息持久性概述 111
5.2.2 Kafka的持久化原理解析 112
5.2.3 持久化的讀寫流程 114
5.2.4 為什么要建立分段和索引 115
5.3 消息的傳輸保障 115
5.3.1 生產(chǎn)者的ack機(jī)制 115
5.3.2 消費(fèi)者與高水位線 116
5.4 副本和Leader副本的選舉 117
5.5 Kafka配額的管理 118
5.6 Kafka的日志刪除與壓縮 120
5.6.1 日志的刪除 120
5.6.2 日志的壓縮 120
5.6.3 清理的實(shí)現(xiàn)細(xì)節(jié) 120
5.7 Kafka與ZooKeeper 123
5.7.1 ZooKeeper扮演的角色 123
5.7.2 Kafka在ZooKeeper中存儲(chǔ)的數(shù)據(jù) 124
5.8 服務(wù)器端參數(shù)設(shè)置 125
第6章 流處理引擎Kafka Stream 130
6.1 Kafka Stream的體系架構(gòu) 130
6.1.1 為什么需要Kafka Stream 130
6.1.2 Kafka Stream的體系架構(gòu) 131
6.1.3 執(zhí)行Kafka Stream示例程序 132
6.2 開發(fā)自己的Kafka Stream應(yīng)用程序 134
6.3 Kafka Stream中的數(shù)據(jù)模型 139
6.3.1 KStream與KTable 139
6.3.2 狀態(tài)管理 141
6.4 Kafka Stream中的窗口計(jì)算 144
6.4.1 時(shí)間 144
6.4.2 窗口 145
第7章 監(jiān)控Kafka 151
7.1 Kafka的監(jiān)控指標(biāo) 151
7.2 使用Kafka客戶端監(jiān)控工具 153
7.2.1 Kafka Manager 153
7.2.2 Kafka Tool 157
7.2.3 KafkaOffsetMonitor 162
7.2.4 JConsole 163
7.3 監(jiān)控ZooKeeper 166
第8章 Kafka與Flink集成 168
8.1 Flink的體系架構(gòu) 168
8.1.1 Flink中的數(shù)據(jù)集 168
8.1.2 Flink的生態(tài)圈體系 169
8.1.3 Flink的體系架構(gòu) 171
8.2 安裝部署Flink Standalone模式 172
8.2.1 Flink Standalone模式的部署 174
8.2.2 在Standalone模式上執(zhí)行Flink任務(wù) 178
8.3 Flink DataSet API算子 181
8.4 Flink DataStream API算子 191
8.5 集成Flink與Kafka 196
8.5.1 將Kafka作為Flink的Source Connector 197
8.5.2 將Kafka作為Flink的Sink Connector 200
第9章 Kafka與Storm集成 203
9.1 離線計(jì)算與流式計(jì)算 203
9.2 Apache Storm的體系架構(gòu) 205
9.3 部署Apache Storm 207
9.3.1 部署Storm的偽分布模式 209
9.3.2 部署Storm的全分布模式 213
9.3.3 Storm HA模式 216
9.4 執(zhí)行Apache Storm任務(wù) 220
9.4.1 執(zhí)行WordCountTopology 220
9.4.2 Storm的其他管理命令 224
9.5 開發(fā)自己的Storm任務(wù) 224
9.5.1 Storm Topology任務(wù)處理的數(shù)據(jù)模型 224
9.5.2 開發(fā)自己的WordCountTopology任務(wù) 226
9.6 集成Kafka與Storm 232
9.6.1 Storm從Kafka中接收數(shù)據(jù) 233
9.6.2 測(cè)試Kafka與Storm的集成 236
9.6.3 Storm將數(shù)據(jù)輸出到Kafka 238
第10章 Kafka與Spark集成 240
10.1 Spark基礎(chǔ) 240
10.1.1 Spark的特點(diǎn) 241
10.1.2 Spark的體系架構(gòu) 242
10.2 安裝部署Spark環(huán)境 243
10.2.1 偽分布模式的單節(jié)點(diǎn)環(huán)境部署 246
10.2.2 全分布模式的環(huán)境安裝部署 248
10.3 執(zhí)行Spark任務(wù) 249
10.3.1 使用spark-submit提交任務(wù) 249
10.3.2 交互式命令行工具spark-shell 251
10.4 Spark的核心編程模型 256
10.4.1 什么是RDD 256
10.4.2 RDD的算子 257
10.4.3 開發(fā)自己的WordCount程序 260
10.5 流式計(jì)算引擎Spark Streaming 264
10.5.1 什么是Spark Streaming 264
10.5.2 離散流 265
10.5.3 開發(fā)自己的Spark Streaming程序 266
10.6 集成Kafka與Spark Streaming 269
10.6.1 基于Receiver的方式 269
10.6.2 直接讀取的方式 271
第11章 Kafka與Flume集成 274
11.1 Apache Flume基礎(chǔ) 274
11.1.1 Apache Flume的體系架構(gòu) 274
11.1.2 Apache Flume的安裝和部署 278
11.2 Flume的Source組件 280
11.3 Flume的Channel組件 282
11.4 Flume的Sink組件 283
11.5 集成Kafka與Flume 287