本書是一本系統介紹大數據計算技術及其應用的教材,旨在為讀者提供一個全面了解大數據計算領域基本概念、關鍵技術、系統框架、實際應用等的全景圖。全書共9章,主要包括緒論、大數據存儲、大數據分析與可視化、大數據計算框架及軟件架構、先進大數據計算系統框架、大數據計算系統架構模擬仿真、先進大數據計算系統實現技術、先進大數據計算系統應用實踐、大數據計算的生態(tài)體系和發(fā)展趨勢等內容。本書對當前常規(guī)和先進的大數據計算系統進行了深入剖析,闡述了各種加速芯片和晶圓級異質集成計算系統的實現技術,并介紹了大數據計算技術在醫(yī)療、安全、遙感等領域的具體應用案例。
更多科學出版社服務,請掃碼獲取。
目錄
第1章 緒論 1
1.1 大數據技術概述 1
1.1.1 數據的基本概念 1
1.1.2 大數據概念及技術體系 5
1.2 大數據計算概述 17
1.2.1 計算與算力 17
1.2.2 大數據計算技術 18
1.3 本書的組織結構 21
1.4 本章小結 21
第2章 大數據存儲 23
2.1 大數據存儲概述 23
2.1.1 大數據存儲發(fā)展 23
2.1.2 當前數據存儲與計算發(fā)展的特點 24
2.1.3 大數據計算與存儲的本質關系 25
2.1.4 計算需求驅動的存儲架構設計 26
2.2 分布式文件系統 27
2.2.1 分布式文件系統的概念 27
2.2.2 分布式文件系統的結構 28
2.3 分布式數據庫 28
2.3.1 HBase 簡介 28
2.3.2 HBase 與傳統關系數據庫的對比分析 29
2.3.3 訪問接口 29
2.4 NoSQL 數據庫 30
2.4.1 鍵值數據庫 30
2.4.2 列值數據庫 31
2.4.3 文檔數據庫 31
2.4.4 圖數據庫 32
2.4.5 時序數據庫 33
2.4.6 空間數據庫 35
2.4.7 向量數據庫 37
2.5 本章小結 40
第3章 大數據分析與可視化 41
3.1 大數據分析概述 41
3.1.1 第四范式—數據密集型科學發(fā)現 41
3.1.2 大數據分析類型 42
3.1.3 大數據分析的應用領域 43
3.2 大數據分析常用算法 45
3.2.1 分類 45
3.2.2 聚類 48
3.2.3 集成學習 49
3.2.4 關聯規(guī)則挖掘 51
3.2.5 回歸 52
3.3 大數據可視化概述 54
3.4 文本大數據可視化 55
3.4.1 基本流程 56
3.4.2 文本生成視頻 57
3.4.3 應用場景 57
3.5 圖大數據可視化 57
3.5.1 圖大數據可視化挑戰(zhàn) 58
3.5.2 應用實例 59
3.6 大數據可視化常用工具 59
3.6.1 Tableau 59
3.6.2 Qlik View 60
3.6.3 Cosmograph 61
3.6.4 基于大語言模型的可視化 61
3.7 本章小結 62
第4章 大數據計算框架及軟件架構 63
4.1 大數據計算的方式 63
4.1.1 大數據計算的特點 63
4.1.2 大數據計算的目標 64
4.1.3 數據處理方式 65
4.2 大數據計算的方法 67
4.2.1 批處理計算 67
4.2.2 流式計算 68
4.2.3 其他計算 71
4.3 傳統大數據軟件架構 72
4.3.1 Hadoop 架構 72
4.3.2 Spark 架構 73
4.3.3 流處理框架 73
4.4 本章小結 74
第5章 先進大數據計算系統框架 75
5.1 領域專用軟硬件協同計算概述 76
5.1.1 計算機體系結構基礎 76
5.1.2 計算機系統形態(tài)發(fā)展趨勢 83
5.1.3 領域專用架構介紹 86
5.2 領域專用軟硬件協同計算關鍵技術 89
5.2.1 領域專用共性元素抽象方法 89
5.2.2 領域專用軟件工具鏈設計技術 93
5.2.3 領域專用語言 103
5.3 本章小結 105
第6章 大數據計算系統架構模擬仿真 106
6.1 計算機模擬仿真技術簡介 106
6.1.1 模擬器分類 107
6.1.2 現有模擬器概述 110
6.2 計算機體系結構模擬仿真的關鍵問題及解決技術 112
6.2.1 模擬精度低 112
6.2.2 模擬速度慢 113
6.2.3 可用性問題 117
6.2.4 易用性問題 119
6.3 多節(jié)點網絡的系統級設計和仿真 120
6.3.1 計算機體系結構模擬仿真的未來發(fā)展趨勢 121
6.3.2 離散事件模擬與并行化技術 124
6.3.3 大規(guī)模計算系統仿真器 125
6.4 本章小結 133
第7章 先進大數據計算系統實現技術 134
7.1 典型大數據計算系統加速芯片 134
7.1.1 GPU 134
7.1.2 FPGA 136
7.1.3 TPU 138
7.1.4 DPU 140
7.2 晶圓級計算系統實現技術 142
7.2.1 晶圓級計算系統簡介142
7.2.2 軟件定義晶上系統的關鍵技術 145
7.2.3 軟件定義晶上系統的前景 146
7.3 本章小結 148
第8章 先進大數據計算系統應用實踐 149
8.1 大數據試驗場 149
8.1.1 大數據試驗場總體架構 149
8.1.2 數據資源池建設 150
8.1.3 試驗場基礎設施建設151
8.1.4 試驗場服務平臺建設156
8.2 醫(yī)保大數據稽核 157
8.2.1 醫(yī)�;嗣媾R的困難158
8.2.2 醫(yī)保大數據稽核技術能力 158
8.2.3 醫(yī)保大數據監(jiān)管稽核體系 161
8.3 遙感大數據計算 164
8.3.1 旋轉目標識別背景介紹 164
8.3.2 常用數據集與評價標準 166
8.3.3 遙感圖像目標檢測識別算法加速技術 168
8.4 本章小結 177
第9章 大數據計算的生態(tài)體系和發(fā)展趨勢 178
9.1 大數據計算生態(tài)體系 178
9.1.1 大數據計算與知識工程 178
9.1.2 大數據計算與智能算法 179
9.1.3 大數據計算與算力基礎設施 181
9.1.4 大數據計算與網絡安全 181
9.2 大數據計算未來發(fā)展趨勢 182
9.2.1 數據應用密集化 182
9.2.2 算力異構加速化 182
9.2.3 全局高階互聯化 183
9.2.4 數據安全資產化 183
9.2.5 全棧自主可控化 183
9.2.6 軟硬系統節(jié)能化 184
9.3 本章小結 184
后記 185
參考文獻 186