數(shù)據(jù)科學(xué)工程實(shí)踐
定 價(jià):79.9 元
- 作者:郭繼東 等
- 出版時(shí)間:2024/9/1
- ISBN:9787121488481
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:424
- 紙張:
- 版次:01
- 開本:16開
本書是高等學(xué)校開設(shè)數(shù)據(jù)科學(xué)導(dǎo)論或工程實(shí)踐等課程的配套用書。本書不僅介紹了數(shù)據(jù)科學(xué)的基礎(chǔ)知識(shí),還特別引入了探索性數(shù)據(jù)分析流程的相關(guān)內(nèi)容,主要包括實(shí)踐平臺(tái)配置、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)與管理、探索性數(shù)據(jù)分析、單模型學(xué)習(xí)算法、集成學(xué)習(xí)算法和數(shù)據(jù)可視化等;精心設(shè)計(jì)其中的函數(shù)應(yīng)用實(shí)踐和綜合應(yīng)用實(shí)踐,前者聚焦具體函數(shù)的解釋和應(yīng)用,后者致力于實(shí)際問題解決思路的探討。讀者可以由淺入深地了解相關(guān)理論,逐步完成相關(guān)實(shí)驗(yàn)內(nèi)容,增強(qiáng)理論和實(shí)踐的連貫性認(rèn)知,培養(yǎng)數(shù)據(jù)思維和動(dòng)手實(shí)踐能力。 本書可作為高等學(xué)校各相關(guān)專業(yè)的數(shù)據(jù)科學(xué)導(dǎo)論或?qū)嵺`等課程的配套教材,也可供對(duì)數(shù)據(jù)科學(xué)感興趣的讀者閱讀。
郭繼東,山東財(cái)經(jīng)大學(xué)副教授,郭繼東博士在計(jì)算機(jī)視覺、人工智能、最優(yōu)化方法、數(shù)據(jù)分析與挖掘算法和矩陣分析方面有著比較深入的研究,并取得了一些創(chuàng)新性的研究成果。主要研究方向?yàn)槿斯ぶ悄、?jì)算機(jī)視覺、最優(yōu)化方法、軟件架構(gòu)設(shè)計(jì)、數(shù)據(jù)挖掘技術(shù)、三維重建、圖像處理等。在國(guó)內(nèi)外重要學(xué)術(shù)刊物及會(huì)議上發(fā)表重要學(xué)術(shù)論文20余篇,其中有多篇被SCI或EI收錄。
目錄
第1章 數(shù)據(jù)科學(xué)概述 1
1.1 數(shù)據(jù)科學(xué)簡(jiǎn)介 1
1.1.1 基本概念及發(fā)展歷史 1
1.1.2 特點(diǎn)及應(yīng)用領(lǐng)域 2
1.1.3 數(shù)據(jù)科學(xué)的過程 3
1.2 Python的安裝 5
1.3 常用工具包概述 7
1.4 Anaconda3的安裝 9
1.5 Jupyter Notebook的使用 10
1.5.1 Jupyter Notebook簡(jiǎn)介 10
1.5.2 Jupyter Notebook
的啟動(dòng) 10
1.5.3 新手如何快速上手Jupyter Notebook 10
1.6 本章小結(jié) 12
課后習(xí)題 12
第2章 數(shù)據(jù)預(yù)處理 13
2.1 NumPy數(shù)據(jù)處理及運(yùn)算 13
2.1.1 NumPy的安裝 13
2.1.2 創(chuàng)建N維數(shù)組 14
2.1.3 NumPy切片和索引 19
2.1.4 NumPy數(shù)組操作 20
2.1.5 數(shù)學(xué)函數(shù) 32
2.1.6 統(tǒng)計(jì)函數(shù) 40
2.1.7 排序函數(shù) 46
2.1.8 直方圖函數(shù) 47
2.2 Pandas基礎(chǔ) 49
2.2.1 數(shù)據(jù)快捷加載 49
2.2.2 Pandas的數(shù)據(jù)結(jié)構(gòu) 53
2.3 非數(shù)值數(shù)據(jù)轉(zhuǎn)換 61
2.3.1 map()函數(shù) 61
2.3.2 One-Hot編碼 62
2.4 數(shù)據(jù)清洗 63
2.4.1 缺失值處理 63
2.4.2 錯(cuò)誤數(shù)據(jù)替換 65
2.4.3 數(shù)據(jù)去重 65
2.4.4 數(shù)據(jù)合并連接 66
2.4.5 數(shù)據(jù)分組及聚合 70
2.5 本章小結(jié) 72
課后習(xí)題 72
第3章 數(shù)據(jù)存儲(chǔ)與管理 74
3.1 概述 74
3.1.1 數(shù)據(jù)存儲(chǔ)的概念 74
3.1.2 數(shù)據(jù)管理技術(shù)的概念 74
3.1.3 數(shù)據(jù)庫(kù)的概念 74
3.1.4 新型數(shù)據(jù)管理系統(tǒng) 75
3.2 關(guān)系數(shù)據(jù)庫(kù) 75
3.2.1 關(guān)系數(shù)據(jù)模型 75
3.2.2 應(yīng)用舉例 76
3.3 分布式文件系統(tǒng) 78
3.3.1 HDFS的概念及特點(diǎn) 78
3.3.2 HDFS數(shù)據(jù)文件存儲(chǔ) 78
3.3.3 HDFS的結(jié)構(gòu)及組件 78
3.3.4 HDFS的讀/寫操作 79
3.3.5 Python訪問HDFS 81
3.4 分布式數(shù)據(jù)庫(kù) 82
3.4.1 HBase的特點(diǎn) 82
3.4.2 HBase相關(guān)概念 82
3.4.3 HBase架構(gòu) 82
3.4.4 Python操作HBase 84
3.5 流數(shù)據(jù) 87
3.5.1 流數(shù)據(jù)概述 87
3.5.2 流數(shù)據(jù)模型 87
3.5.3 流數(shù)據(jù)處理系統(tǒng) 88
3.6 本章小結(jié) 90
課后習(xí)題 90
第4章 探索性數(shù)據(jù)分析 92
4.1 EDA簡(jiǎn)介 92
4.2 特征創(chuàng)建 98
4.3 維度約簡(jiǎn) 101
4.3.1 為什么要降維 101
4.3.2 基于特征轉(zhuǎn)換的降維 102
4.3.3 基于特征選擇的降維 122
4.3.4 基于特征組合的降維 135
4.4 異常值檢測(cè)及處理 141
4.4.1 單變量異常檢測(cè) 141
4.4.2 OneClassSVM 143
4.4.3 EllipticEnvelope 145
4.5 評(píng)價(jià)函數(shù) 149
4.5.1 多標(biāo)簽分類 149
4.5.2 二分類 151
4.5.3 回歸 155
4.6 測(cè)試和驗(yàn)證 156
4.7 交叉驗(yàn)證 159
4.7.1 建立自定義評(píng)分函數(shù) 160
4.7.2 使用交叉驗(yàn)證迭代器 162
4.8 超參數(shù)調(diào)優(yōu) 167
4.8.1 超參數(shù)調(diào)優(yōu)概述 167
4.8.2 超參數(shù)調(diào)優(yōu)實(shí)踐 174
4.9 小結(jié) 190
課后習(xí)題 190
第5章 單模型學(xué)習(xí)算法 191
5.1 概述 191
5.1.1 分類模型和回歸模型 192
5.1.2 機(jī)器學(xué)習(xí)的步驟和
要素 193
5.2 線性回歸和邏輯回歸 194
5.2.1 從線性回歸到邏輯
回歸 195
5.2.2 線性回歸實(shí)踐 197
5.2.3 Sigmoid函數(shù) 199
5.2.4 推廣至多元場(chǎng)景 200
5.2.5 邏輯回歸實(shí)踐 201
5.2.6 算法小結(jié) 203
進(jìn)階A 交叉熵?fù)p失函數(shù)和平方差
損失函數(shù) 203
5.3 樸素貝葉斯分類 207
5.3.1 樸素貝葉斯分類算法 207
5.3.2 樸素貝葉斯實(shí)踐 210
5.3.3 算法小結(jié) 212
5.4 最近鄰算法 212
5.4.1 k近鄰算法的概念及
原理 212
5.4.2 k值的選取及特征歸一化的重要性 213
5.4.3 最近鄰算法實(shí)踐 215
5.4.4 算法小結(jié) 228
進(jìn)階B kd樹 228
B.1 kd樹的構(gòu)建 228
B.2 kd樹的搜索 230
B.3 kd樹的不足 232
5.5 支持向量機(jī) 233
5.5.1 支持向量機(jī)基礎(chǔ) 234
5.5.2 軟間隔 236
5.5.3 核函數(shù) 236
5.5.4 支持向量機(jī)實(shí)踐 238
5.5.5 算法小結(jié) 256
進(jìn)階C 對(duì)偶問題 257
C.1 拉格朗日乘子法 257
C.2 支持向量機(jī)優(yōu)化 259
進(jìn)階D 軟間隔情況下的最優(yōu)化問題
及其求解 260
5.6 決策樹 261
5.6.1 信息論知識(shí) 261
5.6.2 決策樹基礎(chǔ) 264
5.6.3 決策樹實(shí)踐 268
5.6.4 算法小結(jié) 285
5.7 聚類 286
5.7.1 K均值聚類 286
5.7.2 小批量KMeans 296
5.7.3 Affinity Propagation聚類
算法 299
5.7.4 層次聚類 301
5.7.5 DBSCAN 307
5.7.6 算法小結(jié) 310
5.8 本章小結(jié) 311
課后習(xí)題 311
第6章 集成學(xué)習(xí)算法 312
6.1 集成學(xué)習(xí)能帶來什么 312
6.1.1 集成學(xué)習(xí)的基本步驟 313
6.1.2 集成學(xué)習(xí)中的偏差與
方差 314
6.2 Bagging元學(xué)習(xí)器 320
6.3 隨機(jī)森林 326
6.3.1 隨機(jī)森林算法 327
6.3.2 極度隨機(jī)化樹 327
6.3.3 隨機(jī)森林實(shí)踐 328
6.3.4 算法小結(jié) 332
6.4 Boosting算法 332
6.5 AdaBoost算法 333
6.5.1 AdaBoost實(shí)踐 334
6.5.2 算法小結(jié) 341
進(jìn)階E AdaBoost算法偽代碼 342
6.6 GBDT算法 342
6.6.1 分類和回歸 347
6.6.2 GBDT實(shí)踐 349
6.7 基于直方圖的梯度提升 351
6.7.1 用法 351
6.7.2 直方圖梯度提升模型
實(shí)踐 353
6.8 堆疊泛化 356
6.9 概率校準(zhǔn) 358
6.9.1 校準(zhǔn)曲線 359
6.9.2 校準(zhǔn)分類器 362
6.10 本章小結(jié) 373
課后習(xí)題 373
第7章 數(shù)據(jù)可視化 374
7.1 可視化的定義及作用 374
7.2 可視化的原則 375
7.3 常用的可視化分析技術(shù)與
工具 375
7.4 Matplotlib繪圖 378
7.4.1 繪制曲線 378
7.4.2 繪制散點(diǎn)圖 384
7.4.3 繪制直方圖 385
7.4.4 繪制柱狀圖 387
7.4.5 繪制箱線圖 392
7.4.6 繪制圖像 394
7.4.7 繪制矩陣 396
7.5 Pandas繪圖 398
7.6 Scikit-learn繪圖 401
7.6.1 學(xué)習(xí)曲線 401
7.6.2 驗(yàn)證曲線 405
7.6.3 ROC曲線 407
7.6.4 混淆矩陣 408
7.6.5 精確率-召回率曲線 410
7.6.6 部分依賴關(guān)系圖 412
7.7 本章小結(jié) 414
課后習(xí)題 414