零基礎讀者應如何快速入門機器學習?數(shù)學基礎薄弱的讀者應如何理解機器學習中的數(shù)學原理?這些正是本書要解決的問題。本書從數(shù)學基礎知識入手,通過前3章的介紹,幫助讀者輕松復習機器學習涉及的數(shù)學知識;然后,通過第4-第13章的介紹,逐步講解機器學習常見算法的相關知識,幫助讀者快速入門機器學習;最后,通過第14章的綜合實踐,幫助讀者回顧本書內容,進一步鞏固所學知識。
《機器學習的數(shù)學原理和算法實踐》適合對機器學習感興趣但數(shù)學基礎比較薄弱的讀者學習,也適合作為相關專業(yè)的學生入門機器學習的參考用書。
1.形象直白闡述機器學習算法原理
2.細致講解關鍵數(shù)學原理
3.代碼分段解讀,幫助讀者上手實操
4.編程實踐案例經(jīng)典實用
大威,本名張威,西安交通大學工科試驗班(工管貫通班)碩士畢業(yè),信息系統(tǒng)項目管理師(高級資質)、高級經(jīng)濟師、中國計算機學會會員、中國通信學會會員。擁有多年數(shù)據(jù)建模、數(shù)據(jù)挖掘與商業(yè)咨詢經(jīng)驗,現(xiàn)就職于某行業(yè)領先的大數(shù)據(jù)公司,負責大數(shù)據(jù)產(chǎn)品及人工智能產(chǎn)品的規(guī)劃設計管理工作。
第 1章 補基礎:不怕學不懂微積分 1
1.1 深入理解導數(shù)的本質 2
1.1.1 哲學層面理解變化 2
1.1.2 生活中處處有函數(shù) 3
1.1.3 從瞬時速度到導數(shù) 3
1.1.4 從近似運動來理解導數(shù) 4
1.1.5 直觀理解復合函數(shù)求導 6
1.2 理解多元函數(shù)偏導 7
1.2.1 多元函數(shù)偏導數(shù)是什么 7
1.2.2 搞清楚梯度是什么 7
1.3 理解微積分 8
1.3.1 直觀理解積分 8
1.3.2 直觀理解微積分基本定理 10
1.4 泰勒公式太重要了 11
1.4.1 泰勒公式是什么 11
1.4.2 泰勒公式的典型應用 11
1.4.3 直觀理解泰勒公式的來龍去脈 12
1.4.4 微積分基本定理與泰勒公式的關系 14
第 2章 補基礎:不怕學不懂線性代數(shù) 15
2.1 直觀理解向量 16
2.1.1 理解向量加法與數(shù)乘 17
2.1.2 理解向量乘法的本質 19
2.1.3 理解基向量與線性無關 21
2.2 直觀理解矩陣 22
2.2.1 理解矩陣運算規(guī)則 22
2.2.2 理解矩陣向量乘法的本質 24
2.2.3 深刻理解矩陣乘法的本質 29
2.3 理解線性方程組求解的本質 30
2.3.1 直觀理解方程組的解 31
2.3.2 如何尋找解的表達式 34
2.3.3 深刻理解逆矩陣的本質 36
2.3.4 直觀理解行列式的本質 40
2.4 徹底理解最小二乘法的本質 42
2.4.1 如何求解無解的方程組 43
2.4.2 論證 n 維子空間上的情況 48
2.4.3 搞懂施密特正交化是什么 50
2.4.4 理解最小二乘法的本質 53
2.5 直觀理解相似矩陣對角化 54
2.5.1 相似矩陣是什么 55
2.5.2 如何理解特征值與特征向量 59
2.5.3 直觀理解相似矩陣的對角化 62
第3章 補基礎:不怕學不懂概率統(tǒng)計 64
3.1 什么是概率 64
3.1.1 最簡單的概率的例子 64
3.1.2 概率論與數(shù)理統(tǒng)計的關系 65
3.2 搞懂大數(shù)定律與中心極限定理 65
3.2.1 大數(shù)定律想表達什么 65
3.2.2 中心極限定理想表達什么 67
3.2.3 大數(shù)定律與中心極限定理的區(qū)別 70
3.3 理解概率統(tǒng)計中的重要分布 70
3.3.1 真正搞懂正態(tài)分布 70
3.3.2 真正搞懂泊松分布 74
3.4 理解樸素貝葉斯思想很重要 75
3.4.1 如何理解條件概率 75
3.4.2 如何理解貝葉斯公式 76
3.4.3 貝葉斯公式的應用 76
3.4.4 最大似然估計 77
第4章 全景圖:機器學習路線圖 79
4.1 通俗講解機器學習是什么 79
4.1.1 究竟什么是機器學習 79
4.1.2 機器學習的分類 81
4.2 機器學習所需環(huán)境介紹 82
4.2.1 Python的優(yōu)勢 83
4.2.2 Python下載、安裝及使用 83
4.3 跟著例子熟悉機器學習全過程 84
4.4 準備數(shù)據(jù)包括什么 87
4.4.1 數(shù)據(jù)采集 87
4.4.2 數(shù)據(jù)清洗 88
4.4.3 不均衡樣本處理 88
4.4.4 數(shù)據(jù)類型轉換 89
4.4.5 數(shù)據(jù)標準化 90
4.4.6 特征工程 90
4.5 如何選擇算法 92
4.5.1 單一算法模型 92
4.5.2 集成學習模型 92
4.5.3 算法選擇路徑 96
4.6 調參優(yōu)化怎么處理 97
4.6.1 關于調參的幾個常識 97
4.6.2 模型欠擬合與過擬合 98
4.6.3 常見算法調參的內容 98
4.6.4 算法調參的實踐方法 99
4.7 如何進行性能評估 100
4.7.1 回歸預測性能度量 100
4.7.2 分類任務性能度量 100
第5章 數(shù)據(jù)降維:深入理解PCA的來龍去脈 102
5.1 PCA是什么 103
5.2 用一個例子來理解PCA過程 103
5.3 如何尋找降維矩陣P 106
5.4 PCA降維的核心思想 107
5.4.1 核心思想一:基變換向量投影 108
5.4.2 核心思想二:協(xié)方差歸零投影 112
5.4.3 核心思想三:最大方差投影 114
5.4.4 PCA降維的關鍵:協(xié)方差矩陣對角化 116
5.5 面向零基礎讀者詳解PCA降維 116
5.5.1 計算矩陣 Y 的協(xié)方差矩陣 Cy 116
5.5.2 矩陣 Y 的協(xié)方差矩陣 Cy 對角化 118
5.5.3 求解降維矩陣 P 120
5.6 編程實踐:手把手教你寫代碼 122
5.6.1 背景任務介紹:鳶尾花數(shù)據(jù)降維 122
5.6.2 代碼展示:手把手教你寫 123
5.6.3 代碼詳解:一步一步講解清楚 123
第6章 凸優(yōu)化核心過程:真正搞懂梯度下降過程 126
6.1 通俗講解凸函數(shù) 126
6.1.1 什么是凸集 126
6.1.2 什么是凸函數(shù) 127
6.1.3 機器學習“熱愛”凸函數(shù) 128
6.2 通俗講解梯度下降 128
6.2.1 梯度是什么 130
6.2.2 梯度下降與參數(shù)求解 130
6.2.3 梯度下降具體過程演示 131
6.3 編程實踐:手把手教你寫代碼 132
6.3.1 一元函數(shù)的梯度下降 132
6.3.2 多元函數(shù)的梯度下降 137
第7章 搞懂算法:線性回歸是怎么回事 142
7.1 什么是線性回歸 142
7.2 線性回歸算法解決什么問題 143
7.3 線性回歸算法實現(xiàn)過程 143
7.4 編程實踐:手把手教你寫代碼 146
7.4.1 背景任務介紹:預測房價情況 146
7.4.2 代碼展示:手把手教你寫 147
7.4.3 代碼詳解:一步一步講解清楚 147
第8章 搞懂算法:邏輯回歸是怎么回事 150
8.1 如何理解邏輯回歸 150
8.2 邏輯回歸算法實現(xiàn)過程 151
8.3 編程實踐:手把手教你寫代碼 155
8.3.1 背景任務介紹:用邏輯回歸分類預測腫瘤 155
8.3.2 代碼展示:手把手教你寫 155
8.3.3 代碼詳解:一步一步講解清楚 156
第9章 搞懂算法:決策樹是怎么回事 159
9.1 典型的決策樹是什么樣的 159
9.2 決策樹算法的關鍵是什么 160
9.3 信息、信息量與信息熵 161
9.4 信息增益的計算過程 163
9.5 剪枝處理是怎么回事 167
9.6 編程實踐:手把手教你寫代碼 167
9.6.1 背景任務介紹:用決策樹分類預測乳腺癌 167
9.6.2 代碼展示:手把手教你寫 167
9.6.3 代碼詳解:一步一步講解清楚 168
第 10章 搞懂算法:支持向量機是怎么回事 171
10.1 SVM有什么用 171
10.2 SVM算法原理和過程是什么 172
10.2.1 分離超平面是什么 172
10.2.2 間隔與支持向量是什么 175
10.3 編程實踐:手把手教你寫代碼 180
10.3.1 背景任務介紹:用SVM分類預測乳腺癌 180
10.3.2 代碼展示:手把手教你寫 180
10.3.3 代碼詳解:一步一步講解清楚 181
第 11章 搞懂算法:聚類是怎么回事 184
11.1 聚類算法介紹 184
11.1.1 聚類是什么 184
11.1.2 聚類算法應用場景 185
11.2 通俗講解聚類算法過程 186
11.2.1 相似度如何度量 186
11.2.2 聚類性能如何度量 188
11.2.3 具體算法介紹:K-means算法 188
11.2.4 具體算法介紹:K-means++算法 189
11.3 編程實踐:手把手教你寫代碼 191
11.3.1 背景任務介紹:手寫數(shù)字圖像聚類 191
11.3.2 代碼展示:手把手教你寫 191
11.3.3 代碼詳解:一步一步講解清楚 193
第 12章 搞懂算法:樸素貝葉斯是怎么回事 195
12.1 樸素貝葉斯是什么 195
12.1.1 條件概率是什么 195
12.1.2 貝葉斯公式是什么 195
12.2 樸素貝葉斯實現(xiàn)方法 196
12.2.1 伯努利樸素貝葉斯方法 196
12.2.2 高斯樸素貝葉斯方法 198
12.2.3 多項式樸素貝葉斯方法 199
12.3 編程實踐:手把手教你寫代碼 200
12.3.1 背景任務介紹:樸素貝葉斯分類預測文本類別 200
12.3.2 代碼展示:手把手教你寫 201
12.3.3 代碼詳解:一步一步講解清楚 201
第 13章 搞懂算法:神經(jīng)網(wǎng)絡是怎么回事 205
13.1 從一個具體任務開始:識別數(shù)字 206
13.2 理解神經(jīng)元是什么 207
13.2.1 感知器是什么 207
13.2.2 S型神經(jīng)元是什么 208
13.3 理解典型神經(jīng)網(wǎng)絡多層感知器 210
13.3.1 神經(jīng)網(wǎng)絡結構是什么 210
13.3.2 搞懂MLP的工作原理是什么 211
13.4 MLP的代價函數(shù)與梯度下降 216
13.4.1 代價函數(shù):參數(shù)優(yōu)化的依據(jù) 216
13.4.2 梯度下降法:求解代價函數(shù)最小值 217
13.5 反向傳播算法的本質與推導過程 219
13.5.1 反向傳播算法:神經(jīng)網(wǎng)絡的訓練算法 219
13.5.2 尋根究底:搞懂反向傳播算法的數(shù)學原理 221
13.6 編程實踐:手把手教你寫代碼 224
13.6.1 通過代碼深入理解反向傳播算法 224
13.6.2 一個簡單的神經(jīng)網(wǎng)絡分類算法實踐 227
第 14章 綜合實踐:模型優(yōu)化的經(jīng)驗技巧 230
14.1 經(jīng)驗技巧一:特征處理 230
14.1.1 特征提取:文本數(shù)據(jù)預處理 230
14.1.2 特征選擇:篩選特征組合 234
14.2 經(jīng)驗技巧二:模型配置優(yōu)化 235
14.2.1 模型配置優(yōu)化方法:交叉驗證 235
14.2.2 模型配置優(yōu)化方法:超參數(shù)搜索 237
14.3 編程實踐:手把手教你寫代碼 239
14.3.1 背景任務介紹:乳腺癌分類預測多模型對比演示 240
14.3.2 算法介紹:本案例算法簡介 240
14.3.3 代碼展示:手把手教你寫 241
14.3.4 代碼詳解:一步一步講解清楚 244
14.4 經(jīng)驗總結:機器學習經(jīng)驗之談 252
14.4.1 機器學習中的誤區(qū) 252
14.4.2 如何學好機器學習 253