本書(shū)共分9章,主要內(nèi)容有:第1章總結(jié)機(jī)器學(xué)習(xí)項(xiàng)目的推進(jìn)流程。第2章介紹機(jī)器學(xué)習(xí)的主要功能和各種算法。第3章以垃圾郵件判別為例,介紹對(duì)學(xué)習(xí)完成后的預(yù)測(cè)模型進(jìn)行離線評(píng)價(jià)的方法。第4章梳理在計(jì)算機(jī)系統(tǒng)里集成機(jī)器學(xué)習(xí)功能的模式,同時(shí)介紹機(jī)器學(xué)習(xí)基礎(chǔ)的日志設(shè)計(jì)。第5章介紹機(jī)器學(xué)習(xí)分類(lèi)任務(wù)里的正確答案數(shù)據(jù)的獲取方法。第6章介紹用于驗(yàn)證實(shí)施方案是否真正有效的統(tǒng)計(jì)鑒定、因果推理,以及A/B試驗(yàn)等方法。第3章是預(yù)測(cè)模型的離線驗(yàn)證,本章則介紹實(shí)施過(guò)程中的實(shí)時(shí)驗(yàn)證。第7章以電影推薦為例,學(xué)習(xí)推薦預(yù)測(cè)系統(tǒng)的開(kāi)發(fā)實(shí)現(xiàn)案例。第8章闡述搜索式分析過(guò)程及分析報(bào)告,結(jié)合在第1章的機(jī)器學(xué)習(xí)流程中出現(xiàn)的不執(zhí)行機(jī)器學(xué)習(xí)的例子,介紹如何整理實(shí)際分析結(jié)果的相關(guān)心得。第9章采用所謂Uplift Modeling方法學(xué)習(xí)更有效的營(yíng)銷(xiāo)方法。
Michiaki Ariga,東京工業(yè)大學(xué)計(jì)算機(jī)工程學(xué)博士畢業(yè),現(xiàn)為東京大學(xué)教授、日本國(guó)立信息學(xué)研究所客座教授。主要從事機(jī)器學(xué)習(xí)的理論研究和算法開(kāi)發(fā),以及在信號(hào)和圖像處理等方面的應(yīng)用。2011年獲日本信息處理學(xué)會(huì)長(zhǎng)尾真紀(jì)念特別獎(jiǎng)。著有《統(tǒng)計(jì)機(jī)器學(xué)習(xí)》等。
前言 .. 1
第一部分
第1章
機(jī)器學(xué)習(xí)項(xiàng)目流程
.11
1.1 如何利用機(jī)器學(xué)習(xí) 11
1.2 機(jī)器學(xué)習(xí)項(xiàng)目的流程 13
1.3 實(shí)際系統(tǒng)中的機(jī)器學(xué)習(xí)問(wèn)題的處理方法 27
1.4 機(jī)器學(xué)習(xí)系統(tǒng)的成功要素 32
1.5 小結(jié) 34
第2章
機(jī)器學(xué)習(xí)的用途 35
2.1 算法選擇 35
2.2 分類(lèi) 37
2.3 回歸 69
2.4 聚類(lèi)與降維 72
2.5 其他 74
2.6 小結(jié) 76
第3章
學(xué)習(xí)結(jié)果的評(píng)價(jià) 77
3.1 分類(lèi)的評(píng)價(jià)矩陣 77
3.2 回歸的評(píng)價(jià) 86
3.3 機(jī)器學(xué)習(xí)系統(tǒng)的A/B測(cè)試 88
3.4 小結(jié) 89
第4章
機(jī)器學(xué)習(xí)系統(tǒng)的開(kāi)發(fā)
91
4.1 機(jī)器學(xué)習(xí)系統(tǒng)的開(kāi)發(fā)流程 91
4.2 系統(tǒng)設(shè)計(jì) 92
4.3 日志設(shè)計(jì) 105
4.4 小結(jié) 110
第5章
機(jī)器學(xué)習(xí)資源的收集
111
5.1 機(jī)器學(xué)習(xí)資源的獲取 111
5.2 利用公開(kāi)的數(shù)據(jù)集或模型 113
5.3 開(kāi)發(fā)者自己創(chuàng)建訓(xùn)練數(shù)據(jù) 114
5.4 他人幫忙輸入數(shù)據(jù) 116
5.5 數(shù)據(jù)創(chuàng)建眾包 117
5.6 基于服務(wù)的用戶輸入 119
5.7 小結(jié) 120
第6章
效果驗(yàn)證 121
6.1 效果驗(yàn)證概述 121
6.2 假設(shè)檢驗(yàn)的框架 125
6.3 假設(shè)檢驗(yàn)的注意事項(xiàng) 131
6.4 因果效應(yīng)的推斷 137
6.5 A/B測(cè)試 141
6.6 小結(jié) 144
第二部分
第7章
電影推薦系統(tǒng) 147
7.1 概述 147
7.2 推薦系統(tǒng)功能 149
7.3 MovieLens的數(shù)據(jù)趨勢(shì) 159
7.4 推薦系統(tǒng)的開(kāi)發(fā) 165
7.5 小結(jié) . 176
第8章 Kickstarter的數(shù)據(jù)分析
177
8.1 Kickstarter的API 177
8.2 Kickstarter的網(wǎng)絡(luò)爬蟲(chóng) 178
8.3 數(shù)據(jù)變換 . 180
8.4 瀏覽Excel數(shù)據(jù) . 181
8.5 數(shù)據(jù)透視表 185
8.6 達(dá)成目標(biāo)卻被取消的項(xiàng)目 190
8.7 國(guó)別的項(xiàng)目分析 192
8.8 形成分析報(bào)告 194
8.9 進(jìn)一步的工作 204
8.10 小結(jié) 204
第9章
基于Uplift Modeling的營(yíng)銷(xiāo)資源效率分析207
9.1 Uplift Modeling的四象限分區(qū) 208
9.2 擴(kuò)展A/B測(cè)試的Uplift
Modeling的概要
210
9.3 Uplift Modeling的數(shù)據(jù)集生成 211
9.4 利用兩個(gè)預(yù)測(cè)模型的Uplift
Modeling . 214
9.5 Uplift Modeling的評(píng)價(jià)方法 . 218
9.6 實(shí)際應(yīng)用 . 224
9.7 實(shí)際應(yīng)用Uplift Modeling的相關(guān)事項(xiàng) . 231
9.8 小結(jié) . 233
參考文獻(xiàn)
235
后記
.239
致謝
.241