集成學(xué)習(xí)方法是一類先進(jìn)的機(jī)器學(xué)習(xí)方法,這類方法訓(xùn)練多個(gè)學(xué)習(xí)器并將它們結(jié)合起來(lái)解決一個(gè)問題,在實(shí)踐中獲得了巨大成功。全書分為三部分。第一部分主要介紹集成學(xué)習(xí)的背景知識(shí);第二部分主要介紹集成學(xué)習(xí)方法的核心知識(shí),包括Boosting、Bagging、Random Forests等經(jīng)典算法,平均、投票和Stacking等模型和方法、相關(guān)理論分析工作,以及多樣性度量和增強(qiáng)方面的進(jìn)展。第三部分介紹集成學(xué)習(xí)方法的進(jìn)階議題,包括集成修剪、聚類集成和集成學(xué)習(xí)方法在半監(jiān)督學(xué)習(xí)、主動(dòng)學(xué)習(xí)、代價(jià)敏感學(xué)習(xí)、類別不平衡學(xué)習(xí),以及提升可理解性方面的進(jìn)展。此外,本書還在每章中的“拓展閱讀”部分提供了相關(guān)的進(jìn)階內(nèi)容。本書適合對(duì)集成學(xué)習(xí)方法感興趣的研究人員、學(xué)生和實(shí)踐者閱讀。
周志華,分別于1996年6月、1998年6月和2000年12月于 南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系獲學(xué)士、碩士和博士學(xué)位。2001年1月起留校任教,2002年破格晉升副教授,2003年獲 國(guó)家杰出青年科學(xué)基金,隨后被聘任為教授,2004年獲博士生導(dǎo)師資格,2006年入選教育部長(zhǎng)江學(xué)者特聘教授,F(xiàn)任南京大學(xué) 校學(xué)術(shù)委員會(huì)委員、計(jì)算機(jī)科學(xué)與技術(shù)系 主任、人工智能學(xué)院 院長(zhǎng)、計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 常務(wù)副主任、機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所 (LAMDA) 所長(zhǎng)。美國(guó)計(jì)算機(jī)學(xué)會(huì)(ACM)、美國(guó)科學(xué)促進(jìn)會(huì)(AAAS)、國(guó)際人工智能學(xué)會(huì) (AAAI) 、國(guó)際電氣電子工程師學(xué)會(huì) (IEEE) 、國(guó)際模式識(shí)別學(xué)會(huì) (IAPR)、國(guó)際工程技術(shù)學(xué)會(huì) (IET/IEE) 、中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)、中國(guó)人工智能學(xué)會(huì)(CAAI) 等學(xué)會(huì)的會(huì)士 (Fellow),歐洲科學(xué)院 外籍院士。教育部高等學(xué)校計(jì)算機(jī)類專業(yè)教學(xué)指導(dǎo)委員會(huì)副主任、證監(jiān)會(huì)科技監(jiān)管專家咨詢委員會(huì)委員、南京市政府人工智能產(chǎn)業(yè)顧問,江蘇省政協(xié)十、十一、十二屆委員,江蘇省青聯(lián)十一屆副主席等。主要從事人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域的研究工作。
李楠,博士,畢業(yè)于南京大學(xué)計(jì)算機(jī)系機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所(LAMDA),師從周志華教授從事機(jī)器學(xué)習(xí)研究。發(fā)表論文20余篇,并獲國(guó)際數(shù)據(jù)挖掘競(jìng)賽冠軍及最佳論文獎(jiǎng)。先后供職于阿里巴巴iDST/達(dá)摩院和微軟亞洲互聯(lián)網(wǎng)工程院,主要從事機(jī)器學(xué)習(xí)在互聯(lián)網(wǎng)搜索、推薦和廣告中的研究和應(yīng)用工作。
第1章 緒 論 1
1.1 基本概念 1
1.2 常用學(xué)習(xí)算法 3
1.2.1 線性判別分析 3
1.2.2 決策樹 4
1.2.3 神經(jīng)網(wǎng)絡(luò) 6
1.2.4 樸素貝葉斯 8
1.2.5 k-近鄰 9
1.2.6 支持向量機(jī)和核方法 9
1.3 評(píng)估和對(duì)比 12
1.4 集成學(xué)習(xí)方法 14
1.5 集成學(xué)習(xí)方法的應(yīng)用 16
1.6 拓展閱讀 19
第2章Boosting 21
2.1 Boosting 過程 21
2.2 AdaBoost 算法 22
2.3 說明性舉例 26
2.4 理論探討 29
2.4.1 基本分析 29
2.4.2 間隔解釋 30
2.4.3 統(tǒng)計(jì)視角 32
2.5 多分類問題 35
2.6 容噪能力 37
2.7 拓展閱讀 40
第3章Bagging 43
3.1 兩種集成范式 43
3.2 Bagging 算法 44
3.3 說明性舉例 45
3.4 理論探討 48
3.5 隨機(jī)樹集成 52
3.5.1 隨機(jī)森林 52
3.5.2 隨機(jī)化譜 55
3.5.3 隨機(jī)森林用于密度估計(jì) 56
3.5.4 隨機(jī)森林用于異常檢測(cè) 58
3.6 拓展閱讀 60
第4章結(jié)合方法 61
4.1 結(jié)合帶來(lái)的益處 61
4.2 均值法 62
4.2.1 簡(jiǎn)單平均法 62
4.2.2 加權(quán)平均法 63
4.3 投票法 65
4.3.1 絕對(duì)多數(shù)投票法 65
4.3.2 相對(duì)多數(shù)投票法 66
4.3.3 加權(quán)投票法 67
4.3.4 軟投票法 68
4.3.5 理論探討 70
4.4 學(xué)習(xí)結(jié)合法 76
4.4.1 Stacking 76
4.4.2 無(wú)限集成 78
4.5 其他結(jié)合方法 79
4.5.1 代數(shù)法 80
4.5.2 行為知識(shí)空間法 81
4.5.3 決策模板法 81
4.6 相關(guān)方法 82
4.6.1 糾錯(cuò)輸出編碼法 82
4.6.2 動(dòng)態(tài)分類器選擇法 85
4.6.3 混合專家模型 86
4.7 拓展閱讀 87
第5章多樣性 91
5.1 集成多樣性 91
5.2 誤差分解 92
5.2.1 誤差-分歧分解 92
5.2.2 偏差-方差-協(xié)方差分解 94
5.3 多樣性度量 96
5.3.1 成對(duì)度量 96
5.3.2 非成對(duì)度量 97
5.3.3 小結(jié)和可視化 100
5.3.4 多樣性度量的局限 101
5.4 信息論多樣性 102
5.4.1 信息論和集成 102
5.4.2 交互信息多樣性 103
5.4.3 多信息多樣性 104
5.4.4 估計(jì)方法 105
5.5 多樣性增強(qiáng) 106
5.6 拓展閱讀 108
第6章集成修剪 109
6.1 何謂集成修剪 109
6.2 多比全好 110
6.3 修剪方法分類 113
6.4 基于排序的修剪 114
6.5 基于聚類的修剪 117
6.6 基于優(yōu)化的修剪 117
6.6.1 啟發(fā)式優(yōu)化修剪 118
6.6.2 數(shù)學(xué)規(guī)劃修剪 118
6.6.3 概率修剪 121
6.7 拓展閱讀 122
第7章聚類集成 125
7.1 聚類 125
7.1.1 聚類方法 125
7.1.2 聚類評(píng)估 127
7.1.3 為什么要做聚類集成 129
7.2 聚類集成方法分類 130
7.3 基于相似度的方法 132
7.4 基于圖的方法 133
7.5 基于重標(biāo)記的方法 136
7.6 基于變換的方法 140
7.7 拓展閱讀 143
第8章進(jìn)階議題 145
8.1 半監(jiān)督學(xué)習(xí) 145
8.1.1 未標(biāo)記數(shù)據(jù)的效用 145
8.1.2 半監(jiān)督學(xué)習(xí)的集成學(xué)習(xí)方法 146
8.2 主動(dòng)學(xué)習(xí) 151
8.2.1 人為介入的效用 151
8.2.2 基于集成的主動(dòng)學(xué)習(xí) 152
8.3 代價(jià)敏感學(xué)習(xí) 153
8.3.1 不均等代價(jià)下的學(xué)習(xí) 153
8.3.2 代價(jià)敏感學(xué)習(xí)的集成方法 154
8.4 類別不平衡學(xué)習(xí) 158
8.4.1 類別不平衡 158
8.4.2 類別不平衡學(xué)習(xí)的性能評(píng)估 160
8.4.3 類別不平衡學(xué)習(xí)的集成方法 163
8.5 提升可解釋性 166
8.5.1 集成約簡(jiǎn) 166
8.5.2 規(guī)則抽取 167
8.5.3 可視化 168
8.6 未來(lái)的研究方向 169
8.7 拓展閱讀 171
參考文獻(xiàn) 173
索引 203