作為人工智能的核心技術(shù),機(jī)器學(xué)習(xí)在數(shù)據(jù)分析中具有舉足輕重的地位。本書在介紹機(jī)器學(xué)習(xí)相關(guān)知識(shí)的基礎(chǔ)上,主要介紹了如何對(duì)有噪聲的數(shù)據(jù)進(jìn)行魯棒回歸分析。全書共6章,除第1章外,各章對(duì)異常點(diǎn)或重尾分布數(shù)據(jù)中的具體問題進(jìn)行了詳細(xì)分析與建模,所涉及的問題包括權(quán)值選擇問題、變量相關(guān)性問題以及網(wǎng)絡(luò)數(shù)據(jù)問題等。本書對(duì)于構(gòu)建具有魯棒性的機(jī)器學(xué)習(xí)模型具有很好的參考性,適用于含噪聲的數(shù)據(jù)分析與應(yīng)用,可供數(shù)據(jù)分析、人工智能等相關(guān)專業(yè)師生及行業(yè)技術(shù)人員參考閱讀。
本書在介紹機(jī)器學(xué)習(xí)相關(guān)知識(shí)的基礎(chǔ)上,主要介紹了基于機(jī)器學(xué)習(xí)的特殊數(shù)據(jù)模型的建立和分析的方法,尤其是含有異常點(diǎn)或服從重尾分布的數(shù)據(jù),包括基于正則化方法的回歸模型、 自加權(quán)魯棒正則化方法、基于自變量相關(guān)的魯棒回歸模型、 基于因變量相關(guān)的Lasso回歸模型、 基于變量相關(guān)的嶺回歸模型。本書內(nèi)容對(duì)于統(tǒng)計(jì)機(jī)器學(xué)習(xí)相關(guān)專業(yè)師生及技術(shù)人員有很好的參考性。
作為人工智能的核心技術(shù)方法,機(jī)器學(xué)習(xí)已經(jīng)成為了一種重要且有效的數(shù)據(jù)分析工具,并且已經(jīng)取得了令人驚嘆的成就。本書主要針對(duì)數(shù)據(jù)中含有異常點(diǎn)或數(shù)據(jù)服從重尾分布的問題,基于機(jī)器學(xué)習(xí)三要素,從模型構(gòu)建、理論分析、算法求解及實(shí)驗(yàn)驗(yàn)證等方面對(duì)機(jī)器學(xué)習(xí)方法進(jìn)行研究和介紹。
全書共6章。第1章為機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí),主要包括兩大部分的內(nèi)容,第一部分介紹了機(jī)器學(xué)習(xí)的基本問題、基本概念以及基本類型等,第二部分介紹了機(jī)器學(xué)習(xí)基本模型回歸模型的發(fā)展現(xiàn)狀,方便讀者理解本書撰寫的目的和動(dòng)機(jī)。
第2章是對(duì)基于正則化方法的回歸模型的介紹,主要介紹了多種廣泛使用的正則化方法,并詳細(xì)分析了各種方法的優(yōu)缺點(diǎn)。
第3章主要介紹自加權(quán)魯棒正則化方法。通過機(jī)器學(xué)習(xí)模型自加權(quán),有效提高了模型的魯棒性,為含噪聲數(shù)據(jù)分析提供了高效的學(xué)習(xí)方法。
第4章針對(duì)重尾分布數(shù)據(jù)中的自變量相關(guān)性問題,從問題分析、模型構(gòu)建、理論分析以及求解算法等方面進(jìn)行了詳細(xì)介紹,為此類型數(shù)據(jù)的分析提供了有效的方法和相應(yīng)的理論支撐。
第5章介紹了數(shù)據(jù)中因變量相關(guān)性問題的機(jī)器學(xué)習(xí)分析方法,構(gòu)建了具有鄰近樣本信息的回歸模型,給出相應(yīng)的回歸系數(shù)估計(jì)方法,并給出了所提估計(jì)的誤差界證明,從回歸建模的角度為網(wǎng)絡(luò)數(shù)據(jù)的分析奠定了基礎(chǔ)。
第6章針對(duì)網(wǎng)絡(luò)數(shù)據(jù)中變量相關(guān)性問題,取得基于Elastic Net回歸,構(gòu)建了適用于網(wǎng)絡(luò)數(shù)據(jù)的Elastic Net回歸模型,同時(shí)給出了相應(yīng)的求解算法,為應(yīng)用于實(shí)際問題提供了指導(dǎo)。
本書主要介紹了如何利用機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行有效分析,具體來說,旨在針對(duì)復(fù)雜或含噪聲數(shù)據(jù)中所存在的問題,研究能夠保證學(xué)習(xí)模型魯棒性和泛化性的技術(shù)或方法,從而能夠有效應(yīng)用于實(shí)際問題。因此本書既可供數(shù)據(jù)分析、人工智能相關(guān)專業(yè)師生閱讀,也可供相關(guān)領(lǐng)域的工程技術(shù)人員、研究人員參考。
本書是筆者在博士期間所做研究工作的基礎(chǔ)上修訂而成的,因此對(duì)導(dǎo)師王文劍教授以及母校山西大學(xué)多位教授的指導(dǎo)表示感謝。
此外,本書受國(guó)家自然科學(xué)基金面上項(xiàng)目(No.61673249)、山西省基礎(chǔ)研究計(jì)劃項(xiàng)目(202103021223295)、大數(shù)據(jù)分析與并行計(jì)算山西省重點(diǎn)實(shí)驗(yàn)室開放課題(編號(hào):BDPC-23-002)、山西省高等學(xué)?萍紕(chuàng)新計(jì)劃項(xiàng)目(2021L323)、太原科技大學(xué)科研啟動(dòng)金項(xiàng)目(20212054)、智能信息處理山西省重點(diǎn)實(shí)驗(yàn)室開放課題基金資助項(xiàng)目(編號(hào):CICIP2023007)、來晉工作優(yōu)秀博士獎(jiǎng)勵(lì)基金(20232062)項(xiàng)目資助,在此深表感謝!
由于筆者水平、時(shí)間和精力所限,書中難免有不足,希望讀者批評(píng)指正。
著者
第1章 機(jī)器學(xué)習(xí)基礎(chǔ) 001
1.1 機(jī)器學(xué)習(xí)及基本概念 002
1.1.1 什么是機(jī)器學(xué)習(xí) 002
1.1.2 機(jī)器學(xué)習(xí)中的一些基本概念 003
1.2 機(jī)器學(xué)習(xí)三要素 005
1.2.1 模型 005
1.2.2 策略 006
1.2.3 算法 009
1.3 機(jī)器學(xué)習(xí)分類 009
1.3.1 監(jiān)督學(xué)習(xí) 010
1.3.2 無監(jiān)督學(xué)習(xí) 013
1.3.3 半監(jiān)督學(xué)習(xí) 013
1.3.4 強(qiáng)化學(xué)習(xí) 013
1.4 回歸模型發(fā)展現(xiàn)狀 014
1.4.1 線性回歸 014
1.4.2 基于鄰近信息的回歸模型 018
1.4.3 魯棒回歸模型 020
第2章 基于正則化方法的回歸模型 023
2.1 正則化方法 024
2.2 基于最小二乘估計(jì)的正則化方法 025
2.2.1 最小二乘估計(jì) 025
2.2.2 嶺回歸 026
2.2.3 Lasso估計(jì) 027
2.2.4 自適應(yīng)Lasso 027
2.2.5 SCAD估計(jì) 028
2.2.6 彈性網(wǎng)絡(luò)回歸 029
2.3 魯棒(穩(wěn)健)正則化方法 029
第3章 自加權(quán)魯棒正則化方法 033
3.1 自加權(quán)魯棒方法 034
3.2 L0正則項(xiàng) 035
3.3 基于SELO懲罰項(xiàng)的自加權(quán)估計(jì)方法 037
3.3.1 自適應(yīng)正則項(xiàng) 037
3.3.2 RSWSELO估計(jì) 038
3.3.3 理論性質(zhì)及證明 039
3.4 實(shí)驗(yàn)驗(yàn)證與分析 044
3.4.1 模擬實(shí)驗(yàn)結(jié)果與分析 044
3.4.2 標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn) 049
第4章 基于自變量相關(guān)的魯棒回歸模型 055
4.1 自變量相關(guān)性問題 056
4.2 基于Elastic Net罰的魯棒估計(jì)方法 058
4.2.1 模型構(gòu)建 058
4.2.2 理論性質(zhì)分析及證明 059
4.2.3 求解算法 066
4.3 實(shí)驗(yàn)驗(yàn)證與分析 068
4.3.1 模擬實(shí)驗(yàn)結(jié)果與分析 068
4.3.2 真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn) 080
第5章 基于因變量相關(guān)的Lasso回歸模型 083
5.1 因變量相關(guān)性問題 084
5.2 Network Lasso估計(jì)及其性質(zhì) 085
5.2.1 模型的構(gòu)建 085
5.2.2 誤差界估計(jì) 087
5.3 實(shí)驗(yàn)結(jié)果與分析 097
5.3.1 人工數(shù)據(jù)集上的實(shí)驗(yàn) 097
5.3.2 真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn) 109
第6章 面向網(wǎng)絡(luò)數(shù)據(jù)的Elastic Net回歸模型 111
6.1 網(wǎng)絡(luò)數(shù)據(jù)問題 112
6.2 面向網(wǎng)絡(luò)數(shù)據(jù)的回歸模型 112
6.3 Network Elastic Net 模型構(gòu)建 114
6.3.1 模型構(gòu)建 114
6.3.2 求解算法 115
6.4 實(shí)驗(yàn)結(jié)果與分析 117
6.4.1 人工數(shù)據(jù)集上的實(shí)驗(yàn) 117
6.4.2 實(shí)際數(shù)據(jù)分析 126
附錄 131
參考文獻(xiàn) 140