主要研究內(nèi)容與特色: (1) 利用文本挖掘和專家經(jīng)驗構建機器學習關鍵問題分析框架,總結機器學習在醫(yī)療大數(shù)據(jù)挖掘中面臨的若干關鍵問題。 (2) 利用簡約核構建面向不完整視角問題的高效機器學習方法。 (3) 利用非對稱損失函數(shù)構建面向類別不平衡問題的機器學習與深度學習方法。讀者對象: 從事人工智能、機器學習、醫(yī)療大數(shù)據(jù)分析方向的學術界與工業(yè)界的相關人士。 (4)圍繞不完整視角與類別不平衡這兩個關鍵問題展開深入研究,有效提升了醫(yī)學診斷的決策效率。
本書圍繞醫(yī)療大數(shù)據(jù)挖掘中的熱點問題,展開深入的理論與應用研究,可有效地輔助醫(yī)學診斷。有助于減少專業(yè)醫(yī)師的培訓成本,為醫(yī)學診斷提供有效的輔助工具,進而改善醫(yī)療資源分配不均的現(xiàn)象,并為人類的生命健康做出重要貢獻。
隨著計算機技術的飛速發(fā)展,醫(yī)療信息的規(guī)模性和豐富性顯著增強,機器學習成為賦能醫(yī)療大數(shù)據(jù)的核心技術。但不可否認的是,基于機器學習的醫(yī)療大數(shù)據(jù)挖掘仍然面臨諸多挑戰(zhàn)。本書從實際出發(fā),研究機器學習在醫(yī)療大數(shù)據(jù)挖掘中的問題與方法,一方面希望所研究成果豐富并完善相應領域的理論研究與方法體系,另一方面希望能在實際的醫(yī)療大數(shù)據(jù)挖掘中得到有效應用,為醫(yī)學工作者提供有效的輔助診斷工具,有助于疾病的早預防、早發(fā)現(xiàn)、早治療,提升臨床決策的效率。大量實驗證實本研究能夠快速、準確地完成醫(yī)療大數(shù)據(jù)的分析任務,但這并不意味著機器學習能夠取代醫(yī)學專家的地位。嚴格來說,兩者相輔相成。首先,在數(shù)據(jù)的準備階段,需要依賴專家的經(jīng)驗對數(shù)據(jù)進行標注;其次,在模型的構建階段,融入專家的經(jīng)驗知識有望取得比現(xiàn)有方法更優(yōu)的性能;最后,在決策階段,模型得到的預測結果需要經(jīng)過專家的解釋和認可才能用于臨床實踐。
本書具體內(nèi)容設置如下:首先提出一個結合文本挖掘與專家經(jīng)驗的機器學習問題分析框架,利用該框架詳細分析并討論醫(yī)療大數(shù)據(jù)挖掘的研究現(xiàn)狀,總結機器學習在醫(yī)療大數(shù)據(jù)中面臨的關鍵問題,然后對這些機器學習問題和相應的機器學習方法進行描述,并針對多視角學習和類別不平衡學習深入研究。
在此基礎之上,未來的研究可從以下幾個方面展開。
(1)優(yōu)化算法角度:本書使用的數(shù)據(jù)體量有限,隨著醫(yī)療數(shù)據(jù)維度和規(guī)模的爆炸式增長,設計針對高維以及大規(guī)模問題的有效求解算法具有迫切的現(xiàn)實意義。
(2)模型推廣角度:本書面向分類任務構建模型,未來可考慮將任務推廣至回歸或聚類任務中。另外,可將模型與其他學習范式結合,如多標簽學習、多示例學習、偏標記學習等,旨在提升模型解決復雜問題的能力。
(3)拓廣應用角度:本書主要為機器學習在醫(yī)療大數(shù)據(jù)挖掘中面臨的不完整視角問題與類別不平衡問題提供解決方案。事實上,該領域還存在諸多亟待解決的問題,如數(shù)據(jù)標注問題、隱私問題等。根據(jù)這些問題的特性設計不同的模型和算法將有助于完善機器學習在醫(yī)療大數(shù)據(jù)挖掘中的理論與應用。
(4)法律監(jiān)管角度:機器學習作為人工智能的核心技術,是目前各行各業(yè)最炙手可熱的賽道,醫(yī)療領域自然也不例外。但由于醫(yī)療數(shù)據(jù)與人類生命健康密切相關,任何技術的誤用或濫用都可能導致無法挽回的損失;诖,明確并制定機器學習在醫(yī)療大數(shù)據(jù)挖掘中的法律規(guī)范、責任歸屬以及操作標準將成為該領域長足發(fā)展的必要條件。
本書可作為機器學習領域研究生的擴充閱讀資料,也可供醫(yī)療大數(shù)據(jù)領域正在進行理論研究和應用研究的讀者參考。本書得到北京郵電大學經(jīng)濟管理學院、中國科學院大學經(jīng)濟與管理學院、中國科學院虛擬經(jīng)濟與數(shù)據(jù)科學研究中心、中國科學院大數(shù)據(jù)挖掘與知識管理重點實驗室等單位的支持,以及國家自然科學基金(項目編號:12071458,71901179)及北京郵電大學中央高校基本科研業(yè)務專項基金(項目編號:2023RC10)的資助,在此一并感謝!
由于著者水平有限,書中難免有不妥之處,懇請讀者批評指正。
著 者
2023年6月
付賽際,北京郵電大學講師。研究方向:醫(yī)療大數(shù)據(jù)挖掘、機器學習與最優(yōu)化。近年來在Information Sciences, Knowledge-Based Systems, Information Processing & Management發(fā)表論文10余篇,F(xiàn)任Annals of Data Science編委。參加國家自然科學基金面上項目、重點項目若干項。
第1章 醫(yī)療大數(shù)據(jù)挖掘 1
1.1?醫(yī)療大數(shù)據(jù) 1
1.2 醫(yī)療大數(shù)據(jù)文獻分析 4
1.2.1 數(shù)據(jù)準備 4
1.2.2 文本挖掘 5
1.2.3 專家經(jīng)驗 5
1.3 挖掘現(xiàn)狀與關鍵問題 10
1.3.1 醫(yī)學圖像分類 10
1.3.2 醫(yī)學圖像檢測 17
1.3.3 醫(yī)學圖像分割 20
1.3.4 醫(yī)學圖像生成 23
1.3.5 關鍵問題 25
第2章 機器學習問題 28
2.1 二分類問題 28
2.2 多分類問題 29
2.3 多標簽分類問題 30
2.4 多視角分類問題 31
2.5 多示例分類問題 31
2.6 多任務分類問題 33
2.7 遷移學習問題 34
2.8 弱監(jiān)督分類問題 34
2.9 數(shù)據(jù)生成問題 35
第3章 機器學習方法 37
3.1 傳統(tǒng)機器學習方法 37
3.1.1 k近鄰 37
3.1.2 樸素貝葉斯 38
3.1.3 決策樹 40
3.1.4 隨機森林 41
3.1.5 自適應增強 41
3.1.6 支持向量機 42
3.2 深度學習方法 44
3.2.1 CNN 44
3.2.2 RNN 46
3.2.3 GAN 46
第4章 多視角學習 48
4.1 多視角學習方法 48
4.1.1 基于完整視角的學習方法 48
4.1.2 基于不完整視角的學習方法 50
4.2 基礎模型 53
4.2.1 RSVM 53
4.2.2 PSVM-2V 54
4.3 RPSVM-2V 55
4.4 理論分析 58
4.5 拓展模型 60
4.5.1 RSVM-2K 60
4.5.2 RMKL 62
4.6 實驗分析 64
4.6.1 實驗設置 64
4.6.2 實驗結果 65
4.6.3 參數(shù)敏感性分析 71
4.6.4 譜分析 74
第5章 類別不平衡學習(一) 77
5.1 類別不平衡學習方法 77
5.1.1 采樣 77
5.1.2 代價敏感學習 78
5.1.3 集成學習 79
5.2 DEC 81
5.3 修正Stein損失函數(shù) 81
5.4 CSMS 83
5.5 理論分析 86
5.6 模型優(yōu)化 86
5.7 實驗分析 88
5.7.1 實驗設置 88
5.7.2 實驗結果 89
5.7.3 參數(shù)敏感性分析 93
5.7.4 收斂性分析 93
第6章 類別不平衡學習(二) 98
6.1 v-SVM 98
6.2 LINEX損失函數(shù) 99
6.3 v-CSSVM 99
6.4 理論分析 101
6.5 模型優(yōu)化 102
6.5.1 ADMM 102
6.5.2 GD 104
6.6 實驗分析 105
6.6.1 實驗設置 105
6.6.2 實驗結果 106
6.6.3 參數(shù)敏感性分析 109
6.6.4 收斂性分析 110
第7章 類別不平衡學習(三) 113
7.1 深度學習中的類別不平衡損失函數(shù) 113
7.1.1 WCE 114
7.1.2 FL 114
7.1.3 其他 115
7.2 深度LINEX損失函數(shù) 116
7.2.1 BC-LINEX 116
7.2.2 MC-LINEX 117
7.2.3 損失函數(shù)比較 119
7.3 模型優(yōu)化 120
7.3.1 BC-LINEX權重更新 120
7.3.2 MC-LINEX權重更新 121
7.4 實驗分析 122
7.4.1 實驗設置 122
7.4.2 實驗結果 125
7.4.3 參數(shù)敏感性分析 130
附錄A 132
A.1 定理4.1證明 132
A.2 定理4.2證明 132
A.3 第4章附表 135
附錄B 148
B.1 第5章附表 148
附錄C 150
C.1 定理6.1證明 150
C.2 第6章附表 152
參考文獻 155