本書包括五個部分:第yi部分介紹文本情感分析的研究背景、研究現(xiàn)狀和基礎技術(shù);第二部分從內(nèi)容語義理解的角度出發(fā),介紹基于隱式表達的諷刺檢測技術(shù);第三部分從用戶個性化建模的角度出發(fā),介紹多輪對話中的情緒分析技術(shù);第四部分介紹小樣本場景下的立場檢測解決方案;第五部分介紹對抗攻擊場景下的情感分類防御技術(shù)。
前言
文本情感分析是自然語言處理、人工智能與認知科學等領域的重要研究方向之一。通過計算機自動進行文本情感分析的研究始于20世紀90年代,早期研究以文本情感分類為主,即把文本按照主觀傾向性分成正面、負面和中性三類。其中正面類別是指文本體現(xiàn)出支持的、積極的、喜歡的態(tài)度和立場,負面類別是指文本體現(xiàn)出反對的、消極的、厭惡的態(tài)度和立場,中性類別是指沒有偏向的態(tài)度和立場。隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們越來越習慣于在社交網(wǎng)絡上發(fā)表主觀性言論。社交網(wǎng)絡中的大量用戶生成數(shù)據(jù)為情感分析提供了新的機遇,同時也帶來了新的挑戰(zhàn)。
從內(nèi)容的角度看,很多言論所蘊含的情感是隱式的,而機器很難從表面文字推理言外之意;從用戶的角度看,每個人的性格不同導致情感表達的方式也不同,所以要考慮用戶特征進行個性化情感分析,不能一概而論;從語料的角度看,對于低資源領域或者任務,已有的數(shù)據(jù)驅(qū)動模型難以取得令人滿意的效果;從魯棒性和安全性的角度看,現(xiàn)有的深度學習模型很容易受到不易覺察的對抗攻擊,從而產(chǎn)生錯誤的情感預測。因此,傳統(tǒng)的文本情感分析方法已經(jīng)難以滿足復雜網(wǎng)絡數(shù)據(jù)的分析需求。此外,隨著個性化推薦、用戶畫像分析、對話機器人等新技術(shù)和新應用的興起,相關的情感分析技術(shù)也需要不斷升級,從而提供更加智能化、更加人性化、更加共情的情感分析服務。
本書針對以上挑戰(zhàn),全面系統(tǒng)地介紹高級文本情感分析的核心技術(shù)與應用實踐。本書包括五個部分:部分介紹文本情感分析的研究背景、研究現(xiàn)狀和基礎技術(shù);第二部分從內(nèi)容語義理解的角度出發(fā),介紹基于隱式表達的諷刺檢測技術(shù);第三部分從用戶個性化建模的角度出發(fā),介紹多輪對話中的情緒分析技術(shù);第四部分介紹小樣本場景下的立場檢測解決方案;第五部分介紹對抗攻擊場景下的情感分類防御技術(shù)。
本書可以為人工智能、機器學習、自然語言處理和社會計算等領域的從業(yè)者和科研人員提供一些前沿視野及相關理論、方法和技術(shù),如基于隱式表達的諷刺檢測、面向個性化的多輪對話情緒分析、小樣本場景下的立場檢測等,也可作為相關專業(yè)高年級本科生或研究生的參考教材。
由于作者水平有限,因此盡管盡了的努力,但書中依然難免存在疏漏和錯誤之處,敬請廣大專家、讀者批評指正。
作者
2023年1月
林政 中國科學院信息工程研究所研究員、博士生導師,中國科學院信息工程研究所第三研究室IIE-NLP小組負責人。主要研究領域是自然語言處理、網(wǎng)絡內(nèi)容安全,具體包括情感/情緒分析、機器閱讀理解、神經(jīng)網(wǎng)絡模型壓縮等研究任務。在2018、2019年連續(xù)獲得兩屆全國“軍事智能-機器閱讀”挑戰(zhàn)賽冠軍。2020年在常識推理閱讀國際比賽排行榜上取得了三個任務的名。近幾年在TASLP、ACL、EMNLP、AAAI、IJCAI、WWW、CIKM、WSDM、ICMR等國內(nèi)外學術(shù)會議和期刊上發(fā)表論文50篇,入選科技部F5000優(yōu)秀論文,獲得國家自然科學基金青年項目、面上項目、國家重點研發(fā)計劃等多個項目資助。
目錄
前言
部分
第1章 概述2
1.1文本情感分析相關概念2
1.2文本情感分析方法4
1.2.1基于知識庫的方法4
1.2.2基于機器學習的方法4
1.2.3基于深度學習的方法5
1.3情感分析的應用5
1.3.1商業(yè)領域5
1.3.2文化領域6
1.3.3社會管理7
1.3.4信息預測7
1.3.5情緒管理8
1.3.6智能客服8
1.4情感分析面臨的困難9
1.5機遇和挑戰(zhàn)9
1.6本章小結(jié)10
第2章文本情感分析基礎13
2.1有監(jiān)督學習13
2.2無監(jiān)督學習13
2.3半監(jiān)督學習14
2.4詞向量14
2.4.1詞向量表示的演化過程14
2.4.2詞嵌入方法15
2.5卷積神經(jīng)網(wǎng)絡18
2.5.1卷積層19
2.5.2激活函數(shù)層20
2.5.3池化層21
2.5.4全連接層22
2.6循環(huán)神經(jīng)網(wǎng)絡22
2.7記憶網(wǎng)絡24
2.8預訓練模型25
2.8.1模型結(jié)構(gòu)25
2.8.2預訓練任務27
2.9本章小結(jié)27
第二部分
第3章基于文本片段不一致性的諷刺
檢測模型32
3.1任務與術(shù)語32
3.2片段不一致性32
3.3自注意力機制33
3.4模型框架33
3.4.1總體框架33
3.4.2輸入模塊34
3.4.3卷積模塊34
3.4.4重要性權(quán)重模塊34
3.4.5注意力機制模塊35
3.4.6輸出模塊35
3.4.7訓練目標36
3.5實驗設計和結(jié)果分析36
3.5.1數(shù)據(jù)集介紹36
3.5.2實驗環(huán)境和設置37
3.5.3基線模型37
3.5.4對比實驗結(jié)果37
3.5.5消融實驗結(jié)果39
3.5.6模型分析39
3.6應用實踐41
3.7本章小結(jié)42
第4章基于常識知識的諷刺檢測
44
4.1任務與術(shù)語44
4.2常識知識資源44
4.3知識生成方法45
4.4知識選擇方法45
4.5知識融合方法46
4.6模型框架47
4.7實驗設計和結(jié)果分析47
4.7.1數(shù)據(jù)集介紹47
4.7.2實驗環(huán)境和設置48
4.7.3基線模型48
4.7.4對比實驗結(jié)果48
4.7.5消融實驗結(jié)果50
4.7.6模型分析50
4.8應用實踐52
4.9本章小結(jié)53
第5章基于多模態(tài)數(shù)據(jù)的諷刺檢測
55
5.1任務與術(shù)語55
5.2模態(tài)內(nèi)注意力55
5.3模態(tài)間注意力56
5.4模型框架57
5.5實驗設計和結(jié)果分析57
5.5.1數(shù)據(jù)集介紹57
5.5.2實驗環(huán)境和設置58
5.5.3基線模型58
5.5.4對比實驗結(jié)果59
5.5.5消融實驗結(jié)果59
5.5.6模型分析60
5.6應用實踐61
5.7本章小結(jié)63
第三部分
第6章基于用戶建模的對話情緒分析
66
6.1任務與術(shù)語66
6.2層級Transformer和Mask機制
69
6.3自己-自己關系建模71
6.4自己-其他關系建模72
6.5用戶關系權(quán)重選擇72
6.6模型框架73
6.7應用實踐76
6.7.1常用數(shù)據(jù)集76
6.7.2其他對話用戶關系建模模型
76
6.7.3實驗結(jié)果77
6.8本章小結(jié)80
第7章基于過去、現(xiàn)在和未來的對話
情緒分析84
7.1任務與術(shù)語84
7.2常識知識庫85
7.2.1ATOMIC常識知識庫86
7.2.2COMET知識生成模型87
7.2.3COMETATOMIC2020知識生成
模型88
7.3圖神經(jīng)網(wǎng)絡88
7.4基于知識的情緒預測92
7.4.1知識增強的Transformer93
7.4.2COSMIC情緒預測模型94
7.5對話上下文交互圖構(gòu)建95
7.6模型框架97
7.7應用實踐98
7.8本章小結(jié)99
第8章基于平衡特征空間的不平衡
情緒分析102
8.1情緒分析中的不平衡問題102
8.2基于重采樣的平衡策略103
8.3基于重權(quán)重化的平衡策略104
8.3.1類別平衡損失函數(shù)104
8.3.2標簽分布感知的間隔損失函數(shù)
106
8.4基于數(shù)據(jù)增強的平衡策略107
8.4.1計算機視覺中的基于數(shù)據(jù)增強
的平衡策略107
8.4.2自然語言處理中的數(shù)據(jù)增強方法
108
8.5Focal損失函數(shù)108
8.6自我調(diào)整的Dice損失函數(shù)109
8.7中心損失函數(shù)110
8.8三元組中心損失函數(shù)110
8.9馬氏分布中心111
8.10特征空間平衡損失函數(shù)112
8.11應用實踐113
8.11.1代碼實現(xiàn)113
8.11.2實驗性能115
8.12本章小結(jié)117
第四部分
第9章基于語義-情緒知識的跨目標
立場檢測122
9.1任務描述122
9.2立場檢測基礎模型123
9.3語義知識和情緒知識123
9.4模型框架124
9.5語義-情緒圖建模125
9.6知識增強的BiLSTM網(wǎng)絡125
9.7立場檢測分類器127
9.8模型應用127
9.8.1實驗說明127
9.8.2實驗結(jié)果與分析128
9.9本章小結(jié)129
第10章基于元學習的跨領域立場檢測
131
10.1元學習概念131
10.2有監(jiān)督元學習131
10.2.1基于度量的元學習方法131
10.2.2基于模型的元學習方法133
10.2.3基于優(yōu)化的元學習方法135
10.3MAML算法136
10.4基于元學習的立場檢測模型
137
10.5應用實踐138
10.5.1數(shù)據(jù)集介紹138
10.5.2實驗細節(jié)139
10.5.3對比模型139
10.5.4實驗結(jié)果139
10.5.5核心代碼140
10.6本章小結(jié)142
第11章知識增強的零樣本和小樣本
立場檢測144
11.1任務與術(shù)語144
11.2概念知識圖145
11.3多關系圖神經(jīng)網(wǎng)絡146
11.4基于多關系圖神經(jīng)網(wǎng)絡的
知識圖編碼147
11.5知識增強的立場檢測模型
147
11.6應用實踐149
11.6.1實驗設置149
11.6.2核心代碼149
11.6.3對比方法152
11.6.4實驗結(jié)果與分析152
11.7本章小結(jié)154
第五部分
第12章面向情感分類的對抗攻擊
158
12.1對抗樣本的概念158
12.1.1對抗樣本的提出158
12.1.2對抗樣本的定義159
12.2擾動控制160
12.2.1編輯距離160
12.2.2歐氏距離160
12.2.3余弦距離161
12.2.4Jaccard相似系數(shù)161
12.2.5單詞移動距離161
12.2.6各種指標的應用161
12.3白盒攻擊與黑盒攻擊162
12.4目標攻擊與非目標攻擊16