知識(shí)圖譜的發(fā)展歷史源遠(yuǎn)流長,從經(jīng)典人工智能的核心命題——知識(shí)工程,到互聯(lián)網(wǎng)時(shí)代的語義Web,再到當(dāng)下很多領(lǐng)域構(gòu)建的數(shù)千億級(jí)別的現(xiàn)代知識(shí)圖譜。知識(shí)圖譜兼具人工智能、大數(shù)據(jù)和互聯(lián)網(wǎng)的多重技術(shù)基因,是知識(shí)表示、表示學(xué)習(xí)、自然語言處理、圖數(shù)據(jù)庫和圖計(jì)算等多個(gè)領(lǐng)域技術(shù)的綜合集成。本書全面覆蓋了知識(shí)圖譜的表示、存儲(chǔ)、獲取、推理、融合、問答和分析等七大方面,100多個(gè)基礎(chǔ)知識(shí)點(diǎn)的內(nèi)容,同時(shí)囊括多模態(tài)知識(shí)圖譜、知識(shí)圖譜與圖神經(jīng)網(wǎng)絡(luò)的融合、本體表示學(xué)習(xí)、事理知識(shí)圖譜,以及知識(shí)增強(qiáng)的語言預(yù)訓(xùn)練模型等新熱點(diǎn)、新發(fā)展。作為一本導(dǎo)論性質(zhì)的書,本書希望幫助初學(xué)者梳理知識(shí)圖譜的基本知識(shí)點(diǎn)和關(guān)鍵技術(shù)要素,也希望幫助技術(shù)決策者建立知識(shí)圖譜的整體視圖和系統(tǒng)工程觀,為前沿科研人員拓展創(chuàng)新視野和研究方向。本書在技術(shù)廣度和深度上兼具極強(qiáng)的參考性,適合高等院校的計(jì)算機(jī)專業(yè)師生閱讀,也可供計(jì)算機(jī)相關(guān)行業(yè)的管理者和研發(fā)人員參考。
陳華鈞,浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授。主要研究方向?yàn)橹R(shí)圖譜、自然語言處理、大數(shù)據(jù)系統(tǒng)等。在WWW/IJCAI/AAAI/ACL/VLDB/ICDE, IEEE CIM, IEEE IS, TKDE, Briefings in Bioinformatics 等國際頂級(jí)會(huì)議或期刊上發(fā)表多篇論文。作為負(fù)責(zé)人主持2項(xiàng)國家自然科學(xué)基金重點(diǎn)類項(xiàng)目,以及國家重點(diǎn)研發(fā)計(jì)劃課題、國家重大科技專項(xiàng)項(xiàng)目及企業(yè)合作項(xiàng)目等二十余項(xiàng)。曾獲國際語義網(wǎng)會(huì)議ISWC最佳論文獎(jiǎng)(一作)、教育部技術(shù)發(fā)明一等獎(jiǎng)、國家科技進(jìn)步二等獎(jiǎng)、中國中文信息學(xué)會(huì)錢偉長科技獎(jiǎng)一等獎(jiǎng)、阿里巴巴優(yōu)秀學(xué)術(shù)合作獎(jiǎng)、博文視點(diǎn)圖書獎(jiǎng)等獎(jiǎng)勵(lì)。擔(dān)任浙江大學(xué)阿里巴巴知識(shí)引擎聯(lián)合實(shí)驗(yàn)室主任、浙江省大數(shù)據(jù)智能計(jì)算重點(diǎn)實(shí)驗(yàn)室副主任、中國人工智能學(xué)會(huì)知識(shí)工程專委會(huì)副主任、中國中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專委會(huì)副主任、全國知識(shí)圖譜大會(huì)CCKS2020 大會(huì)主席、國際語義技術(shù)聯(lián)合會(huì)議JIST2019大會(huì)主席、Elsevier Big Data Research Journal Editor in Chief。
目錄
第1章 知識(shí)圖譜概述 1
1.1 語言與知識(shí) 2
1.1.1 構(gòu)建有學(xué)識(shí)的人工智能 2
1.1.2 知識(shí)的承載與表示方式 3
1.1.3 知識(shí)圖譜是一種世界模型 5
1.2 知識(shí)圖譜的起源 7
1.2.1 知識(shí)圖譜的互聯(lián)網(wǎng)基因 7
1.2.2 數(shù)據(jù)的互聯(lián)網(wǎng)—Semantic Web 9
1.2.3 Things, Not Strings 10
1.2.4 典型的知識(shí)圖譜項(xiàng)目 10
1.2.5 知識(shí)圖譜的概念演進(jìn) 11
1.3 知識(shí)圖譜的價(jià)值 12
1.3.1 知識(shí)圖譜支持語義搜索 12
1.3.2 知識(shí)圖譜支持智能問答 12
1.3.3 知識(shí)圖譜支持下的推薦系統(tǒng) 13
1.3.4 知識(shí)圖譜輔助語言語義理解 13
1.3.5 知識(shí)圖譜擴(kuò)展視覺理解的深度和廣度 14
1.3.6 知識(shí)圖譜輔助IoT設(shè)備互聯(lián) 14
1.3.7 知識(shí)圖譜支持下的大數(shù)據(jù)分析 15
1.4 知識(shí)圖譜的技術(shù)內(nèi)涵 16
1.4.1 知識(shí)圖譜是交叉技術(shù)領(lǐng)域 16
1.4.2 知識(shí)圖譜的兩個(gè)核心技術(shù)維度 17
1.4.3 知識(shí)圖譜的技術(shù)棧 17
1.5 建立知識(shí)圖譜的系統(tǒng)工程觀 20
第2章 知識(shí)圖譜的表示 21
2.1 什么是知識(shí)表示 22
2.1.1 知識(shí)表示的五個(gè)用途 22
2.1.2 符號(hào)表示與向量表示 23
2.2 人工智能歷史發(fā)展長河中的知識(shí)表示 24
2.2.1 描述邏輯 25
2.2.2 霍恩規(guī)則邏輯 25
2.2.3 產(chǎn)生式系統(tǒng) 26
2.2.4 框架系統(tǒng) 26
2.2.5 語義網(wǎng)絡(luò) 27
2.3 知識(shí)圖譜的符號(hào)表示方法 28
2.3.1 基于圖的知識(shí)表示方法 28
2.3.2 屬性圖 29
2.3.3 RDF圖模型 30
2.3.4 OWL Web本體語言 31
2.4 知識(shí)圖譜的向量表示方法 32
2.4.1 從詞向量講起 33
2.4.2 從詞向量到實(shí)體向量 35
2.4.3 知識(shí)圖譜向量表示學(xué)習(xí)模型 35
2.4.4 知識(shí)圖譜向量表示的局限性 37
2.5 總結(jié) 38
第3章 知識(shí)圖譜的存儲(chǔ)與查詢 39
3.1 基于關(guān)系型數(shù)據(jù)庫的知識(shí)圖譜存儲(chǔ) 40
3.1.1 圖數(shù)據(jù)存儲(chǔ)的特點(diǎn) 40
3.1.2 基于三元組表的圖譜存儲(chǔ) 41
3.1.3 基于屬性表的圖譜存儲(chǔ) 41
3.1.4 基于垂直劃分表的知識(shí)圖譜存儲(chǔ) 42
3.1.5 基于全索引結(jié)構(gòu)的知識(shí)圖譜存儲(chǔ) 43
3.2 基于原生圖數(shù)據(jù)庫的知識(shí)圖譜存儲(chǔ) 44
3.2.1 關(guān)系數(shù)據(jù)庫的局限性 44
3.2.2 原生圖數(shù)據(jù)庫的優(yōu)點(diǎn) 47
3.2.3 原生圖數(shù)據(jù)庫使用舉例 49
3.2.4 什么時(shí)候使用原生圖數(shù)據(jù)庫 50
3.3 原生圖數(shù)據(jù)庫實(shí)現(xiàn)原理淺析 52
3.3.1 免索引鄰接 52
3.3.2 原生圖數(shù)據(jù)庫的物理存儲(chǔ)設(shè)計(jì) 52
3.3.3 節(jié)點(diǎn)和關(guān)系邊的存儲(chǔ)處理 53
3.3.4 圖遍歷查詢的物理實(shí)現(xiàn) 54
3.3.5 屬性數(shù)據(jù)的物理存儲(chǔ)處理 54
3.3.6 屬性圖與RDF圖存儲(chǔ)的比較 55
3.4 總結(jié) 55
第4章 知識(shí)圖譜的獲取與構(gòu)建 57
4.1 重新理解知識(shí)工程與知識(shí)獲取 58
4.1.1 知識(shí)工程發(fā)展歷史簡介 58
4.1.2 知識(shí)獲取的瓶頸問題 59
4.1.3 知識(shí)圖譜工程 60
4.1.4 知識(shí)圖譜與傳統(tǒng)知識(shí)工程的差異 61
4.2 實(shí)體識(shí)別 62
4.2.1 實(shí)體識(shí)別任務(wù)簡介 62
4.2.2 基于HMM的實(shí)體識(shí)別 63
4.2.3 基于CRF的實(shí)體識(shí)別 69
4.2.4 基于深度學(xué)習(xí)的實(shí)體識(shí)別 70
4.3 關(guān)系抽取 71
4.3.1 關(guān)系抽取任務(wù)定義 71
4.3.2 基于模板的關(guān)系抽取 72
4.3.3 基于特征工程的關(guān)系抽取 73
4.3.4 基于核函數(shù)的關(guān)系抽取 74
4.3.5 基于深度學(xué)習(xí)模型的關(guān)系抽取 75
4.3.6 實(shí)體關(guān)系聯(lián)合抽取 78
4.3.7 基于遠(yuǎn)程監(jiān)督的關(guān)系抽取 79
4.3.8 基于Bootstrapping的半監(jiān)督關(guān)系抽取 80
4.4 屬性補(bǔ)全 81
4.5 概念抽取 83
4.5.1 概念圖譜簡介 83
4.5.2 概念抽取的方法 84
4.5.3 概念圖譜的應(yīng)用場景 86
4.6 事件識(shí)別與抽取 87
4.6.1 事件抽取概述 87
4.6.2 事件抽取的方法 88
4.7 知識(shí)抽取技術(shù)前沿 91
4.7.1 知識(shí)抽取發(fā)展趨勢 91
4.7.2 少樣本知識(shí)抽取 91
4.7.3 零樣本知識(shí)抽取 93
4.7.4 終生知識(shí)抽取 94
4.8 總結(jié) 95
第5章 知識(shí)圖譜推理 96
5.1 推理簡述 97
5.1.1 什么是推理 97
5.1.2 機(jī)器推理舉例 99
5.2 知識(shí)圖譜推理簡介 101
5.2.1 知識(shí)圖譜上的推理實(shí)現(xiàn) 101
5.2.2 基于本體公理的知識(shí)圖譜推理 103
5.2.3 基于圖結(jié)構(gòu)與規(guī)則學(xué)習(xí)的知識(shí)圖譜推理 104
5.2.4 基于表示學(xué)習(xí)的知識(shí)圖譜推理 105
5.2.5 基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜推理 106
5.2.6 符號(hào)推理與表示學(xué)習(xí)的融合 107
5.3 基于符號(hào)邏輯的知識(shí)圖譜推理 108
5.3.1 基于本體的推理 108
5.3.2 基于Datalog的知識(shí)圖譜推理 113
5.3.3 基于產(chǎn)生式規(guī)則的推理 114
5.3.4 符號(hào)知識(shí)圖譜推理總結(jié) 117
5.4 基于表示學(xué)習(xí)的知識(shí)圖譜推理 117
5.4.1 利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)知識(shí)圖譜歸納推理 117
5.4.2 基于嵌入學(xué)習(xí)的知識(shí)圖譜推理 118
5.4.3 基于規(guī)則學(xué)習(xí)的知識(shí)圖譜推理 127
5.4.4 本體嵌入 136
5.5 知識(shí)圖譜推理總結(jié) 144
第6章 知識(shí)圖譜融合 146
6.1 知識(shí)圖譜融合概述 147
6.1.1 知識(shí)異構(gòu)性 147
6.1.2 知識(shí)異構(gòu)的原因分析 147
6.1.3 不同層次的知識(shí)圖譜融合 148
6.2 概念層融合——本體匹配 150
6.2.1 基于術(shù)語匹配的本體層融合 151
6.2.2 基于結(jié)構(gòu)特征的本體層融合 153
6.2.3 基于知識(shí)分塊的大規(guī)模本體匹配 154
6.3 實(shí)例層的融合——實(shí)體對(duì)齊 155
6.3.1 實(shí)體對(duì)齊方法概述 155
6.3.2 基于表示學(xué)習(xí)的實(shí)體對(duì)齊 156
6.3.3 實(shí)體融合工具簡介 158
6.4 知識(shí)融合技術(shù)前沿 159
6.5 總結(jié) 162
第7章 知識(shí)圖譜問答 163
7.1 智能問答概述 164
7.1.1 智能問答系統(tǒng)的發(fā)展歷史 164
7.1.2 智能問答系統(tǒng)的分類 166
7.1.3 實(shí)現(xiàn)知識(shí)圖譜問答的主要技術(shù)方法 169
7.1.4 知識(shí)圖譜問答的主要評(píng)測數(shù)據(jù)集 170
7.2 基于問句模板的知識(shí)圖譜問答 172
7.2.1 模板問答概述 172
7.2.2 模板問答實(shí)現(xiàn)舉例 173
7.2.3 模板的自動(dòng)化生成 175
7.3 基于語義解析的知識(shí)圖譜問答 178
7.3.1 語義解析問答概述 178
7.3.2 邏輯表達(dá)語言 179
7.3.3 語義解析舉例 181
7.3.4 橋接與短語重寫 183
7.3.5 語義解析總結(jié) 184
7.4 基于檢索排序的知識(shí)圖譜問答 185
7.4.1 檢索排序知識(shí)圖譜問答概述 185
7.4.2 實(shí)體鏈接技術(shù) 186
7.4.3 檢索排序模型 188
7.5 基于深度學(xué)習(xí)的知識(shí)圖譜問答 188
7.5.1 深度學(xué)習(xí)在知識(shí)圖譜問答中的兩種用法 188
7.5.2 利用深度學(xué)習(xí)增強(qiáng)語義解析 189
7.5.3 基于端到端神經(jīng)網(wǎng)絡(luò)模型的知識(shí)圖譜問答 192
7.6 知識(shí)圖譜問答總結(jié) 195
第8章 圖算法與圖數(shù)據(jù)分析 196
8.1 圖的基本知識(shí) 197
8.1.1 圖與網(wǎng)絡(luò)科學(xué) 197
8.1.2 圖的基本概念 198
8.1.3 圖的基本模型 201
8.2 基礎(chǔ)圖算法 204
8.2.1 圖算法概述 204
8.2.2 路徑與圖搜索算法 205
8.2.3 中心度算法 207
8.2.4 社區(qū)發(fā)現(xiàn)算法 209
8.3 圖表示學(xué)習(xí)與圖神經(jīng)網(wǎng)絡(luò) 211
8.3.1 圖表示學(xué)習(xí)概述 211
8.3.2 隨機(jī)游走序列模型 213
8.3.3 圖神經(jīng)網(wǎng)絡(luò)模型 216
8.4 知識(shí)圖譜與圖神經(jīng)網(wǎng)絡(luò) 224
8.4.1 在知識(shí)圖譜表示學(xué)習(xí)與推理中的應(yīng)用 224
8.4.2 在知識(shí)圖譜構(gòu)建中的應(yīng)用 227
8.4.3 知識(shí)圖譜+圖神經(jīng)網(wǎng)絡(luò) 229
8.5 總結(jié) 232
第9章 知識(shí)圖譜技術(shù)發(fā)展 233
9.1 多模態(tài)知識(shí)圖譜 234
9.1.1 多模態(tài)簡介 234
9.1.2 多模態(tài)的價(jià)值與作用 237
9.1.3 多模態(tài)知識(shí)圖譜舉例 239
9.1.4 多模態(tài)知識(shí)圖譜研究 242
9.1.5 多模態(tài)知識(shí)圖譜總結(jié) 247
9.2 知識(shí)圖譜與語言預(yù)訓(xùn)練 248
9.2.1 知識(shí)圖譜與語言預(yù)訓(xùn)練 248
9.2.2 語言預(yù)訓(xùn)練簡介 248
9.2.3 知識(shí)圖譜增強(qiáng)的語言預(yù)訓(xùn)練模型舉例 250
9.2.4 知識(shí)驅(qū)動(dòng)的語言預(yù)訓(xùn)練總結(jié) 255
9.3 事理知識(shí)圖譜 255
9.3.1 事理知識(shí)圖譜的定義 256
9.3.2 事理圖譜與知識(shí)圖譜 257
9.3.3 事理邏輯關(guān)系 258
9.3.4 事理圖譜的應(yīng)用 260
9.3.5 事理圖譜總結(jié) 261
9.4 知識(shí)圖譜與低資源學(xué)習(xí) 261
9.4.1 知識(shí)圖譜與低資源學(xué)習(xí) 261
9.4.2 低資源條件下的知識(shí)圖譜構(gòu)建 263
9.4.3 基于知識(shí)圖譜的低資源學(xué)習(xí) 271
9.4.4 知識(shí)圖譜與低資源學(xué)習(xí)總結(jié) 276
9.5 結(jié)構(gòu)化知識(shí)預(yù)訓(xùn)練 276
9.5.1 結(jié)構(gòu)化知識(shí)預(yù)訓(xùn)練概述 276
9.5.2 知識(shí)圖譜結(jié)構(gòu)化上下文 277
9.5.3 知識(shí)圖譜靜態(tài)預(yù)訓(xùn)練模型 278
9.5.4 知識(shí)圖譜動(dòng)態(tài)預(yù)訓(xùn)練模型 283
9.5.5 應(yīng)用實(shí)踐及實(shí)驗(yàn)結(jié)果 289
9.5.6 結(jié)構(gòu)化知識(shí)預(yù)訓(xùn)練總結(jié) 293
9.6 知識(shí)圖譜與區(qū)塊鏈 293
9.6.1 知識(shí)圖譜的價(jià)值聯(lián)邦 293
9.6.2 聯(lián)邦知識(shí)圖譜 297
9.6.3 知識(shí)圖譜與區(qū)塊鏈 297
9.6.4 開放知識(shí)圖譜與區(qū)塊鏈 299
9.6.5 知識(shí)圖譜與區(qū)塊鏈總結(jié) 300