知識(shí)圖譜是一種大規(guī)模語(yǔ)義網(wǎng)絡(luò),已經(jīng)成為大數(shù)據(jù)時(shí)代知識(shí)工程的代表性進(jìn)展。知識(shí)圖譜技術(shù)是實(shí)現(xiàn)機(jī)器認(rèn)知智能和推動(dòng)各行業(yè)智能化發(fā)展的關(guān)鍵基礎(chǔ)技術(shù)。知識(shí)圖譜也成為大規(guī)模知識(shí)工程的代表性實(shí)踐,其學(xué)科日益完善。本書(shū)是一本系統(tǒng)介紹知識(shí)圖譜概念、技術(shù)與實(shí)踐的書(shū)籍。全書(shū)共五篇,由16章構(gòu)成,力求涵蓋知識(shí)圖譜相關(guān)的基本概念與關(guān)鍵技術(shù)。“基礎(chǔ)篇”介紹知識(shí)圖譜的基本概念、內(nèi)涵與外延、歷史沿革、應(yīng)用價(jià)值,以及相關(guān)的基礎(chǔ)知識(shí)!皹(gòu)建篇”重點(diǎn)介紹大規(guī)模高質(zhì)量知識(shí)圖譜的自動(dòng)化構(gòu)建技術(shù),涵蓋詞匯挖掘、實(shí)體識(shí)別、關(guān)系抽取及概念圖譜構(gòu)建、百科圖譜構(gòu)建、眾包構(gòu)建與質(zhì)量控制等專(zhuān)題!肮芾砥毕到y(tǒng)地闡述了知識(shí)圖譜建模與存儲(chǔ)、查詢(xún)與檢索,以及圖數(shù)據(jù)管理系統(tǒng)!皯(yīng)用篇”對(duì)于基于知識(shí)圖譜的關(guān)鍵應(yīng)用技術(shù)展開(kāi)介紹,包括搜索與推薦、自然語(yǔ)言問(wèn)答,以及基于知識(shí)圖譜的自然語(yǔ)言理解!皩(shí)踐篇”介紹知識(shí)圖譜實(shí)踐中的基本原則和有用實(shí)踐,初步討論了知識(shí)圖譜實(shí)踐中的開(kāi)放性問(wèn)題。
主要作者 肖仰華 博士,復(fù)旦大學(xué)教授、博士生導(dǎo)師、復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室創(chuàng)始人。曾擔(dān)任多家企業(yè)高級(jí)技術(shù)顧問(wèn)與首席科學(xué)家。曾獲得十多個(gè)國(guó)家、省/市、企業(yè)級(jí)的研究獎(jiǎng)項(xiàng),曾承擔(dān)三十多項(xiàng)國(guó)家、省/市、企業(yè)級(jí)研發(fā)項(xiàng)目。在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議與期刊(包括SIGMOD、VLDB、ICDE、IJCAI、AAAI、ACL、TKDE等)發(fā)表論文百余篇,授權(quán)近20項(xiàng)知識(shí)圖譜專(zhuān)利。擔(dān)任多個(gè)國(guó)際期刊編委,百余次為國(guó)際/國(guó)內(nèi)學(xué)術(shù)機(jī)構(gòu)/會(huì)議提供學(xué)術(shù)服務(wù)工作。領(lǐng)導(dǎo)構(gòu)建了知識(shí)工場(chǎng)平臺(tái),發(fā)布了一系列知識(shí)圖譜包括CN-DBpedia、CN-Probase等。
第1篇 基礎(chǔ)篇
第1章 知識(shí)圖譜概述 2
1.1 知識(shí)圖譜的基本概念 2
1.1.1 知識(shí)圖譜的狹義概念 3
1.1.2 知識(shí)圖譜的廣義概念 8
1.2 知識(shí)圖譜的歷史沿革 10
1.2.1 知識(shí)圖譜溯源 10
1.2.2 大數(shù)據(jù)知識(shí)工程 13
1.3 知識(shí)圖譜的研究意義 16
1.3.1 知識(shí)圖譜是認(rèn)知智能的基石 16
1.3.2 知識(shí)引導(dǎo)成為解決問(wèn)題的重要方式之一 19
1.4 知識(shí)圖譜的應(yīng)用價(jià)值 20
1.4.1 數(shù)據(jù)分析 20
1.4.2 智慧搜索 21
1.4.3 智能推薦 22
1.4.4 自然人機(jī)交互 23
1.4.5 決策支持 23
1.5 知識(shí)圖譜的分類(lèi) 24
1.5.1 知識(shí)圖譜中的知識(shí)分類(lèi) 25
1.5.2 知識(shí)圖譜的領(lǐng)域特性 26
1.5.3 典型知識(shí)圖譜 30
本章小結(jié) 38
思考題 39
參考文獻(xiàn) 40
第2章 基礎(chǔ)知識(shí) 43
2.1 概述 43
2.2 知識(shí)表示 45
2.2.1 基本概念 45
2.2.2 知識(shí)圖譜的圖表示 47
2.2.3 知識(shí)圖譜的數(shù)值表示 49
2.2.4 其他相關(guān)知識(shí)表示 54
2.3 機(jī)器學(xué)習(xí) 64
2.3.1 機(jī)器學(xué)習(xí)的基本概念 65
2.3.2 深度學(xué)習(xí)概述 67
2.3.3 卷積神經(jīng)網(wǎng)絡(luò) 70
2.3.4 循環(huán)神經(jīng)網(wǎng)絡(luò) 71
2.3.5 注意力機(jī)制 72
2.4 自然語(yǔ)言處理 73
2.4.1 基本概念 74
2.4.2 文本的向量化表示 76
本章小結(jié) 78
思考題 79
參考文獻(xiàn) 80
第2篇 構(gòu)建篇
第3章 詞匯挖掘與實(shí)體識(shí)別 84
3.1 概述 84
3.2 領(lǐng)域短語(yǔ)挖掘 86
3.2.1 問(wèn)題描述 87
3.2.2 領(lǐng)域短語(yǔ)挖掘方法 88
3.2.3 統(tǒng)計(jì)指標(biāo)特征 91
3.3 同義詞挖掘 95
3.3.1 概述 95
3.3.2 典型方法 96
3.4 縮略詞抽取 101
3.4.1 縮略詞的概念與形式 101
3.4.2 縮略詞的檢測(cè)與抽取 103
3.4.3 縮略詞的預(yù)測(cè) 105
3.5 實(shí)體識(shí)別 109
3.5.1 概述 109
3.5.2 傳統(tǒng)的NER方法 110
3.5.3 基于深度學(xué)習(xí)的NER方法 114
3.5.4 近期的一些方法 120
本章小結(jié) 121
思考題 122
參考文獻(xiàn) 122
第4章 關(guān)系抽取 127
4.1 概述 127
4.1.1 關(guān)系抽取的問(wèn)題和方法分類(lèi) 128
4.1.2 關(guān)系抽取常用數(shù)據(jù)集 130
4.1.3 關(guān)系抽取評(píng)估方法 131
4.2 基于模式的抽取 133
4.2.1 基于字符模式的抽取 134
4.2.2 基于語(yǔ)法模式的抽取 135
4.2.3 基于語(yǔ)義模式的抽取 135
4.2.4 自動(dòng)化模式獲取:自舉法 136
4.2.5 基于模式抽取的質(zhì)量評(píng)估 138
4.3 基于學(xué)習(xí)的抽取 139
4.3.1 基于監(jiān)督學(xué)習(xí)的關(guān)系抽取 140
4.3.2 基于遠(yuǎn)程監(jiān)督學(xué)習(xí)的關(guān)系抽取 142
4.3.3 基于深度學(xué)習(xí)的關(guān)系抽取 144
4.4 開(kāi)放關(guān)系抽取 150
4.4.1 TextRunner 151
4.4.2 ReVerb 152
4.4.3 Ollie 154
本章小結(jié) 154
思考題 156
參考文獻(xiàn) 157
第5章 概念圖譜構(gòu)建 160
5.1 概述 160
5.1.1 常見(jiàn)的概念圖譜 163
5.1.2 概念圖譜的應(yīng)用 166
5.2 isA關(guān)系抽取 168
5.2.1 基于在線百科的方法 169
5.2.2 基于模式的方法 170
5.2.3 中文概念圖譜的構(gòu)建 172
5.3 isA關(guān)系補(bǔ)全 175
5.3.1 isA關(guān)系缺失的成因 176
5.3.2 基于isA關(guān)系傳遞性的概念圖譜補(bǔ)全 177
5.3.3 基于協(xié)同過(guò)濾思想的概念圖譜補(bǔ)全 179
5.4 isA關(guān)系糾錯(cuò) 181
5.4.1 錯(cuò)誤的成因 182
5.4.2 基于支持度的糾錯(cuò) 183
5.4.3 基于圖模型的糾錯(cuò) 184
本章小結(jié) 185
思考題 186
參考文獻(xiàn) 187
第6章 百科圖譜構(gòu)建 189
6.1 概述 189
6.1.1 什么是百科圖譜 189
6.1.2 百科圖譜的意義 190
6.1.3 百科圖譜的分類(lèi) 191
6.2 基于單源的百科圖譜構(gòu)建 192
6.2.1 數(shù)據(jù)獲取 193
6.2.2 屬性抽取 195
6.2.3 關(guān)系構(gòu)建 200
6.2.4 概念層級(jí)體系構(gòu)建 201
6.2.5 實(shí)體分類(lèi) 201
6.3 基于多源的百科圖譜融合 207
6.3.1 基于多個(gè)知識(shí)圖譜的融合方法 207
6.3.2 基于多源異構(gòu)數(shù)據(jù)的融合方法 215
本章小結(jié) 216
思考題 217
參考文獻(xiàn) 217
第7章 知識(shí)圖譜的眾包構(gòu)建 221
7.1 概述 221
7.2 知識(shí)型眾包的基本概念 223
7.3 知識(shí)型眾包研究的問(wèn)題 226
7.3.1 What(對(duì)什么任務(wù)進(jìn)行眾包) 226
7.3.2 Whom(將任務(wù)交予誰(shuí)完成) 229
7.3.3 How(如何完成眾包) 230
7.4 基于眾包的知識(shí)圖譜構(gòu)建與精化 235
7.4.1 本體構(gòu)建階段的人工介入 235
7.4.2 知識(shí)圖譜構(gòu)建階段的人工介入 237
7.4.3 知識(shí)圖譜精化階段的人工介入 242
本章小結(jié) 244
思考題 245
參考文獻(xiàn)
第8章 知識(shí)圖譜的質(zhì)量控制 250
8.1 概述 251
8.1.1 知識(shí)圖譜質(zhì)量評(píng)估的維度 251
8.1.2 知識(shí)圖譜質(zhì)量評(píng)估的方法 253
8.1.3 知識(shí)圖譜質(zhì)量控制全周期概覽 254
8.2 缺失知識(shí)的發(fā)現(xiàn)與補(bǔ)全 260
8.2.1 類(lèi)型補(bǔ)全 260
8.2.2 關(guān)系補(bǔ)全 263
8.2.3 屬性值補(bǔ)全 268
8.3 錯(cuò)誤知識(shí)的發(fā)現(xiàn)與糾正 270
8.3.1 錯(cuò)誤實(shí)體類(lèi)型檢測(cè) 271
8.3.2 錯(cuò)誤實(shí)體關(guān)系檢測(cè) 271
8.3.3 錯(cuò)誤屬性值檢測(cè) 273
8.4 過(guò)期知識(shí)的更新 274
8.4.1 基于更新頻率預(yù)測(cè)的更新機(jī)制 275
8.4.2 基于時(shí)間標(biāo)簽的更新機(jī)制 276
8.4.3 基于熱點(diǎn)事件發(fā)現(xiàn)的更新機(jī)制 277
本章小結(jié) 278
思考題 279
參考文獻(xiàn) 280
第3篇 管理篇
第9章 知識(shí)圖譜的建模與存儲(chǔ) 286
9.1 概述 286
9.2 知識(shí)圖譜的數(shù)據(jù)模型 287
9.2.1 知識(shí)圖譜的三元組模型 287
9.2.2 知識(shí)圖譜的圖模型 291
9.3 知識(shí)圖譜的物理存儲(chǔ) 296
9.3.1 知識(shí)圖譜數(shù)據(jù)的基本操作 296
9.3.2 知識(shí)圖譜的關(guān)系表存儲(chǔ) 297
9.3.3 知識(shí)圖譜的圖存儲(chǔ) 302
9.3.4 分布式計(jì)算環(huán)境下的知識(shí)圖譜數(shù)據(jù)存儲(chǔ) 305
本章小結(jié) 309
思考題 310
參考文獻(xiàn) 310
第10章 知識(shí)圖譜的查詢(xún)與檢索 314
10.1 概述 314
10.2 查詢(xún)語(yǔ)言:SPARQL 315
10.2.1 簡(jiǎn)單查詢(xún) 315
10.2.2 SPARQL查詢(xún)機(jī)制及知識(shí)圖譜上的推理 321
10.3 子圖查詢(xún) 324
10.3.1 子圖查詢(xún)基本知識(shí) 324
10.3.2 近似子圖查詢(xún) 326
10.3.3 Top-k查詢(xún) 331
10.3.4 索引結(jié)構(gòu) 334
10.4 其他查詢(xún) 335
10.4.1 路徑查詢(xún) 335
10.4.2 關(guān)鍵詞查詢(xún) 337
10.4.3 社團(tuán)搜索 339
本章小結(jié) 342
思考題 343
參考文獻(xiàn) 343
第11章 圖數(shù)據(jù)管理系統(tǒng) 347
11.1 概述 347
11.2 知識(shí)圖譜與圖數(shù)據(jù)管理系統(tǒng) 348
11.2.1 大圖管理的挑戰(zhàn) 350
11.2.2 圖數(shù)據(jù)管理系統(tǒng)的重要性 352
11.2.3 圖數(shù)據(jù)管理系統(tǒng)管理知識(shí)圖譜的挑戰(zhàn) 354
11.3 圖數(shù)據(jù)管理系統(tǒng)的基本架構(gòu)和設(shè)計(jì)原則 357
11.4 典型的圖數(shù)據(jù)管理系統(tǒng) 360
11.4.1 通用圖數(shù)據(jù)管理系統(tǒng) 361
11.4.2 知識(shí)圖譜專(zhuān)用圖數(shù)據(jù)管理系統(tǒng) 364
11.4.3 圖數(shù)據(jù)管理系統(tǒng)使用實(shí)例 366
本章小結(jié) 370
思考題 371
參考文獻(xiàn) 371
第4篇 應(yīng)用篇
第12章 基于知識(shí)圖譜的語(yǔ)言認(rèn)知 374
12.1 概述 375
12.1.1 語(yǔ)言理解的挑戰(zhàn) 375
12.1.2 語(yǔ)言理解需要知識(shí)圖譜 376
12.1.3 語(yǔ)言理解的任務(wù) 377
12.2 實(shí)體理解 378
12.2.1 基本模型 379
12.2.2 局部實(shí)體鏈接分?jǐn)?shù) 380
12.2.3 全局實(shí)體鏈接分?jǐn)?shù) 381
12.2.4 模型計(jì)算 382
12.2.5 短文本實(shí)體鏈接 388
12.2.6 跨語(yǔ)言實(shí)體鏈接 389
12.3 概念理解 391
12.3.1 單實(shí)例概念理解 391
12.3.2 多實(shí)例概念理解 393
12.3.3 短語(yǔ)概念理解 395
12.3.4 關(guān)系對(duì)概念理解 397
12.3.5 概念理解應(yīng)用舉例 398
12.4 屬性理解 399
本章小結(jié) 401
思考題 402
參考文獻(xiàn) 402
第13章 基于知識(shí)圖譜的搜索與推薦 405
13.1 概述 405
13.2 基于知識(shí)圖譜的搜索 408
13.2.1 搜索概述 408
13.2.2 搜索意圖理解 411
13.2.3 目標(biāo)查找 413
13.2.4 結(jié)果呈現(xiàn) 413
13.2.5 實(shí)體探索 414
13.3 基于知識(shí)圖譜的推薦 419
13.3.1 推薦的基本問(wèn)題與挑戰(zhàn) 419
13.3.2 基于知識(shí)圖譜的物品畫(huà)像 422
13.3.3 基于知識(shí)圖譜的用戶畫(huà)像 427
13.3.4 基于知識(shí)圖譜的跨領(lǐng)域推薦 429
13.3.5 基于知識(shí)圖譜的可解釋推薦 432
本章小結(jié) 433
思考題 435
參考文獻(xiàn) 435
第14章 基于知識(shí)圖譜的問(wèn)答 438
14.1 概述 438
14.1.1 問(wèn)答系統(tǒng) 438
14.1.2 KBQA 441
14.2 基于模板的KBQA 449
14.2.1 基于模板的意圖識(shí)別 449
14.2.2 基于模板的屬性關(guān)聯(lián) 451
14.3 基于圖模型的KBQA 453
14.3.1 監(jiān)督學(xué)習(xí)方法 453
14.3.2 無(wú)監(jiān)督方法 455
14.4 基于深度學(xué)習(xí)的KBQA 457
14.4.1 表示學(xué)習(xí) 458
14.4.2 分類(lèi)模型 459
14.4.3 生成模型 461
本章小結(jié) 462
思考題 463
參考文獻(xiàn) 464
第5篇 實(shí)踐篇
第15章 知識(shí)圖譜實(shí)踐 468
15.1 概述 468
15.1.1 知識(shí)圖譜應(yīng)用的推動(dòng)力 469
15.1.2 知識(shí)圖譜應(yīng)用與產(chǎn)業(yè)現(xiàn)狀 471
15.1.3 知識(shí)圖譜實(shí)踐的系統(tǒng)工程觀念 472
15.1.4 知識(shí)圖譜助力行業(yè)智能化的演進(jìn)路徑 474
15.2 知識(shí)圖譜系統(tǒng) 476
15.2.1 知識(shí)圖譜系統(tǒng)的外部環(huán)境 476
15.2.2 知識(shí)圖譜系統(tǒng)的關(guān)鍵要素 477
15.2.3 知識(shí)圖譜系統(tǒng)的典型架構(gòu) 479
15.3 知識(shí)圖譜工程 485
15.3.1 基本原則 486
15.3.2 過(guò)程模型 489
15.3.3 可行性分析 491
15.3.4 實(shí)踐建議 495
本章小結(jié) 499
思考題 499
參考文獻(xiàn) 500
第16章 開(kāi)放性問(wèn)題 501
16.1 知識(shí)表示 501
16.1.1 與其他知識(shí)表示相聯(lián)合的語(yǔ)義增強(qiáng) 501
16.1.2 過(guò)程語(yǔ)義增強(qiáng) 502
16.1.3 時(shí)空語(yǔ)義增強(qiáng) 503
16.1.4 跨模態(tài)語(yǔ)義增強(qiáng) 504
16.2 知識(shí)獲取 504
16.2.1 低成本知識(shí)獲取 505
16.2.2 復(fù)雜知識(shí)的獲取 506
16.2.3 知識(shí)獲取中的人機(jī)協(xié)作與評(píng)測(cè) 508
16.3 知識(shí)應(yīng)用 509
16.3.1 知識(shí)圖譜上的推理 509
16.3.2 符號(hào)知識(shí)增強(qiáng)機(jī)器學(xué)習(xí) 510
16.3.3 基于知識(shí)圖譜的可解釋人工智能 511
16.3.4 知識(shí)圖譜的個(gè)性化問(wèn)題 511
本章小結(jié) 512
思考題 513
參考文獻(xiàn) 513