讓計(jì)算機(jī)自動(dòng)處理文字一直以來都是我們工作中的重要訴求,而文字的表現(xiàn)形式是多樣的,目前,單純使用自然語言處理技術(shù)已無法滿足復(fù)雜的實(shí)際工作場景的需求。本書詳細(xì)介紹了達(dá)觀數(shù)據(jù)多年來在智能文本處理領(lǐng)域的實(shí)戰(zhàn)經(jīng)驗(yàn),從核心技術(shù)、相關(guān)產(chǎn)品、行業(yè)場景案例等多角度出發(fā),幫助讀者全面理解智能文本處理技術(shù)的意義和價(jià)值。全書分為三大部分:第一部分介紹智能文本處理的基礎(chǔ)知識(shí)、意義和相關(guān)核心技術(shù);第二部分介紹智能文本處理項(xiàng)目實(shí)施經(jīng)驗(yàn)以及在不同場景和產(chǎn)品中的應(yīng)用;第三部分總結(jié)達(dá)觀智能文本處理技術(shù)與不同行業(yè)場景的結(jié)合,供各行業(yè)有智能文本處理需求的讀者參考。
1.全面介紹智能文本處理相關(guān)技術(shù)場景。理論部分除傳統(tǒng)NLP技術(shù)外,詳細(xì)講解多個(gè)關(guān)于文檔智能處理的特色技術(shù)。
2.實(shí)踐部分以包括達(dá)觀數(shù)據(jù)在內(nèi)多個(gè)專業(yè)企業(yè)的相關(guān)產(chǎn)品項(xiàng)目經(jīng)驗(yàn)為基礎(chǔ),介紹了眾多行業(yè)、場景中的技術(shù)產(chǎn)品落地工作,具有很高的參考價(jià)值。
3.本書匯集了達(dá)觀數(shù)據(jù)在智能文本處理領(lǐng)域深耕多年的經(jīng)驗(yàn)結(jié)晶,為廣大人工智能領(lǐng)域的從業(yè)者提供豐富詳實(shí)的理論與實(shí)踐支持。
達(dá)觀數(shù)據(jù)專注于智能文本處理技術(shù),是行業(yè)內(nèi)專精特新“小巨人”企業(yè),也曾榮獲中國人工智能領(lǐng)域獎(jiǎng)項(xiàng)“吳文俊人工智能獎(jiǎng)”。達(dá)觀數(shù)據(jù)開發(fā)的“曹植”大語言模型基于該企業(yè)長期積累的技術(shù)和經(jīng)驗(yàn),能夠?yàn)榇笮推髽I(yè)和機(jī)構(gòu)提供文檔智能審閱、智能知識(shí)管理、知識(shí)搜索與問答、文檔智能寫作、智能推薦、辦公流程自動(dòng)化等服務(wù)。目前,達(dá)觀數(shù)據(jù)在行業(yè)內(nèi)市場占有率排名靠前,案例數(shù)量眾多,已幫助數(shù)百家企業(yè)提高生成效率、降低成本、提升業(yè)務(wù)合規(guī)性,助力企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,提升競爭力和創(chuàng)新能力。
第 一部 基礎(chǔ)知識(shí)
第 1章 智能文本處理概覽 2
1.1 什么是智能文本處理 2
1.1.1 智能文本處理概念 2
1.1.2 智能文本處理技術(shù) 5
1.1.3 智能文本處理的價(jià)值 7
1.2 NLP技術(shù)簡介 8
1.2.1 基本概念 9
1.2.2 文本自動(dòng)處理層次劃分 11
1.2.3 研究現(xiàn)狀及主要方法 15
1.3 書面文本處理和短文本處理 17
1.3.1 不同處理類型 17
1.3.2 書面文本應(yīng)用舉例 19
1.3.3 短文本應(yīng)用舉例 22
1.3.4 處理差異比較 26
1.4 機(jī)器學(xué)習(xí)與NLP 28
1.4.1 機(jī)器學(xué)習(xí)的基本概念與歷史 28
1.4.2 常見的機(jī)器學(xué)習(xí)任務(wù)與方法 33
1.4.3 常見機(jī)器學(xué)習(xí)問題與NLP 34
1.4.4 實(shí)戰(zhàn):如何使用機(jī)器學(xué)習(xí)方法檢測垃圾郵件 39
1.5 深度學(xué)習(xí)與NLP 44
1.5.1 深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)的差別 44
1.5.2 深度學(xué)習(xí)對(duì)NLP的推進(jìn) 51
1.5.3 深度學(xué)習(xí)研究在NLP中的局限性 54
第 2章 NLP技術(shù)概覽 59
2.1 語言模型 59
2.1.1 語言模型基本概念 59
2.1.2 N-gram語言模型 61
2.1.3 神經(jīng)網(wǎng)絡(luò)語言模型 63
2.1.4 大規(guī)模預(yù)訓(xùn)練語言模型 68
2.2 分詞與詞性標(biāo)注 71
2.2.1 概述 71
2.2.2 分詞技術(shù)詳解 73
2.2.3 詞性識(shí)別詳解 76
2.3 NER 78
2.3.1 基本概念 78
2.3.2 基于規(guī)則的NER 81
2.3.3 基于序列標(biāo)注的NER 83
2.3.4 數(shù)據(jù)增強(qiáng)方法 86
2.4 文本分類概述 88
2.4.1 文本分類任務(wù)的基本定義 88
2.4.2 基于機(jī)器學(xué)習(xí)的文本分類 89
2.4.3 基于深度學(xué)習(xí)的文本分類 92
2.4.4 文本分類算法評(píng)估 98
2.4.5 實(shí)踐經(jīng)驗(yàn)與技術(shù)進(jìn)階 100
2.5 指代消解 102
2.5.1 基本概念 102
2.5.2 指代消解技術(shù)發(fā)展 104
2.5.3 基于二元分類的機(jī)器學(xué)習(xí)方法 107
2.5.4 基于端到端的神經(jīng)網(wǎng)絡(luò)方法 108
2.5.5 基于自注意力機(jī)制的無監(jiān)督方法 111
2.6 NLG 113
2.6.1 應(yīng)用場景 113
2.6.2 文本摘要 114
2.6.3 機(jī)器翻譯 118
2.6.4 圖像生成文本 120
2.6.5 NLG評(píng)估方法 123
第3章 書面文本處理關(guān)鍵技術(shù) 124
3.1 文檔格式解析技術(shù) 124
3.1.1 Word格式解析 124
3.1.2 PDF格式解析 126
3.1.3 其他格式解析 131
3.2 文檔版面分析技術(shù) 132
3.2.1 版面分析簡介及發(fā)展歷程 133
3.2.2 基于啟發(fā)式規(guī)則的版面分析技術(shù) 134
3.2.3 基于機(jī)器學(xué)習(xí)的版面分析技術(shù) 136
3.2.4 基于深度學(xué)習(xí)的版面分析技術(shù) 136
3.2.5 版面分析最佳實(shí)踐 142
3.3 文檔表格解析技術(shù) 145
3.3.1 表格解析技術(shù)背景介紹 145
3.3.2 表格類型劃分 148
3.3.3 區(qū)域檢測技術(shù) 148
3.3.4 表格結(jié)構(gòu)識(shí)別 150
3.3.5 表格解析最佳實(shí)踐分享 153
3.4 光學(xué)字符識(shí)別技術(shù) 155
3.4.1 OCR技術(shù)簡介及發(fā)展歷程 156
3.4.2 OCR核心技術(shù) 157
3.4.3 文檔處理中的應(yīng)用和實(shí)踐 167
3.5 文檔多模態(tài)技術(shù) 171
3.5.1 多模態(tài)介紹 171
3.5.2 多模態(tài)的主要任務(wù) 173
3.5.3 文檔多模態(tài)的主要應(yīng)用 178
第二部分 項(xiàng)目覆蓋場景
第4章 產(chǎn)品技術(shù)實(shí)踐落地 184
4.1 項(xiàng)目團(tuán)隊(duì)搭建 184
4.2 AI項(xiàng)目技術(shù)實(shí)現(xiàn)路徑 187
4.2.1 歸一化處理 188
4.2.2 字段分析處理 188
4.2.3 序列標(biāo)注抽取 188
4.2.4 深度學(xué)習(xí)抽取 189
4.2.5 表格抽取 189
4.2.6 策略合并 189
4.2.7 人工規(guī)則 189
4.3 AI項(xiàng)目模型交付步驟 190
4.3.1 數(shù)據(jù)準(zhǔn)備 190
4.3.2 模型訓(xùn)練與調(diào)試 193
4.4 項(xiàng)目實(shí)施管理 195
4.4.1 項(xiàng)目實(shí)施階段分解 195
4.4.2 項(xiàng)目規(guī)劃階段 196
4.4.3 項(xiàng)目執(zhí)行階段 196
4.4.4 項(xiàng)目驗(yàn)收階段 198
4.4.5 項(xiàng)目監(jiān)控 199
第5章 聊天機(jī)器人場景 200
5.1 聊天機(jī)器人概述 200
5.1.1 聊天機(jī)器人基本概念 200
5.1.2 聊天機(jī)器人類型 201
5.2 核心技術(shù)詳解 201
5.2.1 常見系統(tǒng)架構(gòu) 201
5.2.2 對(duì)話引擎 204
5.3 應(yīng)用場景 206
5.3.1 知識(shí)助手 206
5.3.2 智能客服 209
第6章 智能文檔處理場景 211
6.1 智能文檔處理場景概覽 211
6.1.1 智能文檔處理的內(nèi)容 211
6.1.2 智能文檔產(chǎn)品的類型 212
6.2 智能文檔抽取產(chǎn)品 212
6.2.1 文檔識(shí)別與解析 213
6.2.2 圖像結(jié)構(gòu)化抽取 215
6.2.3 文檔結(jié)構(gòu)化抽取 219
6.2.4 智能文檔抽取場景介紹 222
6.3 智能文檔審核產(chǎn)品 225
6.3.1 文檔風(fēng)險(xiǎn)審核 225
6.3.2 智能文檔比對(duì) 229
6.3.3 智能文檔審核場景 232
6.4 智能文檔寫作產(chǎn)品 234
6.4.1 智能文檔寫作產(chǎn)品介紹 235
6.4.2 智能文檔寫作場景介紹 238
第7章 知識(shí)圖譜場景 239
7.1 知識(shí)圖譜概念 239
7.1.1 知識(shí)圖譜介紹 239
7.1.2 知識(shí)圖譜類型 242
7.1.3 系統(tǒng)架構(gòu)實(shí)踐 243
7.2 知識(shí)圖譜核心技術(shù) 246
7.2.1 知識(shí)圖譜表示 246
7.2.2 知識(shí)圖譜存儲(chǔ)與構(gòu)建 248
7.2.3 知識(shí)融合和知識(shí)推理 251
7.3 知識(shí)圖譜應(yīng)用 253
7.3.1 知識(shí)圖譜問答 253
7.3.2 故障分析 256
7.3.3 語義檢索和智能決策 258
第8章 用戶體驗(yàn)管理場景 260
8.1 為什么要做用戶體驗(yàn)管理 260
8.1.1 為什么要做好用戶體驗(yàn)管理 260
8.1.2 用戶體驗(yàn)管理亟須革新調(diào)研方式 261
8.2 什么是用戶體驗(yàn)管理 261
8.2.1 用戶體驗(yàn)管理的概念 262
8.2.2 用戶體驗(yàn)管理涉及的數(shù)據(jù)來源 263
8.2.3 用戶體驗(yàn)管理涉及的關(guān)鍵技術(shù) 265
8.3 用戶體驗(yàn)管理的典型應(yīng)用場景 269
8.3.1 賦能產(chǎn)品企劃設(shè)計(jì) 269
8.3.2 促進(jìn)客戶關(guān)系維系 273
8.3.3 助力品牌傳播 274
8.4 用戶體驗(yàn)管理產(chǎn)業(yè)實(shí)踐——以某制造業(yè)客戶為例 279
8.4.1 案例項(xiàng)目背景 279
8.4.2 用戶體驗(yàn)管理解決方案 279
8.4.3 用戶體驗(yàn)管理關(guān)鍵能力 285
8.4.4 業(yè)務(wù)價(jià)值 286
第9章 搜索推薦場景 288
9.1 文本處理技術(shù)在智能搜索中的應(yīng)用 288
9.1.1 智能搜索概述 288
9.1.2 智能搜索系統(tǒng)架構(gòu) 290
9.1.3 智能搜索中的文本挖掘算法 293
9.2 文本處理技術(shù)在智能推薦中的應(yīng)用 296
9.2.1 智能推薦概述 296
9.2.2 智能推薦系統(tǒng)架構(gòu) 298
9.2.3 智能推薦中的文本挖掘算法 301
第 10章 辦公機(jī)器人場景 304
10.1 辦公機(jī)器人介紹 304
10.1.1 什么是辦公機(jī)器人 304
10.1.2 辦公機(jī)器人的組成 305
10.2 智能文本處理技術(shù)與辦公機(jī)器人的結(jié)合 306
10.2.1 智能文本處理拓展了辦公機(jī)器人的能力邊界 306
10.2.2 辦公機(jī)器人中的智能文本處理技術(shù) 307
10.3 智能文本處理機(jī)器人應(yīng)用場景示例 307
10.3.1 供應(yīng)商準(zhǔn)入管理場景 307
10.3.2 企業(yè)招聘場景 309
10.3.3 企業(yè)文檔管理場景 311
10.3.4 證券業(yè)文檔審核場景 313
10.3.5 文檔寫作場景 315
第 11章 AIGC與智能寫作場景 317
11.1 智能寫作任務(wù) 317
11.1.1 智能寫作應(yīng)用場景 317
11.1.2 智能寫作技術(shù)發(fā)展脈絡(luò) 317
11.2 基于RNN Seq2Seq的文本生成 318
11.3 文本生成前沿技術(shù) 319
11.3.1 UniLM 319
11.3.2 T5 321
11.3.3 BART 322
11.3.4 GPT 324
11.3.5 GPT-2 325
11.3.6 GPT-3 325
11.3.7 InstructGPT和ChatGPT 325
11.4 智能寫作算法評(píng)估 327
11.4.1 基于詞匯 328
11.4.2 基于語義 328
11.4.3 公開數(shù)據(jù)集 329
11.5 技術(shù)挑戰(zhàn)與展望 329
第三部分 行業(yè)案例經(jīng)驗(yàn)
第 12章 銀行業(yè)與智能文本處理 332
12.1 銀行業(yè)務(wù)場景介紹 332
12.2 銀行業(yè)數(shù)字化轉(zhuǎn)型 333
12.2.1 銀行業(yè)數(shù)字化轉(zhuǎn)型現(xiàn)狀 333
12.2.2 銀行業(yè)數(shù)字化轉(zhuǎn)型思路 333
12.3 銀行業(yè)落地項(xiàng)目案例介紹 334
12.3.1 智慧信貸案例介紹 334
12.3.2 國際業(yè)務(wù)中的智能審單案例介紹 339
12.3.3 智能審貸案例介紹 342
12.3.4 RPA+IDP在銀行業(yè)中的應(yīng)用案例介紹 344
第 13章 證券業(yè)與智能文本處理 347
13.1 證券業(yè)數(shù)字化轉(zhuǎn)型現(xiàn)狀 347
13.1.1 IT投入不足 347
13.1.2 人才支撐不足 349
13.1.3 業(yè)務(wù)與技術(shù)的融合不足 350
13.1.4 證券業(yè)數(shù)字化轉(zhuǎn)型思路 350
13.2 證券業(yè)的文本處理應(yīng)用場景 350
13.2.1 經(jīng)紀(jì)業(yè)務(wù):智能資訊 350
13.2.2 資產(chǎn)托管業(yè)務(wù):智能文檔處理 352
13.2.3 投資銀行業(yè)務(wù):智能底稿系統(tǒng) 353
13.2.4 投資銀行業(yè)務(wù):銀行流水智能核查 356
13.2.5 投資銀行業(yè)務(wù):申報(bào)材料智能審核 358
13.2.6 投研業(yè)務(wù):智能投研一體化管理平臺(tái) 360
第 14章 保險(xiǎn)業(yè)與智能文本處理 366
14.1 行業(yè)背景與現(xiàn)狀 366
14.2 數(shù)字化建設(shè)思路 367
14.2.1 科技與保險(xiǎn)深度融合 367
14.2.2 開展全域數(shù)字化建設(shè) 367
14.3 智能解決方案 369
14.3.1 智慧營銷 369
14.3.2 醫(yī)療票據(jù)識(shí)別 372
14.3.3 智慧運(yùn)營管理 375
14.3.4 客服語義分析 376
14.3.5 智能知識(shí)管理 377
第 15章 大型企業(yè)創(chuàng)新應(yīng)用實(shí)戰(zhàn) 383
15.1 大型企業(yè)科技創(chuàng)新前景與挑戰(zhàn) 383
15.1.1 創(chuàng)新應(yīng)用背景 383
15.1.2 數(shù)字化轉(zhuǎn)型難點(diǎn) 384
15.1.3 如何做好人工智能項(xiàng)目 385
15.2 人工智能技術(shù)與業(yè)務(wù)融合場景 386
15.2.1 法務(wù)智能輔助審核 386
15.2.2 智能報(bào)關(guān)票據(jù)審核 391
15.2.3 商務(wù)智能詢報(bào)價(jià) 393
15.3 行業(yè)落地案例分享 394
15.3.1 某頭部安防企業(yè)智能文本審閱系統(tǒng)項(xiàng)目 394
15.3.2 某大型報(bào)關(guān)行智能數(shù)據(jù)處理系統(tǒng) 395
15.3.3 某大型工業(yè)品超市智能詢報(bào)價(jià)系統(tǒng) 397
第 16章 智能制造與智能文本處理 399
16.1 智能制造中的質(zhì)量與可靠性工程 399
16.1.1 智能制造 399
16.1.2 質(zhì)量與可靠性工程 400
16.1.3 FMEA 401
16.2 FMEA知識(shí)圖譜 404
16.2.1 FMEA知識(shí)圖譜的定義與價(jià)值 404
16.2.2 FMEA知識(shí)圖譜模式 405
16.2.3 構(gòu)建FMEA知識(shí)圖譜 406
16.3 FMEA知識(shí)圖譜應(yīng)用示范 407
16.3.1 FMEA應(yīng)用功能介紹 407
16.3.2 具體應(yīng)用案例分析 413
第 17章 建工行業(yè)與智能文本處理 417
17.1 數(shù)字化建設(shè)思路 417
17.1.1 從一線業(yè)務(wù)角度思考 417
17.1.2 從高層管理角度思考 418
17.2 智能解決方案 419
17.2.1 智慧建工項(xiàng)目管理 419
17.2.2 智慧工程圖紙應(yīng)用 423
17.2.3 智慧建工標(biāo)準(zhǔn)圖譜 426
17.2.4 智慧建工城市背調(diào) 428
第 18章 互聯(lián)網(wǎng)及傳媒與智能文本處理 431
18.1 行業(yè)現(xiàn)狀與背景 431
18.2 互聯(lián)網(wǎng)及傳媒行業(yè)數(shù)字化轉(zhuǎn)型思路 431
18.2.1 充分挖掘信息,發(fā)揮數(shù)據(jù)價(jià)值 432
18.2.2 構(gòu)建關(guān)系網(wǎng)絡(luò),信息處理更智能 432
18.2.3 立足用戶需求,展現(xiàn)個(gè)性化內(nèi)容 432
18.3 互聯(lián)網(wǎng)及傳媒行業(yè)應(yīng)用場景 434
18.3.1 基于廣電行業(yè)分析文本解析的應(yīng)用價(jià)值 434
18.3.2 基于社交行業(yè)分析知識(shí)圖譜的應(yīng)用價(jià)值 437
18.3.3 基于資訊行業(yè)分析智能推薦的應(yīng)用價(jià)值 440
18.3.4 基于電商行業(yè)分析智能.搜索的應(yīng)用價(jià)值 441