統(tǒng)計(jì)語言建模與中文文本自動(dòng)校對(duì)技術(shù)
本書是作者多年來在自然語言處理領(lǐng)域開展對(duì)統(tǒng)計(jì)語言建模以及中文文本校對(duì)技術(shù)研究的總結(jié)。
主要內(nèi)容包括統(tǒng)計(jì)語言建模和中文文本自動(dòng)校對(duì)技術(shù)兩部分內(nèi)容,共12章。前面部分介紹統(tǒng)計(jì)語言模型構(gòu)建的基本原理與方法,并對(duì)模型訓(xùn)練及評(píng)價(jià)方法進(jìn)行研究,提出統(tǒng)計(jì)語言模型建模時(shí)訓(xùn)練語料規(guī)模的定量化度量方法。后面部分概述中文文本中常見的各種錯(cuò)誤,并針對(duì)這些錯(cuò)誤類型提出字詞級(jí)、句法級(jí)和語義級(jí)錯(cuò)誤的自動(dòng)偵測(cè)方法與模型,開創(chuàng)了漢語文本語義錯(cuò)誤自動(dòng)偵測(cè)的新思路,提出了中文文本錯(cuò)誤的糾錯(cuò)建議生成與排序模型。*后基于所提出的模型與算法開發(fā)了一個(gè)"正文通"中文文本校對(duì)系統(tǒng)。
本書可作為在自然語言處理領(lǐng)域開展中文文本自動(dòng)校對(duì)技術(shù)與方法研究的相關(guān)人員的參考用書。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
導(dǎo)語_點(diǎn)評(píng)_推薦詞
序言
目錄
第一章 緒論 1
1.1 撰寫本書的背景和意義 1
1.2 本書的主要內(nèi)容與組織結(jié)構(gòu) 3
1.3 本書重點(diǎn)關(guān)注的問題 4
第二章 統(tǒng)計(jì)語言模型 7
2.1 語言模型概述 7
2.2 現(xiàn)有主要統(tǒng)計(jì)語言模型 7
2.2.1 上下文無關(guān)模型 7
2.2.2 n-gram 模型 8
2.2.3 隱Markov 模型 11
2.2.4 決策樹模型 18
2.2.5 Cache-based 模型 18
2.3 統(tǒng)計(jì)語言模型的建模技術(shù) 19
2.3.1 基于最大似然法的語言建模 19
2.3.2 基于組合思想的語言建模 21
2.3.3 基于信息論最大熵方法的語言建模 23
2.4 統(tǒng)計(jì)語言建模的相關(guān)問題 24
2.4.1 語言模型的架構(gòu) 24
2.4.2 語言模型參數(shù)的確定 24
2.4.3 數(shù)據(jù)稀疏問題與模型平滑 25
2.4.4 語言模型的評(píng)價(jià) 26
2.5 本章小結(jié) 26
第三章 漢語統(tǒng)計(jì)語言模型的構(gòu)建 27
3.1 漢語統(tǒng)計(jì)語言模型構(gòu)建概述 27
3.2 漢語文本分詞及其相關(guān)問題 27
3.2.1 機(jī)讀詞典的建立 27
3.2.2 漢語文本分詞算法 28
3.2.3 分詞中的中國人名識(shí)別 31
3.2.4 實(shí)驗(yàn)結(jié)果與分析 37
3.3 漢語建模原理與文本統(tǒng)計(jì)系統(tǒng)的建立 39
3.3.1 漢語n-gram 模型的構(gòu)建原理 39
3.3.2 文本統(tǒng)計(jì)系統(tǒng)的組成及實(shí)現(xiàn) 39
3.3.3 字詞統(tǒng)計(jì)算法與程序 40
3.4 幾種漢語語言模型與實(shí)驗(yàn)結(jié)果 41
3.5 本章小結(jié) 42
第四章 漢語統(tǒng)計(jì)語言模型的訓(xùn)練與評(píng)價(jià) 43
4.1 語言模型訓(xùn)練樣本的選取 43
4.2 漢語語言模型訓(xùn)練樣本的規(guī)模 43
4.2.1 語言模型階數(shù)與訓(xùn)練樣本規(guī)模 43
4.2.2 漢語語言模型的訓(xùn)練語料規(guī)模 45
4.2.3 樣本規(guī)模與詞的使用頻率和統(tǒng)計(jì)相對(duì)誤差關(guān)系 48
4.3 統(tǒng)計(jì)語言模型的評(píng)價(jià) 50
4.3.1 基于信息熵的復(fù)雜度度量 50
4.3.2 基于困惑度的復(fù)雜度度量 54
4.4 漢語信息熵的估算方法 55
4.4.1 語言信息熵的估算 55
4.4.2 對(duì)幾種漢語語言模型的比較與評(píng)價(jià) 55
4.5 本章小結(jié) 56
第五章 文本校對(duì)技術(shù)的現(xiàn)狀分析 57
5.1 英文文本自動(dòng)校對(duì)技術(shù) 57
5.1.1 英文文本中的錯(cuò)誤種類 57
5.1.2 單詞錯(cuò)誤的發(fā)現(xiàn)與校對(duì)技術(shù) 57
5.1.3 上下文相關(guān)的錯(cuò)誤校對(duì)技術(shù) 59
5.2 中文文本自動(dòng)校對(duì)技術(shù) 61
5.2.1 中文與英文的差別 61
5.2.2 中文自動(dòng)查錯(cuò)的研究現(xiàn)狀 61
5.2.3 中文自動(dòng)糾錯(cuò)的研究現(xiàn)狀 64
5.3 中文文本中常見錯(cuò)誤的類型與分析 64
5.3.1 中文文本中的常見錯(cuò)誤類型 64
5.3.2 中文文本中常見錯(cuò)誤統(tǒng)計(jì)分析 66
5.3.3 中文文本自動(dòng)校對(duì)的難點(diǎn)分析 67
5.4 本章小結(jié) 68
第六章 中文文本字詞錯(cuò)誤自動(dòng)偵測(cè)的模型與算法 69
6.1 中文文本字詞級(jí)錯(cuò)誤的表現(xiàn)形式 69
6.2 基于n-gram 模型的中文文本查錯(cuò)方法 70
6.2.1 n-gram 模型與接續(xù)關(guān)系 70
6.2.2 基于接續(xù)關(guān)系的查錯(cuò)思想 71
6.2.3 字字接續(xù)判斷模型 71
6.2.4 詞接續(xù)判斷模型 73
6.2.5 接續(xù)關(guān)系知識(shí)獲取與知識(shí)庫構(gòu)建 74
6.3 基于字詞二元接續(xù)關(guān)系的自動(dòng)查錯(cuò)算法 75
6.3.1 基于字詞二元接續(xù)的自動(dòng)查錯(cuò)算法 75
6.3.2 實(shí)驗(yàn)結(jié)果及查錯(cuò)實(shí)例 76
6.4 規(guī)則與統(tǒng)計(jì)相結(jié)合的文本自動(dòng)查錯(cuò)模型 79
6.4.1 中文文本中的“非多字詞錯(cuò)誤”與“真多字詞錯(cuò)誤” 79
6.4.2 規(guī)則與統(tǒng)計(jì)相結(jié)合的中文文本自動(dòng)查錯(cuò)模型 80
6.5 散串集中策略 84
6.5.1 雙向拼音知識(shí)庫的構(gòu)建 84
6.5.2 散串集中策略 84
6.5.3 錯(cuò)誤信息存儲(chǔ)方法 85
6.5.4 散串集中算法 86
6.5.5 實(shí)驗(yàn)結(jié)果與分析 86
6.6 一種英文單詞拼寫自動(dòng)偵錯(cuò)與糾錯(cuò)的方法—骨架鍵法 88
6.6.1 英文拼寫自動(dòng)偵錯(cuò)和糾錯(cuò)的一般方法 88
6.6.2 骨架鍵法在英文偵錯(cuò)與糾錯(cuò)中的可行性分析 88
6.6.3 骨架鍵法的算法描述和算法分析 89
6.6.4 實(shí)驗(yàn)結(jié)果評(píng)價(jià) 90
6.7 本章小結(jié) 90
第七章 中文文本中語法錯(cuò)誤的自動(dòng)偵測(cè)模型與算法 92
7.1 中文文本語法級(jí)錯(cuò)誤概述 92
7.2 關(guān)聯(lián)詞知識(shí)庫構(gòu)建及查錯(cuò)算法 93
7.2.1 關(guān)聯(lián)詞搭配錯(cuò)誤推理規(guī)則知識(shí)庫的構(gòu)建 93
7.2.2 關(guān)聯(lián)詞搭配查錯(cuò)算法 94
7.3 量名搭配知識(shí)庫的構(gòu)建及查錯(cuò)算法設(shè)計(jì) 95
7.3.1 基于《語法詞典》的量名搭配 95
7.3.2 基于語料庫的量名搭配 96
7.3.3 量名搭配類庫的構(gòu)建 97
7.3.4 量名搭配查錯(cuò)算法 98
7.4 標(biāo)點(diǎn)符號(hào)錯(cuò)誤的自動(dòng)偵測(cè) 99
7.4.1 標(biāo)點(diǎn)符號(hào)搭配錯(cuò)誤的研究 99
7.4.2 標(biāo)點(diǎn)符號(hào)錯(cuò)誤搭配規(guī)則及算法設(shè)計(jì) 100
vi 統(tǒng)計(jì)語言建模與中文文本自動(dòng)校對(duì)技術(shù)
7.5 基于規(guī)則的語法錯(cuò)誤推理規(guī)則的構(gòu)建 101
7.5.1 語法錯(cuò)誤推理正規(guī)則庫構(gòu)建 101
7.5.2 語法錯(cuò)誤推理負(fù)規(guī)則庫制定 104
7.5.3 基于語法錯(cuò)誤推理規(guī)則的語法級(jí)錯(cuò)誤查錯(cuò)算法 105
7.6 本章小結(jié) 106
第八章 中文文本中語義錯(cuò)誤自動(dòng)偵測(cè)的模型與算法 107
8.1 語義學(xué)相關(guān)理論 107
8.1.1 現(xiàn)代語義學(xué)流派及其主要理論 107
8.1.2 語義知識(shí)的表示方法 111
8.1.3 語義知識(shí)資源 113
8.2 基于語義搭配知識(shí)庫的語義偵測(cè)算法 117
8.2.1 語義搭配知識(shí)庫體系結(jié)構(gòu)的設(shè)計(jì) 117
8.2.2 詞語搭配自動(dòng)抽取算法的設(shè)計(jì)與實(shí)現(xiàn) 119
8.2.3 語義搭配知識(shí)庫構(gòu)建算法的設(shè)計(jì)及實(shí)現(xiàn) 124
8.2.4 基于語義搭配知識(shí)庫的語義偵測(cè)算法的設(shè)計(jì)及實(shí)現(xiàn) 127
8.3 基于語義依存搭配知識(shí)庫的語義查錯(cuò)方法 128
8.3.1 依存樹庫的構(gòu)建及搭配關(guān)系的提取 128
8.3.2 基于語義依存搭配知識(shí)庫的語義級(jí)查錯(cuò)方法 132
8.4 本章小結(jié) 134
第九章 面向?qū)I(yè)領(lǐng)域的中文文本錯(cuò)誤的自動(dòng)偵測(cè)方法 135
9.1 面向特定領(lǐng)域的專業(yè)詞匯抽取方法概述 135
9.1.1 國外研究現(xiàn)狀分析 135
9.1.2 國內(nèi)研究現(xiàn)狀分析 136
9.2 專業(yè)領(lǐng)域詞匯及搭配關(guān)系的相關(guān)概念和理論知識(shí) 138
9.2.1 專業(yè)詞匯的定義 139
9.2.2 專業(yè)詞匯的分類 139
9.2.3 專業(yè)詞匯的特性 140
9.2.4 專業(yè)詞語搭配關(guān)系的定義 141
9.2.5 通用的統(tǒng)計(jì)方法 141
9.3 基于統(tǒng)計(jì)與規(guī)則相結(jié)合的專業(yè)詞匯抽取算法 145
9.3.1 專業(yè)詞匯抽取算法的流程 145
9.3.2 基于左右信息熵?cái)U(kuò)展的候選專業(yè)詞匯抽取 148
9.3.3 基于成詞度的專業(yè)詞匯篩選 151
9.3.4 基于TF-IDF 領(lǐng)域度的專業(yè)詞匯篩選 154
9.3.5 基于通用詞庫的篩選 156
9.4 基于特定領(lǐng)域的詞語搭配挖掘算法 156
9.4.1 基于統(tǒng)計(jì)的常用詞語搭配關(guān)系挖掘 157
9.4.2 基于依存句法分析和《同義詞詞林》的動(dòng)賓搭配關(guān)系挖掘 161
9.4.3 基于依存分析結(jié)果的動(dòng)賓搭配關(guān)系挖掘 169
9.5 專業(yè)詞匯與搭配關(guān)系分析挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 174
9.5.1 系統(tǒng)的框架設(shè)計(jì) 174
9.5.2 系統(tǒng)的主要用途和技術(shù)特點(diǎn) 175
9.5.3 系統(tǒng)各功能模塊簡(jiǎn)介 175
9.5.4 實(shí)驗(yàn)結(jié)果與分析 181
9.6 專業(yè)詞匯與搭配關(guān)系在中文文本自動(dòng)校對(duì)中的應(yīng)用 187
9.6.1 專業(yè)詞匯在中文文本自動(dòng)校對(duì)中的應(yīng)用 187
9.6.2 詞語搭配關(guān)系在中文文本自動(dòng)校對(duì)中的應(yīng)用 189
9.7 本章小結(jié) 192
第十章 面向政治新聞?lì)I(lǐng)域的中文文本校對(duì)方法 194
10.1 面向政治新聞?lì)I(lǐng)域的中文文本校對(duì)方法概述 194
10.2 新聞?lì)I(lǐng)域文本政治性錯(cuò)誤類型 194
10.3 面向政治新聞校對(duì)的相關(guān)知識(shí)庫構(gòu)建 195
10.3.1 涉及主權(quán)、領(lǐng)土完整及港澳臺(tái)問題的“引號(hào)詞”QTLIB 庫的構(gòu)建 196
10.3.2 領(lǐng)導(dǎo)人順序和姓名-職務(wù)知識(shí)庫的構(gòu)建 197
10.4 面向政治新聞?lì)I(lǐng)域的差錯(cuò)偵測(cè)算法與實(shí)現(xiàn) 198
10.4.1 政治性差錯(cuò)偵測(cè)規(guī)則庫構(gòu)建 198
10.4.2 面向政治新聞?lì)I(lǐng)域的文本分詞優(yōu)化 199
10.4.3 政治性差錯(cuò)偵測(cè)模型 200
10.4.4 面向政治領(lǐng)域的文本校對(duì)方法的具體實(shí)現(xiàn) 201
10.5 實(shí)驗(yàn)結(jié)果分析 202
10.5.1 測(cè)試集的構(gòu)建 202
10.5.2 結(jié)果分析 203
第十一章 中文文本錯(cuò)誤糾錯(cuò)建議的自動(dòng)生成及其排序方法 204
11.1 中文文本字詞級(jí)錯(cuò)誤糾錯(cuò)建議自動(dòng)生成及其排序的模型與算法 204
11.1.1 中文文本字詞級(jí)錯(cuò)誤糾錯(cuò)建議自動(dòng)生成及其排序概述 204
11.1.2 自動(dòng)糾錯(cuò)的語言模型 204
11.1.3 糾錯(cuò)知識(shí)庫的構(gòu)造 205
11.1.4 糾錯(cuò)建議的生成算法 213
11.1.5 語境關(guān)聯(lián)度模型 215
11.1.6 基于語境關(guān)聯(lián)度模型的糾錯(cuò)建議排序 218
11.1.7 實(shí)驗(yàn)結(jié)果與實(shí)例 219
11.2 基于最大熵方法的語言建模與糾錯(cuò)排歧 221
11.2.1 問題的引入 221
11.2.2 最大熵原理 222
11.2.3 基于最大熵原理的自然語言建模 223
11.2.4 基于頻次與平均互信息相結(jié)合的特征選擇 228
11.2.5 基于最大熵方法的糾錯(cuò)排歧 231
11.3 本章小結(jié) 235
第十二章 面向中文文本的自動(dòng)校對(duì)實(shí)驗(yàn)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 236
12.1 系統(tǒng)目標(biāo) 236
12.2 系統(tǒng)結(jié)構(gòu)設(shè)計(jì) 236
12.3 系統(tǒng)的實(shí)現(xiàn) 238
12.3.1 開發(fā)環(huán)境 238
12.3.2 知識(shí)獲取模塊的實(shí)現(xiàn) 239
12.3.3 分詞模塊的實(shí)現(xiàn) 239
12.3.4 查錯(cuò)模塊的實(shí)現(xiàn) 240
12.3.5 糾錯(cuò)模塊的實(shí)現(xiàn) 241
12.4 系統(tǒng)評(píng)測(cè) 243
12.4.1 評(píng)測(cè)目的和評(píng)測(cè)性能指標(biāo) 243
12.4.2 標(biāo)準(zhǔn)評(píng)測(cè)庫的建立和評(píng)測(cè)方法 244
12.5 本章小結(jié) 245
附錄:漢語語料加工詞性標(biāo)記體系 246
參考文獻(xiàn) 247