定 價(jià):99 元
叢書名:圖靈計(jì)算機(jī)科學(xué)叢書
- 作者:[美]克里斯托夫·曼寧(Christopher Manning)[美]普拉巴卡爾
- 出版時(shí)間:2019/7/1
- ISBN:9787115514080
- 出 版 社:人民郵電出版社
- 中圖法分類:G254.9
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書是信息檢索的教材,旨在從計(jì)算機(jī)科學(xué)的視角提供一種現(xiàn)代的信息檢索方法。書中從基本概念講解網(wǎng)絡(luò)搜索以及文本分類和文本聚類等,對(duì)收集、索引和搜索文檔系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)的方方面面、評(píng)估系統(tǒng)的方法、機(jī)器學(xué)習(xí)方法在文本收集中的應(yīng)用等給出了*的講解。
信息檢索領(lǐng)域知名科學(xué)家扛鼎之作,斯坦福大學(xué)教材
重點(diǎn)展示搜索引擎核心技術(shù)以及機(jī)器學(xué)習(xí)和數(shù)值計(jì)算方法
什么是排序SVM、XML、DNS和LSI?什么是信息檢索中的垃圾信息、隱藏頁和門頁?MapReduce和其他一些并行運(yùn)算方法是如何實(shí)現(xiàn)由兆字節(jié)到百萬兆字節(jié)的飛躍的?這些問題你都能從本書中找到答案。本書首次將構(gòu)建Web搜索引擎的復(fù)雜過程以一種清晰的全景方式展現(xiàn)給讀者。Peter Norvig,計(jì)算機(jī)科學(xué)家,Google研發(fā)總監(jiān)
本書對(duì)信息檢索這個(gè)舉足輕重、發(fā)展迅猛的領(lǐng)域進(jìn)行了全面、準(zhǔn)確的介紹,是一本不可多得的教材。Raymond Mooney,得克薩斯大學(xué)奧斯汀分校教授
本書選材獨(dú)特,對(duì)信息檢索的基礎(chǔ)知識(shí)和發(fā)展方向進(jìn)行了生動(dòng)描述。Jon Kleinberg,康奈爾大學(xué)教授
[美]克里斯托夫·曼寧 (Christopher Manning) 計(jì)算機(jī)科學(xué)家,斯坦福大學(xué)教授,斯坦福大學(xué)人工智能實(shí)驗(yàn)室主任,ACM會(huì)士、AAAI會(huì)士、ACL會(huì)士。目前的研究目標(biāo)為計(jì)算機(jī)如何智能地處理、理解和生成人類語言資料。曼寧博士是深度學(xué)習(xí)在自然語言處理應(yīng)用方面的先鋒人物,在樹遞歸神經(jīng)網(wǎng)絡(luò)、語義分析、神經(jīng)機(jī)器翻譯、深度語言理解等方面均有令業(yè)界矚目的研究成果。
[美]普拉巴卡爾·拉格萬(Prabhakar Raghavan)Google高級(jí)副總裁,目前負(fù)責(zé)谷歌的廣告與商業(yè)產(chǎn)品、基礎(chǔ)設(shè)施團(tuán)隊(duì)。之前作為Google App和Google Cloud的副總裁,帶領(lǐng)團(tuán)隊(duì)做出了突出業(yè)績(jī)。在加入Google前任職于Yahoo!,是Yahoo!實(shí)驗(yàn)室的創(chuàng)建者和負(fù)責(zé)人。拉格萬博士畢業(yè)于加州大學(xué)伯克利分校,長(zhǎng)期擔(dān)任斯坦福大學(xué)計(jì)算機(jī)科學(xué)系顧問教授,主要研究方向是文本及Web數(shù)據(jù)挖掘、隨機(jī)算法等,是美國(guó)國(guó)家工程院院士、ACM會(huì)士、IEEE會(huì)士。
[德]欣里希·舒策(Hinrich Schtze) 德國(guó)慕尼黑大學(xué)信息與語言處理中心主任,計(jì)算語言學(xué)家,斯坦福大學(xué)博士。曾在美國(guó)硅谷工作多年。
王斌 博士,小米公司AI實(shí)驗(yàn)室NLP方向首席科學(xué)家,前中國(guó)科學(xué)院信息工程研究所研究員、博導(dǎo),中國(guó)科學(xué)院大學(xué)教授。
李鵬 博士,中國(guó)科學(xué)院信息工程研究所高級(jí)工程師,碩士生導(dǎo)師。
第 1章 布爾檢索 . 1
1.1 一個(gè)信息檢索的例子 2
1.2 構(gòu)建倒排索引的初體驗(yàn) . 5
1.3 布爾查詢的處理 8
1.4 對(duì)基本布爾操作的擴(kuò)展及有序檢索 11
1.5 參考文獻(xiàn)及補(bǔ)充讀物 . 13
第 2章 詞項(xiàng)詞典及倒排記錄表 14
2.1 文檔分析及編碼轉(zhuǎn)換 . 14
2.1.1 字符序列的生成 . 14
2.1.2 文檔單位的選擇 . 16
2.2 詞項(xiàng)集合的確定 16
2.2.1 詞條化 16
2.2.2 去除停用詞 19
2.2.3 詞項(xiàng)歸一化 . 20
2.2.4 詞干還原和詞形歸并 . 23
2.3 基于跳表的倒排記錄表快速合并算法 26
2.4 含位置信息的倒排記錄表及短語查詢 28
2.4.1 二元詞索引 . 28
2.4.2 位置信息索引 . 29
2.4.3 混合索引機(jī)制 . 31
2.5 參考文獻(xiàn)及補(bǔ)充讀物 . 32
第 3章 詞典及容錯(cuò)式檢索 . 34
3.1 詞典搜索的數(shù)據(jù)結(jié)構(gòu) 34
3.2 通配符查詢 . 36
3.2.1 一般的通配符查詢 . 37
3.2.2 支持通配符查詢的k-gram索引 . 38
3.3 拼寫校正 39
3.3.1 拼寫校正的實(shí)現(xiàn) . 39
3.3.2 拼寫校正的方法 40
3.3.3 編輯距離 40
3.3.4 拼寫校正中的 k-gram索引 42
3.3.5 上下文敏感的拼寫校正 . 43
3.4 基于發(fā)音的校正技術(shù) 44
3.5 參考文獻(xiàn)及補(bǔ)充讀物 . 45
第 4章 索引構(gòu)建 . 46
4.1 硬件基礎(chǔ) 46
4.2 基于塊的排序索引方法 . 47
4.3 內(nèi)存式單遍掃描索引構(gòu)建方法 . 50
4.4 分布式索引構(gòu)建方法 . 51
4.5 動(dòng)態(tài)索引構(gòu)建方法 . 54
4.6 其他索引類型 56
4.7 參考文獻(xiàn)及補(bǔ)充讀物 . 57
第 5章 索引壓縮 . 59
5.1 信息檢索中詞項(xiàng)的統(tǒng)計(jì)特性 . 59
5.1.1 Heaps定律:詞項(xiàng)數(shù)目的估計(jì) 61
5.1.2 Zipf定律:對(duì)詞項(xiàng)的分布建模 . 62
5.2 詞典壓縮 63
5.2.1 將詞典看成單一字符串的 壓縮方法 63
5.2.2 按塊存儲(chǔ) 64
5.3 倒排記錄表的壓縮 . 66
5.3.1 可變字節(jié)碼 . 67
5.3.2 編碼 68
5.4 參考文獻(xiàn)及補(bǔ)充讀物 74
第 6章 文檔評(píng)分、詞項(xiàng)權(quán)重計(jì)算及 向量空間模型 76
6.1 參數(shù)化索引及域索引 76
6.1.1 域加權(quán)評(píng)分 78
6.1.2 權(quán)重學(xué)習(xí) 79
6.1.3 最優(yōu)權(quán)重g 的計(jì)算 80
6.2 詞項(xiàng)頻率及權(quán)重計(jì)算 . 81
6.2.1 逆文檔頻率 . 81
6.2.2 tf-idf 權(quán)重計(jì)算 82
6.3 向量空間模型 83
6.3.1 內(nèi)積 83
6.3.2 查詢向量 86
6.3.3 向量相似度計(jì)算 . 87
6.4 其他tf-idf 權(quán)重計(jì)算方法 . 88
6.4.1 tf的亞線性尺度變換方法 . 88
6.4.2 基于最大值的tf歸一化 . 88
6.4.3 文檔權(quán)重和查詢權(quán)重機(jī)制 89
6.4.4 文檔長(zhǎng)度的回轉(zhuǎn)歸一化 . 89
6.5 參考文獻(xiàn)及補(bǔ)充讀物 92
第 7章 一個(gè)完整搜索系統(tǒng)中的評(píng)分計(jì)算 93
7.1 快速評(píng)分及排序 . 93
7.1.1 非精確返回前K篇文檔的方法 . 94
7.1.2 索引去除技術(shù) . 94
7.1.3 勝者表 . 95
7.1.4 靜態(tài)得分和排序 . 95
7.1.5 影響度排序 96
7.1.6 簇剪枝方法 . 97
7.2 信息檢索系統(tǒng)的組成 98
7.2.1 層次型索引 98
7.2.2 查詢?cè)~項(xiàng)的鄰近性 . 98
7.2.3 查詢分析及文檔評(píng)分函數(shù)的 設(shè)計(jì) . 99
7.2.4 搜索系統(tǒng)的組成 . 100
7.3 向量空間模型對(duì)各種查詢操作的支持 101
7.3.1 布爾查詢 101
7.3.2 通配符查詢 . 102
7.3.3 短語查詢 102
7.4 參考文獻(xiàn)及補(bǔ)充讀物 . 102
第 8章 信息檢索的評(píng)價(jià) . 103
8.1 信息檢索系統(tǒng)的評(píng)價(jià) . 103
8.2 標(biāo)準(zhǔn)測(cè)試集 . 104
8.3 無序檢索結(jié)果集合的評(píng)價(jià) . 105
8.4 有序檢索結(jié)果的評(píng)價(jià)方法 . 108
8.5 相關(guān)性判定 . 112
8.6 更廣的視角看評(píng)價(jià):系統(tǒng)質(zhì)量及用戶效用 . 115
8.6.1 系統(tǒng)相關(guān)問題 . 115
8.6.2 用戶效用 115
8.6.3 對(duì)已有系統(tǒng)的改進(jìn) . 116
8.7 結(jié)果片段 . 116
8.8 參考文獻(xiàn)及補(bǔ)充讀物 . 118
第 9章 相關(guān)反饋及查詢擴(kuò)展 120
9.1 相關(guān)反饋及偽相關(guān)反饋 . 120
9.1.1 Rocchio相關(guān)反饋算法 . 122
9.1.2 基于概率的相關(guān)反饋方法 125
9.1.3 相關(guān)反饋的作用時(shí)機(jī) 125
9.1.4 Web上的相關(guān)反饋 . 126
9.1.5 相關(guān)反饋策略的評(píng)價(jià) 127
9.1.6 偽相關(guān)反饋 . 127
9.1.7 間接相關(guān)反饋 . 128
9.1.8 小結(jié) 128
9.2 查詢重構(gòu)的全局方法 . 128
9.2.1 查詢重構(gòu)的詞匯表工具 128
9.2.2 查詢擴(kuò)展 129
9.2.3 同義詞詞典的自動(dòng)構(gòu)建 130
9.3 參考文獻(xiàn)及補(bǔ)充讀物 . 131
第 10章 XML檢索 133
10.1 XML的基本概念 134
10.2 XML檢索中的挑戰(zhàn)性問題 . 137
10.3 基于向量空間模型的XML檢索 . 140
10.4 XML檢索的評(píng)價(jià) 144
10.5 XML檢索:以文本為中心與以數(shù)據(jù)為中心的對(duì)比 . 146
10.6 參考文獻(xiàn)及補(bǔ)充讀物 . 148
第 11 章 概率檢索模型 150
11.1 概率論基礎(chǔ)知識(shí) . 150
11.2 概率排序原理 151
11.2.1 1/0風(fēng)險(xiǎn)的情況 151
11.2.2 基于檢索代價(jià)的概率排序 原理 152
11.3 二值獨(dú)立模型 152
11.3.1 排序函數(shù)的推導(dǎo) . 153
11.3.2 理論上的概率估計(jì)方法 155
11.3.3 實(shí)際中的概率估計(jì)方法 156
11.3.4 基于概率的相關(guān)反饋方法 157
11.4 概率模型的相關(guān)評(píng)論及擴(kuò)展 158
11.4.1 概率模型的評(píng)論 . 158
11.4.2 詞項(xiàng)之間的樹型依賴 159
11.4.3 Okapi BM25:一個(gè)非二值的 模型 160
11.4.4 IR中的貝葉斯網(wǎng)絡(luò) 方法 161
11.5 參考文獻(xiàn)及補(bǔ)充讀物 . 162
第 12章 基于語言建模的信息檢索模型 163
12.1 語言模型 . 163
12.1.1 有窮自動(dòng)機(jī)和語言模型 163
12.1.2 語言模型的種類 . 165
12.1.3 詞的多項(xiàng)式分布 . 166
12.2 查詢似然模型 . 167
12.2.1 IR中的查詢似然模型 167
12.2.2 查詢生成概率的估計(jì) 167
12.2.3 Ponte和Croft進(jìn)行的實(shí)驗(yàn) 169
12.3 語言建模的方法與其他檢索方法的 比較 . 171
12.4 擴(kuò)展的LM方法 172
12.5 參考文獻(xiàn)及補(bǔ)充讀物 . 173
第 13章 文本分類及樸素貝葉斯方法 175
13.1 文本分類問題 . 177
13.2 樸素貝葉斯文本分類 . 178
13.3 伯努利模型 . 182
13.4 NB的性質(zhì) 183
13.5 特征選擇 . 188
13.5.1 互信息 . 188
13.5.2 2 統(tǒng)計(jì)量 . 191
13.5.3 基于頻率的特征選擇方法 192
13.5.4 多類問題的特征選擇方法 193
13.5.5 不同特征選擇方法的比較 193
13.6 文本分類的評(píng)價(jià) . 194
13.7 參考文獻(xiàn)及補(bǔ)充讀物 . 199
第 14章 基于向量空間模型的文本 分類 200
14.1 文檔表示及向量空間中的關(guān)聯(lián)度計(jì)算 . 201
14.2 Rocchio分類方法 . 202
14.3 k近鄰分類器 205
14.4 線性及非線性分類器 . 209
14.5 多類問題的分類 . 212
14.6 偏差方差折中準(zhǔn)則 . 214
14.7 參考文獻(xiàn)及補(bǔ)充讀物 . 219
第 15章 支持向量機(jī)及文檔機(jī)器學(xué)習(xí)方法 221
15.1 二類線性可分條件下的支持向量機(jī) 221
15.2 支持向量機(jī)的擴(kuò)展 . 226
15.2.1 軟間隔分類 . 226
15.2.2 多類情況下的支持向量機(jī) 228
15.2.3 非線性支持向量機(jī) 228
15.2.4 實(shí)驗(yàn)結(jié)果 . 230
15.3 有關(guān)文本文檔分類的考慮 . 231
15.3.1 分類器類型的選擇 232
15.3.2 分類器效果的提高 233
15.4 ad hoc檢索中的機(jī)器學(xué)習(xí)方法 . 236
15.4.1 基于機(jī)器學(xué)習(xí)評(píng)分的簡(jiǎn)單 例子 . 236
15.4.2 基于機(jī)器學(xué)習(xí)的檢索結(jié)果 排序 . 238
15.5 參考文獻(xiàn)及補(bǔ)充讀物 . 239
第 16章 扁平聚類 . 241
16.1 信息檢索中的聚類應(yīng)用 . 242
16.2 問題描述 244
16.3 聚類算法的評(píng)價(jià) . 246
16.4 K-均值算法 248
16.5 基于模型的聚類 . 254
16.6 參考文獻(xiàn)及補(bǔ)充讀物 . 258
第 17章 層次聚類 . 260
17.1 凝聚式層次聚類 . 260
17.2 單連接及全連接聚類算法 . 263
17.3 組平均凝聚式聚類 . 268
17.4 質(zhì)心聚類 269
17.5 層次凝聚式聚類的最優(yōu)性 . 270
17.6 分裂式聚類 272
17.7 簇標(biāo)簽生成 273
17.8 實(shí)施中的注意事項(xiàng) . 274
17.9 參考文獻(xiàn)及補(bǔ)充讀物 . 275
第 18章 矩陣分解及隱性語義索引 277
18.1 線性代數(shù)基礎(chǔ) 277
18.2 詞項(xiàng)文檔矩陣及SVD . 280
18.3 低秩逼近 282
18.4 LSI 284
18.5 參考文獻(xiàn)及補(bǔ)充讀物 . 288
第 19章 Web搜索基礎(chǔ) 289
19.1 背景和歷史 . 289
19.2 Web的特性 290
19.2.1 Web圖 291
19.2.2 作弊網(wǎng)頁 293
19.3 廣告經(jīng)濟(jì)模型 . 294
19.4 搜索用戶體驗(yàn) . 296
19.5 索引規(guī)模及其估計(jì) 297
19.6 近似重復(fù)及搭疊 300
19.7 參考文獻(xiàn)及補(bǔ)充讀物 . 303
第 20章 Web采集及索引 . 304
20.1 概述 . 304
20.1.1 采集器必須提供的 功能特點(diǎn) 304
20.1.2 采集器應(yīng)該提供的功能特點(diǎn) 304
20.2 采集 . 305
20.2.1 采集器架構(gòu) . 305
20.2.2 DNS解析 . 308
20.2.3 待采集URL池 . 309
20.3 分布式索引 311
20.4 連接服務(wù)器 312
20.5 參考文獻(xiàn)及補(bǔ)充讀物 . 314
第 21章 鏈接分析 . 316
21.1 Web圖 316
21.2 PageRank. 318
21.2.1 馬爾科夫鏈 . 318
21.2.2 PageRank的計(jì)算 . 320
21.2.3 面向主題的PageRank 322
21.3 Hub網(wǎng)頁及Authority網(wǎng)頁 325
21.4 參考文獻(xiàn)及補(bǔ)充讀物. 329
參考文獻(xiàn) 331
索引 . 356