《Web用戶查詢?nèi)罩就诰蚺c應用》介紹了互聯(lián)網(wǎng)用戶查詢?nèi)罩就诰蚣捌鋺醚芯款I(lǐng)域的主要技術(shù)、方法與實證研究成果。全書由3篇共14章內(nèi)容組成;其中,上篇對搜索引擎用戶日志與移動搜索用戶日志的研究現(xiàn)狀進行了系統(tǒng)的分析,給出了Web用戶查詢?nèi)罩就诰蜓芯靠蚣;中篇介紹了基于不同類型用戶日志所開展的實證研究結(jié)果,包括大規(guī)模Web搜索引擎系統(tǒng)的用戶日志、大型期刊數(shù)據(jù)庫的用戶日志、移動搜索的用戶日志等;作為應用研究,下篇介紹基于用戶日志進行查詢推薦的方法與輿情監(jiān)測實例。
隨著計算機網(wǎng)絡(luò)技術(shù)的日益成熟與Web信息量的快速增長,用戶可以利用網(wǎng)絡(luò)在任何地點對各類Web檢索系統(tǒng)進行信息查詢,包括Web搜索引擎、電子商務(wù)站點、數(shù)字圖書館等。Web檢索系統(tǒng)的服務(wù)器日志記錄了用戶與系統(tǒng)交互的整個過程,主要包括用戶的訪問時間 、所輸入的查詢詞、點擊的檢索結(jié)果及點擊時間、移動用戶的終端設(shè)備信息等。這些日志文件所包含的查詢或點擊記錄的規(guī)模一般都很大,尤其是大型商業(yè)搜索引擎,它每天能接受幾千萬甚至上億次的用戶查詢。
開展大規(guī);ヂ(lián)網(wǎng)用戶查詢?nèi)罩就诰蚣捌鋺醚芯,可以發(fā)現(xiàn)中文用戶進行Web查詢行為的特征與規(guī)律,改善Web檢索系統(tǒng)的性能(效果與效率),實現(xiàn)個性化信息服務(wù),發(fā)現(xiàn)用戶查詢主題的變化及其與社會事件之間的關(guān)系等方面具有重要的理論與實際意義。
本書介紹了互聯(lián)網(wǎng)用戶查詢?nèi)罩就诰蚣捌鋺醚芯款I(lǐng)域的主要技術(shù)、方法與實證研究成果,由3篇共14章內(nèi)容組成,具體如下。
上篇是對用戶查詢?nèi)罩就诰蚣捌鋺醚芯康母爬ㄐ苑治雠c總論。首先利用文獻計量與社會網(wǎng)絡(luò)分析等方法,剖析了Web搜索引擎用戶日志與移動搜索用戶日志的國內(nèi)外研究熱點、主要科研團隊等研究現(xiàn)狀。然后給出了Web用戶查詢?nèi)罩就诰蜓芯靠蚣,分別針對搜索引擎用戶日志和移動搜索用戶日志,闡明了使用何種數(shù)據(jù)分析與挖掘的理論、技術(shù)與方法,歸納并總結(jié)了目前已有的研究成果,包括:日志挖掘的研究內(nèi)容、數(shù)據(jù)集的選擇方法、數(shù)據(jù)預處理的方法、不同地域用戶行為的特征與比較、如何應用于系統(tǒng)性能的改善等內(nèi)容。該框架的建立可以指導一般的Web檢索系統(tǒng)、電子商務(wù)站點及其類似Web日志挖掘的研究等。上篇由4章內(nèi)容組成。
王繼民,男,北京大學信息管理系書記,系副主任。
前 言 iii
上 篇 Web用戶查詢?nèi)罩就诰蜓芯炕A(chǔ) 12
第1章 搜索引擎日志挖掘領(lǐng)域的論文合著網(wǎng)絡(luò)分析 1
1.1 引言 1
1.2 數(shù)據(jù)準備 2
1.3 基本統(tǒng)計結(jié)果 3
1.4 合著網(wǎng)絡(luò)的特征 4
1.5 科研合作團隊 10
1.6 小結(jié) 11
參考文獻 12
第2章 移動搜索研究的知識圖譜分析 14
2.1 引言 14
2.2 數(shù)據(jù)分析方法與工具 14
2.3 數(shù)據(jù)獲取與數(shù)據(jù)預處理 15
2.4 基本統(tǒng)計結(jié)果 16
2.5 基于關(guān)鍵詞共現(xiàn)的知識圖譜分析 16
2.6 基于作者合著的知識圖譜分析 19
2.7 小結(jié) 22
參考文獻 22
第3章 移動搜索用戶行為研究進展 24
3.1 引言 24
3.2 移動搜索及其特點 24
3.3 移動搜索用戶行為研究框架 26
3.4 移動搜索用戶行為實證研究 30
3.5 小結(jié) 35
參考文獻 35
第4章 Web搜索引擎日志挖掘研究框架 39
4.1 引言 39
4.2 數(shù)據(jù)集與數(shù)據(jù)預處理 40
4.3 挖掘的主要內(nèi)容及其結(jié)果 43
4.4 應用于系統(tǒng)性能的改善 47
4.5 小結(jié) 50
參考文獻 51
中 篇 基于Web用戶查詢?nèi)罩镜膶嵶C研究 55
第5章 搜索引擎用戶訪問量模型 57
5.1 引言 57
5.2 用戶查詢與點擊日志 58
5.3 基于小波的異常訪問檢測 59
5.4 時間序列的潛周期模型 61
5.5 用戶訪問量模型 63
5.6 小結(jié) 66
參考文獻 67
第6章 中文搜索引擎用戶日志分析 68
6.1 引言 68
6.2 數(shù)據(jù)準備 69
6.3 用戶的查詢與點擊行為分析 70
6.4 不同查詢串、用戶量和URL數(shù)量的特征 75
6.5 小結(jié) 76
參考文獻 77
第7章 多任務(wù)中文Web查詢分析 78
7.1 引言 78
7.2 數(shù)據(jù)集與實驗設(shè)計 79
7.3 實驗結(jié)果 80
7.4 討論 83
7.5 小結(jié) 84
參考文獻: 84
第8章 搜索引擎用戶點擊行為分析 86
8.1 引言 86
8.2 用戶點擊日志 87
8.3 用戶點擊URL的特征分析 88
8.4 點擊URL的局部性與自相似性分析 94
8.5 確定相關(guān)查詢列表 97
8.6 小結(jié) 100
參考文獻 100
第9章 中文Web查詢演化的主要趨勢 102
9.1 引言 102
9.2 數(shù)據(jù)集 103
9.3 實驗設(shè)計 105
9.4 實驗結(jié)果與分析 106
9.5 小結(jié) 112
參考文獻 113
第10章 高校用戶學術(shù)期刊數(shù)據(jù)庫檢索行為研究 115
10.1 引言 115
10.2 數(shù)據(jù)來源和基本統(tǒng)計 115
10.3 高校用戶的檢索策略總體分析 117
10.4 高校用戶的檢索行為的深度分析 120
10.5 高校用戶學術(shù)檢索策略的影響因素模型 123
10.6 小結(jié) 125
參考文獻 126
第11章 基于用戶日志的移動搜索行為分析 127
11.1 引言 127
11.2 數(shù)據(jù)集和數(shù)據(jù)預處理 128
11.3 基本統(tǒng)計結(jié)果與分析 128
11.4 我國移動搜索用戶的行為特征 132
11.5 小結(jié) 132
下 篇 基于Web用戶查詢?nèi)罩镜膽醚芯?135
第12章 利用支持向量回歸確定相關(guān)Web查詢 136
12.1 引言 136
12.2 相關(guān)研究工作 136
12.3 相關(guān)查詢的性質(zhì)與支持向量回歸 137
12.4 訓練數(shù)據(jù)與實驗結(jié)果 140
12.5 小結(jié) 142
參考文獻 143
第13章 基于用戶日志進行查詢推薦的方法及系統(tǒng) 145
13.1 引言 145
13.2 查詢推薦算法 146
13.3 推薦實施步驟 153
13.4 小結(jié) 160
參考文獻 160
第14章 基于Web用戶查詢?nèi)罩镜木W(wǎng)絡(luò)輿情監(jiān)測 161
14.1 引言 161
14.2 網(wǎng)絡(luò)輿情監(jiān)測實例 162
14.3 用戶查詢與社會事件的關(guān)系 164
14.4 小結(jié) 168
參考文獻 168
附錄1. Web搜索引擎日志挖掘示例系統(tǒng)的構(gòu)建 170
附錄2.《2013年中國網(wǎng)民搜索行為研究報告》摘要 180