《語義指紋著者姓名消歧理論及應用》提到的語義指紋是一種信息指紋,它將文獻文本特征表示為固定位數(shù)(如64位或128位)的二進制指紋,保留了文本的語義特征且具有很好的降維效果。將語義指紋應用到姓名消歧是一種新的嘗試,不僅可以實現(xiàn)良好的消歧效果,而且可以實現(xiàn)較高的消歧效率。
《語義指紋著者姓名消歧理論及應用》共分7章,第1章對姓名消歧進行了綜述,第2章介紹了姓名消歧的主要方法,第3章介紹了姓名消歧相關國內(nèi)外評測會議情況,第4章介紹了研究者標識系統(tǒng),第5章介紹了語義指紋姓名消歧的相關理論,第6章介紹了基于語義指紋的著者姓名消歧,第7章介紹了基于語義指紋的專利發(fā)明人姓名消歧,第8章進行了總結(jié)和展望。
《語義指紋著者姓名消歧理論及應用》可以作為姓名消歧、科學合作網(wǎng)絡、科技監(jiān)測等研究的參考書。
狹義上講,科學合作網(wǎng)絡(Scientific Collaboration Network)是指以論文或?qū)@麛?shù)據(jù)中的合著關系為基礎構(gòu)建的社會網(wǎng)絡。論文的作者、專利的發(fā)明人在本書統(tǒng)一稱為著者或作者?茖W合作網(wǎng)絡中,節(jié)點是著者,邊是著者之間的合著關系(Coauthorship)。雖然也有研究國家或地區(qū)間合作的科學合作網(wǎng)絡,但本研究限定其為著者合著關系構(gòu)建的網(wǎng)絡?茖W合作網(wǎng)絡中的合著關系是一種強社會關系,合著者一般認識,往往是同一個機構(gòu)、同一個項目、同一個科研工作中的“同事”,或者通過其他合著者間接認識,所以它在揭示科研工作者的關系、發(fā)現(xiàn)科研合作社區(qū)、提升學術信息檢索質(zhì)量、評價科研人員的能力、提供學術推薦和科研合作建議、服務科研論文和項目評審等方面有著重要的應用,從而受到了不少研究人員的關注。
在對科學合作網(wǎng)絡進行研究的過程中,我們發(fā)現(xiàn)構(gòu)建的科學合作網(wǎng)絡由很多不連通的子網(wǎng)絡構(gòu)成,其中通常存在一個作者數(shù)量很多的“中心網(wǎng)絡”和很多作者數(shù)量較少的“邊緣網(wǎng)絡”。文獻調(diào)研中發(fā)現(xiàn),雖然不少研究者已經(jīng)注意到構(gòu)建的科學合作網(wǎng)絡是由很多不連通的子網(wǎng)絡構(gòu)成的,但并未就其進行深入研究。科學合作網(wǎng)絡的不連通問題會在一些實際應用產(chǎn)生錯誤的結(jié)果,影響其應用效果。為此,本項目擬對不連通問題的原因、不連通問題對實際應用的影響進行分析,探索提高科學合作網(wǎng)絡連通性的方法;诓贿B通是因為數(shù)據(jù)不全面的假設,對中英雙語言體系下的跨數(shù)據(jù)庫姓名消歧問題進行研究,在此基礎上,對采用關系擴展方法提高科學合作網(wǎng)絡連通性的方法進行研究;陉P系擴展法成本高、效率低等不足,對采用鏈接預測算法提高科學合作網(wǎng)絡連通性的方法進行研究。通過對科學合作網(wǎng)絡不連通問題的研究,探索提高連通性的方法,希望為科學合作網(wǎng)絡的深入研究和應用提供新的理論或方法的指導。
在科學合作網(wǎng)絡研究中,著者姓名消歧是普遍認可的一個重要步驟,也是一個關鍵步驟。來源于傳統(tǒng)圖書館權(quán)威控制(Authority Control)思想的人工消歧固然是一種較為可靠的方法,但該方法效率較低,人為因素可能造成消歧效果充滿不確定性,使其難以滿足文獻數(shù)據(jù)量激增和數(shù)字圖書館服務及時化的需求。因此,采用自動化的姓名消歧技術是一種更為現(xiàn)實的解決方案,也是當前的研究熱點和重點。自動姓名消歧技術是自然語言處理的基本問題之一,最初是作為實體共指現(xiàn)象來研究的,后來在一些會議和評測競賽的推動下,姓名消歧作為一個單獨的研究問題被提出來。提出的眾多自動化消歧技術大體上可以落入無監(jiān)督和有監(jiān)督的機器學習的范疇。雖然很多算法被提出來以解決這個問題,但迄今為止不少研究者認為它依然是學術界的一大難題。此外.當前的自動化處理技術多研究靜態(tài)數(shù)據(jù)環(huán)境下的姓名消歧,大多需要較大的運算量,較少考慮真實的、動態(tài)的數(shù)字圖書館情景下的消歧。
韓紅旗,中國科學技術信息研究所副研究員,碩士生導師。主要研究領域包括文本挖掘、復雜網(wǎng)絡分析、知識工程、知識管理等,F(xiàn)已發(fā)表學術論文40余篇,參編專業(yè)圖書7部,申請發(fā)明專利3件、軟件著作權(quán)5件,參加國家高水平科研項目20余項,獲省部級三等獎1項。目前主持國家自然科學基金面上項目“科學合作網(wǎng)絡的不連通問題研究”,作為主要參與人參與國家自然科學基金項目“面向科技監(jiān)測的實體識別與關系抽取研究”和“基于論文和專利資源的技術機會發(fā)現(xiàn)研究”的研究。
第1章 姓名消歧綜述
1.1 姓名歧義現(xiàn)象
1.2 姓名歧義帶來的挑戰(zhàn)
1.3 著者姓名歧義問題
1.4 研究意義
1.5 國內(nèi)外研究現(xiàn)狀
1.5.1 姓名消歧研究的來源
1.5.2 網(wǎng)頁人名消歧的研究現(xiàn)狀
1.5.3 著者姓名消歧的研究現(xiàn)狀
1.6 本章小結(jié)
第2章 著者姓名消歧方法分類及研究綜述
2.1 著者姓名消歧方法分類
2.2 人工著者姓名消歧方法
2.3 基于規(guī)則的著者姓名消歧方法
2.3.1 基于規(guī)則和閾值的姓名消歧方法
2.3.2 基于相似度打分表的姓名消歧方法
2.4 基于機器學習的著者姓名消歧方法
2.4.1 基于監(jiān)督學習的姓名消歧方法
2.4.2 基于無監(jiān)督學習的姓名消歧方法
2.4.3 基于半監(jiān)督學習的姓名消歧方法
2.5 基于語義指紋的著者姓名消歧方法
2.6 基于唯一標識的著者姓名消歧方法
2.7 其他著者姓名消歧方法
2.7.1 基于社會網(wǎng)絡的姓名消歧方法
2.7.2 基于網(wǎng)絡知識資源的姓名消歧方法
2.8 現(xiàn)有方法對比分析
2.9 本章小結(jié)
第3章 姓名消歧相關的評測
3.1 WePS網(wǎng)頁人物搜索評測
3.1.1 WePS
3.1.2 WePS
3.1.3 WePS
3.2 PatentsView專利發(fā)明人姓名消歧評測
3.2.1 數(shù)據(jù)
3.2.2 評價指標
3.2.3 競賽結(jié)果
3.3 TAGKBP命名實體消歧評測
3.4 中文姓名消歧評測
3.4.1 2010年中文人名消歧評測
3.4.2 2012年中文人名消歧競賽
3.5 本章小結(jié)
第4章 研究者標識系統(tǒng)
4.1 背景
4.2 國內(nèi)外現(xiàn)狀與本研究實施技術路線
4.2.1 國內(nèi)外現(xiàn)狀
4.2.2 實施技術路線
4.3 研究者標識系統(tǒng)案例
4.3.1 ResearchID
4.3.2 ORCID
4.3.3 研究者名稱解析系統(tǒng)
4.4 研究者信息系統(tǒng)整合案例
4.4.1 Researcher.ID與0RCID
4.4.2 研究者名稱解析系統(tǒng)與ORCID
4.5 中國研究者標識系統(tǒng)的應用設計
4.5.1 中國研究者標識系統(tǒng)框架設計
4.5.2 中國研究者標識系統(tǒng)與ORCID整合設計
4.5.3 中國研究者標識系統(tǒng)建設需要注意的問題
4.6 本章小結(jié)
第5章 語義指紋姓名消歧的基礎理論
5.1 信息指紋
5.2 哈希函數(shù)
5.2.1 Rabin哈希函數(shù)
5.2.2 SDBM哈希函數(shù)
5.2.3 MD5哈希函數(shù)
5.2.4 SHA-1哈希函數(shù)
5.2.5 哈希函數(shù)對比
5.3 語義指紋介紹
5.3.1 語義指紋的概念
5.3.2 語義指紋的研究現(xiàn)狀
5.3.3 語義指紋的應用
5.3.4 主要語義指紋算法
5.4 主要文本相似度計算方法
5.4.1 基于向量空間模型的相似度計算方法
5.4.2 基于字符串匹配的相似度計算方法
5.4.3 文本相似度計算方法比較
5.5 主要聚類算法
5.5.1 K-means聚類
5.5.2 層次聚類
5.5.3 圖聚類
5.5.4 DBSCAN算法
5.5.5 聚類算法對比
5.6 本章小結(jié)
第6章 基于語義指紋的論文著者姓名消歧
6.1 引言
6.1.1 研究背景
6.1.2 研究意義
6.1.3 主要研究內(nèi)容
6.2 方法
6.2.1 方法的原理
6.2.2 PDF2TXT
6.2.3 指紋生成器
6.2.4 指紋比較器
6.2.5 認領決策器
6.2.6 作品指派器
6.2.7 爭議仲裁器
6.3 評價指標
6.4 實驗結(jié)果
6.4.1 實驗數(shù)據(jù)集構(gòu)建
6.4.2 數(shù)據(jù)預處理
6.4.3 姓名消歧特征選擇及獨立特征姓名消歧實驗
6.4.4 基于語義指紋的綜合特征姓名消歧實驗
6.5 本章小結(jié)
6.5.1 技術內(nèi)涵
6.5.2 可能的應用
6.5.3 研究限制
6.5.4 未來研究方向
第7章 基于語義指紋的專利發(fā)明人姓名消歧
7.1 引言
7.1.1 研究背景
7.1.2 研究意義
7.1.3 主要研究內(nèi)容
7.2 專利發(fā)明人姓名消歧方法
7.2.1 總體架構(gòu)
7.2.2 數(shù)據(jù)獲取
7.2.3 數(shù)據(jù)規(guī)范化
7.2.4 特征提取
7.2.5 語義指紋生成
7.2.6 分塊策略設計
7.2.7 參數(shù)估計
7.2.8 實驗步驟
7.2.9 小結(jié)
7.3 評價指標
7.4 專利發(fā)明人姓名消歧實驗
7.4.1 數(shù)據(jù)處理
7.4.2 實驗結(jié)果及討論
7.4.3 小結(jié)
7.5 本章小結(jié)
7.5.1 主要研究結(jié)論
7.5.2 研究局限性
7.5.3 未來研究方向
第8章 總結(jié)及展望
8.1 總結(jié)
8.2 展望
參考文獻