開放協(xié)同的科技大數(shù)據(jù)匯聚融合與演化分析
定 價:158 元
叢書名:科技大數(shù)據(jù)理論與技術(shù)叢書
- 作者:陳浩等著
- 出版時間:2022/6/1
- ISBN:9787030713902
- 出 版 社:科學出版社
- 中圖法分類:G203
- 頁碼:255
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書針對現(xiàn)有科技大數(shù)據(jù)存在眾多數(shù)據(jù)來源、數(shù)據(jù)異構(gòu)、數(shù)據(jù)質(zhì)量不均衡等問題, 解決多源異構(gòu)科技大數(shù)據(jù)的數(shù)據(jù)采集、清洗、融合、存儲等問題, 構(gòu)建科技大數(shù)據(jù)高效匯聚融合、智能演化分析、以及個性化檢索服務平臺。主要內(nèi)容包括多源異構(gòu)科技大數(shù)據(jù)采集機制、科技大數(shù)據(jù)匯聚融合機制、科技大數(shù)據(jù)分布式存儲關(guān)鍵技術(shù)、面向開放協(xié)同的科技大數(shù)據(jù)檢索服務接口、科技大數(shù)據(jù)交換與可信確權(quán)、科技大數(shù)據(jù)交互式演化分析、面向領(lǐng)域的科技大數(shù)據(jù)智能服務應用。
更多科學出版社服務,請掃碼獲取。
目錄
第1章 緒論 1
1.1 研究背景及意義 1
1.2 國內(nèi)外研究現(xiàn)狀 3
1.3 研究目標和內(nèi)容 8
1.4 研究創(chuàng)新和預期效益 10
第2章 多源異構(gòu)科技大數(shù)據(jù)資源體系建設(shè)與應用場景 12
2.1 科技大數(shù)據(jù)的概念定義 12
2.2 科技大數(shù)據(jù)模型框架設(shè)計 14
2.3 科技大數(shù)據(jù)資源體系建設(shè) 17
2.4 科技大數(shù)據(jù)服務體系建設(shè) 32
2.5 本章小結(jié) 36
第3章 多源異構(gòu)科技大數(shù)據(jù)分布式存儲關(guān)鍵技術(shù) 37
3.1 面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關(guān)鍵技術(shù) 37
3.2 分布式計算環(huán)境下科技大數(shù)據(jù)協(xié)同存儲機制 39
3.3 基于分布式計算的科技大數(shù)據(jù)可擴展存儲機制 43
3.4 異構(gòu)科技數(shù)據(jù)安全可信交換模型 48
3.5 延遲感知的科技數(shù)據(jù)自適應副本管理機制 51
3.6 本章小結(jié) 53
第4章 科技大數(shù)據(jù)匯聚融合與演化分析系統(tǒng)架構(gòu) 54
4.1 科技大數(shù)據(jù)匯聚融合需求分析 54
4.2 系統(tǒng)設(shè)計 57
4.3 功能模塊詳細設(shè)計 62
4.4 系統(tǒng)技術(shù)架構(gòu)設(shè)計 71
4.5 本章小結(jié) 75
第5章 科技大數(shù)據(jù)匯聚融合機制 76
5.1 多源異構(gòu)科技數(shù)據(jù)源語義映射機制 76
5.2 基于領(lǐng)域知識的科技大數(shù)據(jù)采集規(guī)則 79
5.3 基于粗糙集理論的科技大數(shù)據(jù)清洗方法 81
5.4 面向開放協(xié)同的多源異構(gòu)科技大數(shù)據(jù)特征融合 88
5.5 本章小結(jié) 97
第6章 科技大數(shù)據(jù)實體智能匹配與查詢 98
6.1 科技大數(shù)據(jù)高性能索引關(guān)鍵技術(shù) 98
6.2 科技大數(shù)據(jù)模糊查詢匹配的高效采樣方法 102
6.3 面向科技大數(shù)據(jù)分析的過濾規(guī)則建模方法 111
6.4 科技大數(shù)據(jù)分析方法推薦技術(shù) 120
6.5 本章小結(jié) 125
第7章 面向開放協(xié)同的科技大數(shù)據(jù)檢索服務接口 126
7.1 科技大數(shù)據(jù)元數(shù)據(jù) 126
7.2 科技大數(shù)據(jù)檢索接口標準制定 130
7.3 科技大數(shù)據(jù)檢索服務接口 133
7.4 科技大數(shù)據(jù)檢索與管理 159
7.5 本章小結(jié) 163
第8章 科技大數(shù)據(jù)追蹤保護與演化分析 164
8.1 基于混合選舉的委員會共識機制 164
8.2 基于多級社區(qū)的區(qū)塊鏈共識機制 170
8.3 基于區(qū)塊鏈的科技大數(shù)據(jù)交換 176
8.4 基于區(qū)塊鏈的科技大數(shù)據(jù)可信確權(quán) 187
8.5 基于區(qū)塊鏈的科技大數(shù)據(jù)追蹤保護 191
8.6 本章小結(jié) 201
參考文獻 202
第1章 緒論
1.1 研究背景及意義
1.1.1 研究背景
隨著新興技術(shù)的不斷突破,不管是區(qū)塊鏈還是AI(artificial intelligence,人工智能),抑或是大數(shù)據(jù),當前正處于科技和產(chǎn)業(yè)變革的關(guān)鍵節(jié)點。隨著技術(shù)的進步和社會需求的改變,每一天、每一小時甚至每一秒都在不斷產(chǎn)生海量支撐AI發(fā)展的科技數(shù)據(jù)。盡管數(shù)據(jù)龐雜,但其中記載著詳細學科知識、相關(guān)真理及驗證過程、某學科的實驗過程和結(jié)論等,這些對推動技術(shù)發(fā)展起到關(guān)鍵作用的核心科技情報知識線索,是現(xiàn)代各尖端領(lǐng)域用于科技創(chuàng)新發(fā)現(xiàn)的算法模型實現(xiàn)的核心數(shù)據(jù)根基和重要知識基礎(chǔ)[1]。
在數(shù)據(jù)快速增長的信息爆炸時代,亟待解決的問題就是對大數(shù)據(jù)的數(shù)據(jù)質(zhì)量的甄別及分析。解決信息孤島和數(shù)據(jù)疏散等問題,沖破現(xiàn)行的各類行政壁壘,推進科技資本的合理布局、統(tǒng)籌規(guī)劃及整合,從而滿足同享同用的需求;解決數(shù)據(jù)時效性差、多頭來源,數(shù)據(jù)指標不統(tǒng)一、口徑不一致的問題,從而實現(xiàn)資源規(guī)范標準、利用快捷高效;解決數(shù)據(jù)開發(fā)潛力不足的難題,從而實現(xiàn)多形式展示、深層次挖掘、定制式推送、個性化服務等。對復雜構(gòu)成的科技大數(shù)據(jù)進行基于語義的計算分析,已經(jīng)成為Google、Microsoft等企業(yè)搶占未來大數(shù)據(jù)AI服務的重要部署[2]。
一系列文件指出,應該建立健全鼓勵原始創(chuàng)新、集成創(chuàng)新、引進消化吸收再創(chuàng)新的體制機制,健全技術(shù)創(chuàng)新市場導向機制,建立產(chǎn)學研協(xié)同創(chuàng)新機制,加強知識產(chǎn)權(quán)運用和保護,健全技術(shù)創(chuàng)新激勵機制,整合科技規(guī)劃和資源,完善政府對基礎(chǔ)性、戰(zhàn)略性、前沿性科學研究和共性技術(shù)研究的支持機制[3, 4]。我國現(xiàn)階段在科技平臺建設(shè)方面,不管是模式、內(nèi)容還是機制都面臨著巨大的挑戰(zhàn),而矢志不渝地進行科技平臺建設(shè)是推動知識服務的供給側(cè)結(jié)構(gòu)性改革的重要部分。
盡管我國于2003年全面啟動國家科技基礎(chǔ)條件平臺建設(shè),并產(chǎn)出了很多重要的成果,但目前仍存在不少亟待突破的問題,如平臺信息滯后、各平臺間聯(lián)結(jié)度與信息共享度低,無法滿足客戶動態(tài)需求等,解決這些問題將會使我國的科技平臺建設(shè)飛躍到一個新的高度。開放共享經(jīng)濟環(huán)境下,借助云技術(shù)的精準定位與信息挖掘,探索科技大數(shù)據(jù)服務平臺的功能與運作,有利于實時追蹤技術(shù)交易,提供個性化信息推送、專利技術(shù)需求智能關(guān)聯(lián)等服務,進而促進科技向生產(chǎn)力的快速轉(zhuǎn)化。
數(shù)據(jù)作為目前最有價值、最重要的資本之一,得到了研究人員的廣泛關(guān)注。企業(yè)管理者能否做出正確決策與其承載數(shù)據(jù)量的大小有關(guān),所以,對歷史數(shù)據(jù)的采集和處理一直都是研究人員關(guān)注的重點內(nèi)容,大型企業(yè)、中小型企業(yè)及政府部門都在對構(gòu)建大數(shù)據(jù)平臺進行探索、整合各部門數(shù)據(jù),進而形成關(guān)聯(lián),最終將其有效用于決策支持。大數(shù)據(jù)有別于常見的數(shù)據(jù),通常使用一些常規(guī)軟件就可以實現(xiàn)常見的數(shù)據(jù)的抓取、分析和處理等操作,但大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)價值密度相對較低、數(shù)據(jù)類型多、處理速度快、時效性要求高等特征,人們無法使用常規(guī)處理數(shù)據(jù)的方式去處理大數(shù)據(jù)。而針對大數(shù)據(jù)的分析與處理,往往不是使用隨機分析、抽樣調(diào)查等方法對局部數(shù)據(jù)進行操作,而是對所有數(shù)據(jù)進行分析,從而得到數(shù)據(jù)整體的分析結(jié)果與處理方案。這就要求在大數(shù)據(jù)處理過程中,采用技術(shù)上具有可操作性、便捷高效的處理模式。因此,對大數(shù)據(jù)進行分析處理,要求具備從大量數(shù)據(jù)中抽絲剝繭地提取出有效的數(shù)據(jù)信息,對大批量數(shù)據(jù)從不同維度同時進行分析處理,并快速得到目標數(shù)據(jù)集的能力。
大數(shù)據(jù)涉及很多領(lǐng)域,其中具備科技及知識屬性的大數(shù)據(jù)資源,被認為是科技大數(shù)據(jù)。科技大數(shù)據(jù)依托于信息技術(shù)的高速發(fā)展,加速了與經(jīng)濟社會的交匯融合,科技大數(shù)據(jù)因?qū)ι鐣a(chǎn)、物流、消費等日;顒蛹敖(jīng)濟運行機制、社會生活方式和國家治理能力產(chǎn)生越來越大的影響而成為國家基礎(chǔ)性戰(zhàn)略資源,所以構(gòu)建針對大數(shù)據(jù)的工具,從而合理、高效地使用科技知識領(lǐng)域的大數(shù)據(jù)資源,就十分具有戰(zhàn)略意義。
科技大數(shù)據(jù)有別于傳統(tǒng)的數(shù)據(jù)資源領(lǐng)域,也并不是常見的網(wǎng)絡(luò)及行業(yè)大數(shù)據(jù)。科技大數(shù)據(jù)主要是指包括科技成果數(shù)據(jù)、科技活動數(shù)據(jù)及互聯(lián)網(wǎng)自媒體科技資訊數(shù)據(jù)在內(nèi)的數(shù)據(jù)內(nèi)容。其中,科技成果數(shù)據(jù)是指各學科內(nèi)記錄形成的數(shù)據(jù)、資料、文獻、報告、網(wǎng)絡(luò)科技報道等承載知識的數(shù)據(jù)?萍蓟顒訑(shù)據(jù)包括兩類,一類是科技實體數(shù)據(jù),科技實體數(shù)據(jù)包括科技項目、學術(shù)會議、科技團隊、科技組織、科技人才、科技機構(gòu)、科技獎項、科技主題、科技概念、研究設(shè)備、研究模型、研究方法等;另一類就是知識關(guān)系數(shù)據(jù),知識關(guān)系數(shù)據(jù)包括語義關(guān)系及計量關(guān)系等;ヂ(lián)網(wǎng)自媒體科技資訊數(shù)據(jù)是指常見自媒體產(chǎn)生的數(shù)據(jù),如微信數(shù)據(jù)或微博數(shù)據(jù),其特征是及時、權(quán)威、互動性較好。
科技大數(shù)據(jù)理論與技術(shù)研究是一項順應目前科技行業(yè)信息化技術(shù)水平發(fā)展、服務政府職能改革的科學研究工作,主要目標是強化科技與經(jīng)濟運行監(jiān)測分析,并將分析結(jié)果提供給科技管理者、科研機構(gòu)、企業(yè)和個人,從而有效推動科技創(chuàng)新的一站式的云管理和服務平臺建設(shè),推進科技數(shù)據(jù)共享和業(yè)務協(xié)同,以信息化提升數(shù)據(jù)化管理與服務能力,準確掌握科技發(fā)展在宏觀和微觀等多種維度的動態(tài),及時并快速地響應科技政策的更新,并為其制定提供依據(jù)。
1.1.2 研究意義
本書針對科技服務對科技資源數(shù)據(jù)匯聚融合的需求,研究多源科技大數(shù)據(jù)資源融合的云計算系統(tǒng)平臺分布式管理方法,形成協(xié)調(diào)統(tǒng)一的科技大數(shù)據(jù)分布式存儲與處理模式。本書基于神經(jīng)網(wǎng)絡(luò)學習模型和特征表示學習的科技大數(shù)據(jù)融合處理方法,實現(xiàn)跨領(lǐng)域跨學科的科技大數(shù)據(jù)自動監(jiān)測與采集。利用在線知識圖譜中所蘊含的豐富結(jié)構(gòu)化文本與鏈接信息,建立多源異構(gòu)、碎片化數(shù)據(jù)之間的語義關(guān)聯(lián)和多粒度層次之間的語義映射,完成科技大數(shù)據(jù)的實體識別和匹配;設(shè)計以多粒度知識服務為核心的大數(shù)據(jù)處理架構(gòu)與引擎,實現(xiàn)從元數(shù)據(jù)記錄層、知識實體層以及知識關(guān)系層的智能數(shù)據(jù)融合與演化分析;研究跨平臺跨系統(tǒng)跨業(yè)務跨場景的大數(shù)據(jù)共享交換機制技術(shù),構(gòu)建支持數(shù)據(jù)交換、可信確權(quán)與追蹤保護的科技大數(shù)據(jù)資源融合系統(tǒng)平臺,實現(xiàn)科技大數(shù)據(jù)的生命周期管理,以期在跨媒體跨領(lǐng)域科技大數(shù)據(jù)的實體識別、匯聚融合與演化分析等一系列關(guān)鍵技術(shù)上取得進展。
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 多源異構(gòu)數(shù)據(jù)融合研究現(xiàn)狀
多源異構(gòu)大數(shù)據(jù)融合的研究開始于美國,早在20世紀中期,美國軍隊就已經(jīng)可以對多源傳感器所獲得的相關(guān)信息進行多源數(shù)據(jù)融合,進一步提高了決策的精確度。數(shù)據(jù)融合是一個針對多源異構(gòu)數(shù)據(jù)信息的加工過程,該過程還包括自動化檢測、相關(guān)互聯(lián)以及多級組合等[5, 6]。Greif在1998年將數(shù)據(jù)融合技術(shù)定義成一種通過融合算法以及相關(guān)工具方式對多源異構(gòu)數(shù)據(jù)信息進行關(guān)聯(lián)分析的形式框架[7]。該框架的意義不僅在于可以獲得更加多源優(yōu)質(zhì)的數(shù)據(jù)信息資源,還在于可以有效改善決策的魯棒性以及可靠性。在應用領(lǐng)域上,數(shù)據(jù)融合在工業(yè)控制領(lǐng)域、醫(yī)療識別領(lǐng)域、天氣預測領(lǐng)域等相關(guān)領(lǐng)域有所應用,并逐漸向更多更廣的交叉領(lǐng)域擴展。
為解決多源異構(gòu)數(shù)據(jù)中存在的諸多問題,有一些研究成果通過給多源異構(gòu)數(shù)據(jù)添加相應的規(guī)則,實現(xiàn)多源數(shù)據(jù)的融合。例如,“線性加權(quán)融合”運算、“最大值”運算、“最小值”運算、“求和”運算、“求或”運算以及“投票機制”。相關(guān)核心工作成果有如下幾個。文獻[8]通過 正則化項與鉸鏈損失函數(shù)相結(jié)合對多模態(tài)數(shù)據(jù)進行特征選擇,利用 正則化項引入不同的和函數(shù)學習不同來源數(shù)據(jù)中的互補信息。文獻[9]提出了一種聯(lián)合判別特征融合框架,該框架通過約束函數(shù),最大化樣本間的距離和最小化樣本內(nèi)的距離,實現(xiàn)特征融合。文獻[10]提出了一種判別分析方法,主要通過學習多源異構(gòu)數(shù)據(jù)之間、數(shù)據(jù)對之間的線性變化,引入約束條件加強多個線性變換視圖的一致性。文獻[11]利用線性組合技術(shù)對多源異構(gòu)數(shù)據(jù)進行特征融合,從得到的融合特征中篩選出貢獻率最大的特征,利用遺傳算法進行特征加權(quán)。文獻[12]提出了一種新的特征提取方法,即正態(tài)分布的貝葉斯誤差和貝葉斯相結(jié)合的方法,能夠?qū)崿F(xiàn)特征融合和特征選擇。文獻[13]提出了一種基于相位一致性和能量加權(quán)的融合方法,通過NSCT(non subsampled contourlet transform,非下采樣輪廓波變換)濾波獲得不同模態(tài)數(shù)據(jù)中不同頻率的特征,其中高頻特征通過相位一致性規(guī)則進行融合,低頻特征通過能量加權(quán)進行融合。有的學者利用深度多項式網(wǎng)絡(luò)[14]給多源異構(gòu)數(shù)據(jù)添加線性約束,實現(xiàn)多源異構(gòu)數(shù)據(jù)的融合。還有學者提出了一種新的深度學習結(jié)構(gòu)[15],通過不斷加權(quán)特征信息來實現(xiàn)特征融合。
除了基于規(guī)則的方法之外,還可以通過表征學習的方法,將多源異構(gòu)數(shù)據(jù)投影到一個公共的子空間中。代表性工作有如下幾個。文獻[16]通過對多項式網(wǎng)絡(luò)進行疊加完成數(shù)據(jù)的融合:第一層多項式網(wǎng)絡(luò)提取多源異構(gòu)數(shù)據(jù)的高層語義特征,第二層多項式用于學習多源異構(gòu)數(shù)據(jù)間的相互聯(lián)系。文獻[17]提出在統(tǒng)一的框架下識別和選擇出各個模態(tài)中有用的特征,通過子空間學習的方法學習數(shù)據(jù)的內(nèi)部結(jié)構(gòu)特征。這是一種特征選擇和子空間學習相結(jié)合的方法。文獻[18]提出了一種新的多類型診斷框架,該框架由自動編碼器和softmax層組成,通過自動編碼器網(wǎng)絡(luò)學習多源異構(gòu)數(shù)據(jù)空間共享表示。Huddar等在雙向LSTM(long-short term memory,長短期記憶)神經(jīng)網(wǎng)絡(luò)中加入多個注意力機制,對多源異構(gòu)數(shù)據(jù)進行多次融合得到融合信息[19]。一部分學者利用深度學習在高維空間中表示多源異構(gòu)數(shù)據(jù)之間的關(guān)系,獲得多源異構(gòu)數(shù)據(jù)的在高維空間中的融合表示,完成分類任務[20, 21]。還有一部分學者通過稀疏表示將多源異構(gòu)數(shù)據(jù)映射到統(tǒng)一表示空間[22, 23]。另外有研究者提出了一種基于聯(lián)合訓練框架的方法,并證明了該方法的成功性和適用性[24, 25]。最近,有研究者提出了一種基于典型相關(guān)分析的共享隱空間學習方法[26],也存在一些表征學習的框架旨在充分利用多模態(tài)不完全異構(gòu)數(shù)據(jù)[27, 28]。
雖然我國很重視這方面的發(fā)展,但與國際水平相比還有一些差距,為了縮小數(shù)據(jù)融合在運算精度以及速度方面的差距,還需要再接再厲,促進科技發(fā)展與進步。
1.2.2 科技大數(shù)據(jù)知識圖譜的應用
知識圖譜(knowledge graph)[29]的主要目的是針對其搜索引擎,通過分析描述真實世界中存在的各種實體以及概念,找到并以圖的形式描述這些實體、概念之間的關(guān)聯(lián)關(guān)系,從而改善搜索結(jié)果,將知識系統(tǒng)化地呈現(xiàn)給用戶,提高用戶目標搜索結(jié)果的命中率。
知識圖譜可以顯示知識發(fā)展進程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,利用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。應用知識圖譜時,通常是將應用數(shù)學、圖形學、信息可視化技術(shù)、信息科學等學科的理論與方法和計量學引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu),達到多學科融合目的;谏鲜鲈颍R圖譜適用于科技大數(shù)據(jù)的分析研究,其可以實現(xiàn)對知識持續(xù)增量的自動獲取,具備概念識別、實體發(fā)現(xiàn)、屬性預測、知識演化建模和關(guān)系挖掘能力,可以形成涵蓋數(shù)十億實體規(guī)模的多源、多學科和多數(shù)據(jù)類型的跨媒體知識圖譜[30]。劉嶠等指出科技大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)信息有很大區(qū)別,主要原因在于科技大數(shù)據(jù)內(nèi)容包括各學科內(nèi)的記錄數(shù)據(jù)、資料、文獻、報告、網(wǎng)絡(luò)科技報道等科技成果數(shù)據(jù),除以上成果類內(nèi)容之外,還常常包含科技領(lǐng)域中涉及的項目、學術(shù)會議、人才、機構(gòu)、獎項、主題、概念等特色數(shù)據(jù),以及研究領(lǐng)域相關(guān)的設(shè)備、模型、方法等實體及其語義關(guān)系的活動數(shù)據(jù)[31]。
知識圖譜被廣泛用于語義搜索,即用戶搜索次數(shù)越多,范圍越廣,搜索引擎越能獲得更多的信息和內(nèi)容;知識圖譜被廣泛用于智能問答,運用知識圖譜可以融合所有學科,以保證用戶搜索時具有連貫性,從而實現(xiàn)智能問答;知識圖譜被廣泛用于數(shù)據(jù)挖掘,運用知識圖譜可以從整個互聯(lián)網(wǎng)汲取有用的信息讓用戶獲得更多相關(guān)的數(shù)據(jù)資源;知識圖譜被廣泛應用于推薦系統(tǒng),知識圖譜可以綜合用戶特征,把與關(guān)鍵字相關(guān)的知識化體系系統(tǒng)化地展示給用戶。
在數(shù)字圖書館領(lǐng)域,一些大型出版商也已開始以科技文獻數(shù)據(jù)為基礎(chǔ)構(gòu)建知識圖譜。