a一级毛片久久久久久精品,亚洲国产另类精品专区,农村40岁一级特黄大片

本書針對現(xiàn)有科技大數(shù)據(jù)存在眾多數(shù)據(jù)來源、數(shù)據(jù)異構(gòu)、數(shù)據(jù)質(zhì)量不均衡等問題, 解決多源異構(gòu)科技大數(shù)據(jù)的數(shù)據(jù)采集、清洗、融合、存儲等問題, 構(gòu)建科技大數(shù)據(jù)高效匯聚融合、智能演化分析、以及個性化檢索服務平臺。主要內(nèi)容包括多源異構(gòu)科技大數(shù)據(jù)采集機制、科技大數(shù)據(jù)匯聚融合機制、科技大數(shù)據(jù)分布式存儲關(guān)鍵技術(shù)、面向開放協(xié)同的科技大數(shù)據(jù)檢索服務接口、科技大數(shù)據(jù)交換與可信確權(quán)、科技大數(shù)據(jù)交互式演化分析、面向領(lǐng)域的科技大數(shù)據(jù)智能服務應用。

更多科學出版社服務，請掃碼獲取。

第1章緒論
　　1.1 研究背景及意義
　　1.1.1 研究背景
　　隨著新興技術(shù)的不斷突破，不管是區(qū)塊鏈還是AI（artificial intelligence，人工智能），抑或是大數(shù)據(jù)，當前正處于科技和產(chǎn)業(yè)變革的關(guān)鍵節(jié)點。隨著技術(shù)的進步和社會需求的改變，每一天、每一小時甚至每一秒都在不斷產(chǎn)生海量支撐AI發(fā)展的科技數(shù)據(jù)。盡管數(shù)據(jù)龐雜，但其中記載著詳細學科知識、相關(guān)真理及驗證過程、某學科的實驗過程和結(jié)論等，這些對推動技術(shù)發(fā)展起到關(guān)鍵作用的核心科技情報知識線索，是現(xiàn)代各尖端領(lǐng)域用于科技創(chuàng)新發(fā)現(xiàn)的算法模型實現(xiàn)的核心數(shù)據(jù)根基和重要知識基礎(chǔ)[1]。
　　在數(shù)據(jù)快速增長的信息爆炸時代，亟待解決的問題就是對大數(shù)據(jù)的數(shù)據(jù)質(zhì)量的甄別及分析。解決信息孤島和數(shù)據(jù)疏散等問題，沖破現(xiàn)行的各類行政壁壘，推進科技資本的合理布局、統(tǒng)籌規(guī)劃及整合，從而滿足同享同用的需求；解決數(shù)據(jù)時效性差、多頭來源，數(shù)據(jù)指標不統(tǒng)一、口徑不一致的問題，從而實現(xiàn)資源規(guī)范標準、利用快捷高效；解決數(shù)據(jù)開發(fā)潛力不足的難題，從而實現(xiàn)多形式展示、深層次挖掘、定制式推送、個性化服務等。對復雜構(gòu)成的科技大數(shù)據(jù)進行基于語義的計算分析，已經(jīng)成為Google、Microsoft等企業(yè)搶占未來大數(shù)據(jù)AI服務的重要部署[2]。
　　一系列文件指出，應該建立健全鼓勵原始創(chuàng)新、集成創(chuàng)新、引進消化吸收再創(chuàng)新的體制機制，健全技術(shù)創(chuàng)新市場導向機制，建立產(chǎn)學研協(xié)同創(chuàng)新機制，加強知識產(chǎn)權(quán)運用和保護，健全技術(shù)創(chuàng)新激勵機制，整合科技規(guī)劃和資源，完善政府對基礎(chǔ)性、戰(zhàn)略性、前沿性科學研究和共性技術(shù)研究的支持機制[3， 4]。我國現(xiàn)階段在科技平臺建設(shè)方面，不管是模式、內(nèi)容還是機制都面臨著巨大的挑戰(zhàn)，而矢志不渝地進行科技平臺建設(shè)是推動知識服務的供給側(cè)結(jié)構(gòu)性改革的重要部分。
　　盡管我國于2003年全面啟動國家科技基礎(chǔ)條件平臺建設(shè)，并產(chǎn)出了很多重要的成果，但目前仍存在不少亟待突破的問題，如平臺信息滯后、各平臺間聯(lián)結(jié)度與信息共享度低，無法滿足客戶動態(tài)需求等，解決這些問題將會使我國的科技平臺建設(shè)飛躍到一個新的高度。開放共享經(jīng)濟環(huán)境下，借助云技術(shù)的精準定位與信息挖掘，探索科技大數(shù)據(jù)服務平臺的功能與運作，有利于實時追蹤技術(shù)交易，提供個性化信息推送、專利技術(shù)需求智能關(guān)聯(lián)等服務，進而促進科技向生產(chǎn)力的快速轉(zhuǎn)化。
　　數(shù)據(jù)作為目前最有價值、最重要的資本之一，得到了研究人員的廣泛關(guān)注。企業(yè)管理者能否做出正確決策與其承載數(shù)據(jù)量的大小有關(guān)，所以，對歷史數(shù)據(jù)的采集和處理一直都是研究人員關(guān)注的重點內(nèi)容，大型企業(yè)、中小型企業(yè)及政府部門都在對構(gòu)建大數(shù)據(jù)平臺進行探索、整合各部門數(shù)據(jù)，進而形成關(guān)聯(lián)，最終將其有效用于決策支持。大數(shù)據(jù)有別于常見的數(shù)據(jù)，通常使用一些常規(guī)軟件就可以實現(xiàn)常見的數(shù)據(jù)的抓取、分析和處理等操作，但大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)價值密度相對較低、數(shù)據(jù)類型多、處理速度快、時效性要求高等特征，人們無法使用常規(guī)處理數(shù)據(jù)的方式去處理大數(shù)據(jù)。而針對大數(shù)據(jù)的分析與處理，往往不是使用隨機分析、抽樣調(diào)查等方法對局部數(shù)據(jù)進行操作，而是對所有數(shù)據(jù)進行分析，從而得到數(shù)據(jù)整體的分析結(jié)果與處理方案。這就要求在大數(shù)據(jù)處理過程中，采用技術(shù)上具有可操作性、便捷高效的處理模式。因此，對大數(shù)據(jù)進行分析處理，要求具備從大量數(shù)據(jù)中抽絲剝繭地提取出有效的數(shù)據(jù)信息，對大批量數(shù)據(jù)從不同維度同時進行分析處理，并快速得到目標數(shù)據(jù)集的能力。
　　大數(shù)據(jù)涉及很多領(lǐng)域，其中具備科技及知識屬性的大數(shù)據(jù)資源，被認為是科技大數(shù)據(jù)。科技大數(shù)據(jù)依托于信息技術(shù)的高速發(fā)展，加速了與經(jīng)濟社會的交匯融合，科技大數(shù)據(jù)因?qū)ι鐣a(chǎn)、物流、消費等日�；顒蛹敖�(jīng)濟運行機制、社會生活方式和國家治理能力產(chǎn)生越來越大的影響而成為國家基礎(chǔ)性戰(zhàn)略資源，所以構(gòu)建針對大數(shù)據(jù)的工具，從而合理、高效地使用科技知識領(lǐng)域的大數(shù)據(jù)資源，就十分具有戰(zhàn)略意義。
　　科技大數(shù)據(jù)有別于傳統(tǒng)的數(shù)據(jù)資源領(lǐng)域，也并不是常見的網(wǎng)絡(luò)及行業(yè)大數(shù)據(jù)。科技大數(shù)據(jù)主要是指包括科技成果數(shù)據(jù)、科技活動數(shù)據(jù)及互聯(lián)網(wǎng)自媒體科技資訊數(shù)據(jù)在內(nèi)的數(shù)據(jù)內(nèi)容。其中，科技成果數(shù)據(jù)是指各學科內(nèi)記錄形成的數(shù)據(jù)、資料、文獻、報告、網(wǎng)絡(luò)科技報道等承載知識的數(shù)據(jù)�？萍蓟顒訑�(shù)據(jù)包括兩類，一類是科技實體數(shù)據(jù)，科技實體數(shù)據(jù)包括科技項目、學術(shù)會議、科技團隊、科技組織、科技人才、科技機構(gòu)、科技獎項、科技主題、科技概念、研究設(shè)備、研究模型、研究方法等；另一類就是知識關(guān)系數(shù)據(jù)，知識關(guān)系數(shù)據(jù)包括語義關(guān)系及計量關(guān)系等�；ヂ�(lián)網(wǎng)自媒體科技資訊數(shù)據(jù)是指常見自媒體產(chǎn)生的數(shù)據(jù)，如微信數(shù)據(jù)或微博數(shù)據(jù)，其特征是及時、權(quán)威、互動性較好。
　　科技大數(shù)據(jù)理論與技術(shù)研究是一項順應目前科技行業(yè)信息化技術(shù)水平發(fā)展、服務政府職能改革的科學研究工作，主要目標是強化科技與經(jīng)濟運行監(jiān)測分析，并將分析結(jié)果提供給科技管理者、科研機構(gòu)、企業(yè)和個人，從而有效推動科技創(chuàng)新的一站式的云管理和服務平臺建設(shè)，推進科技數(shù)據(jù)共享和業(yè)務協(xié)同，以信息化提升數(shù)據(jù)化管理與服務能力，準確掌握科技發(fā)展在宏觀和微觀等多種維度的動態(tài)，及時并快速地響應科技政策的更新，并為其制定提供依據(jù)。
　　1.1.2 研究意義
　　本書針對科技服務對科技資源數(shù)據(jù)匯聚融合的需求，研究多源科技大數(shù)據(jù)資源融合的云計算系統(tǒng)平臺分布式管理方法，形成協(xié)調(diào)統(tǒng)一的科技大數(shù)據(jù)分布式存儲與處理模式。本書基于神經(jīng)網(wǎng)絡(luò)學習模型和特征表示學習的科技大數(shù)據(jù)融合處理方法，實現(xiàn)跨領(lǐng)域跨學科的科技大數(shù)據(jù)自動監(jiān)測與采集。利用在線知識圖譜中所蘊含的豐富結(jié)構(gòu)化文本與鏈接信息，建立多源異構(gòu)、碎片化數(shù)據(jù)之間的語義關(guān)聯(lián)和多粒度層次之間的語義映射，完成科技大數(shù)據(jù)的實體識別和匹配；設(shè)計以多粒度知識服務為核心的大數(shù)據(jù)處理架構(gòu)與引擎，實現(xiàn)從元數(shù)據(jù)記錄層、知識實體層以及知識關(guān)系層的智能數(shù)據(jù)融合與演化分析；研究跨平臺跨系統(tǒng)跨業(yè)務跨場景的大數(shù)據(jù)共享交換機制技術(shù)，構(gòu)建支持數(shù)據(jù)交換、可信確權(quán)與追蹤保護的科技大數(shù)據(jù)資源融合系統(tǒng)平臺，實現(xiàn)科技大數(shù)據(jù)的生命周期管理，以期在跨媒體跨領(lǐng)域科技大數(shù)據(jù)的實體識別、匯聚融合與演化分析等一系列關(guān)鍵技術(shù)上取得進展。
　　1.2 國內(nèi)外研究現(xiàn)狀
　　1.2.1 多源異構(gòu)數(shù)據(jù)融合研究現(xiàn)狀
　　多源異構(gòu)大數(shù)據(jù)融合的研究開始于美國，早在20世紀中期，美國軍隊就已經(jīng)可以對多源傳感器所獲得的相關(guān)信息進行多源數(shù)據(jù)融合，進一步提高了決策的精確度。數(shù)據(jù)融合是一個針對多源異構(gòu)數(shù)據(jù)信息的加工過程，該過程還包括自動化檢測、相關(guān)互聯(lián)以及多級組合等[5， 6]。Greif在1998年將數(shù)據(jù)融合技術(shù)定義成一種通過融合算法以及相關(guān)工具方式對多源異構(gòu)數(shù)據(jù)信息進行關(guān)聯(lián)分析的形式框架[7]。該框架的意義不僅在于可以獲得更加多源優(yōu)質(zhì)的數(shù)據(jù)信息資源，還在于可以有效改善決策的魯棒性以及可靠性。在應用領(lǐng)域上，數(shù)據(jù)融合在工業(yè)控制領(lǐng)域、醫(yī)療識別領(lǐng)域、天氣預測領(lǐng)域等相關(guān)領(lǐng)域有所應用，并逐漸向更多更廣的交叉領(lǐng)域擴展。
　　為解決多源異構(gòu)數(shù)據(jù)中存在的諸多問題，有一些研究成果通過給多源異構(gòu)數(shù)據(jù)添加相應的規(guī)則，實現(xiàn)多源數(shù)據(jù)的融合。例如，“線性加權(quán)融合”運算、“最大值”運算、“最小值”運算、“求和”運算、“求或”運算以及“投票機制”。相關(guān)核心工作成果有如下幾個。文獻[8]通過正則化項與鉸鏈損失函數(shù)相結(jié)合對多模態(tài)數(shù)據(jù)進行特征選擇，利用正則化項引入不同的和函數(shù)學習不同來源數(shù)據(jù)中的互補信息。文獻[9]提出了一種聯(lián)合判別特征融合框架，該框架通過約束函數(shù)，最大化樣本間的距離和最小化樣本內(nèi)的距離，實現(xiàn)特征融合。文獻[10]提出了一種判別分析方法，主要通過學習多源異構(gòu)數(shù)據(jù)之間、數(shù)據(jù)對之間的線性變化，引入約束條件加強多個線性變換視圖的一致性。文獻[11]利用線性組合技術(shù)對多源異構(gòu)數(shù)據(jù)進行特征融合，從得到的融合特征中篩選出貢獻率最大的特征，利用遺傳算法進行特征加權(quán)。文獻[12]提出了一種新的特征提取方法，即正態(tài)分布的貝葉斯誤差和貝葉斯相結(jié)合的方法，能夠?qū)崿F(xiàn)特征融合和特征選擇。文獻[13]提出了一種基于相位一致性和能量加權(quán)的融合方法，通過NSCT（non subsampled contourlet transform，非下采樣輪廓波變換）濾波獲得不同模態(tài)數(shù)據(jù)中不同頻率的特征，其中高頻特征通過相位一致性規(guī)則進行融合，低頻特征通過能量加權(quán)進行融合。有的學者利用深度多項式網(wǎng)絡(luò)[14]給多源異構(gòu)數(shù)據(jù)添加線性約束，實現(xiàn)多源異構(gòu)數(shù)據(jù)的融合。還有學者提出了一種新的深度學習結(jié)構(gòu)[15]，通過不斷加權(quán)特征信息來實現(xiàn)特征融合。
　　除了基于規(guī)則的方法之外，還可以通過表征學習的方法，將多源異構(gòu)數(shù)據(jù)投影到一個公共的子空間中。代表性工作有如下幾個。文獻[16]通過對多項式網(wǎng)絡(luò)進行疊加完成數(shù)據(jù)的融合：第一層多項式網(wǎng)絡(luò)提取多源異構(gòu)數(shù)據(jù)的高層語義特征，第二層多項式用于學習多源異構(gòu)數(shù)據(jù)間的相互聯(lián)系。文獻[17]提出在統(tǒng)一的框架下識別和選擇出各個模態(tài)中有用的特征，通過子空間學習的方法學習數(shù)據(jù)的內(nèi)部結(jié)構(gòu)特征。這是一種特征選擇和子空間學習相結(jié)合的方法。文獻[18]提出了一種新的多類型診斷框架，該框架由自動編碼器和softmax層組成，通過自動編碼器網(wǎng)絡(luò)學習多源異構(gòu)數(shù)據(jù)空間共享表示。Huddar等在雙向LSTM（long-short term memory，長短期記憶）神經(jīng)網(wǎng)絡(luò)中加入多個注意力機制，對多源異構(gòu)數(shù)據(jù)進行多次融合得到融合信息[19]。一部分學者利用深度學習在高維空間中表示多源異構(gòu)數(shù)據(jù)之間的關(guān)系，獲得多源異構(gòu)數(shù)據(jù)的在高維空間中的融合表示，完成分類任務[20， 21]。還有一部分學者通過稀疏表示將多源異構(gòu)數(shù)據(jù)映射到統(tǒng)一表示空間[22， 23]。另外有研究者提出了一種基于聯(lián)合訓練框架的方法，并證明了該方法的成功性和適用性[24， 25]。最近，有研究者提出了一種基于典型相關(guān)分析的共享隱空間學習方法[26]，也存在一些表征學習的框架旨在充分利用多模態(tài)不完全異構(gòu)數(shù)據(jù)[27， 28]。
　　雖然我國很重視這方面的發(fā)展，但與國際水平相比還有一些差距，為了縮小數(shù)據(jù)融合在運算精度以及速度方面的差距，還需要再接再厲，促進科技發(fā)展與進步。
　　1.2.2 科技大數(shù)據(jù)知識圖譜的應用
　　知識圖譜（knowledge graph）[29]的主要目的是針對其搜索引擎，通過分析描述真實世界中存在的各種實體以及概念，找到并以圖的形式描述這些實體、概念之間的關(guān)聯(lián)關(guān)系，從而改善搜索結(jié)果，將知識系統(tǒng)化地呈現(xiàn)給用戶，提高用戶目標搜索結(jié)果的命中率。
　　知識圖譜可以顯示知識發(fā)展進程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形，利用可視化技術(shù)描述知識資源及其載體，挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。應用知識圖譜時，通常是將應用數(shù)學、圖形學、信息可視化技術(shù)、信息科學等學科的理論與方法和計量學引文分析、共現(xiàn)分析等方法結(jié)合，并利用可視化的圖譜形象地展示學科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu)，達到多學科融合目的�；谏鲜鲈颍R圖譜適用于科技大數(shù)據(jù)的分析研究，其可以實現(xiàn)對知識持續(xù)增量的自動獲取，具備概念識別、實體發(fā)現(xiàn)、屬性預測、知識演化建模和關(guān)系挖掘能力，可以形成涵蓋數(shù)十億實體規(guī)模的多源、多學科和多數(shù)據(jù)類型的跨媒體知識圖譜[30]。劉嶠等指出科技大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)信息有很大區(qū)別，主要原因在于科技大數(shù)據(jù)內(nèi)容包括各學科內(nèi)的記錄數(shù)據(jù)、資料、文獻、報告、網(wǎng)絡(luò)科技報道等科技成果數(shù)據(jù)，除以上成果類內(nèi)容之外，還常常包含科技領(lǐng)域中涉及的項目、學術(shù)會議、人才、機構(gòu)、獎項、主題、概念等特色數(shù)據(jù)，以及研究領(lǐng)域相關(guān)的設(shè)備、模型、方法等實體及其語義關(guān)系的活動數(shù)據(jù)[31]。
　　知識圖譜被廣泛用于語義搜索，即用戶搜索次數(shù)越多，范圍越廣，搜索引擎越能獲得更多的信息和內(nèi)容；知識圖譜被廣泛用于智能問答，運用知識圖譜可以融合所有學科，以保證用戶搜索時具有連貫性，從而實現(xiàn)智能問答；知識圖譜被廣泛用于數(shù)據(jù)挖掘，運用知識圖譜可以從整個互聯(lián)網(wǎng)汲取有用的信息讓用戶獲得更多相關(guān)的數(shù)據(jù)資源；知識圖譜被廣泛應用于推薦系統(tǒng)，知識圖譜可以綜合用戶特征，把與關(guān)鍵字相關(guān)的知識化體系系統(tǒng)化地展示給用戶。
　　在數(shù)字圖書館領(lǐng)域，一些大型出版商也已開始以科技文獻數(shù)據(jù)為基礎(chǔ)構(gòu)建知識圖譜。

你還可能感興趣

我要評論