《基于網(wǎng)絡大數(shù)據(jù)的社會經(jīng)濟監(jiān)測預警研究》針對網(wǎng)絡大數(shù)據(jù)具有時效性強、分布范圍廣的特點,提出一個基于網(wǎng)絡大數(shù)據(jù)的社會經(jīng)濟監(jiān)測預警的研究框架,對網(wǎng)絡大數(shù)據(jù)進行深入分析和挖掘,在此基礎上就社會轉(zhuǎn)型中的社會經(jīng)濟關鍵指標進行實時監(jiān)測和智能預測,為政府和相關管理部門提供有效的分析工具與決策支持!痘诰W(wǎng)絡大數(shù)據(jù)的社會經(jīng)濟監(jiān)測預警研究》結(jié)構(gòu)完整,思路清晰,語言流暢,是網(wǎng)絡大數(shù)據(jù)應用于社會經(jīng)濟預測的首本專著,同時也是大數(shù)據(jù)分析和監(jiān)測預警等相關領域不可多得的一本體系性參考書。
《基于網(wǎng)絡大數(shù)據(jù)的社會經(jīng)濟監(jiān)測預警研究》可供從事預測科學、監(jiān)測技術(shù)和大數(shù)據(jù)應用研究的科研人員,政府有關決策和管理部門的工作人員,金融公司、電子商務企業(yè)等的從業(yè)人員參考,也可供高等院校管理學院、信息學院、金融學院等相關專業(yè)的師生閱讀。
更多科學出版社服務,請掃碼獲取。
《基于網(wǎng)絡大數(shù)據(jù)的社會經(jīng)濟監(jiān)測預警研究》:
2.4.2網(wǎng)絡大數(shù)據(jù)挖掘的定義
最早的網(wǎng)絡數(shù)據(jù)挖掘概念是由OrenEtioni于1996年提出來的,他認為網(wǎng)絡數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡上的應用,這項技術(shù)綜合了數(shù)據(jù)挖掘、網(wǎng)絡、計算機技術(shù)、信息技術(shù)等諸多領域,是一種綜合性的數(shù)據(jù)挖掘技術(shù)。
國內(nèi)外專家學者對于網(wǎng)絡數(shù)據(jù)挖掘的定義也是眾說紛紜,《基于網(wǎng)絡大數(shù)據(jù)的社會經(jīng)濟監(jiān)測預警研究》選取一個認同率較高的定義:網(wǎng)絡數(shù)據(jù)挖掘就是指從大量網(wǎng)絡數(shù)據(jù)集中找到隱藏的信息,如果將大量網(wǎng)絡數(shù)據(jù)作為這一過程的輸入,將隱藏信息作為這一過程的輸出,則整個網(wǎng)絡數(shù)據(jù)挖掘過程就是從輸入到輸出的一個映射,即從大量網(wǎng)絡數(shù)據(jù)集到隱藏信息的一個映射。
網(wǎng)絡數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個重要分支,但是相比于數(shù)據(jù)挖掘,網(wǎng)絡數(shù)據(jù)挖掘有著一些特殊之處。
首先,網(wǎng)絡數(shù)據(jù)挖掘的對象是大量的網(wǎng)絡數(shù)據(jù)集,這些數(shù)據(jù)集大多是文檔形式,而且具有異質(zhì)性及分散式的特點,如服務器上保存的日志文件、用戶發(fā)生行為留下的個人信息等,處理起來比傳統(tǒng)的數(shù)據(jù)挖掘更加困難。
其次,從邏輯上來講網(wǎng)絡可以看做一個文檔節(jié)點以及節(jié)點間的鏈接構(gòu)成的圖,因此通過網(wǎng)絡數(shù)據(jù)挖掘可能會得到網(wǎng)絡內(nèi)容,也可能會得到網(wǎng)絡結(jié)構(gòu),具有一定的不確定性。
另外,網(wǎng)絡數(shù)據(jù)本身不是結(jié)構(gòu)化的(機器不容易理解),但是傳統(tǒng)的數(shù)據(jù)挖掘是基于結(jié)構(gòu)化的數(shù)據(jù)進行的,是建立在關系數(shù)據(jù)庫的基礎上的。因此,有些時候數(shù)據(jù)挖掘技術(shù)與網(wǎng)絡數(shù)據(jù)挖掘技術(shù)并不通用,即便要用也需要預先對網(wǎng)絡數(shù)據(jù)進行處理,使其轉(zhuǎn)化為傳統(tǒng)數(shù)據(jù)挖掘技術(shù)可用的結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu),這也是網(wǎng)絡數(shù)據(jù)挖掘技術(shù)的發(fā)展方向之一。
由于數(shù)據(jù)不斷增長,類型不斷復雜,網(wǎng)絡數(shù)據(jù)具有了大數(shù)據(jù)特征,這時的網(wǎng)絡數(shù)據(jù)挖掘已成為網(wǎng)絡大數(shù)據(jù)挖掘了。2.4.3網(wǎng)絡大數(shù)據(jù)挖掘的分類由于網(wǎng)絡上的數(shù)據(jù)具有多樣性的特征,所以在進行網(wǎng)絡大數(shù)據(jù)挖掘時所面臨的任務也是多種多樣的,這里我們根據(jù)網(wǎng)絡大數(shù)據(jù)挖掘的對象不同進行分類,網(wǎng)絡大數(shù)據(jù)挖掘技術(shù)可以分為三類,即網(wǎng)絡結(jié)構(gòu)挖掘、網(wǎng)絡內(nèi)容挖掘和網(wǎng)絡應用挖掘。
網(wǎng)絡結(jié)構(gòu)挖掘技術(shù)是指在挖掘過程中關注網(wǎng)絡上隱含的鏈接結(jié)構(gòu),根據(jù)網(wǎng)絡結(jié)構(gòu)之間的關系(如鏈接間的關系與組織結(jié)構(gòu))得到隱含信息的過程。這種方式通過分析網(wǎng)頁之間的某個鏈接及與這個鏈接相關的網(wǎng)頁數(shù)和相關對象,建立起一個網(wǎng)絡鏈接結(jié)構(gòu)模型。網(wǎng)絡結(jié)構(gòu)挖掘可以用來對網(wǎng)頁進行分類,從而進一步得到網(wǎng)頁之間的相關聯(lián)程度及近似程度,同時還可以幫助用戶快速地找到與自己相關的網(wǎng)頁。前文已經(jīng)說過,邏輯上網(wǎng)絡可以看做一張圖,一張龐大的有向圖。每個網(wǎng)絡網(wǎng)頁就是圖中的一個節(jié)點,而頁面之間的鏈接就是圖中的邊,可以是單向的,也可以是雙向的。這樣我們可以很方便、快捷地找到一個節(jié)點到另一個節(jié)點的最短路徑,應用到現(xiàn)實生活中就是可以花費最小的時間和精力從一個頁面訪問另一個目標頁面。
網(wǎng)絡內(nèi)容挖掘技術(shù)是指對頁面的本身內(nèi)容進行挖掘,頁面內(nèi)容的主要形式有文本、圖片、多媒體音響等,我們要從多種形式的內(nèi)容中挖掘出有價值的信息。目前,廣泛應用的一些搜索引擎與推薦系統(tǒng)都是網(wǎng)絡內(nèi)容挖掘技術(shù)的現(xiàn)實應用,這些應用都是幫助用戶從大量數(shù)據(jù)中快速找到自己需要的信息。網(wǎng)絡內(nèi)容挖掘技術(shù)的關鍵是對網(wǎng)絡頁面的分類及聚類。分類是指網(wǎng)絡頁面具有不同的特征,我們根據(jù)這些特征將網(wǎng)絡頁面劃分為不同的類別;聚類是指,由于不同類別的網(wǎng)絡頁面之間或多或少都有著某種聯(lián)系,我們將這些頁面聚合到一起,形成不同的簇,盡可能使得同一個簇內(nèi)的網(wǎng)絡頁面有著最為相近的內(nèi)容,而不同簇之間的網(wǎng)絡頁面內(nèi)容沒有多大的相近性與關聯(lián)度。
……