《社交大數(shù)據(jù)挖掘》緊緊圍繞社交媒體中的大數(shù)據(jù)問題,系統(tǒng)介紹了社交大數(shù)據(jù)的基本概念以及相關(guān)的大數(shù)據(jù)處理技術(shù),重點介紹了網(wǎng)頁和媒體的大數(shù)據(jù)挖掘。《社交大數(shù)據(jù)挖掘》共分為14章,總體上可以分為三部分:第一部分包括第1章和第2章,介紹了社交大數(shù)據(jù)的基本概念和內(nèi)涵,明晰了社交大數(shù)據(jù)與一般大數(shù)據(jù)的區(qū)別;第二部分為第3章至第9章,介紹了大數(shù)據(jù)處理中涉及的基本概念和技術(shù)方法,包括假設(shè)的定義、通過數(shù)據(jù)挖掘提出假設(shè)的方法,以及假設(shè)驗證的分析方法;第三部分為第10章至第14章,詳細介紹了社交大數(shù)據(jù)中的網(wǎng)頁和媒體數(shù)據(jù)挖掘技術(shù)、自然語言處理技術(shù),以及社交大數(shù)據(jù)的應用!渡缃淮髷(shù)據(jù)挖掘》體系結(jié)構(gòu)完整,內(nèi)容關(guān)注于具有鮮明特色的社交媒體大數(shù)據(jù),行文通俗易懂,同時兼具較好的理論參考價值、實用性和指導性!渡缃淮髷(shù)據(jù)挖掘》可為具有一定相關(guān)專業(yè)基礎(chǔ)、對大數(shù)據(jù)感興趣的師生、工程師及其他專業(yè)人士提供參考。
原書前言當今時代,在科學界、互聯(lián)網(wǎng)以及物理系統(tǒng)中不斷產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)統(tǒng)稱為數(shù)據(jù)洪流。根據(jù)IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)的研究,每年全世界產(chǎn)生和復制的數(shù)據(jù)估計有161EB。僅2011年產(chǎn)生的數(shù)據(jù)總量就超過了該年度可用存儲介質(zhì)的存儲容量的10倍或更多。
科學和工程領(lǐng)域的專家通過觀察和分析目標現(xiàn)象會產(chǎn)生大量的數(shù)據(jù),甚至普通人通過互聯(lián)網(wǎng)上的各種社交媒體也會自發(fā)發(fā)布大量的數(shù)據(jù)。此外,在真實世界中,人們通過物理系統(tǒng)檢測到的各種動作會無意識地產(chǎn)生數(shù)據(jù)。,這些數(shù)據(jù)通常被認為能夠產(chǎn)生有價值的信息。
在上述IDC的研究報告中,科學界、互聯(lián)網(wǎng)和物理系統(tǒng)中產(chǎn)生的數(shù)據(jù)統(tǒng)稱為大數(shù)據(jù)。
大數(shù)據(jù)的特點可以概括如下。
數(shù)量(Volume)大:正如它的名字所示,大數(shù)據(jù)的數(shù)量是非常大的。
種類(Variety)多:數(shù)據(jù)的種類可以擴展到非結(jié)構(gòu)化文本、半結(jié)構(gòu)化數(shù)據(jù),比如網(wǎng)絡中的XML、圖表等。
速度(Velocity)快:如同推特(Twitter)和傳感器數(shù)據(jù)流的情況一樣,數(shù)據(jù)生成的速度非?。
因此,大數(shù)據(jù)的特征通常用V3來表示,即數(shù)量、種類和速度這三個單詞的首字母。
人們期望大數(shù)據(jù)能夠有助于獲取科學知識,而且企業(yè)也能從中獲得價值。
“種類多”意味著大數(shù)據(jù)出現(xiàn)在各種各樣的應用中。大數(shù)據(jù)本質(zhì)上包含“模糊性”
。╲agueness),比如它的不一致性和缺失等。為了獲得有價值的分析結(jié)果,就必須解決模糊性的問題。此外,最近在日本完成的一項調(diào)查顯示,很多用戶對“模糊性”的擔憂如同對大數(shù)據(jù)應用安全和機制的擔心一樣。解決這些問題是大數(shù)據(jù)應用能否成功推廣的一個關(guān)鍵。從這個意義上講,應該用V4而不是V3來描述大數(shù)據(jù)。
數(shù)據(jù)分析師也被稱作數(shù)據(jù)科學家。在大數(shù)據(jù)時代,需要越來越多的數(shù)據(jù)科學家,他們必備的技能包括以下方面:
·能夠構(gòu)建一個假設(shè)·能夠驗證假設(shè)·挖掘社交數(shù)據(jù)以及通用Web數(shù)據(jù)的能力·能夠處理自然語言信息·能夠恰當?shù)貙?shù)據(jù)和知識表示出來·能夠恰當?shù)貙?shù)據(jù)和結(jié)果進行可視化·使用地理信息系統(tǒng)(Geographical Information Systems,GIS)的能力·了解各種各樣的應用程序·了解可擴展性的知識·了解和遵守與隱私和安全有關(guān)的道德和法律·能夠使用安全系統(tǒng)·能夠與客戶交流根據(jù)上述標準,本書的內(nèi)容不一定很全面。然而,從社交大數(shù)據(jù)的角度來看,本書二要關(guān)注的是下述基本概念和相關(guān)技術(shù):
·大數(shù)據(jù)和社交數(shù)據(jù)·假設(shè)的概念·用于做出假設(shè)的數(shù)據(jù)挖掘·用于驗證假設(shè)的多變量分析.Web挖掘和媒體挖掘·自然語言處理·社交大數(shù)據(jù)應用·可擴展性簡而言之,本書介紹了特征假設(shè),它在社交大數(shù)據(jù)時代中具有越來越重要的地位,刖外,還介紹了分析技術(shù),如社交大數(shù)據(jù)的建模、數(shù)據(jù)挖掘和多變量分析。本書與其他同婁書的不同之處在于,本書從學術(shù)基礎(chǔ)出發(fā),目的是描繪出社交大數(shù)據(jù)從基本概念到應用削全景。
希望本書能夠為那些對社交大數(shù)據(jù)感興趣的讀者所廣泛使用,包括學生、工程師、莽學家和其他專業(yè)人士。此外,我要深深感謝家人的大力支持。
石川博(Hiroshi Ishikawa)
譯者序
原書前言
第1章社交媒體
1. 1什么是社交媒體
1.2代表性社交媒體
1.2.1 Twitter一
1.2.2 Flickr
1.2.3 YouTube
1.2.4 Facebook
1.2.5維基百科
1.2.6通用網(wǎng)絡
1.2.7其他社交媒體
參考文獻
第2章大數(shù)據(jù)和社交數(shù)據(jù)
2.1 大數(shù)據(jù)
2.2物理真實世界與社交媒體的交互
2.3集成框架
2.4交互的建模和分析
2.5元分析模型——概念層
2.5.1面向?qū)ο蟮募煞治瞿P?
2.5.2原始案例
2.6假設(shè)的生成和驗證——邏輯層
2.6.1多變量分析
2.6.2數(shù)據(jù)挖掘
2.6.3發(fā)現(xiàn)和識別影響
2.6.4影響的定量測量
2.7 興趣回顧——互動挖掘
2.8分布式并行計算框架
2. 8.1 NoSQL
2.8.2 MapReduce--種并行分布式計算的機制
2.8.3 Hadoop
參考文獻
第3章大數(shù)據(jù)時代的假設(shè)
3.1 什么是假設(shè)
3.2數(shù)據(jù)采樣
3.3假設(shè)驗證
3.4假設(shè)構(gòu)建
3.4.1歸納法
3.4.2推理
3.4.3可信推理
3.4.4不明推論式
3.4.5相關(guān)性
3.4.6因果關(guān)系
3.4.7類比
3.4.8傳遞定律
3.5假設(shè)的粒度
3.6 對假設(shè)的重新審視
參考文獻
第4章社交大數(shù)據(jù)應用
4.1普通網(wǎng)頁與社交媒體之間作為分析主體的差異
4.2基于要素的社交媒體應用分類
4.3基于目標的社交媒體應用分類
4.4通過MiPS模型描
第5章數(shù)據(jù)挖掘中的基本概念
第6章關(guān)聯(lián)規(guī)則挖掘
第7章聚類
第8章分類
第9章預測
第10章Wep結(jié)構(gòu)挖掘
第11章Wep內(nèi)容挖掘
第12章Wep訪問日志挖掘 信息提取 深層Wep挖掘
第13章媒體挖掘
第14章可擴展性和異常檢測
附錄