午夜场同性视频,五月婷婷在线视频观看,亚洲国产AV无码专区亚洲AVL

《社交大數(shù)據(jù)挖掘》緊緊圍繞社交媒體中的大數(shù)據(jù)問題，系統(tǒng)介紹了社交大數(shù)據(jù)的基本概念以及相關(guān)的大數(shù)據(jù)處理技術(shù)，重點介紹了網(wǎng)頁和媒體的大數(shù)據(jù)挖掘�！渡缃淮髷�(shù)據(jù)挖掘》共分為14章，總體上可以分為三部分：第一部分包括第1章和第2章，介紹了社交大數(shù)據(jù)的基本概念和內(nèi)涵，明晰了社交大數(shù)據(jù)與一般大數(shù)據(jù)的區(qū)別；第二部分為第3章至第9章，介紹了大數(shù)據(jù)處理中涉及的基本概念和技術(shù)方法，包括假設(shè)的定義、通過數(shù)據(jù)挖掘提出假設(shè)的方法，以及假設(shè)驗證的分析方法；第三部分為第10章至第14章，詳細介紹了社交大數(shù)據(jù)中的網(wǎng)頁和媒體數(shù)據(jù)挖掘技術(shù)、自然語言處理技術(shù)，以及社交大數(shù)據(jù)的應用�！渡缃淮髷�(shù)據(jù)挖掘》體系結(jié)構(gòu)完整，內(nèi)容關(guān)注于具有鮮明特色的社交媒體大數(shù)據(jù)，行文通俗易懂，同時兼具較好的理論參考價值、實用性和指導性�！渡缃淮髷�(shù)據(jù)挖掘》可為具有一定相關(guān)專業(yè)基礎(chǔ)、對大數(shù)據(jù)感興趣的師生、工程師及其他專業(yè)人士提供參考。

　　原書前言當今時代，在科學界、互聯(lián)網(wǎng)以及物理系統(tǒng)中不斷產(chǎn)生大量的數(shù)據(jù)，這些數(shù)據(jù)統(tǒng)稱為數(shù)據(jù)洪流。根據(jù)IDC（互聯(lián)網(wǎng)數(shù)據(jù)中心）的研究，每年全世界產(chǎn)生和復制的數(shù)據(jù)估計有161EB。僅2011年產(chǎn)生的數(shù)據(jù)總量就超過了該年度可用存儲介質(zhì)的存儲容量的10倍或更多。

　　科學和工程領(lǐng)域的專家通過觀察和分析目標現(xiàn)象會產(chǎn)生大量的數(shù)據(jù)，甚至普通人通過互聯(lián)網(wǎng)上的各種社交媒體也會自發(fā)發(fā)布大量的數(shù)據(jù)。此外，在真實世界中，人們通過物理系統(tǒng)檢測到的各種動作會無意識地產(chǎn)生數(shù)據(jù)。，這些數(shù)據(jù)通常被認為能夠產(chǎn)生有價值的信息。

　　在上述IDC的研究報告中，科學界、互聯(lián)網(wǎng)和物理系統(tǒng)中產(chǎn)生的數(shù)據(jù)統(tǒng)稱為大數(shù)據(jù)。

　　大數(shù)據(jù)的特點可以概括如下。

　　數(shù)量(Volume)大：正如它的名字所示，大數(shù)據(jù)的數(shù)量是非常大的。

　　種類(Variety)多：數(shù)據(jù)的種類可以擴展到非結(jié)構(gòu)化文本、半結(jié)構(gòu)化數(shù)據(jù)，比如網(wǎng)絡(luò)中的XML、圖表等。

　　速度(Velocity)快：如同推特(Twitter)和傳感器數(shù)據(jù)流的情況一樣，數(shù)據(jù)生成的速度非�？�。

　　因此，大數(shù)據(jù)的特征通常用V3來表示，即數(shù)量、種類和速度這三個單詞的首字母。

　　人們期望大數(shù)據(jù)能夠有助于獲取科學知識，而且企業(yè)也能從中獲得價值。

　　“種類多”意味著大數(shù)據(jù)出現(xiàn)在各種各樣的應用中。大數(shù)據(jù)本質(zhì)上包含“模糊性”

　�。╲agueness），比如它的不一致性和缺失等。為了獲得有價值的分析結(jié)果，就必須解決模糊性的問題。此外，最近在日本完成的一項調(diào)查顯示，很多用戶對“模糊性”的擔憂如同對大數(shù)據(jù)應用安全和機制的擔心一樣。解決這些問題是大數(shù)據(jù)應用能否成功推廣的一個關(guān)鍵。從這個意義上講，應該用V4而不是V3來描述大數(shù)據(jù)。

　　數(shù)據(jù)分析師也被稱作數(shù)據(jù)科學家。在大數(shù)據(jù)時代，需要越來越多的數(shù)據(jù)科學家，他們必備的技能包括以下方面：

　　·能夠構(gòu)建一個假設(shè)·能夠驗證假設(shè)·挖掘社交數(shù)據(jù)以及通用Web數(shù)據(jù)的能力·能夠處理自然語言信息·能夠恰當?shù)貙?shù)據(jù)和知識表示出來·能夠恰當?shù)貙?shù)據(jù)和結(jié)果進行可視化·使用地理信息系統(tǒng)(Geographical Information Systems，GIS)的能力·了解各種各樣的應用程序·了解可擴展性的知識·了解和遵守與隱私和安全有關(guān)的道德和法律·能夠使用安全系統(tǒng)·能夠與客戶交流根據(jù)上述標準，本書的內(nèi)容不一定很全面。然而，從社交大數(shù)據(jù)的角度來看，本書二要關(guān)注的是下述基本概念和相關(guān)技術(shù)：

　　·大數(shù)據(jù)和社交數(shù)據(jù)·假設(shè)的概念·用于做出假設(shè)的數(shù)據(jù)挖掘·用于驗證假設(shè)的多變量分析.Web挖掘和媒體挖掘·自然語言處理·社交大數(shù)據(jù)應用·可擴展性簡而言之，本書介紹了特征假設(shè)，它在社交大數(shù)據(jù)時代中具有越來越重要的地位，刖外，還介紹了分析技術(shù)，如社交大數(shù)據(jù)的建模、數(shù)據(jù)挖掘和多變量分析。本書與其他同婁書的不同之處在于，本書從學術(shù)基礎(chǔ)出發(fā)，目的是描繪出社交大數(shù)據(jù)從基本概念到應用削全景。

　　希望本書能夠為那些對社交大數(shù)據(jù)感興趣的讀者所廣泛使用，包括學生、工程師、莽學家和其他專業(yè)人士。此外，我要深深感謝家人的大力支持。

　　石川博(Hiroshi Ishikawa)

你還可能感興趣

我要評論