非結(jié)構(gòu)化大數(shù)據(jù)分析(大數(shù)據(jù)分析統(tǒng)計(jì)應(yīng)用叢書(shū))
定 價(jià):36 元
叢書(shū)名:大數(shù)據(jù)分析統(tǒng)計(jì)應(yīng)用叢書(shū)
- 作者:李翠平
- 出版時(shí)間:2018/11/1
- ISBN:9787300262970
- 出 版 社:中國(guó)人民大學(xué)出版社
- 中圖法分類:TP274
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:128開(kāi)
非結(jié)構(gòu)化數(shù)據(jù)是與結(jié)構(gòu)化數(shù)據(jù)相對(duì)應(yīng)的概念。結(jié)構(gòu)化數(shù)據(jù)具有固定的格式,看上去非常規(guī)整。與結(jié)構(gòu)化數(shù)據(jù)相反,非結(jié)構(gòu)化數(shù)據(jù)是指無(wú)固定格式的數(shù)據(jù),例如,文本、網(wǎng)頁(yè)、圖像、視頻、數(shù)據(jù)流、序列、社交網(wǎng)絡(luò)、圖結(jié)構(gòu)等,F(xiàn)有數(shù)據(jù)中絕大多數(shù)數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù)。
本書(shū)介紹了四種典型非結(jié)構(gòu)化數(shù)據(jù)的分析和挖掘技術(shù),分別是:文本數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、數(shù)據(jù)流數(shù)據(jù)和多媒體數(shù)據(jù)(包括圖像、音頻和視頻)。為了便于讀者學(xué)習(xí),大部分內(nèi)容除了理論講解之外,還給出了相應(yīng)的在大數(shù)據(jù)環(huán)境下的上機(jī)實(shí)踐案例。
李翠平,女,教授,中國(guó)人民大學(xué)信息學(xué)院副院長(zhǎng)、計(jì)算機(jī)系主任,中國(guó)計(jì)算機(jī)學(xué)會(huì)杰出會(huì)員,大數(shù)據(jù)專家委員會(huì)常務(wù)委員,數(shù)據(jù)庫(kù)專委會(huì)委員。2003年畢業(yè)于中科院計(jì)算所獲得博士學(xué)位,2008年在美國(guó)UIUC大學(xué)計(jì)算機(jī)系訪問(wèn)交流。目前研究方向?yàn)閿?shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、社會(huì)網(wǎng)絡(luò)分析和社會(huì)媒體推薦等。主持和參與國(guó)家重點(diǎn)研發(fā)計(jì)劃課題、自然科學(xué)基金、973、863等10多項(xiàng)國(guó)家級(jí)和省部級(jí)項(xiàng)目,先后在SIGKDD、SIGMOD、VLDB、EDBT等重要國(guó)際會(huì)議和TKDE、KAIS、JCST、軟件學(xué)報(bào)等國(guó)內(nèi)外期刊發(fā)表論文100多篇,出版著作2部,申請(qǐng)國(guó)家發(fā)明專利4項(xiàng),獲得軟件著作權(quán)登記2項(xiàng)。2007年入選北京市組織部?jī)?yōu)秀人才培養(yǎng)資助計(jì)劃。2009年入選教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃。2011年獲得中國(guó)計(jì)算機(jī)學(xué)會(huì)青年科學(xué)家獎(jiǎng)。
第1章 文本挖掘概述
1.1 時(shí)代背景
1.2 文本挖掘與數(shù)據(jù)挖掘
第2章 文本預(yù)處理
2.1 自然語(yǔ)言處理
2.2 分詞技術(shù)
2.3 文本表示
第3章 文本分類
3.1 預(yù)測(cè)建模
3.2 決策樹(shù)分類
3.3 貝葉斯分類
3.4 支持向量機(jī)分類
3.5 實(shí)踐案例垃圾短信識(shí)別
第4章 文本聚類和話題檢測(cè)
4.1 概述
4.2 基于相似度的文本聚類
4.3 基于模型的文本聚類
4.4 實(shí)踐案例用LDA實(shí)現(xiàn)話題檢測(cè)
第5章 情感分析和觀點(diǎn)挖掘
5.1 概述
5.2 問(wèn)題定義
5.3 文檔級(jí)情感分析
5.4 句子級(jí)情感分析
5.5 方面級(jí)情感分析
5.6 存在的問(wèn)題和挑戰(zhàn)
5.7 實(shí)踐案例發(fā)債企業(yè)負(fù)面新聞識(shí)別系統(tǒng)
第6章 社交網(wǎng)絡(luò)及其統(tǒng)計(jì)特性
6.1 社交網(wǎng)絡(luò)簡(jiǎn)介
6.2 相關(guān)基本概念
6.3 常見(jiàn)統(tǒng)計(jì)特性
6.4 實(shí)踐案例微博用戶關(guān)系分析
第7章 社區(qū)發(fā)現(xiàn)
7.1 概述
7.2 社區(qū)發(fā)現(xiàn)方法
7.3 社區(qū)發(fā)現(xiàn)相關(guān)的研究領(lǐng)域
7.4 實(shí)踐案例用邊聚類探測(cè)算法發(fā)現(xiàn)社區(qū)
第8章 個(gè)體社會(huì)影響力分析
8.1 概述
8.2 個(gè)體社會(huì)影響力及影響強(qiáng)度度量
8.3 實(shí)踐案例用PageRank算法計(jì)算個(gè)體社會(huì)影響力
第9章 鏈路預(yù)測(cè)
9.1 簡(jiǎn)介
9.2 基于相似度的鏈路預(yù)測(cè)算法
9.3 基于等級(jí)結(jié)構(gòu)模型的鏈路預(yù)測(cè)算法
9.4 實(shí)踐案例鏈路預(yù)測(cè)
第10章 網(wǎng)絡(luò)信息擴(kuò)散
10.1 熱點(diǎn)主題的發(fā)現(xiàn)方法
10.2 信息擴(kuò)散過(guò)程的建模與分析
10.3 實(shí)踐案例信息擴(kuò)散計(jì)算過(guò)程
第11章 數(shù)據(jù)流中的數(shù)據(jù)挖掘
11.1 簡(jiǎn)介
11.2 數(shù)據(jù)流中的變化探測(cè)
11.3 實(shí)時(shí)更新數(shù)據(jù)流中的直方圖
11.4 數(shù)據(jù)流中的聚類
11.5 數(shù)據(jù)流的分類
11.6 數(shù)據(jù)流方法的評(píng)估
第12章 多媒體數(shù)據(jù)分析
12.1 概述
12.2 基礎(chǔ)知識(shí)
12.3 特征提取
12.4 多媒體內(nèi)容檢索
12.5 多媒體內(nèi)容識(shí)別
12.6 國(guó)際評(píng)測(cè)
12.7 問(wèn)題與挑戰(zhàn)