本書主要介紹了大數(shù)據(jù)的相關(guān)背景、大數(shù)據(jù)基礎(chǔ)知識、大數(shù)據(jù)下的相關(guān)編程語言、相關(guān)工具框架以及大數(shù)據(jù)下的其他相關(guān)技術(shù)等,另外,還對機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等內(nèi)容進(jìn)行了介紹,并且對常用的大數(shù)據(jù)可視化工具進(jìn)行了闡述。由于大數(shù)據(jù)、云計算、人工智能有著密不可分的關(guān)系,本書既包含了大數(shù)據(jù)的基礎(chǔ)知識,同時也涵蓋了大數(shù)據(jù)下的人工智能以及可視化工具等相關(guān)內(nèi)容,方便讀者通過本書了解到大數(shù)據(jù)以及相關(guān)技術(shù)的基礎(chǔ)知識。本書可以作為本科院校、高等職業(yè)院校各專業(yè)學(xué)生學(xué)習(xí)大數(shù)據(jù)基礎(chǔ)知識的教材,也可以滿足對大數(shù)據(jù)分析感興趣的廣大讀者的學(xué)習(xí)需求。
魏苗,愛爾蘭國立梅努斯大學(xué)研究型碩士學(xué)位,IBM Watson Health認(rèn)知方案部門軟件工程師、數(shù)據(jù)科學(xué)家,曾任機(jī)器學(xué)習(xí)客座講師,在數(shù)據(jù)結(jié)構(gòu)和算法、軟件測試等多門課程任教,主要研究領(lǐng)域包括自然語言處理,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。
目 錄
1.1 大數(shù)據(jù)的產(chǎn)生 ............................................................................1
1.1.1.天文學(xué)——信息爆炸的起源 ...................................... 3
1.1.2.大數(shù)據(jù)產(chǎn)生的背景......................................................4
1.2 大數(shù)據(jù)與可視化 .......................................................................9
1.2.1.數(shù)據(jù)可視化的概念和意義 .......................................... 9
▲
1.2.2.打造最好的可視化效果 ............................................ 11
1.2.3.數(shù)據(jù)可視化的運(yùn)用.................................................... 12
1.3 人工智能和大數(shù)據(jù)的關(guān)系 ......................................................13
1.4 大數(shù)據(jù)的相關(guān)技術(shù) ..................................................................22
1.4.1.數(shù)據(jù)挖掘 ................................................................... 22
1.4.2.機(jī)器學(xué)習(xí) ................................................................... 26
▲
1.4.3.神經(jīng)網(wǎng)絡(luò) ................................................................... 29
第 2章大數(shù)據(jù)概述 ...................................................... 37
2.1 數(shù)據(jù)處理與大數(shù)據(jù) ..................................................................37
2.1.1.古典數(shù)據(jù)處理案例.................................................... 38
2.1.2.現(xiàn)代數(shù)據(jù)處理案例.................................................... 39
2.2 什么是大數(shù)據(jù) ..........................................................................40
2.3 大數(shù)據(jù)工作流程 ......................................................................41
▲
2.3.1.數(shù)據(jù)收集 ................................................................... 42
2.3.2.數(shù)據(jù)處理 ................................................................... 43
2.3.3.知識生成 ................................................................... 45
2.3.4.數(shù)據(jù)存儲 ................................................................... 46
2.4 大數(shù)據(jù)來源 ..............................................................................47
2.4.1.互聯(lián)網(wǎng)以及線上金融數(shù)據(jù) ........................................ 48
2.4.2.社交平臺數(shù)據(jù)............................................................ 49
2.4.3.傳感器數(shù)據(jù)................................................................ 51
2.4.4.企業(yè)管理數(shù)據(jù)............................................................ 52
2.5 大數(shù)據(jù)特征 ..............................................................................52
2.5.1.大數(shù)據(jù)的基本特征:3V............................................ 53
2.5.2.大數(shù)據(jù)新增特征:4V ............................................... 55
2.5.3.IBM對于大數(shù)據(jù)的解讀:5V ................................... 56
2.6 大數(shù)據(jù)基本架構(gòu)設(shè)計原理 ......................................................58
第 3章大數(shù)據(jù)相關(guān)開發(fā)語言........................................63
3.1 Python語言 .............................................................................64
3.1.1.Python的歷史 ........................................................... 64
3.1.2.Python的特點(diǎn) ........................................................... 65
3.1.3.Python的版本與區(qū)別................................................ 66
3.1.4.Python的安裝步驟 ................................................... 68
3.1.5.Python的基本用法 ................................................... 70
3.1.6.Python的常用庫 ....................................................... 74
3.1.7.Python實(shí)際運(yùn)用案例 ............................................... 76
3.1.8.Python金融數(shù)據(jù)分析實(shí)例........................................ 81
▲
3.2 R語言 ......................................................................................84
3.2.1.R語言簡介 ............................................................... 84
3.2.2.R語言的特性 ........................................................... 85
3.2.3.R語言的安裝 ........................................................... 86
3.2.4.R語言工具庫的加載................................................ 87
3.2.5.R語言實(shí)際運(yùn)用案例................................................ 88
3.3 分布式計算框架 ......................................................................91
3.3.1.大數(shù)據(jù)所帶來的挑戰(zhàn) ................................................ 92
3.3.2.Hadoop概述.............................................................. 92
3.3.3.Hadoop的發(fā)展歷史 .................................................. 93
3.3.4.Hadoop框架組件...................................................... 95
第 4章大數(shù)據(jù)的相關(guān)技術(shù) ........................................... 99
4.1 云計算 ......................................................................................99
4.1.1.什么是云計算............................................................ 99
4.1.2.云計算的服務(wù)層面.................................................. 100
4.2 人工智能 ................................................................................101
4.3 機(jī)器學(xué)習(xí) ................................................................................104
4.3.1.機(jī)器學(xué)習(xí)的原因...................................................... 105
4.3.2.機(jī)器學(xué)習(xí)的定義...................................................... 106
4.3.3.機(jī)器學(xué)習(xí)算法的分類 .............................................. 107
4.3.4.機(jī)器學(xué)習(xí)問題領(lǐng)域.................................................. 109
4.3.5.機(jī)器學(xué)習(xí)的一般步驟 .............................................. 110
4.3.6.模型評價指標(biāo).......................................................... 113
4.3.7.現(xiàn)實(shí)中的分類問題以及 KNN算法........................ 116
4.3.8.機(jī)器學(xué)習(xí)實(shí)例.......................................................... 118
4.4 神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí) ............................................................124
4.4.1.神經(jīng)網(wǎng)絡(luò) ................................................................. 124
4.4.2.深度學(xué)習(xí) ................................................................. 128
4.5 大數(shù)據(jù)可視化工具 ................................................................133
4.5.1.Matplotlib................................................................. 134
4.5.2.Excel......................................................................... 136
4.5.3.百度 ECharts............................................................ 148
4.5.4.Tableau..................................................................... 149
第 5章大數(shù)據(jù)分析應(yīng)用案例:通過社交媒體對市場進(jìn)行分析........................................................ 151
5.1 社交媒體非結(jié)構(gòu)化大數(shù)據(jù)的背景 ........................................152
5.2 社交媒體大數(shù)據(jù)情緒分析 ....................................................156
5.2.1.情緒分析的概念...................................................... 156
5.2.2.情緒分析的步驟...................................................... 157
▲▲
5.2.3.情緒分析實(shí)際案例.................................................. 158
5.3 使用社交媒體大數(shù)據(jù)對市場結(jié)構(gòu)進(jìn)行分析 ........................160
5.3.1.市場結(jié)構(gòu)及分析...................................................... 160
5.3.2.品牌聯(lián)想網(wǎng)絡(luò).......................................................... 163
5.3.3.文本挖掘技術(shù).......................................................... 165
5.3.4.市場結(jié)構(gòu)分析步驟.................................................. 166
參考文獻(xiàn)....................................................................... 171