本書以大數(shù)據(jù)處理技術(shù)涉及的主要流程為主線,深入淺出地介紹大數(shù)據(jù)相關(guān)的基礎(chǔ)知識。本書條理清晰、重點突出,內(nèi)容循序漸進、難易得當(dāng)。全書共7章,內(nèi)容包括大數(shù)據(jù)概述,大數(shù)據(jù)采集,大數(shù)據(jù)存儲與管理,大數(shù)據(jù)分析,數(shù)據(jù)可視化,數(shù)據(jù)安全、隱私保護與開放共享,以及大數(shù)據(jù)技術(shù)應(yīng)用實例。本書還設(shè)置了實訓(xùn)和課后習(xí)題,通過練習(xí)和操作實踐,幫助讀者鞏固所學(xué)的內(nèi)容。
介紹城市管理、金融領(lǐng)域、互聯(lián)網(wǎng)領(lǐng)域、零售行業(yè)方面的多個項目案例,覆蓋面廣,案例豐富
圍繞大數(shù)據(jù)技術(shù)流程次第展開,層次分明,著重于解決問題的思路啟發(fā)與解決方案的實施
以實例引入的方式引出技術(shù)內(nèi)容,通俗易懂,新穎獨特
融入了思政元素
林濤,上海應(yīng)用技術(shù)大學(xué)副教授,主要研究方向為人工智能與物聯(lián)網(wǎng),從事機器視覺和智能感知相關(guān)的研究,曾參與華為手機芯片研發(fā),主持開發(fā)了基于無線互聯(lián)網(wǎng)的冷鏈疫苗監(jiān)控系統(tǒng),無人機智能故障檢測系統(tǒng)等,合作參與了自動駕駛相關(guān)的若干項目。教授《人工智能導(dǎo)論》,《人工神經(jīng)網(wǎng)絡(luò)》,《深度學(xué)習(xí)及其應(yīng)用》等課程。發(fā)表多篇SCI論文《Structured deep learning based object-specific distance estimation from a monocular image》,《Multi-state Feature Optimization of Sign Glosses for Continuous Sign Language Recognition》
張良均,資深大數(shù)據(jù)專家,廣東泰迪智能科技股份有限公司董事長,國家科技部入庫技術(shù)專家,教育部全國專業(yè)學(xué)位水平評估專家,工信部教育與考試中心入庫專家,中國工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會理事,廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會副理事長,廣東省高等職業(yè)教育教學(xué)指導(dǎo)委員會委員,華南師范大學(xué)、中南財經(jīng)政法大學(xué)等40余所高校校外碩導(dǎo)或兼職教授,泰迪杯全國數(shù)據(jù)挖掘挑戰(zhàn)賽發(fā)起人。曾在國內(nèi)外重要學(xué)術(shù)刊物上發(fā)表學(xué)術(shù)論文10余篇,主導(dǎo)編寫圖書專著60余部,其中獲普通高等教育“十一五”規(guī)劃教材一部,“十三五”職業(yè)教育國家規(guī)劃教材一部;參與標(biāo)準(zhǔn)建設(shè)4項,主持國家級課題1項、省部級課題4項。獲得SAS、SPSS數(shù)據(jù)挖掘認證及Hadoop開發(fā)工程師證書,具有信訪、電力、電信、銀行、制造企業(yè)、電子商務(wù)和電子政務(wù)的項目經(jīng)驗和行業(yè)背景,并榮獲中國產(chǎn)學(xué)研合作促進獎、中國南方電網(wǎng)公司發(fā)明專利一等獎、廣東省農(nóng)業(yè)技術(shù)推廣二等獎、廣州市荔灣區(qū)科學(xué)技術(shù)進步獎。
第 1章 大數(shù)據(jù)概述 1
1.1 實例引入:三次信息化浪潮迎來大數(shù)據(jù)時代 1
1.1.1 信息時代數(shù)據(jù)爆炸 2
1.1.2 三次信息化浪潮 2
1.1.3 大數(shù)據(jù)的發(fā)展 3
1.1.4 大數(shù)據(jù)帶來思維模式的改變 4
1.1.5 大數(shù)據(jù)的特點 5
1.2 大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況 6
1.2.1 大數(shù)據(jù)產(chǎn)業(yè)發(fā)展現(xiàn)狀與市場規(guī)!7
1.2.2 大數(shù)據(jù)產(chǎn)業(yè)應(yīng)用領(lǐng)域及其應(yīng)用價值 8
1.2.3 大數(shù)據(jù)市場產(chǎn)業(yè)鏈 9
1.3 大數(shù)據(jù)技術(shù)體系 9
1.3.1 數(shù)據(jù)接入 10
1.3.2 數(shù)據(jù)預(yù)處理 10
1.3.3 數(shù)據(jù)存儲 10
1.3.4 數(shù)據(jù)處理 10
1.3.5 數(shù)據(jù)可視化 11
1.3.6 數(shù)據(jù)治理 11
1.3.7 安全與隱私保護 11
1.4 大數(shù)據(jù)相關(guān)崗位需求 11
小結(jié) 12
課后習(xí)題 12
第 2章 大數(shù)據(jù)采集 15
2.1 實例引入:在線旅行社的用戶訪問行為數(shù)據(jù)采集 15
2.1.1 用戶訪問行為數(shù)據(jù)分析的價值 16
2.1.2 用戶訪問行為數(shù)據(jù)采集方案的設(shè)計 17
2.2 大數(shù)據(jù)采集技術(shù) 20
2.2.1 了解大數(shù)據(jù)采集 20
2.2.2 大數(shù)據(jù)采集的數(shù)據(jù)來源 22
2.2.3 基于數(shù)據(jù)倉庫的數(shù)據(jù)批量采集 23
2.2.4 系統(tǒng)日志數(shù)據(jù)采集 25
2.2.5 網(wǎng)絡(luò)數(shù)據(jù)實時采集 28
2.3 主流的大數(shù)據(jù)采集框架 32
2.3.1 Flume 32
2.3.2 Sqoop 34
小結(jié) 37
實訓(xùn) 37
實訓(xùn)1 Flume的安裝和配置 37
實訓(xùn)2 Sqoop的安裝和配置 38
課后習(xí)題 39
第3章 大數(shù)據(jù)存儲與管理 41
3.1 實例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲 41
3.1.1 平安城市建設(shè)中的視頻監(jiān)控系統(tǒng) 42
3.1.2 平安城市視頻監(jiān)控數(shù)據(jù)的存儲技術(shù)方案 42
3.2 傳統(tǒng)的數(shù)據(jù)存儲技術(shù) 44
3.2.1 了解數(shù)據(jù)存儲 45
3.2.2 數(shù)據(jù)存儲的數(shù)據(jù)類型 46
3.2.3 文件系統(tǒng) 47
3.2.4 關(guān)系數(shù)據(jù)庫 48
3.2.5 數(shù)據(jù)倉庫 48
3.2.6 并行數(shù)據(jù)庫 48
3.3 大數(shù)據(jù)時代下的數(shù)據(jù)存儲技術(shù) 49
3.3.1 分布式存儲系統(tǒng) 49
3.3.2 云存儲 52
3.4 主流的分布式存儲框架 56
3.4.1 MySQL 56
3.4.2 Hive 59
3.4.3 HBase 61
3.4.4 MongoDB 64
3.4.5 Redis 67
小結(jié) 70
實訓(xùn) 70
實訓(xùn)1 MySQL的安裝配置 70
實訓(xùn)2 Hive的安裝配置 71
實訓(xùn)3 HBase的安裝配置 72
課后習(xí)題 73
第4章 大數(shù)據(jù)分析 75
4.1 實例引入:個性化用戶畫像實現(xiàn)精準(zhǔn)營銷 75
4.1.1 大數(shù)據(jù)實現(xiàn)精準(zhǔn)營銷 76
4.1.2 用戶畫像是什么 76
4.1.3 構(gòu)建個性化用戶畫像 77
4.2 大數(shù)據(jù)分析技術(shù) 79
4.2.1 了解數(shù)據(jù)分析與數(shù)據(jù)挖掘 79
4.2.2 數(shù)據(jù)認知 80
4.2.3 數(shù)據(jù)處理 83
4.2.4 分析建模 85
4.2.5 模型評估 88
4.3 主流的大數(shù)據(jù)分析處理框架 89
4.3.1 數(shù)據(jù)分析處理框架介紹 89
4.3.2 Hadoop 91
4.3.3 Spark 93
4.3.4 Flink 94
4.3.5 Storm 96
4.3.6 Graph 97
小結(jié) 98
實訓(xùn) 99
實訓(xùn)1 Hadoop偽分布式安裝 99
實訓(xùn)2 Spark偽分布式安裝 99
實訓(xùn)3 Flink的安裝配置 100
課后習(xí)題 100
第5章 數(shù)據(jù)可視化 103
5.1 實例引入:某機場數(shù)據(jù)可視化大屏 103
5.1.1 大屏顯示的應(yīng)用領(lǐng)域和行業(yè) 104
5.1.2 機場數(shù)據(jù)可視化大屏設(shè)計 104
5.2 數(shù)據(jù)可視化圖形設(shè)計指南 105
5.2.1 了解數(shù)據(jù)可視化 105
5.2.2 數(shù)據(jù)可視化的發(fā)展方向 106
5.2.3 基礎(chǔ)圖表 110
5.2.4 一般的數(shù)據(jù)可視化圖形設(shè)計流程 111
5.3 數(shù)據(jù)可視化主要技術(shù) 112
5.3.1 根據(jù)可視化目標(biāo)分類 113
5.3.2 根據(jù)大數(shù)據(jù)特點分類 115
5.4 主流的數(shù)據(jù)可視化工具 117
5.4.1 數(shù)據(jù)可視化類庫 118
5.4.2 BI類 120
小結(jié) 123
實訓(xùn) 123
實訓(xùn)1 ECharts的安裝配置 123
實訓(xùn)2 FineBI的安裝配置 124
課后習(xí)題 125
第6章 數(shù)據(jù)安全、隱私保護與開放共享 128
6.1 實例引入:菜鳥平臺共享物流信息 128
6.2 數(shù)據(jù)安全與隱私 130
6.2.1 大數(shù)據(jù)安全概述 130
6.2.2 大數(shù)據(jù)安全與隱私保護技術(shù)體系架構(gòu) 130
6.3 大數(shù)據(jù)安全及隱私保護關(guān)鍵技術(shù) 132
6.3.1 數(shù)據(jù)安全技術(shù) 132
6.3.2 個人隱私保護技術(shù) 135
6.4 數(shù)據(jù)開放與共享 136
6.4.1 數(shù)據(jù)開放與共享的概念 136
6.4.2 數(shù)據(jù)開放與共享的意義 137
6.4.3 數(shù)據(jù)開放與共享實施指南 137
小結(jié) 138
課后習(xí)題 138
第7章 大數(shù)據(jù)技術(shù)應(yīng)用實例 141
7.1 大數(shù)據(jù)技術(shù)在城市管理中的應(yīng)用 141
7.1.1 城市公交用戶出行分析 142
7.1.2 環(huán)保監(jiān)測 148
7.2 大數(shù)據(jù)技術(shù)在金融領(lǐng)域的應(yīng)用 150
7.2.1 股票價格漲跌趨勢預(yù)測 150
7.2.2 上市公司綜合能力聚類分析 153
7.3 大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用 156
7.3.1 電子商務(wù)營銷 156
7.3.2 音樂推薦系統(tǒng) 157
7.4 大數(shù)據(jù)技術(shù)在零售行業(yè)的應(yīng)用 160
7.4.1 購物籃分析 160
7.4.2 客戶價值分析 164
7.4.3 供應(yīng)鏈管理 167
小結(jié) 170
課后習(xí)題 171
參考文獻 174