本書包含10章,分為:第1章,闡述數(shù)據(jù)分析的基礎理論;第2章,介紹數(shù)據(jù)清洗和數(shù)據(jù)獲取的知識和方法;第3章至第9章,覆蓋了基礎統(tǒng)計分析、多維數(shù)據(jù)分析、時序數(shù)據(jù)分析、地理數(shù)據(jù)分析、圖數(shù)據(jù)分析、文本數(shù)據(jù)分析和多媒體數(shù)據(jù)分析,包括每種分析方法的基礎定義、分析方法和工具使用到具體領域的可視化實用案例;第10章,以中國社會發(fā)展數(shù)據(jù)演示分析方法的使用。書中提到的基礎理論知識都有配套的在線實踐工具,能夠讓用戶在學習基礎理論知識之后和實踐進行連接,真正達到學以致用的效果。通過實踐工具,用戶可以實現(xiàn)獨自完成數(shù)據(jù)可視化分析案例的產(chǎn)出。本書采用了可視化輔助分析的辦法,通俗易懂,不拘泥于數(shù)學公式。 本書不僅可作為數(shù)據(jù)分析初學者的入門手冊,也可作為數(shù)據(jù)分析學者進行數(shù)據(jù)研究和案例分析的參考指南。
成生輝,香港中文大學深圳和深圳市大數(shù)據(jù)研究院研究科學家,大數(shù)據(jù)可視化實驗室負責人,Dagoo平臺創(chuàng)始人。博士畢業(yè)于石溪紐約州立大學計算系,曾在德國弗里德里希·席勒大學,德國萊比錫大學醫(yī)學研究所,美國布魯克海文國家實驗室和哈佛大學進行訪問研究。先后在2015 和2016 國際可視化年會上獲得海報提名獎,并受邀在大會上擔任授課導師。他擔任2019年國際可視化年會(短文)程序委員會委員,中國可視化與可視分析專委會委員,CSIG-VIS 2019高峰論壇(深圳)執(zhí)行主席,入選深圳市海外高層次人才。近期,他被世界銀行聘為顧問。
第1章 引言 1
1.1 大數(shù)據(jù)的發(fā)展歷程 1
1.2 大數(shù)據(jù)的概念和定義 3
1.2.1 大量(Volume) 4
1.2.2 多樣(Variety) 5
1.2.3 價值密度低(Value) 5
1.2.4 高速(Velocity) 5
1.2.5 真實性(Veracity) 6
1.3 大數(shù)據(jù)對社會的影響 6
1.3.1 大數(shù)據(jù)促進經(jīng)濟發(fā)展 6
1.3.2 大數(shù)據(jù)提升社會保障 7
1.3.3 數(shù)據(jù)治國 8
1.4 大數(shù)據(jù)的分析方法 9
1.4.1 統(tǒng)計 9
1.4.2 數(shù)據(jù)挖掘 10
1.4.3 人工智能 11
1.5 數(shù)據(jù)可視化技術 11
1.5.1 可視化歷史 11
1.5.2 可視化概述 12
1.5.3 可視化應用 15
第2章 數(shù)據(jù)預處理 17
2.1 什么是網(wǎng)絡爬蟲 17
2.2 網(wǎng)絡爬蟲的實現(xiàn) 18
2.2.1 Python編程語言 18
2.2.2 正則表達式 19
2.2.3 超文本標記語言 21
2.2.4 超文本傳輸協(xié)議 23
2.3 數(shù)據(jù)清洗 24
2.3.1 處理缺失值 24
2.3.2 處理異常值 25
2.3.3 處理噪聲 26
第3章 基礎統(tǒng)計分析 29
3.1 統(tǒng)計學的基本概念 29
3.2 連續(xù)變量的統(tǒng)計描述 30
3.2.1 頻數(shù) 30
3.2.2 集中趨勢描述指標 32
3.2.3 離散趨勢描述指標 33
3.3 分類變量的統(tǒng)計描述 33
3.4 常用統(tǒng)計圖 34
3.4.1 餅圖 35
3.4.2 柱狀圖 36
3.4.3 散點圖 38
3.4.4 折線圖 39
3.5 統(tǒng)計分析應用示例 41
3.5.1 人口變化總趨勢 41
3.5.2 人口結(jié)構(gòu)變化 42
3.5.3 二胎與生育率 43
第4章 多維數(shù)據(jù)分析 45
4.1 多維數(shù)據(jù)概述 45
4.2 多維數(shù)據(jù)過濾分析 46
4.3 相關性分析 50
4.3.1 一般性相關性分析 50
4.3.2 多維數(shù)據(jù)可視化相關性分析 51
4.4 聚類分析 52
4.5 降維分析 54
4.5.1 主成分分析 54
4.5.2 多維尺度變換 56
4.5.3 T分布隨機鄰域嵌入 57
4.6 多維特征提取 58
4.6.1 雷達圖 59
4.6.2 用戶畫像 59
4.6.3 Radviz特征提取 60
4.7 多維數(shù)據(jù)分析應用示例 61
4.7.1 郡縣特征的關聯(lián)度 61
4.7.2 多維度分析得票率的關鍵因素 63
第5章 時序數(shù)據(jù)分析 65
5.1 時序數(shù)據(jù)概述 65
5.2 多維時序數(shù)據(jù)呈現(xiàn)折線 67
5.3 多維時序數(shù)據(jù)呈現(xiàn)柱狀 69
5.4 預測分析 72
5.4.1 移動平均 72
5.4.2 指數(shù)平滑 73
5.4.3 三次指數(shù)平滑 74
5.5 周期性檢測 75
5.6 時序分析應用示例 77
5.6.1 美國各州新冠病毒肺炎確診病例數(shù)的動態(tài)變化 77
5.6.2 美國紐約州、加州疫情發(fā)展變化 79
5.6.3 美國疫情總體態(tài)勢 80
5.6.4 美國疫情預測 81
第6章 地理數(shù)據(jù)分析 83
6.1 地理熱度分析 83
6.2 地理空間分析 86
6.3 連接地圖 87
6.4 地理分析應用示例 88
6.4.1 美國疫情確診情況 88
6.4.2 美國疫情死亡情況 90
6.4.3 美國疫情傳播分析 91
6.4.4 宅在家里還是出門旅行 93
第7章 圖數(shù)據(jù)分析 95
7.1 圖數(shù)據(jù)概述 95
7.2 樹圖 96
7.3 圖數(shù)據(jù)的量化可視化分析 98
7.3.1 矩形樹圖 98
7.3.2 旭日圖 98
7.4 圖數(shù)據(jù)嵌套關系分析 99
7.4.1 矩形堆積圖 99
7.4.2 圓堆積圖 100
7.5 圖數(shù)據(jù)中的關聯(lián)數(shù)據(jù) 101
7.5.1 弧線圖 101
7.5.2 極坐標弧線圖 101
7.5.3 弦圖 102
7.5.4 沖積圖 103
7.6 力導向布局分析 104
7.6.1 力導向設計思路 104
7.6.2 力導向布局優(yōu)點 104
7.6.3 力導向布局缺點 105
7.7 搜索算法 105
7.7.1 廣度優(yōu)先搜索算法 106
7.7.2 深度優(yōu)先搜索算法 108
7.8 短路徑算法 109
7.9 圖分析應用示例 109
7.9.1 美國人口普查分區(qū) 110
7.9.2 美國新冠病毒肺炎確診病例按人口普查分區(qū)分布 110
第8章 文本數(shù)據(jù)分析 115
8.1 文本數(shù)據(jù)概述 115
8.2 文本向量化 116
8.2.1 詞袋模型 116
8.2.2 Word2Vec模型 116
8.3 分詞 118
8.4 關鍵詞提取 120
8.5 知識圖譜 121
8.6 其他文本處理技術簡介 122
8.7 文本分析應用示例 124
8.7.1 特朗普和拜登社交媒體回復輿情分析 124
8.7.2 特朗普和拜登在社交媒體上的宣傳策略 125
8.7.3 小結(jié) 127
第9章 多媒體數(shù)據(jù)分析 129
9.1 數(shù)字圖像處理 129
9.1.1 亮度調(diào)整 130
9.1.2 直方圖均衡化 132
9.1.3 高斯平滑 133
9.1.4 邊緣檢測 135
9.2 數(shù)字音頻處理 135
9.3 數(shù)字視頻處理 137
9.4 多媒體分析應用示例 137
第10章 綜合應用示例:中國社會發(fā)展調(diào)研 139
10.1 經(jīng)濟總體指標分析 139
10.2 城鎮(zhèn)化發(fā)展分析 142
10.3 國際影響力分析 145
10.4 科技發(fā)展分析 147
10.5 教育發(fā)展分析 149
10.6 文化發(fā)展分析 151
10.7 醫(yī)療衛(wèi)生發(fā)展分析 153
10.8 環(huán)境治理狀況分析 154
10.9 居民收入變化分析 156
參考資料