本書分為三大部分,共計14章,主要內容包括:探索性數(shù)據(jù)分析入門、概率論基礎、推斷統(tǒng)計基礎、相關性和回歸、數(shù)據(jù)分析棧、R中的數(shù)據(jù)結構、使用R進行數(shù)據(jù)處理與可視化、使用R進行數(shù)據(jù)分析、Python中的數(shù)據(jù)結構、使用Python進行數(shù)據(jù)分析等。
前言
第 一部分 Excel數(shù)據(jù)分析基礎
第 1章 探索性數(shù)據(jù)分析入門 3
1.1 什么是探索性數(shù)據(jù)分析 3
1.1.1 觀測值 5
1.1.2 變量 5
1.2 演示:對變量進行分類 8
1.3 小結:變量類型 10
1.4 在Excel 中探索變量 10
1.4.1 探索分類變量 10
1.4.2 探索定量變量 13
1.5 本章小結 22
1.6 練習 23
第 2章 概率論基礎 25
2.1 概率與隨機性 25
2.2 概率與樣本空間 26
2.3 概率與實驗 26
2.4 非條件概率與條件概率 26
2.5 概率分布 27
2.5.1 離散概率分布 27
2.5.2 連續(xù)概率分布 30
2.6 本章小結 37
2.7 練習 37
第3章 推斷統(tǒng)計基礎 39
3.1 推斷統(tǒng)計框架 40
3.1.1 收集有代表性的樣本 40
3.1.2 陳述假設 41
3.1.3 制訂分析計劃 42
3.1.4 分析數(shù)據(jù) 44
3.1.5 做出決定 46
3.2 數(shù)據(jù)由你主宰 52
3.3 本章小結 53
3.4 練習 53
第4章 相關性和回歸 55
4.1 “相關并不等于因果” 55
4.2 相關性簡介 56
4.3 從相關性到回歸 60
4.4 Excel 中的線性回歸 62
4.5 反思結果:虛假關系 67
4.6 本章小結 68
4.7 高階編程階段 68
4.8 練習 69
第5章 數(shù)據(jù)分析棧 71
5.1 統(tǒng)計學、數(shù)據(jù)分析和數(shù)據(jù)科學 71
5.1.1 統(tǒng)計學 71
5.1.2 數(shù)據(jù)分析 71
5.1.3 商業(yè)分析 72
5.1.4 數(shù)據(jù)科學 72
5.1.5 機器學習 72
5.1.6 獨特,但不排他 73
5.2 數(shù)據(jù)分析棧的重要性 73
5.2.1 電子表格 74
5.2.2 數(shù)據(jù)庫 76
5.2.3 商業(yè)智能平臺 77
5.2.4 數(shù)據(jù)編程語言 77
5.3 本章小結 79
5.4 下一步 79
5.5 練習 79
第二部分 從Excel 到R
第6章 使用R 之前的準備工作 83
6.1 下載R 83
6.2 RStudio 入門 83
6.3 R 包 92
6.4 升級R、RStudio 和R 包 93
6.5 本章小結 93
6.6 練習 94
第7章 R 中的數(shù)據(jù)結構97
7.1 向量 97
7.2 索引向量和提取子集 99
7.3 從Excel 表格到R 數(shù)據(jù)框 100
7.4 在R 中導入數(shù)據(jù) 102
7.5 探索R 數(shù)據(jù)框 106
7.6 索引R 數(shù)據(jù)框和提取子集 107
7.7 將數(shù)據(jù)寫入R 數(shù)據(jù)框 108
7.8 本章小結 109
7.9 練習 109
第8章 使用R 進行數(shù)據(jù)處理與可視化 111
8.1 使用dplyr 包處理數(shù)據(jù) 112
8.1.1 按列操作 112
8.1.2 按行操作 114
8.1.3 聚合和連接數(shù)據(jù) 117
8.1.4 dplyr 包和管道運算符 119
8.1.5 使用tidyr 包重塑數(shù)據(jù) 121
8.2 使用ggplot2 包可視化數(shù)據(jù) 123
8.3 本章小結 129
8.4 練習 129
第9章 使用R 進行數(shù)據(jù)分析131
9.1 探索性數(shù)據(jù)分析 132
9.2 假設檢驗 135
9.2.1 獨立樣本t 檢驗 136
9.2.2 線性回歸 138
9.2.3 訓練集/ 測試集分離和驗證 139
9.3 本章小結 142
9.4 練習 142
第三部分 從Excel 到Python
第 10章 使用Python 之前的準備工作 145
10.1 下載Python145
10.2 Jupyter Notebook 入門 146
10.3 Python 中的模塊154
10.4 升級Python、Anaconda 和Python 包 156
10.5 本章小結 156
10.6 練習 156
第 11章 Python 中的數(shù)據(jù)結構 157
11.1 numpy 數(shù)組 158
11.2 索引numpy 數(shù)組和提取子集 159
11.3 pandas 數(shù)據(jù)框 161
11.4 在Python 中導入數(shù)據(jù) 162
11.5 探索pandas 數(shù)據(jù)框 163
11.5.1 索引pandas 數(shù)據(jù)框和提取子集 165
11.5.2 把pandas 數(shù)據(jù)框寫入文件 166
11.6 本章小結 166
11.7 練習 166
第 12章 使用Python 進行數(shù)據(jù)處理與可視化 167
12.1 按列操作 168
12.2 按行操作 170
12.3 聚合和連接數(shù)據(jù) 171
12.4 重塑數(shù)據(jù) 173
12.5 可視化數(shù)據(jù) 174
12.6 本章小結 179
12.7 練習 179
第 13章 使用Python 進行數(shù)據(jù)分析 181
13.1 探索性數(shù)據(jù)分析 182
13.2 假設檢驗 184
13.2.1 獨立樣本t 檢驗 185
13.2.2 線性回歸 186
13.2.3 訓練集/ 測試集分離和驗證 187
13.3 本章小結 189
13.4 練習 189
第 14章 結論和展望 191
14.1 進一步學習的方向 191
14.2 研究設計和商業(yè)實驗 191
14.3 進一步學習統(tǒng)計方法 192
14.4 數(shù)據(jù)科學和機器學習 192
14.5 版本控制 192
14.6 道德準則 193
14.7 勇往直前 193
14.8 告別的話 193