Python數(shù)據(jù)分析實戰(zhàn)——思路詳解與案例實踐
定 價:79 元
- 作者:羅博煒 編著
- 出版時間:2024/6/1
- ISBN:9787122449788
- 出 版 社:化學(xué)工業(yè)出版社
- 中圖法分類:TP311.561
- 頁碼:272
- 紙張:
- 版次:01
- 開本:小16開
本書在簡要介紹數(shù)據(jù)分析的統(tǒng)計學(xué)基礎(chǔ)后,結(jié)合實例闡釋線性回歸、邏輯回歸、決策樹、隨機森林、聚類分析、主成分分析、關(guān)聯(lián)規(guī)則挖掘等常用算法的原理與應(yīng)用,并通過覆蓋諸多業(yè)務(wù)場景的案例,如零售超市業(yè)績評估、廣告營銷渠道分析、網(wǎng)約車運營分析、網(wǎng)站改版分析等,呈現(xiàn)數(shù)據(jù)分析的思路與方法。最后,本書還探索了ChatGPT在數(shù)據(jù)分析中的應(yīng)用。
無論是數(shù)據(jù)分析初學(xué)者、數(shù)據(jù)營銷分析人員、數(shù)據(jù)產(chǎn)品經(jīng)理,還是數(shù)據(jù)科學(xué)相關(guān)專業(yè)學(xué)生,都可通過本書了解并學(xué)習(xí)實用的數(shù)據(jù)分析知識和技能。
第1章 數(shù)據(jù)分析的統(tǒng)計學(xué)基礎(chǔ) 1
1.1 統(tǒng)計學(xué)中的一些概念 2
1.1.1 總體與樣本 2
1.1.2 參數(shù)與統(tǒng)計量 2
1.1.3 變量的度量類型 3
1.1.4 變量的分布類型 3
1.1.5 正態(tài)分布 4
1.1.6 Z分?jǐn)?shù) 4
1.2 假設(shè)檢驗基礎(chǔ) 6
1.2.1 假設(shè)檢驗的基本要點 7
1.2.2 大數(shù)定律和中心極限定理 9
1.3 Z檢驗 10
1.3.1 基本原理 10
1.3.2 Python實現(xiàn)Z檢驗 11
1.4 t檢驗 13
1.4.1 單樣本t檢驗 13
1.4.2 雙樣本t檢驗 14
1.5 方差分析 17
1.5.1 基本原理 18
1.5.2 Python 實現(xiàn)方差分析 20
1.6 卡方檢驗 23
1.7 相關(guān)分析(相關(guān)系數(shù)與熱力圖) 24
1.7.1 Pearson相關(guān)系數(shù) 25
1.7.2 熱力圖 26
1.7.3 相關(guān)系數(shù)的顯著性檢驗 27
第2章 多元線性回歸實現(xiàn)房價預(yù)測 29
2.1 線性回歸 30
2.1.1 簡單線性回歸原理 30
2.1.2 多元線性回歸 31
2.2 Python實現(xiàn)多元線性回歸 33
2.3 模型分析與評估 36
2.3.1 模型的評估指標(biāo)(R方與調(diào)整R方) 36
2.3.2 回歸系數(shù)的顯著性檢驗 37
2.3.3 虛擬變量的設(shè)置 38
2.3.4 多重共線性的診斷 40
2.3.5 殘差分析 43
2.3.6 線性回歸模型評估小結(jié) 48
第3章 邏輯回歸預(yù)測電信客戶流失情況 49
3.1 邏輯回歸 50
3.1.1 從相關(guān)性分析到邏輯回歸 51
3.1.2 邏輯回歸公式原理 53
3.2 Python中實現(xiàn)邏輯回歸 57
3.3 分類模型的評估 60
3.3.1 模型預(yù)測 60
3.3.2 一致對、不一致對與相等對 61
3.3.3 混淆矩陣 63
3.3.4 ROC曲線與AUC值 67
第4章 決策樹實現(xiàn)信貸違約預(yù)測 70
4.1 決策樹的原理 71
4.1.1 節(jié)點、分支與深度 71
4.1.2 決策樹的分類思想 72
4.1.3 信息熵、條件熵與信息增益 74
4.2 決策樹的算法 76
4.2.1 ID3算法與Python實現(xiàn) 77
4.2.2 可視化決策樹(傳統(tǒng)和交互) 77
4.2.3 C4.5算法與Python實現(xiàn) 80
4.2.4 CART算法建樹原理 84
4.3 決策樹實現(xiàn)信貸違約預(yù)測的具體代碼 86
4.3.1 網(wǎng)格搜索調(diào)優(yōu) 89
4.3.2 優(yōu)化決策邊界 91
第5章 隨機森林預(yù)測寬帶訂閱用戶離網(wǎng) 94
5.1 集成學(xué)習(xí)簡介 95
5.1.1 概述:Bagging與Boosting 96
5.1.2 Bagging原理與Python實現(xiàn) 97
5.2 隨機森林的原理 100
5.3 隨機森林預(yù)測寬帶訂閱用戶離網(wǎng)的具體代碼 103
第6章 深入淺出層次聚類 106
6.1 聚類算法概述 107
6.1.1 聚類算法的應(yīng)用場景 107
6.1.2 聚類算法的變量特點 107
6.1.3 幾種常用的聚類算法 108
6.2 聚類算法的分類邏輯 108
6.2.1 歐氏距離 108
6.2.2 余弦相似度 109
6.2.3 閔氏距離 110
6.3 層次聚類 110
6.3.1 層次樹怎么看? 110
6.3.2 點與點、簇與簇之間的距離 113
6.3.3 Python實現(xiàn)層次聚類 117
6.4 聚類模型的評估 120
6.4.1 輪廓系數(shù) 120
6.4.2 平方根標(biāo)準(zhǔn)誤差 121
6.4.3 R方 121
6.4.4 評估指標(biāo)的選擇 121
6.5 Python實現(xiàn)聚類算法評估 121
6.6 結(jié)果分析 123
第7章 K-Means聚類實現(xiàn)客戶分群 124
7.1 K-Means聚類原理 125
7.2 Python實現(xiàn)K-Means聚類 126
7.3 數(shù)據(jù)轉(zhuǎn)換方法 127
7.4 模型評估 131
7.5 結(jié)果分析 132
第8章 基于不平衡分類算法的反欺詐模型 134
8.1 不平衡分類背景 135
8.2 欠采樣法 136
8.2.1 隨機欠采樣法 137
8.2.2 Tomek Link法 137
8.3 過采樣法 138
8.3.1 隨機過采樣法 138
8.3.2 SMOTE法 138
8.4 綜合采樣法 139
8.5 Python代碼實戰(zhàn) 140
8.5.1 數(shù)據(jù)探索 140
8.5.2 過采樣處理 141
8.5.3 決策樹建模 142
8.5.4 結(jié)果分析與優(yōu)化 143
第9章 主成分分析實現(xiàn)客戶信貸評級 145
9.1 PCA中的信息壓縮 146
9.2 主成分分析原理 147
9.2.1 信息壓縮的過程 147
9.2.2 主成分的含義 149
9.3 Python實現(xiàn)主成分分析 150
第10章 Apriori算法實現(xiàn)智能推薦 155
10.1 常見的推薦算法 156
10.2 購物籃分析簡介 156
10.3 關(guān)聯(lián)規(guī)則 158
10.3.1 關(guān)聯(lián)三度 158
10.3.2 Apriori算法原理 160
10.4 Python實現(xiàn)關(guān)聯(lián)規(guī)則 160
10.4.1 數(shù)據(jù)探索 160
10.4.2 Apriori實現(xiàn)關(guān)聯(lián)規(guī)則 162
10.4.3 篩選互補品與互斥品 163
10.5 根據(jù)關(guān)聯(lián)規(guī)則結(jié)果推薦商品 164
10.5.1 以獲得最高的營銷響應(yīng)率為目標(biāo) 164
10.5.2 以最大化總體銷售額為目標(biāo) 165
10.5.3 用戶并未產(chǎn)生消費,為其推薦某樣商品 166
10.6 使用Apriori算法的注意事項 166
第11章 從變量到指標(biāo)體系 168
11.1 變量與指標(biāo) 169
11.2 從單個指標(biāo)到指標(biāo)體系 170
第12章 零售超市業(yè)績評估 171
12.1 增長率分析法 172
12.2 比例分析法 175
12.3 投入產(chǎn)出比法 177
12.4 評估小結(jié) 178
第13章 廣告營銷渠道分析 179
13.1 漏斗分析法 180
13.2 整體結(jié)構(gòu)分析法 183
13.3 渠道分析小結(jié) 184
第14章 網(wǎng)約車司機單日工作情況分析 185
14.1 單維度分類 187
14.2 兩維度分類 189
14.3 數(shù)據(jù)解讀小結(jié) 196
第15章 網(wǎng)約車城市運營情況分析 198
15.1 多維度分析法 199
15.2 指標(biāo)關(guān)系梳理 200
15.3 多指標(biāo)分析順序 201
15.3.1 各城市完單情況分析 201
15.3.2 各城市過程指標(biāo)分析 203
15.3.3 轉(zhuǎn)化率分析 204
15.3.4 供需端分析 208
15.4 多維度分析小結(jié) 215
第16章 AB測試-教育類網(wǎng)站改版分析 216
16.1 AB測試原理 217
16.2 問題探索 219
16.3 改版效果檢測 223
16.3.1 分層抽樣函數(shù) 224
16.3.2 主頁點擊率 226
16.3.3 課程詳情頁注冊率和瀏覽時長 226
16.3.4 課程學(xué)習(xí)頁完課率 228
16.3.5 分析匯總 229
16.4 AB測試的不足 229
第17章 用戶價值分析 232
17.1 RFM分析基礎(chǔ) 233
17.1.1 R、F、M的打分方式 233
17.1.2 RFM模型的使用 235
17.2 Python實現(xiàn)RFM模型 235
17.2.1 計算R值 237
17.2.2 計算F值 238
17.2.3 計算M值 238
17.2.4 維度打分 239
17.2.5 客戶分層 240
17.3 RFM模型指導(dǎo)實際業(yè)務(wù) 241
17.3.1 F、M 矩陣分析 242
17.3.2 識別對價格敏感的用戶 243
17.3.3 識別囤貨用戶 244
17.3.4 把R也考慮進(jìn)來 245
17.4 RFM小結(jié) 245
第18章 用戶留存分析 247
18.1 同期群分析基礎(chǔ) 248
18.1.1 從同期群分析表看餐廳經(jīng)營狀況 248
18.1.2 從另一個視角看餐廳經(jīng)營狀況 249
18.2 Python實現(xiàn)同期群分析 250
18.2.1 神奇的 intersect1d 和 setdiff1d 250
18.2.2 單月新增和留存情況 251
18.2.3 循環(huán)構(gòu)建每個月的新增和留存 253
18.2.4 延伸應(yīng)用 257
第19章 ChatGPT在數(shù)據(jù)分析領(lǐng)域的應(yīng)用 259
19.1 ChatGPT的提問框架 260
19.2 用ChatGPT做數(shù)據(jù)分析 261
19.2.1 GPT處理數(shù)據(jù) 261
19.2.2 GPT實現(xiàn)假設(shè)檢驗 264
19.2.3 GPT實現(xiàn)分類算法 267
19.3 用ChatGPT分析業(yè)務(wù)問題 269
19.4 ChatGPT應(yīng)用小結(jié) 272