本書從理解問題定義、了解數(shù)據(jù)內(nèi)的高層信息、數(shù)據(jù)清理、視化數(shù)據(jù),到基礎建模、模型優(yōu)化,分享一個數(shù)據(jù)分析師的視角與思路。在預測分析的流程中,一步步用詳細的圖文代碼講解使用到的庫,如何正確使用各個庫中的方法和函數(shù),以及在遇到類似的問題時如何套用學過的知識。本書共8章。第1章對預測分析的流程進行一個高層次的概述。第2章介紹本書需要安裝使用的庫,并講解數(shù)據(jù)清理步驟的執(zhí)行。第3章講解基礎建模需考慮的細節(jié),結(jié)合第4章的模型選擇,可以搭建一個基礎的預測管道。第5章和第6章分別從模型和數(shù)據(jù)的角度講解如何優(yōu)化預測表現(xiàn)。第7章講解時間序列這一特殊數(shù)據(jù)的預測方法。最后,第8章總結(jié)全書學習到的內(nèi)容,解決一個實戰(zhàn)問題。本書面向3類讀者。第1類,有編程基礎但毫無數(shù)據(jù)科學背景,有意入門的讀者;第2類,有數(shù)據(jù)科學理論基礎,有意進入實操的讀者,如剛畢業(yè)沒有業(yè)界經(jīng)驗的學生;第3類,有數(shù)據(jù)科學理論基礎與實操經(jīng)驗,但日常工作集中在數(shù)據(jù)分析管道中的數(shù)據(jù)分析師。
王沁晨,多倫多大學圣喬治校區(qū)計算機專業(yè),曾在加拿大零售企業(yè)Loblaw Companies擔任機器學習數(shù)據(jù)分析師,從公司傳統(tǒng)的大型數(shù)據(jù)庫中篩選有效信息、清理數(shù)據(jù)、人工數(shù)據(jù)挖掘、視化,到基礎建模、模型優(yōu)化、數(shù)據(jù)再篩選,再到結(jié)合商業(yè)需求創(chuàng)造擴展性強的實用管線,讓項目從理論性的頭腦風暴變現(xiàn)為商業(yè)價值。
第1章預測分析與機器學習的實用價值
1.1人工智能、機器學習與數(shù)據(jù)分析的關系
1.2什么是預測分析
1.3預測分析在各行業(yè)中的應用
1.4預測分析流程概覽
1.5小結(jié)
第2章數(shù)據(jù)清理
2.1建立編程環(huán)境
2.1.1Anaconda簡介及安裝
2.1.2Jupyter N0tebook 簡介及安裝
2.1.3Pandas簡介及安裝
2.1.4scikitlearn 簡介及安裝
2.1.5XGBoost、LightGBM、CatBoost簡介及安裝
2.1.6TensorFlow簡介及安裝
2.2面對異構數(shù)據(jù)如何下手
2.2.1什么是異構數(shù)據(jù)
2.2.2如何處理異構數(shù)據(jù)
2.3數(shù)據(jù)誤差
2.3.1各類數(shù)據(jù)誤差及其影響
2.3.2如何處理數(shù)據(jù)誤差
2.4數(shù)據(jù)重新格式化
第3章基礎建模
3.1判斷何為X和y
3.1.1X和y的定義
3.1.2X和y的選擇對預測的影響
3.2訓練集、驗證集與測試集
3.2.1三者的定義及關系
3.2.2如何使用sklearn分離3個集
3.2.3如何使用Pandas手動分離3個集
3.3數(shù)據(jù)泄#
3.3.1不同類型的數(shù)據(jù)泄#
3.3.2發(fā)現(xiàn)并避免目標泄#
3.3.3避免訓練集與測試集的相互污染
3.4偏差與方差
3.4.1定義偏差與方差
3.4.2過擬合與欠擬合
3.4.3實踐中的過擬合與欠擬合
3.5小結(jié)
...