隨著大數(shù)據(jù)時(shí)代的到來(lái),對(duì)挖掘到的數(shù)據(jù)要求變得越來(lái)越嚴(yán)格。數(shù)據(jù)挖掘(Data Mining, DM)是一門(mén)新興的、匯聚多個(gè)學(xué)科的交叉性學(xué)科,也是從海量的數(shù)據(jù)中將未知、隱含及具備潛在價(jià)值的信息進(jìn)行提取的過(guò)程。數(shù)據(jù)挖掘?qū)⒏咝阅苡?jì)算、機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫(kù)技術(shù)和專(zhuān)家系統(tǒng)等多個(gè)范疇的理論和技術(shù)融合在一起。各行各業(yè)通過(guò)對(duì)海量數(shù)據(jù)的分析與挖掘,建立適當(dāng)?shù)捏w系,不斷地優(yōu)化,提高了決策的準(zhǔn)確性,從而更利于掌握并順應(yīng)市場(chǎng)的變化。
本書(shū)系統(tǒng)地介紹了數(shù)據(jù)分析和數(shù)據(jù)挖掘的基礎(chǔ)知識(shí)、典型的機(jī)器學(xué)習(xí)模型及利用Python實(shí)現(xiàn)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的過(guò)程。本書(shū)將基礎(chǔ)理論、模型應(yīng)用以及項(xiàng)目實(shí)踐充分結(jié)合,有利于讀者充分掌握與應(yīng)用所學(xué)內(nèi)容。
本書(shū)主要內(nèi)容
全書(shū)共分為兩大部分,共有19章。
第一部分?jǐn)?shù)據(jù)分析與挖掘,包括第1~15章。第1章數(shù)據(jù)分析與挖掘簡(jiǎn)介,包括Python數(shù)據(jù)分析和挖掘任務(wù)中重要的庫(kù)與工具、Anaconda安裝、Jupyter Notebook。第2章爬蟲(chóng),包括爬蟲(chóng)的基本流程、HTTP、安裝PyCharm、應(yīng)用舉例。第3章Scrapy爬蟲(chóng)框架,包括基本原理、應(yīng)用舉例。第4章NumPy基本用法,包括NumPy創(chuàng)建數(shù)組、NumPy查看數(shù)組屬性、數(shù)組的基本操作、NumPy運(yùn)算、排序。第5章Pandas基本用法,包括Series、DataFrame、應(yīng)用舉例。第6章Matplotlib基本用法,包括線(xiàn)型圖、散點(diǎn)圖、直方圖、條形圖、餅圖、Seaborn、Pandas中的繪圖函數(shù)。第7章線(xiàn)性回歸、嶺回歸、Lasso回歸,包括原理、應(yīng)用舉例。第8章Logistic回歸分類(lèi)模型,包括原理、應(yīng)用舉例。第9章決策樹(shù)與隨機(jī)森林,包括原理、應(yīng)用舉例。第10章KNN模型,包括原理、應(yīng)用舉例。第11章樸素貝葉斯模型,包括原理、應(yīng)用舉例。第12章SVM模型,包括原理、應(yīng)用舉例。第13章Kmeans聚類(lèi),包括原理、應(yīng)用舉例。第14章關(guān)聯(lián)規(guī)則Apriori算法,包括原理、應(yīng)用舉例。第15章數(shù)據(jù)分析與挖掘項(xiàng)目實(shí)戰(zhàn),包括貸款預(yù)測(cè)問(wèn)題、客戶(hù)流失率問(wèn)題。
第二部分機(jī)器學(xué)習(xí),包括第16~19章。第16章主成分分析法,包括原理、應(yīng)用舉例。第17章集成學(xué)習(xí),包括原理、應(yīng)用舉例。第18章模型評(píng)估,包括分類(lèi)評(píng)估、回歸評(píng)估、聚類(lèi)評(píng)估、Scikitlearn中的評(píng)估函數(shù)。第19章初識(shí)深度學(xué)習(xí)框架Keras,包括關(guān)于Keras、神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介、Keras神經(jīng)網(wǎng)絡(luò)模型、用Keras實(shí)現(xiàn)線(xiàn)性回歸模型、用Keras實(shí)現(xiàn)鳶尾花分類(lèi)、Keras目標(biāo)函數(shù)、性能評(píng)估函數(shù)、激活函數(shù)說(shuō)明。
本書(shū)特色
(1) 本書(shū)目標(biāo)明確,是為初學(xué)者量身定做的入門(mén)教程,內(nèi)容系統(tǒng)全面,各章節(jié)相互獨(dú)立,讀者可以根據(jù)自己的需求選擇使用。
(2) 本書(shū)面向應(yīng)用型人才培養(yǎng)編寫(xiě),將原理的敘述進(jìn)行精簡(jiǎn),易于理解,輔以Python代碼進(jìn)行實(shí)踐與應(yīng)用,使讀者通過(guò)實(shí)例更好地理解和掌握知識(shí)點(diǎn)。
配套資源
為便于教與學(xué),本書(shū)配有150分鐘微課視頻、源代碼、數(shù)據(jù)集、教學(xué)課件、教學(xué)大綱、教學(xué)日歷。
(1) 獲取微課視頻方式: 讀者可以先掃描本書(shū)封底的文泉云盤(pán)防盜碼,再掃描書(shū)中相應(yīng)的視頻二維碼,觀看教學(xué)視頻。
(2) 獲取源代碼、數(shù)據(jù)集、全書(shū)網(wǎng)址和需要彩色展示的圖片
方式: 先掃描本書(shū)封底的文泉云盤(pán)防盜碼,再掃描下方二維碼,即可獲取。
源代碼、數(shù)據(jù)集
全書(shū)網(wǎng)址
彩色圖片
(3) 其他配套資源可以?huà)呙璞緯?shū)封底的書(shū)圈二維碼,關(guān)注后輸入書(shū)號(hào),即可下載。
讀者對(duì)象
本書(shū)是一本針對(duì)愛(ài)好數(shù)據(jù)分析與挖掘、機(jī)器學(xué)習(xí)等相關(guān)知識(shí)的讀者而編寫(xiě)的基礎(chǔ)教程,尤其適用于全國(guó)高等學(xué)校的教師、在讀學(xué)生及相關(guān)領(lǐng)域的愛(ài)好者。
本書(shū)的編寫(xiě)參考了同類(lèi)書(shū)籍和相關(guān)資料,在此向有關(guān)作者表示衷心的感謝。
由于編者水平有限,書(shū)中難免存在疏漏之處,懇請(qǐng)廣大讀者予以批評(píng)指正。
編者
2022年2月
第一部分?jǐn)?shù)據(jù)分析與挖掘
第1章數(shù)據(jù)分析與挖掘簡(jiǎn)介
1.1Python數(shù)據(jù)分析和挖掘任務(wù)中重要的庫(kù)與工具
1.1.1NumPy
1.1.2SciPy
1.1.3Pandas
1.1.4Matplotlib
1.1.5Jupyter Notebook
1.1.6Scikitlearn
1.2Anaconda 安裝
1.3Jupyter Notebook
第2章爬蟲(chóng)
2.1爬蟲(chóng)的基本流程
2.2HTTP
2.3安裝PyCharm
2.4應(yīng)用舉例
習(xí)題
第3章Scrapy爬蟲(chóng)框架
3.1基本原理
3.2應(yīng)用舉例
習(xí)題
第4章NumPy基本用法
4.1NumPy創(chuàng)建數(shù)組
4.1.1使用np.array()由Python列表創(chuàng)建
4.1.2使用np的方法創(chuàng)建
4.2NumPy查看數(shù)組屬性
4.3數(shù)組的基本操作
4.4NumPy運(yùn)算
4.5排序
習(xí)題
第5章Pandas基本用法
5.1Series
5.2DataFrame
5.2.1創(chuàng)建DataFrame對(duì)象
5.2.2查看DataFrame對(duì)象
5.2.3DataFrame對(duì)象的索引與切片
5.3應(yīng)用舉例
5.3.1數(shù)據(jù)讀取
5.3.2數(shù)據(jù)清洗
5.3.3數(shù)據(jù)規(guī)整
習(xí)題
第6章Matplotlib基本用法
6.1線(xiàn)型圖
6.2散點(diǎn)圖
6.3直方圖
6.4條形圖
6.5餅圖
6.6Seaborn
6.6.1Seaborn基本操作
6.6.2Seaborn繪制的圖
6.6.3Seaborn用法示例
6.7Pandas中的繪圖函數(shù)
習(xí)題
第7章線(xiàn)性回歸、嶺回歸、Lasso回歸
7.1原理
7.1.1普通線(xiàn)性回歸
7.1.2嶺回歸
7.1.3Lasso回歸
7.2應(yīng)用舉例
習(xí)題
第8章Logistic回歸分類(lèi)模型
8.1原理
8.1.1模型簡(jiǎn)介
8.1.2ROC曲線(xiàn)和AUC
8.1.3梯度下降法
8.1.4Scikitlearn中predict()與predict_proba()用法區(qū)別
8.2應(yīng)用舉例
習(xí)題
第9章決策樹(shù)與隨機(jī)森林
9.1原理
9.1.1決策樹(shù)
9.1.2隨機(jī)森林
9.2應(yīng)用舉例
習(xí)題
第10章KNN模型
10.1原理
10.2應(yīng)用舉例
習(xí)題
第11章樸素貝葉斯模型
11.1原理
11.1.1貝葉斯定理
11.1.2樸素貝葉斯
11.1.3Scikitlearn中三種不同類(lèi)型的樸素貝葉斯模型
11.2應(yīng)用舉例
習(xí)題
第12章SVM模型
12.1原理
12.2應(yīng)用舉例
習(xí)題
第13章Kmeans聚類(lèi)
13.1原理
13.2應(yīng)用舉例
習(xí)題
第14章關(guān)聯(lián)規(guī)則Apriori算法
14.1原理
14.2應(yīng)用舉例
習(xí)題
第15章數(shù)據(jù)分析與挖掘項(xiàng)目實(shí)戰(zhàn)
15.1貸款預(yù)測(cè)問(wèn)題
15.1.1數(shù)據(jù)導(dǎo)入及查看
15.1.2數(shù)據(jù)預(yù)處理
15.1.3建立預(yù)測(cè)模型
15.2客戶(hù)流失率問(wèn)題
15.2.1數(shù)據(jù)導(dǎo)入及查看
15.2.2數(shù)據(jù)預(yù)處理
15.2.3建立預(yù)測(cè)模型
習(xí)題
第二部分機(jī) 器 學(xué) 習(xí)
第16章主成分分析法
16.1原理
16.2應(yīng)用舉例
習(xí)題
第17章集成學(xué)習(xí)
17.1原理
17.2應(yīng)用舉例
習(xí)題
第18章模型評(píng)估
18.1分類(lèi)評(píng)估
18.2回歸評(píng)估
18.3聚類(lèi)評(píng)估
18.4Scikitlearn中的評(píng)估函數(shù)
第19章初識(shí)深度學(xué)習(xí)框架Keras
19.1關(guān)于Keras
19.2神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介
19.3Keras神經(jīng)網(wǎng)絡(luò)模型
19.4用Keras實(shí)現(xiàn)線(xiàn)性回歸模型
19.5用Keras實(shí)現(xiàn)鳶尾花分類(lèi)
19.6Keras目標(biāo)函數(shù)、性能評(píng)估函數(shù)、激活函數(shù)說(shuō)明
習(xí)題
參考文獻(xiàn)