本書(shū)內(nèi)容分為八章,基本涵蓋了目前較為常用的數(shù)據(jù)科學(xué)建模方法,包括現(xiàn)在熱門(mén)的深度學(xué)習(xí)。書(shū)中不僅介紹模型的理論基礎(chǔ),還以大量案例結(jié)合現(xiàn)實(shí)數(shù)據(jù)為讀者展示了數(shù)據(jù)分析中常見(jiàn)任務(wù)的處理流程,如分類(lèi)、回歸、聚類(lèi)、推薦、圖片識(shí)別等,幫助讀者應(yīng)用這些模型和方法解決實(shí)際問(wèn)題。
第1章首先對(duì)數(shù)據(jù)科學(xué)的任務(wù)和重要性進(jìn)行了概述,接著介紹數(shù)據(jù)科學(xué)的建模流程以及Python語(yǔ)言開(kāi)發(fā)環(huán)境與常用庫(kù);
第二章介紹了回歸模型,包括線性回歸和邏輯回歸模型;
第三章介紹了聚類(lèi)模型,包括k-means算法、DBSCAN算法和DIANA算法;
第四章介紹了關(guān)聯(lián)規(guī)則分析,包括Apriori算法和FP-Growth算法;
第五章介紹了決策樹(shù)模型,包括ID3、C4.5和CART算法及樹(shù)的剪枝方法;
第六章介紹了支持向量機(jī),包括線性和非線性支持向量機(jī)以及向量機(jī)的求解與多分類(lèi)問(wèn)題;
第七章介紹了貝葉斯網(wǎng)絡(luò),包括樸素貝葉斯、TAN貝葉斯和無(wú)約束貝葉斯;
第八章介紹了深度學(xué)習(xí),包括卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。材,整理編撰了本實(shí)驗(yàn)指導(dǎo)教材,以供嵌入式系統(tǒng)課程的實(shí)驗(yàn)教學(xué)之用。
目前的嵌入式系統(tǒng)主要分為跑操作系統(tǒng)和不跑操作系統(tǒng)兩種類(lèi)型,本實(shí)驗(yàn)指導(dǎo)教材側(cè)重于第1種類(lèi)型,全書(shū)以Linux為操作系統(tǒng),重點(diǎn)講述了Linux基本命令、Linux下的程序開(kāi)發(fā)、Linux下字符型驅(qū)動(dòng)程序開(kāi)發(fā)、Linux按鍵中斷程序、Linux網(wǎng)絡(luò)應(yīng)用開(kāi)發(fā)以及Linux內(nèi)核定制等相關(guān)內(nèi)容,為學(xué)生動(dòng)手實(shí)踐嵌入式Linux系統(tǒng)開(kāi)發(fā)提供指導(dǎo)和幫助,力求把學(xué)生學(xué)習(xí)時(shí)的挫折感降至低。
《數(shù)據(jù)科學(xué)與數(shù)學(xué)建!窂拇髷(shù)據(jù)挖掘中提煉出了科學(xué)的、可教學(xué)的、有模型的內(nèi)容,本教材從立足于理論聯(lián)系案例,從學(xué)習(xí)者的角度出發(fā),漸進(jìn)式地把數(shù)據(jù)挖掘的技術(shù)和方法展示出來(lái)。本教材除了介紹算法的理論,還為每一類(lèi)算法配備了具有代表性的、貼近實(shí)際應(yīng)用的典型案例,以大程度地幫助學(xué)生做到學(xué)以致用。
大數(shù)據(jù)作為一個(gè)熱詞,數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專(zhuān)業(yè)作為一個(gè)熱門(mén)專(zhuān)業(yè),近年來(lái)引起相關(guān)高等學(xué)校的關(guān)注,不少高校紛紛設(shè)立此專(zhuān)業(yè)。例如,2018年新申報(bào)的數(shù)據(jù)科學(xué)與大數(shù)據(jù)專(zhuān)業(yè)的高校,全國(guó)有220所,遠(yuǎn)遠(yuǎn)超過(guò)其他專(zhuān)業(yè);而這個(gè)專(zhuān)業(yè)2016年第1批才獲批了3所高校(北京大學(xué)、對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)和中南大學(xué)),2017年3月第二批獲批高校32所,包括編著者所在的佛山科學(xué)技術(shù)學(xué)院,2018年又獲批了248所,這樣,到2019年將出現(xiàn)近500所高校在開(kāi)這個(gè)新專(zhuān)業(yè)。在2018年,教育部又設(shè)置了一個(gè)大數(shù)據(jù)管理與應(yīng)用的新專(zhuān)業(yè)?梢灶A(yù)計(jì),隨著大數(shù)據(jù)與人工智能相關(guān)專(zhuān)業(yè)建設(shè)的需要,數(shù)據(jù)科學(xué)課程的教學(xué)改革面臨著諸多新的問(wèn)題。注意到教育部2018年發(fā)布的《普通高等學(xué)校本科專(zhuān)業(yè)類(lèi)教學(xué)質(zhì)量國(guó)家標(biāo)準(zhǔn)》,對(duì)以數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專(zhuān)業(yè)為代表的新工科專(zhuān)業(yè)人才培養(yǎng)方案提出了挑戰(zhàn)。編著者曾出版《數(shù)據(jù)挖掘與數(shù)學(xué)建!方滩,并在華南理工大學(xué)應(yīng)用數(shù)學(xué)專(zhuān)業(yè)(應(yīng)用軟件方向)、信息管理與信息系統(tǒng)專(zhuān)業(yè)的本科生教學(xué)中使用了近十年,也曾作為中國(guó)移動(dòng)通訊廣東分公司的管理層培訓(xùn)材料,受到了廣泛的歡迎,尤其是結(jié)合具體的案例,從學(xué)習(xí)者的角度,漸進(jìn)式地把數(shù)據(jù)挖掘的技術(shù)和方法如畫(huà)卷式地展示出來(lái),使學(xué)習(xí)者大有躍躍欲試的激情。因此,探索大數(shù)據(jù)挖掘與數(shù)學(xué)建模的教學(xué)改革成了順勢(shì)而為研究方向。不過(guò),大數(shù)據(jù)的挖掘所呈現(xiàn)出的不確定性,使得建模的價(jià)值,包括數(shù)學(xué)方法建模(簡(jiǎn)稱(chēng)數(shù)學(xué)建模)的價(jià)值,有些折扣。故而,本課程則從大數(shù)據(jù)的挖掘中,提煉出科學(xué)的、可教學(xué)的、有模型的內(nèi)容,作為一門(mén)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專(zhuān)業(yè)的基礎(chǔ)課,呈現(xiàn)出來(lái)。這門(mén)課程教材,就是《數(shù)據(jù)科學(xué)與數(shù)學(xué)建模》。
第一章 緒論 6
1.1數(shù)據(jù)科學(xué)概述 6
1.2 數(shù)據(jù)科學(xué)的建模流程 8
1.3 Python語(yǔ)言開(kāi)發(fā)環(huán)境與庫(kù)入門(mén) 12
1.3.1 開(kāi)發(fā)環(huán)境 12
1.3.2 Python基本語(yǔ)法 15
1.3.3 Python常用庫(kù)和功能 16
1.4本書(shū)內(nèi)容介紹 19
第二章 回歸模型 21
2.1概述 21
2.2線性回歸 22
2.2.1 一元線性回歸 22
2.2.2 多元線性回歸 25
2.3線性回歸案例 28
2.3.1兒童體表面積預(yù)測(cè) 28
2.3.2波士頓房?jī)r(jià)因素分析 32
附錄:scikit-learn庫(kù)中的LinearRegression 34
2.4邏輯回歸 35
2.4.1 邏輯回歸模型 35
2.4.2 邏輯回歸方程中回歸系數(shù)的估計(jì)及含義 37
2.4.3 邏輯回歸方程的統(tǒng)計(jì)檢驗(yàn) 38
2.5邏輯回歸案例 40
2.5.1考試成績(jī)預(yù)測(cè) 40
2.5.2鳶尾花分類(lèi) 42
附錄:scikit-learn庫(kù)中的LogisticsRegression 44
第三章 聚類(lèi)模型 46
3.1概述 46
3.1.1聚類(lèi)分析概述 46
3.1.2基于距離的聚類(lèi)相似度 49
3.2 K-means聚類(lèi) 50
3.2.1 K-means聚類(lèi)算法 50
3.2.2 K-means聚類(lèi)實(shí)例 51
3.2.3 K-means聚類(lèi)的優(yōu)缺點(diǎn) 56
3.3 密度聚類(lèi) 56
3.3.1 DBSCAN密度定義 56
3.3.2 DBSCAN聚類(lèi)算法 56
3.3.3 DBSCAN聚類(lèi)的優(yōu)缺點(diǎn) 57
3.4 層次聚類(lèi) 57
3.4.1系統(tǒng)聚類(lèi) 58
3.4.2 DIANA算法 64
3.4.3 層次聚類(lèi)算法的優(yōu)缺點(diǎn) 67
3.5 案例 67
3.5.1 一個(gè)二維數(shù)據(jù)集聚類(lèi) 67
3.5.2一個(gè)居民家庭情況案例 69
3.5.3一個(gè)醫(yī)療建設(shè)評(píng)價(jià)案例 75
附錄:scikit-learn庫(kù)中的KMeans 77
第四章 關(guān)聯(lián)規(guī)則 80
4.1 概述 80
4.1.1 問(wèn)題概述 80
4.1.2 關(guān)聯(lián)規(guī)則概述 80
4.1.3 關(guān)聯(lián)分析的基本概念 81
4.2 Apriori算法 84
4.3 基于Apriori算法的改進(jìn)算法 88
4.4 FP-Growth算法 90
4.5 關(guān)聯(lián)規(guī)則案例 94
4.5.1一個(gè)銷(xiāo)售記錄的關(guān)聯(lián)分析案例 94
4.5.2商品購(gòu)買(mǎi)記錄分析 98
4.5.3電影推薦 100
第五章 決策樹(shù) 104
5.1概述 104
5.1.1 決策樹(shù)基本算法 104
5.1.2 CLS算法 105
5.1.3 信息熵 106
5.2 ID3算法 107
5.2.1基本思想 107
5.2.2 ID3算法應(yīng)用實(shí)例 109
5.3 C4.5算法 112
5.3.1 基本思想 112
5.3.2 基于信息增益率建模的決策樹(shù) 113
5.4 CART算法 114
5.4.1 基本思想 114
5.4.2 基于CART算法建模的決策樹(shù) 115
5.5 決策樹(shù)的剪枝 117
5.6 案例 121
5.6.1泰坦尼克號(hào)乘客幸存預(yù)測(cè) 121
5.6.2乳腺癌診斷 125
附錄:scikit-learn庫(kù)中的DecisionTreeClassifier 129
第六章 支持向量機(jī) 132
6.1概述 132
6.2線性支持向量機(jī) 132
6.2.1 硬間隔線性支持向量機(jī) 133
6.2.2 軟間隔線性支持向量機(jī) 135
6.3非線性支持向量機(jī) 138
6.3.1特征空間硬間隔支持向量機(jī) 140
6.3.2特征空間軟間隔支持向量機(jī) 141
6.4 支持向量機(jī)的求解和多分類(lèi)問(wèn)題 142
6.4.1 支持向量機(jī)的求解 142
6.4.2 多分類(lèi)問(wèn)題 142
6.5新聞文本分類(lèi)案例 144
附錄:scikit-learn庫(kù)中的SVM 147
第七章 貝葉斯網(wǎng)絡(luò) 150
7.1概述 150
7.1.1 貝葉斯網(wǎng)絡(luò)定義 150
7.1.2 貝葉斯網(wǎng)絡(luò)的知識(shí)推理模式 151
7.1.3 貝葉斯網(wǎng)絡(luò)建立的主要步驟 151
7.1.4貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí) 152
7.1.5 貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí) 153
7.1.6 主要貝葉斯網(wǎng)絡(luò)模型 156
7.2 樸素貝葉斯網(wǎng)絡(luò) 156
7.3 TAN貝葉斯網(wǎng)絡(luò) 162
7.4 無(wú)約束貝葉斯網(wǎng)絡(luò) 167
7.5 樸素貝葉斯進(jìn)行垃圾郵件過(guò)濾 170
附錄 scikit-learn庫(kù)中的Naive-Bayes分類(lèi) 174
第八章 深度學(xué)習(xí) 176
8.1概述 176
8.1.1 深度學(xué)習(xí)的發(fā)展歷史 176
8.1.2 神經(jīng)網(wǎng)絡(luò)的基本模型 176
8.2多層感知機(jī) 180
8.2.1感知機(jī) 180
8.2.2多層感知機(jī) 184
8.3卷積神經(jīng)網(wǎng)絡(luò) 190
8.3.1基本網(wǎng)絡(luò)結(jié)構(gòu) 191
8.3.2反向傳播訓(xùn)練算法 192
8.3.3 AlexNet網(wǎng)絡(luò)結(jié)構(gòu) 193
8.4循環(huán)神經(jīng)網(wǎng)絡(luò) 194
8.4.1基本網(wǎng)絡(luò)結(jié)構(gòu) 195
8.4.2反向傳播訓(xùn)練算法 195
8.4.3長(zhǎng)短時(shí)間記憶單元 196
8.5 構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)CIFAR圖片數(shù)據(jù)集分類(lèi) 197
附錄:TensorFlow基本用法 203
參考文獻(xiàn) 207