關(guān)于我們
書單推薦
新書推薦
|
Python數(shù)據(jù)挖掘與機器學習實戰(zhàn)
本書作為數(shù)據(jù)挖掘入門讀物,基于真實數(shù)據(jù)集進行案例實戰(zhàn),使用Python數(shù)據(jù)科學庫,從數(shù)據(jù)預(yù)處理開始一步步介紹數(shù)據(jù)建模和數(shù)據(jù)挖掘的過程。主要介紹了數(shù)據(jù)挖掘的基礎(chǔ)知識、基本工具和實踐方法,通過循序漸進地講解算法,帶領(lǐng)讀者輕松踏上數(shù)據(jù)挖掘之旅。本書采用理論與實踐相結(jié)合的方式,呈現(xiàn)了如何使用邏輯回歸進行環(huán)境數(shù)據(jù)檢測,如何使用HMM進行中文分詞,如何利用卷積神經(jīng)網(wǎng)絡(luò)識別雷達剖面圖,如何使用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建聊天機器人,如何使用樸素貝葉斯算法進行破產(chǎn)預(yù)測,如何使用DCGAN網(wǎng)絡(luò)進行人臉生成等。本書也涉及神經(jīng)網(wǎng)絡(luò)、在線學習、強化學習、深度學習、大數(shù)據(jù)處理等內(nèi)容。
本書適合對傳統(tǒng)數(shù)據(jù)挖掘和機器學習算法開發(fā)感興趣的讀者閱讀,也適合需要系統(tǒng)掌握深度學習的開發(fā)人員閱讀。
Python是一個高層次的結(jié)合了解釋性、編譯性、互動性和面向?qū)ο蟮哪_本語言。作為一門編程語言,其魅力遠超C#、Java、C和C 等編程語言,被昵稱為膠水語言,更被熱愛它的程序員譽為最美麗的編程語言。從云端和客戶端,再到物聯(lián)網(wǎng)終端,Python應(yīng)用無處不在,同時它還是人工智能(AI)首選的編程語言。
近年來,人工智能在全世界掀起了新的科技浪潮,各行各業(yè)都在努力涉足人工智能技術(shù)。而機器學習是人工智能的一種實現(xiàn)方式,也是最重要的實現(xiàn)方式之一。深度學習是目前機器學習比較熱門的一個方向,其本身是神經(jīng)網(wǎng)絡(luò)算法的衍生,在圖像、語音等富媒體的分類和識別上取得了非常好的效果。數(shù)據(jù)挖掘主要利用機器學習界提供的技術(shù)來分析海量數(shù)據(jù),利用數(shù)據(jù)庫界提供的技術(shù)來管理海量數(shù)據(jù)。例如,在對超市貨品進行擺放時,牛奶到底是和面包擺放在一起銷量更高,還是和其他商品擺在一起銷量更高,就可以用相關(guān)算法得出結(jié)論。由于機器學習技術(shù)和數(shù)據(jù)挖掘技術(shù)都是對數(shù)據(jù)之間的規(guī)律進行探索,所以人們通常將兩者放在一起提及。而這兩種技術(shù)在現(xiàn)實生活中也有著非常廣闊的應(yīng)用場景。例如,分類學習算法可以對客戶等級進行劃分,可以驗證碼識別,可以對水果品質(zhì)自動篩選等;回歸學習算法可以對連續(xù)型數(shù)據(jù)進行預(yù)測,以及對趨勢進行預(yù)測等;聚類學習算法可以對客戶價值和商圈做預(yù)測;關(guān)聯(lián)分析可以對超市的貨品擺放和個性化推薦做分析;而深度學習算法還可以實現(xiàn)自然語言處理方面的應(yīng)用,如文本相似度、聊天機器人及自動寫詩作畫等應(yīng)用。 縱觀國內(nèi)圖書市場,關(guān)于Python的書籍不少,它們主要偏向于工具本身的用法,如關(guān)于Python的語法、參數(shù)、異常處理、調(diào)用及開發(fā)類實例等,但是基于Python數(shù)據(jù)挖掘與機器學習類的書籍并不是特別多,特別是介紹最新的基于深度學習算法原理和實戰(zhàn)的圖書更少。本書將通過具體的實例來講解數(shù)據(jù)處理和挖掘技術(shù),同時結(jié)合最新的深度學習、強化學習及在線學習等理論知識和實用的項目案例,詳細講解16種常用的數(shù)據(jù)挖掘和機器學習算法。 本書有何特色 1.全程使用Python 3編程語言 本書通過Anaconda和Spyder提供的Python編程功能實現(xiàn)各種算法: * 介紹了Scrapy框架和XPath工具; * 重點介紹了TensorFlow工具的開發(fā)和使用; * 以票務(wù)網(wǎng)為例,實現(xiàn)了網(wǎng)站票務(wù)信息的爬蟲案例。 2.剖析回歸分析的基本原理 回歸分析是一種應(yīng)用極為廣泛的數(shù)量分析方法。本書中的回歸分析相關(guān)章節(jié)實現(xiàn)了如下幾個重要例子: * 對于線性回歸,介紹了如何使用一元線性回歸求解房價預(yù)測的問題; * 實例演示了使用多元線性回歸進行商品價格的預(yù)測,以及使用線性回歸對股票進行預(yù)測; * 通過環(huán)境檢測數(shù)據(jù)異常分析與預(yù)測這個實驗,用實例具體實現(xiàn)了邏輯回歸的過程。 3.詳解分類和聚類機器學習算法 在數(shù)據(jù)挖掘領(lǐng)域中,對分類和聚類算法的研究及運用非常重要。書中著重研究了決策樹、隨機森林、SVM、HMM、BP神經(jīng)網(wǎng)絡(luò)、K-Means和貝葉斯等算法,并實現(xiàn)了以下例子: * 使用決策樹算法對鳶尾花數(shù)據(jù)集進行分類; * 使用隨機森林對葡萄酒數(shù)據(jù)集進行分類; * SVM中采用三種核函數(shù)進行時間序列曲線預(yù)測; * HMM模型用于中文分詞; * 用TensorFlow實現(xiàn)BP神經(jīng)網(wǎng)絡(luò); * 樸素貝葉斯分類器在破產(chǎn)預(yù)測中的應(yīng)用。 4.詳細地描述了常用的深度學習算法 本書相關(guān)章節(jié)中詳細地描述了卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)等。主要有如下實例演示: * 采用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了雷達剖面圖識別實例; * 使用LSTM模型實現(xiàn)了一個聊天機器人的程序; * 通過DCGAN網(wǎng)絡(luò)來訓練數(shù)據(jù),從而產(chǎn)生人臉圖像。 5.討論了其他常用機器學習算法 本書中還討論了在線學習和強化學習等常見的機器學習算法,例如: * 演示在線學習Bandit算法與推薦系統(tǒng); * 使用Adaboost算法實現(xiàn)馬疝病的檢測。 6.提供了豐富而實用的數(shù)據(jù)挖掘源代碼,并提供了操作視頻和教學PPT 本書詳盡地描述了各種重要算法,并提供了很多來源于真實項目案例的源代碼。另外,還特別為本書制作了相關(guān)操作的教學視頻和專業(yè)的教學PPT和操作視頻,以方便讀者學習。 * 卷積神經(jīng)網(wǎng)絡(luò)雷達圖像識別項目; * LSTM聊天機器人項目; * HMM中文分詞系統(tǒng); * DCGAN的人臉生成模型。 本書內(nèi)容及知識體系 第1章主要對機器學習的基本概念進行了概述,介紹了5種Python開發(fā)工具,分別是IDLE、IPython、PyCharm、Jupyter Notebook、Anaconda和Spyder,對它們的特點進行了闡述,并選擇Anaconda和Spyder作為本書的開發(fā)工具。 第2章主要介紹了Python開發(fā)環(huán)境、計算規(guī)則與變量,并詳細介紹了Python常用的數(shù)據(jù)類型,分別是字符串、列表、元組和字典;還介紹了爬蟲的基本原理,其中重點介紹了Scrapy框架和XPath工具,并且以票務(wù)網(wǎng)為例實現(xiàn)了網(wǎng)站票務(wù)信息的爬取。 第3章首先介紹了數(shù)據(jù)挖掘中的回歸分析和線性回歸的基本概念,然后介紹了如何使用一元線性回歸求解房價預(yù)測的問題,最后介紹了使用多元線性回歸進行商品價格的預(yù)測。本章通過環(huán)境檢測數(shù)據(jù)異常分析與預(yù)測這個實驗,對邏輯回歸做出了具體的表現(xiàn)分析。 第4章是關(guān)于常用分類算法的講解,主要對決策樹和隨機森林的基本概念和算法原理進行了詳細闡述。本章使用決策樹對鳶尾花數(shù)據(jù)集進行分類,并使用隨機森林對葡萄酒數(shù)據(jù)集進行分類。通過學習本章內(nèi)容,讀者會對決策樹算法和隨機森林算法有更進一步的認識。 第5章主要介紹了基于統(tǒng)計學習理論的一種機器學習方法支持向量機,通過尋求結(jié)構(gòu)風險最小來提高泛化能力,實現(xiàn)經(jīng)驗風險和置信范圍的最小化,從而達到在統(tǒng)計樣本較少的情況下也能獲得良好的統(tǒng)計規(guī)律的目的,可利用SMO算法高效求解該問題。針對線性不可分問題,利用函數(shù)映射將原始樣本空間映射到高維空間,使得樣本線性可分,進而通過SMO算法求解拉普拉斯對偶問題。 第6章介紹了隱馬爾可夫模型要解決的三個基本問題,以及解決這三個基本問題的方法,帶領(lǐng)讀者深入學習解碼問題,并掌握解決解碼的Viterbi算法,運用Viterbi算法思想精髓將全局最佳解的計算過程分解為階段最佳解的計算,實現(xiàn)對語料的初步分詞工作。此外,本章還介紹了HMM模型用于中文分詞的方法。 第7章介紹了人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的基本概念、特點、組成部分和前向傳播等內(nèi)容;闡述了單層神經(jīng)網(wǎng)絡(luò)、雙層神經(jīng)網(wǎng)絡(luò)及多層神經(jīng)網(wǎng)絡(luò)的概念和原理;使用TensorFlow實現(xiàn)BP神經(jīng)網(wǎng)絡(luò),進一步強化對BP神經(jīng)網(wǎng)絡(luò)的理解和使用。 第8章主要介紹了卷積神經(jīng)網(wǎng)絡(luò)的原理及其在圖像識別領(lǐng)域中的應(yīng)用。本章帶領(lǐng)讀者掌握卷積神經(jīng)網(wǎng)絡(luò)的各層,包括輸入層、卷積層、池化層、全連接層和輸出層;利用卷積神經(jīng)網(wǎng)絡(luò)進行雷達圖像識別,實現(xiàn)了對雷暴大風災(zāi)害性天氣的識別,并以地面自動站出現(xiàn)7級大風作為出現(xiàn)災(zāi)害性雷暴大風天氣的判據(jù),從而建立一套集雷暴大風實時識別、落區(qū)預(yù)報及落區(qū)檢驗于一體的綜合系統(tǒng)。 第9章從自然語言處理的基礎(chǔ)知識引入了循環(huán)神經(jīng)網(wǎng)絡(luò),并詳細闡述其原理及強大之處,最后使用它來實現(xiàn)聊天機器人。循環(huán)神經(jīng)網(wǎng)絡(luò)常用于處理序列數(shù)據(jù),例如一段文字或聲音、購物或觀影的順序,甚至可以是圖片中的一行或一列像素。 第10章介紹了聚類與集成算法的相關(guān)知識。K-Means聚類是一種自下而上的聚類方法,其優(yōu)點是簡單、速度快;Adaboost算法是Boosting方法中最流行的一種算法。集成算法便是將多個弱學習模型通過一定的組合方式,形成一個強學習模型,以達到提高學習正確率的目的。 第11章介紹了貝葉斯分類器分類方法,在一個真實數(shù)據(jù)集上執(zhí)行了樸素貝葉斯分類器的訓練預(yù)測,取得了理想的效果;在圍繞實時大數(shù)據(jù)流分析這一需求展開的研究中,對在線學習Bandit算法的概念進行了闡述,并用Python進行了實驗分析;還對生成對抗網(wǎng)絡(luò)(GAN)進行了講解,同時也介紹了DCGAN網(wǎng)絡(luò)模型,并且使用DCGAN網(wǎng)絡(luò)進行了人臉生成實驗。 本書配套資源獲取方式 本書涉及的源代碼文件、教學視頻、教學PPT視頻和Demo需要讀者自行下載。請登錄華章公司的網(wǎng)站www.hzbook.com,在該網(wǎng)站上搜索到本書頁面,然后單擊資料下載按鈕即可在頁面上找到配書資源下載鏈接。 本書讀者對象 * Python程序員; * 對數(shù)據(jù)挖掘感興趣的人員; * 對機器學習和深度學習感興趣的人員; * 想轉(zhuǎn)行到人工智能領(lǐng)域的技術(shù)人員; * 想從其他編程語言轉(zhuǎn)Python開發(fā)的人員; * 喜歡編程的自學人員; * 高校計算機等專業(yè)的學生; * 專業(yè)培訓機構(gòu)的學員。 本書閱讀建議 * 沒有Python開發(fā)基礎(chǔ)的讀者,建議從第1章順次閱讀并演練每一個實例。 * 有一定Python數(shù)據(jù)挖掘基礎(chǔ)的讀者,可以根據(jù)實際情況有重點地選擇閱讀各個模塊和項目案例。對于每一個模塊和項目案例,先思考一下實現(xiàn)的思路,然后再親自動手實現(xiàn),這樣閱讀效果更佳。 * 有基礎(chǔ)的讀者可以先閱讀書中的模塊和Demo,再結(jié)合配套源代碼理解并調(diào)試,這樣更加容易理解,而且也會理解得更加深刻。 本書作者 本書由方巍主筆編寫。其他參與編寫和程序調(diào)試工作的人員還有王秀芬、丁葉文和張飛鴻。本書能得以順利出版,要感謝南京信息工程大學計算機與軟件學院2017級的全體研究人員,還要感謝在寫作和出版過程中給予筆者大量幫助的各位編輯! 由于筆者水平所限,加之寫作時間有限,書中可能還存在一些疏漏和不足之處,敬請各位讀者批評指正。聯(lián)系郵箱:hzbook2017@163.com。 最后祝大家讀書快樂! 編著者
方巍 博士,博士后,副教授,高級工程師,碩士生導師。美國佛羅里達大學訪問學者,中國計算機學會高級會員,ACM會員,中國系統(tǒng)分析師協(xié)會(CSAI)顧問團專業(yè)顧問,江蘇省計算機學會會員,江蘇省人工智能學會委員,江蘇省政府采購招標評審專家,江蘇省高新技術(shù)企業(yè)認定評審專家。負責和參與國家級、省部級科研項目12項。在國內(nèi)外學術(shù)期刊上發(fā)表論文20余篇,其中被SCI和EI檢索15篇。獲國家發(fā)明專利授權(quán)8項、軟件著作權(quán)9項。出版科技圖書2部。
前言
第1章 機器學習基礎(chǔ)1 1.1 機器學習概述2 1.2 機器學習的發(fā)展歷程2 1.3 機器學習分類3 1.3.1 監(jiān)督學習3 1.3.2 無監(jiān)督學習3 1.3.3 強化學習4 1.3.4 深度學習4 1.4 機器學習的應(yīng)用4 1.5 開發(fā)機器學習的步驟7 1.6 Python語言的優(yōu)勢8 1.6.1 可執(zhí)行偽代碼8 1.6.2 Python語言使用廣泛8 1.6.3 Python語言特色8 1.6.4 Python語言的缺點9 1.7 Python開發(fā)工具介紹9 1.7.1 IDLE簡介10 1.7.2 IPython簡介11 1.7.3 PyCharm簡介11 1.7.4 Jupyter Notebook簡介12 1.7.5 Anaconda和Spyder簡介13 1.8 本章小結(jié)15 第2章 Python語言簡介16 2.1 搭建Python開發(fā)環(huán)境16 2.1.1 安裝Anaconda16 2.1.2 安裝Spyder18 2.1.3 運行和保存Python程序19 2.2 Python計算與變量19 2.2.1 用Python做簡單的計算20 2.2.2 Python的運算符20 2.2.3 Python的變量21 2.3 Python的字符串22 2.4 Python的列表23 2.5 Python的元組25 2.6 Python的字典27 2.7 網(wǎng)絡(luò)爬蟲的發(fā)展歷史和分類28 2.7.1 網(wǎng)絡(luò)爬蟲的發(fā)展歷史28 2.7.2 網(wǎng)絡(luò)爬蟲的分類30 2.8 網(wǎng)絡(luò)爬蟲的原理30 2.8.1 理論概述30 2.8.2 爬蟲的工作流程31 2.9 爬蟲框架介紹36 2.9.1 Scrapy介紹36 2.9.2 XPath介紹39 2.10 網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)40 2.10.1 網(wǎng)絡(luò)爬蟲的總體設(shè)計40 2.10.2 具體實現(xiàn)過程40 2.10.3 爬蟲結(jié)果與分析45 2.11 本章小結(jié)49 第3章 回歸分析50 3.1 回歸分析概述50 3.1.1 基本概念50 3.1.2 可以解決的問題51 3.1.3 回歸分析的步驟51 3.2 線性回歸51 3.2.1 簡單線性回歸分析51 3.2.2 多元線性回歸分析52 3.2.3 非線性回歸數(shù)據(jù)分析52 3.3 用Python實現(xiàn)一元線性回歸53 3.4 用Python實現(xiàn)多元線性回歸56 3.4.1 使用pandas讀取數(shù)據(jù)56 3.4.2 分析數(shù)據(jù)57 3.4.3 線性回歸模型58 3.5 基于線性回歸的股票預(yù)測62 3.5.1 數(shù)據(jù)獲取62 3.5.2 數(shù)據(jù)預(yù)處理63 3.5.3 編碼實現(xiàn)64 3.5.4 結(jié)果分析65 3.6 邏輯回歸66 3.6.1 構(gòu)造預(yù)測函數(shù)67 3.6.2 構(gòu)造損失函數(shù)J68 3.6.3 梯度下降法求解最小值69 3.7 基于邏輯回歸的環(huán)境數(shù)據(jù)檢測71 3.7.1 數(shù)據(jù)來源71 3.7.2 數(shù)據(jù)處理72 3.7.3 異常數(shù)據(jù)分析72 3.7.4 數(shù)據(jù)預(yù)測74 3.8 本章小結(jié)76 第4章 決策樹與隨機森林77 4.1 決策樹77 4.1.1 決策樹的基本原理77 4.1.2 決策樹的分類78 4.1.3 決策樹的優(yōu)缺點81 4.2 使用決策樹對鳶尾花分類82 4.2.1 Iris數(shù)據(jù)集簡介82 4.2.2 讀取數(shù)據(jù)83 4.2.3 鳶尾花類別83 4.2.4 數(shù)據(jù)可視化84 4.2.5 訓練和分類85 4.2.6 數(shù)據(jù)集多類分類86 4.2.7 實驗結(jié)果86 4.3 隨機森林87 4.3.1 隨機森林的基本原理87 4.3.2 隨機森林的收斂性88 4.3.3 隨機森林的OOB估計89 4.3.4 隨機森林的隨機特征選取89 4.3.5 隨機森林的優(yōu)缺點90 4.4 葡萄酒數(shù)據(jù)集的隨機森林分類91 4.4.1 數(shù)據(jù)收集91 4.4.2 相關(guān)庫函數(shù)簡介92 4.4.3 數(shù)據(jù)基本分析93 4.4.4 使用隨機森林構(gòu)建模型97 4.4.5 實驗結(jié)果98 4.5 本章小結(jié)99 第5章 支持向量機100 5.1 SVM的工作原理及分類100 5.1.1 支持向量機的原理100 5.1.2 線性可分的支持向量機101 5.1.3 非線性可分的支持向量機102 5.2 核函數(shù)103 5.2.1 核函數(shù)簡介103 5.2.2 幾種常見的核函數(shù)104 5.2.3 核函數(shù)如何處理非線性數(shù)據(jù)104 5.2.4 如何選擇合適的核函數(shù)105 5.3 SVR簡介106 5.3.1 SVR原理106 5.3.2 SVR模型106 5.4 時間序列曲線預(yù)測107 5.4.1 生成訓練數(shù)據(jù)集107 5.4.2 運用不同的核函數(shù)進行支持向量回歸108 5.4.3 生成測試數(shù)據(jù)集109 5.4.4 預(yù)測并生成圖表110 5.4.5 獲取預(yù)測誤差111 5.4.6 創(chuàng)建數(shù)據(jù)集112 5.4.7 選取最優(yōu)參數(shù)112 5.4.8 預(yù)測并生成圖表112 5.4.9 獲取預(yù)測誤差113 5.5 本章小結(jié)114 第6章 隱馬爾可夫模型115 6.1 隱馬爾可夫模型簡介115 6.1.1 隱馬爾可夫模型的概念115 6.1.2 詳例描述116 6.1.3 HMM流程117 6.2 Viterbi算法117 6.3 HMM模型用于中文分詞119 6.3.1 UI界面119 6.3.2 數(shù)據(jù)及其編碼119 6.3.3 HMM模型121 6.3.4 實驗結(jié)果122 6.4 本章小結(jié)124 第7章 BP神經(jīng)網(wǎng)絡(luò)模型125 7.1 背景介紹125 7.2 結(jié)構(gòu)特點126 7.3 網(wǎng)絡(luò)模型126 7.4 人工神經(jīng)網(wǎng)絡(luò)簡介127 7.4.1 神經(jīng)元127 7.4.2 單層神經(jīng)網(wǎng)絡(luò)128 7.4.3 雙層神經(jīng)網(wǎng)絡(luò)129 7.4.4 多層神經(jīng)網(wǎng)絡(luò)130 7.5 BP神經(jīng)網(wǎng)絡(luò)131 7.6 通過TensorFlow實現(xiàn)BP神經(jīng)網(wǎng)絡(luò)132 7.7 本章小結(jié)134 第8章 卷積神經(jīng)網(wǎng)絡(luò)135 8.1 傳統(tǒng)圖像識別技術(shù)135 8.1.1 圖像預(yù)處理135 8.1.2 圖像特征提取136 8.1.3 圖像分類方法136 8.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡介137 8.2.1 卷積神經(jīng)網(wǎng)絡(luò)發(fā)展歷程137 8.2.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡介137 8.3 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)及原理139 8.3.1 卷積層139 8.3.2 池化層140 8.3.3 激活函數(shù)142 8.3.4 全連接層144 8.3.5 反饋運算144 8.4 卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點146 8.5 雷達剖面圖識別模型148 8.5.1 數(shù)據(jù)準備148 8.5.2 構(gòu)建模型150 8.6 模型測試分析157 8.6.1 部署基本模塊157 8.6.2 創(chuàng)建項目結(jié)構(gòu)157 8.6.3 訓練網(wǎng)絡(luò)158 8.6.4 自動化測試158 8.7 本章小結(jié)160 第9章 循環(huán)神經(jīng)網(wǎng)絡(luò)161 9.1 自然語言處理161 9.1.1 自然語言處理概述161 9.1.2 自然語言處理應(yīng)用162 9.2 對話系統(tǒng)163 9.2.1 對話系統(tǒng)分類163 9.2.2 聊天機器人分類164 9.3 基于LSTM結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)165 9.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)165 9.3.2 通過時間反向傳播166 9.3.3 長短期記憶網(wǎng)絡(luò)(LSTM)169 9.4 Seq2Seq模型172 9.4.1 Encoder-Decoder框架173 9.4.2 Attention機制174 9.5 聊天機器人的程序?qū)崿F(xiàn)176 9.5.1 準備數(shù)據(jù)176 9.5.2 創(chuàng)建模型178 9.5.3 訓練模型179 9.5.4 測試模型180 9.6 本章小結(jié)181 第10章 聚類與集成算法182 10.1 聚類方法簡介182 10.1.1 聚類定義183 10.1.2 聚類要求183 10.2 聚類算法184 10.2.1 劃分方法184 10.2.2 層次方法184 10.2.3 基于密度的方法184 10.2.4 基于網(wǎng)格的方法185 10.2.5 基于模型的方法185 10.3 K-Means算法185 10.3.1 K-Means算法概述185 10.3.2 K-Means算法流程185 10.3.3 K-Means算法實現(xiàn)186 10.3.4 實驗結(jié)果及分析188 10.3.5 K-Means算法存在的問題188 10.4 K-Means 算法189 10.4.1 K-Means 的基本思想189 10.4.2 K-Means 的數(shù)學描述190 10.4.3 K-Means 算法流程190 10.5 K-Means 的實現(xiàn)191 10.5.1 數(shù)據(jù)集191 10.5.2 代碼實現(xiàn)192 10.5.3 K-Means 實驗結(jié)果193 10.6 Adaboost集成算法的原理194 10.6.1 Boosting算法的基本原理194 10.6.2 Adaboost算法介紹195 10.6.3 Adaboost分類問題的損失函數(shù)優(yōu)化197 10.6.4 Adaboost二元分類問題的算法流程198 10.6.5 Adaboost回歸問題的算法流程199 10.6.6 Adaboost算法的正則化200 10.6.7 Adaboost的優(yōu)缺點200 10.7 Adaboost算法實現(xiàn)201 10.7.1 數(shù)據(jù)集處理201 10.7.2 實現(xiàn)過程201 10.7.3 實驗結(jié)果分析206 10.8 本章小結(jié)208 第11章 其他機器學習算法209 11.1 貝葉斯分類器210 11.1.1 概率基礎(chǔ)知識210 11.1.2 貝葉斯決策準則211 11.1.3 極大似然估計212 11.2 貝葉斯分類模型213 11.2.1 樸素貝葉斯分類模型213 11.2.2 半樸素貝葉斯分類模型216 11.2.3 貝葉斯網(wǎng)絡(luò)分類模型217 11.3 樸素貝葉斯分類器在破產(chǎn)預(yù)測中的應(yīng)用219 11.3.1 數(shù)據(jù)集219 11.3.2 訓練多項式樸素貝葉斯模型220 11.4 在線學習222 11.4.1 線性模型的在線學習222 11.4.2 非線性模型的在線學習224 11.5 Bandit在線學習算法225 11.5.1 Bandit算法與推薦系統(tǒng)226 11.5.2 常用Bandit算法226 11.6 Bandit算法原理及實現(xiàn)228 11.7 GAN網(wǎng)絡(luò)229 11.7.1 GAN產(chǎn)生的背景230 11.7.2 模型結(jié)構(gòu)230 11.7.3 GAN的實現(xiàn)原理232 11.8 DCGAN網(wǎng)絡(luò)236 11.8.1 模型結(jié)構(gòu)236 11.8.2 反卷積237 11.9 DCGAN人臉生成240 11.9.1 實驗準備240 11.9.2 關(guān)鍵模塊的實現(xiàn)240 11.9.3 實驗結(jié)果展示243 11.10 本章小結(jié)245 附錄A 機器學習常見面試題246 附錄B 數(shù)學基礎(chǔ)257 B.1 常用符號257 B.2 數(shù)學基礎(chǔ)知識259 B.2.1 線性代數(shù)259 B.2.2 概率論261 B.2.3 信息論262 參考文獻264
你還可能感興趣
我要評論
|