本書分為三大部分共8章, 第一部分為大數(shù)據(jù)智能處理方法, 包括大數(shù)據(jù)概況、數(shù)據(jù)挖掘與經(jīng)典的機(jī)器學(xué)習(xí)算法以及現(xiàn)代基于生物啟發(fā)的群智能優(yōu)化算法; 第二部分先進(jìn)計(jì)算技術(shù), 包括大數(shù)據(jù)存儲(chǔ)技術(shù)、大數(shù)據(jù)處理架構(gòu)及先進(jìn)并行計(jì)算技術(shù); 第三部分為典型大數(shù)據(jù)分析案例部分, 主要為風(fēng)電大數(shù)據(jù)分析實(shí)例和城市供水系統(tǒng)供水量預(yù)測大數(shù)據(jù)分析案例。
第1章 緒論
1.1 大數(shù)據(jù)的概念和特征
1.1.1 大數(shù)據(jù)的概念
1.1.2 大數(shù)據(jù)的特征
1.2 大數(shù)據(jù)與先進(jìn)計(jì)算、人工智能
1.3 大數(shù)據(jù)的典型應(yīng)用場景
1.4 大數(shù)據(jù)的發(fā)展趨勢
第2章 機(jī)器學(xué)習(xí)
2.1 數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)概述
2.2 logistic回歸
2.2.1 logistic回歸分類
2.2.2 L2正則化原問題
2.2.3 L2正則化對偶問題
2.2.4 L1正則化原問題
2.3 決策樹
2.3.1 樹形決策過程
2.3.2 分類與回歸樹
2.3.3 訓(xùn)練算法
2.4 支持向量機(jī)
2.4.1 線性分類器
2.4.2 線性可分的情況
2.4.3 線性不可分的情況
2.4.4 核映射與核函數(shù)
2.4.5 SMO算法
2.4.6 多分類問題
2.5 貝葉斯分類器
2.5.1 貝葉斯決策
2.5.2 樸素貝葉斯分類器
2.5.3 正態(tài)貝葉斯分類器
2.6 KNN算法
2.6.1 基本概念
2.6.2 預(yù)測算法
2.6.3 距離定義
2.7 隨機(jī)森林
2.7.1 隨機(jī)抽樣
2.7.2 Bagging算法
2.7.3 隨機(jī)森林算法
2.8 Boosting算法
2.8.1 AdaBoost算法
2.8.2 廣義加法模型
2.8.3 實(shí)現(xiàn)細(xì)節(jié)問題
第3章 深度學(xué)習(xí)
3.1 深度學(xué)習(xí)概述
3.2 深度學(xué)習(xí)基礎(chǔ)
3.2.1 BP神經(jīng)網(wǎng)絡(luò)
3.2.2 受限Boltzmann機(jī)
3.3 深度信念網(wǎng)絡(luò)
3.3.1 模型結(jié)構(gòu)
3.3.2 學(xué)習(xí)算法
3.4 卷積神經(jīng)網(wǎng)絡(luò)
3.4.1 卷積層
3.4.2 ReLU層
3.4.3 池化層
3.4.4 全連接層
3.4.5 層與層之間的交織
3.5 循環(huán)神經(jīng)網(wǎng)絡(luò)
3.5.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
3.5.2 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)
3.5.3 多層循環(huán)神經(jīng)網(wǎng)絡(luò)
3.5.4 回聲狀態(tài)網(wǎng)絡(luò)
3.5.5 長短期記憶網(wǎng)絡(luò)
3.5.6 門控循環(huán)單元
3.6 生成對抗學(xué)習(xí)
3.7 強(qiáng)化學(xué)習(xí)
3.7.1 強(qiáng)化學(xué)習(xí)的組成部分
3.7.2 馬爾可夫決策過程
3.7.3 基于動(dòng)態(tài)規(guī)劃的算法
3.7.4 蒙特卡洛算法
3.7.5 時(shí)序差分算法
3.8 遷移學(xué)習(xí)
第4章 大數(shù)據(jù)群智能優(yōu)化算法
4.1 大數(shù)據(jù)處理的難點(diǎn)與群智能優(yōu)化
4.1.1 基于粒子群算法的大數(shù)據(jù)分析
4.1.2 基于蟻群算法的大數(shù)據(jù)分析
4.1.3 基于進(jìn)化算法的大數(shù)據(jù)分析
4.2 遺傳算法
4.2.1 遺傳算法原理
4.2.2 常用術(shù)語簡介
4.2.3 遺傳算法的流程
4.3 人工免疫系統(tǒng)
4.3.1 一般免疫算法
4.3.2 克隆選擇算法
4.3.3 免疫網(wǎng)絡(luò)算法
4.3.4 陰性選擇算法
4.4 蟻群算法
4.4.1 蟻群算法的基本原理
4.4.2 蟻群算法的流程
4.2.3 改進(jìn)的蟻群算法
4.5 粒子群優(yōu)化算法
4.5.1 粒子群優(yōu)化算法的基本原理
4.5.2 粒子群優(yōu)化算法的流程
4.6 差分進(jìn)化算法
4.6.1 差分進(jìn)化算法原理
4.6.2 差分進(jìn)化算法流程
第5章 大數(shù)據(jù)存儲(chǔ)
5.1 Hadoop平臺(tái)
5.1.1 Hadoop的特性
5.1.2 Hadoop生態(tài)系統(tǒng)
5.2 分布式文件系統(tǒng)HDFS
5.2.1 分布式文件系統(tǒng)
5.2.2 HDFS的優(yōu)缺點(diǎn)
5.2.3 HDFS相關(guān)概念
5.2.4 HDFS的體系結(jié)構(gòu)
5.2.5 HDFS的數(shù)據(jù)存儲(chǔ)
5.2.6 HDFS的數(shù)據(jù)讀寫操作
5.3 分布式數(shù)據(jù)庫HBase
5.3.1 HBase與傳統(tǒng)關(guān)系數(shù)據(jù)庫的對比分析
5.3.2 HBase數(shù)據(jù)模型
5.3.3 HBase的實(shí)現(xiàn)原理
5.3.4 HBase運(yùn)行機(jī)制
5.4 非關(guān)系型數(shù)據(jù)庫NoSQL
5.4 NoSQL數(shù)據(jù)庫的特點(diǎn)
5.4 NoSQL數(shù)據(jù)庫的類型
5.4.3 BASE理論
第6章 大數(shù)據(jù)處理技術(shù)
6.1 MapRecluee
6.1.1 Map和Reduce函數(shù)
6.1.2 MapReduce的工作流程
6.1.3 Shuffle過程
6.2 內(nèi)存計(jì)算框架Spark
6.2.1 Spark的特點(diǎn)
6.2.2 SDark生態(tài)系統(tǒng)
6.2.3 SDark運(yùn)行架構(gòu)
6.2.4 RDD的設(shè)計(jì)與運(yùn)行原理
6.2.5 Spark SQL
6.3 流計(jì)算
6.3.1 流計(jì)算簡介
6.3.2 流計(jì)算與Hadoop
6.3.3 流計(jì)算處理流程
6.3.4 流計(jì)算框架Storm
6.4 圖計(jì)算
6.4.1 圖計(jì)算簡介
6.4.2 圖計(jì)算的應(yīng)用場景
6.4.3 Pregel圖計(jì)算模型
6.4.4 Pregel的體系結(jié)構(gòu)
第7章 風(fēng)電大數(shù)據(jù)分析實(shí)例
7.1 SCADA數(shù)據(jù)介紹
7.2 SCADA數(shù)據(jù)預(yù)處理
7.2.1 數(shù)據(jù)清洗
7.2.2 數(shù)據(jù)重采樣和歸一化
7.3 基于SCADA數(shù)據(jù)深度學(xué)習(xí)的短期風(fēng)電功率預(yù)測模型構(gòu)建
7.3.1 模型框架
7.3.2 基于小波包分解算法的SCADA數(shù)據(jù)去噪
7.3.3 基于最大互信息系數(shù)的特征選擇
7.3.4 基于門控循環(huán)單元深度學(xué)習(xí)網(wǎng)絡(luò)的風(fēng)電功率預(yù)測模型
7.3.5 風(fēng)電功率預(yù)測評價(jià)指標(biāo)
7.3.6 算法流程
7.4 實(shí)驗(yàn)過程介紹
7.4.1 數(shù)據(jù)準(zhǔn)備
7.4.2 數(shù)據(jù)預(yù)處理
7.4.3 小波包算法去噪與特征選擇
7.4.4 對比方法與參數(shù)設(shè)置
7.4.5 訓(xùn)練過程與收斂分析
7.4.6 結(jié)果分析
7.4.7 多步驗(yàn)證
第8章 城