數(shù)據(jù)挖掘與預(yù)測(cè)分析
讀者對(duì)象:本書適用于信息管理與信息系統(tǒng)、信息資源管理、電子商務(wù)及大數(shù)據(jù)管理與應(yīng)用等專業(yè)的高年級(jí)本科生或研究生作為數(shù)據(jù)挖掘、數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)課程的教材, 同時(shí)也可以作為數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域內(nèi)的教師、研究人員和用戶的參考書
本書全面系統(tǒng)地介紹數(shù)據(jù)挖掘的概念、技術(shù)、算法及應(yīng)用, 力求為初學(xué)者構(gòu)建一個(gè)合適的學(xué)習(xí)框架。全書將數(shù)據(jù)挖掘歸納成數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索、決策樹、貝葉斯分類、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、關(guān)聯(lián)規(guī)則分析、聚類、時(shí)間序列預(yù)測(cè)等幾個(gè)主題, 不僅詳解技術(shù)原理和算法實(shí)現(xiàn), 而且還結(jié)合復(fù)雜多樣的實(shí)際數(shù)據(jù)環(huán)境, 探討其應(yīng)用場景和使用方法。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
前言
第1章 引言 1
1.1 數(shù)據(jù)挖掘的定義 1
1.2 數(shù)據(jù)挖掘的起源 2
1.3 數(shù)據(jù)挖掘的類型 2
1.3.1 數(shù)據(jù)庫數(shù)據(jù) 2
1.3.2 數(shù)據(jù)倉庫 3
1.3.3 事務(wù)數(shù)據(jù) 3
1.3.4 時(shí)間序列數(shù)據(jù) 3
1.3.5 文本和多媒體數(shù)據(jù) 4
1.3.6 空間數(shù)據(jù) 4
1.4 數(shù)據(jù)挖掘的功能與模式 4
1.4.1 數(shù)據(jù)特征化與數(shù)據(jù)區(qū)分 5
1.4.2 頻繁模式、關(guān)聯(lián)和相關(guān)性分析 6
1.4.3 分類和回歸 6
1.4.4 聚類分析 6
1.4.5 離群點(diǎn)分析 7
1.5 數(shù)據(jù)挖掘常用技術(shù)及其優(yōu)缺點(diǎn) 7
1.6 數(shù)據(jù)挖掘的步驟 7
1.7 數(shù)據(jù)挖掘的應(yīng)用 8
1.7.1 數(shù)據(jù)統(tǒng)計(jì)應(yīng)用現(xiàn)狀 8
1.7.2 個(gè)性化技術(shù)應(yīng)用現(xiàn)狀 8
1.7.3 預(yù)測(cè)技術(shù)應(yīng)用現(xiàn)狀 9
1.7.4 分類和回歸技術(shù)應(yīng)用現(xiàn)狀 9
1.7.5 輔助決策系統(tǒng)應(yīng)用現(xiàn)狀 9
1.8 數(shù)據(jù)挖掘面臨的困難與挑戰(zhàn) 10
習(xí)題 11
第2章 數(shù)據(jù)預(yù)處理 12
2.1 認(rèn)識(shí)數(shù)據(jù) 12
2.1.1 數(shù)據(jù)對(duì)象與屬性的類型 12
2.1.2 數(shù)據(jù)集的類型 15
2.2 原始數(shù)據(jù)存在的問題 16
2.3 數(shù)據(jù)預(yù)處理方法 18
2.3.1 數(shù)據(jù)預(yù)處理的步驟 18
2.3.2 數(shù)據(jù)清理 19
2.3.3 數(shù)據(jù)集成 22
2.3.4 數(shù)據(jù)歸約 24
2.3.5 數(shù)據(jù)變換 28
習(xí)題 31
實(shí)踐練習(xí) 31
第3章 數(shù)據(jù)探索 32
3.1 數(shù)據(jù)的基本統(tǒng)計(jì)描述 32
3.1.1 中心趨勢(shì)度量 32
3.1.2 數(shù)據(jù)散布度量 35
3.2 可視化分析 36
3.2.1 一般概念 36
3.2.2 不同數(shù)據(jù)的可視化 38
3.3 聯(lián)機(jī)分析處理 44
3.3.1 OLAP的概念 44
3.3.2 OLAP的多維數(shù)據(jù)概念 45
3.3.3 OLAP的多維數(shù)據(jù)結(jié)構(gòu) 45
3.3.4 OLAP的多維數(shù)據(jù)庫 47
3.3.5 OALP的多維數(shù)據(jù)分析 48
習(xí)題 48
實(shí)踐練習(xí) 48
第4章 決策樹 49
4.1 決策樹概述 49
4.1.1 決策樹的含義及相關(guān)概念 49
4.1.2 決策樹算法構(gòu)造基本流程 52
4.1.3 決策樹的特點(diǎn) 53
4.2 ID3算法 53
4.2.1 ID3算法原理 53
4.2.2 ID3算法代碼實(shí)現(xiàn) 55
4.3 C4.5算法 56
4.3.1 C4.5算法原理 56
4.3.2 C4.5算法代碼實(shí)現(xiàn) 57
4.4 隨機(jī)森林 63
4.4.1 基本原理 63
4.4.2 隨機(jī)森林構(gòu)造步驟 63
4.4.3 隨機(jī)森林代碼實(shí)現(xiàn) 64
習(xí)題 70
實(shí)踐練習(xí) 71
第5章 貝葉斯分類 72
5.1 貝葉斯定理 72
5.2 樸素貝葉斯分類器 73
5.2.1 樸素貝葉斯分類器工作原理 73
5.2.2 樸素貝葉斯分類器應(yīng)用案例 74
5.3 半樸素貝葉斯分類器 75
5.4 貝葉斯網(wǎng)絡(luò) 76
5.4.1 貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu) 77
5.4.2 貝葉斯網(wǎng)絡(luò)的建立 77
5.4.3 貝葉斯網(wǎng)絡(luò)的特點(diǎn) 78
5.5 貝葉斯分類器實(shí)例分析 78
習(xí)題 79
實(shí)踐練習(xí) 80
第6章 人工神經(jīng)網(wǎng)絡(luò) 81
6.1 人工神經(jīng)網(wǎng)絡(luò)概述 81
6.2 人工神經(jīng)網(wǎng)絡(luò)基本原理 82
6.2.1 人工神經(jīng)元模型 82
6.2.2 激活函數(shù) 83
6.2.3 人工神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu) 86
6.2.4 人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)與工作 89
6.2.5 感知機(jī)模型 90
6.2.6 誤差反向傳播算法 93
6.3 算法改進(jìn) 101
6.3.1 交叉熵—神經(jīng)元飽和 101
6.3.2 正則化—過擬合 102
6.3.3 權(quán)值初始化—隱藏層神經(jīng)元飽和 102
6.4 應(yīng)用及實(shí)例分析 103
習(xí)題 106
實(shí)踐練習(xí) 106
第7章 支持向量機(jī) 107
7.1 SVM分類 107
7.1.1 最大間隔分類器 107
7.1.2 軟間隔優(yōu)化 112
7.1.3 線性規(guī)劃SVM 113
7.2 SVM回歸 114
7.2.1 ε不敏感損失函數(shù) 114
7.2.2 SVR實(shí)現(xiàn)原理及過程 115
7.3 SVM實(shí)例應(yīng)用 117
習(xí)題 119
實(shí)踐練習(xí) 119
第8章 關(guān)聯(lián)規(guī)則分析 121
8.1 關(guān)聯(lián)規(guī)則分析概述 121
8.1.1 關(guān)聯(lián)規(guī)則基本概念 122
8.1.2 關(guān)聯(lián)規(guī)則度量及基本過程 122
8.2 關(guān)聯(lián)規(guī)則分類 124
8.2.1 單層關(guān)聯(lián)規(guī)則—頻繁項(xiàng)集的產(chǎn)生 124
8.2.2 不產(chǎn)生候選頻繁項(xiàng)集的算法 130
8.3 多層多維關(guān)聯(lián)規(guī)則挖掘 139
8.3.1 事務(wù)型數(shù)據(jù)庫挖掘多層關(guān)聯(lián)規(guī)則 139
8.3.2 興趣度度量 139
8.3.3 關(guān)聯(lián)挖掘與相關(guān)分析 139
8.3.4 有約束的關(guān)聯(lián)挖掘 140
8.4 關(guān)聯(lián)規(guī)則分析應(yīng)用場景 140
習(xí)題 143
實(shí)踐練習(xí) 144
第9章 聚類 145
9.1 聚類概述 145
9.1.1 聚類的含義 145
9.1.2 聚類算法的分類 145
9.2 相似性測(cè)度指標(biāo) 146
9.2.1 距離測(cè)度指標(biāo) 146
9.2.2 非距離測(cè)度指標(biāo) 148
9.3 k-means算法 149
9.3.1 k-means算法原理 149
9.3.2 k-means算法特點(diǎn) 151
9.3.3 k-means實(shí)例分析 151
9.4 k-中心點(diǎn)算法 153
9.4.1 算法原理 153
9.4.2 k-中心點(diǎn)算法特點(diǎn) 154
9.4.3 k-中心點(diǎn)實(shí)例分析 155
習(xí)題 157
實(shí)踐練習(xí) 158
第10章 時(shí)間序列預(yù)測(cè) 159
10.1 時(shí)間序列概述 159
10.2 預(yù)測(cè)的定量方法 166
10.2.1 平滑法 166
10.2.2 趨勢(shì)推測(cè)法 169
10.3 預(yù)測(cè)的定性方法 171
10.3.1 德爾菲法 171
10.3.2 專家判斷法 171
10.3.3 主觀概率預(yù)測(cè)法 171
10.3.4 情景預(yù)測(cè)法 172
10.4 常用模型介紹 172
10.4.1 平穩(wěn)性檢驗(yàn) 172
10.4.2 差分法 173
10.4.3 白噪聲檢驗(yàn) 174
10.4.4 時(shí)間序列模型預(yù)測(cè)的基本步驟 175
10.4.5 AR模型 176
10.4.6 MA模型 184
10.4.7 ARMA模型 188
10.4.8 ARIMA模型 191
習(xí)題 200
實(shí)踐練習(xí) 200
參考文獻(xiàn) 201