人工智能與大數(shù)據(jù)(卷1):基礎(chǔ)概念和模型
定 價(jià):119.9 元
叢書(shū)名:R語(yǔ)言
- 作者:[新加坡]周志華(Chew Chee Hua)
- 出版時(shí)間:2022/4/1
- ISBN:9787115575753
- 出 版 社:人民郵電出版社
- 中圖法分類:TP18
- 頁(yè)碼:289
- 紙張:
- 版次:01
- 開(kāi)本:小16開(kāi)
本書(shū)介紹了人工智能和大數(shù)據(jù)涉及的核心概念和模型。書(shū)中涉及概念包括監(jiān)督和非監(jiān)督學(xué)習(xí)、數(shù)據(jù)類型、可視化、線性回歸、邏輯回歸、分類回歸樹(shù)、神經(jīng)網(wǎng)絡(luò)等。同時(shí),本書(shū)理論和實(shí)際并重,基于真實(shí)的實(shí)例和數(shù)據(jù)集,引入了R語(yǔ)言演示實(shí)際計(jì)算和操作,為讀者展示解決實(shí)際問(wèn)題的代碼,從而讓讀者掌握在實(shí)際生活中解決相關(guān)問(wèn)題的方法。
本書(shū)適合想要綜合學(xué)習(xí)人工智能、大數(shù)據(jù)和數(shù)據(jù)科學(xué),尤其是想要依靠這些學(xué)科解決實(shí)際問(wèn)題的人學(xué)習(xí),也適合作為相關(guān)課程的參考教材。
1. 針對(duì)初學(xué)人士,對(duì)核心概念進(jìn)行了詳細(xì)的解釋。
2. 理論和實(shí)操并重,采用了真實(shí)的案例和數(shù)據(jù)集進(jìn)行演示。
3. 向讀者展示如何使用開(kāi)源編程語(yǔ)言(即R語(yǔ)言)將概念投入應(yīng)用。
4. 章末提供有關(guān)概念和實(shí)際計(jì)算的習(xí)題,幫助讀者進(jìn)一步理解。
注意:本書(shū)作者為新加坡南洋理工大學(xué)高級(jí)講師Chew Chee Hua(中文名:周志華)先生,與《機(jī)器學(xué)習(xí)》作者、南京大學(xué)周志華教授不是同一人。請(qǐng)各位讀者不要混淆。
Chew Chee Hua(中文名:周志華),新加披南洋理工大學(xué)高級(jí)講師,主講課程包括分析學(xué)、機(jī)器學(xué)習(xí)、商業(yè)分析及應(yīng)用機(jī)器學(xué)習(xí)、分析戰(zhàn)略等。曾為政府機(jī)構(gòu)、銀行、保險(xiǎn)公司、醫(yī)院和大型企業(yè)設(shè)計(jì)和領(lǐng)導(dǎo)高級(jí)分析解決方案。
第 1 章 介紹和概述 . 1
1.1 主要的成功案例和應(yīng)用 .1
1.1.1 Netflix 的 120 億美元營(yíng)收目標(biāo) .1
1.1.2 在醫(yī)院急診部使用有限的信息拯救生命 .3
1.1.3 癌癥診斷與損傷預(yù)后 .5
1.1.4 從零開(kāi)始使用低預(yù)算連續(xù)贏得 20 場(chǎng)比賽 .6
1.1.5 殼牌公司深海石油鉆探的預(yù)測(cè)性資產(chǎn)維護(hù) .7
1.1.6 預(yù)測(cè)選舉結(jié)果 .8
1.1.7 星展銀行預(yù)測(cè)現(xiàn)金需求和優(yōu)化調(diào)度 .9
1.1.8 新加坡稅務(wù)局檢測(cè)稅務(wù)欺詐 .10
1.1.9 違規(guī)和欺詐貸款風(fēng)險(xiǎn)檢測(cè) .11
1.2 適合 ADA 解決的問(wèn)題特征 .12
1.3 數(shù)據(jù)分析、數(shù)據(jù)科學(xué)和人工智能的區(qū)別 .13
1.4 analysis 和 analytics .14
1.5 組織 ADA 能力的發(fā)展曲線 .15
1.6 規(guī)劃、開(kāi)發(fā)和部署 ADA .18
1.7 四大預(yù)測(cè)模型 .19
第 2 章 基本概念和原則. 21
2.1 本章目標(biāo) .21
2.2 可視化和模型 .21
2.3 監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí) .24
2.4 模型的可解釋性 .25
2.5 原則 1:正確模型不唯一 .26
2.5.1 模型和等式 .28
2.5.2 評(píng)估預(yù)測(cè)模型 .29
2.6 原則 2:訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分離 . 31
2.6.1 在訓(xùn)練 - 測(cè)試拆分前進(jìn)行分層 .33
2.6.2 有效地執(zhí)行分層和訓(xùn)練 - 測(cè)試拆分 .34
2.6.3 訓(xùn)練集與測(cè)試集之間的權(quán)衡 .39
2.7 原則 3:風(fēng)險(xiǎn)校正模型 . 39
2.7.1 多項(xiàng)式插值定理的影響 .40
2.7.2 模型復(fù)雜度 .41
第 3 章 數(shù)據(jù)探索和摘要. 47
3.1 本章目標(biāo) .47
3.2 數(shù)據(jù)初探和 R 語(yǔ)言的 data.table .47
3.2.1 data.table 的語(yǔ)法 .48
3.2.2 示例:2014 年的紐約航班 .48
3.2.3 行篩選 .51
3.2.4 列排序 .52
3.2.5 篩選幾列并進(jìn)行重命名 .53
3.2.6 進(jìn)一步的數(shù)據(jù)探索和問(wèn)題 .53
3.3 公共用途微觀樣本數(shù)據(jù) .59
3.3.1 探索 PUMS 中的健康保險(xiǎn)覆蓋面數(shù)據(jù) .60
3.3.2 在 R 中導(dǎo)入數(shù)據(jù)和摘要概述 .61
3.3.3 缺失值概述 .66
3.3.4 繪制單一連續(xù)變量的圖形摘要—概率密度 .67
3.3.5 繪制單一分類變量的圖形摘要—條形圖 .71
3.3.6 繪制分類變量X 和連續(xù)變量Y 的圖形摘要—箱線圖 .73
3.3.7 繪制連續(xù)變量X 和連續(xù)變量Y 的圖形摘要—散點(diǎn)圖 .75
3.3.8 繪制連續(xù)變量X 和分類變量X 的圖形摘要—抖動(dòng)
散點(diǎn)圖 .76
3.4 結(jié)論 .79
第 4 章 數(shù)據(jù)結(jié)構(gòu)和可視化 . 83
4.1 本章目標(biāo) .83
4.2 數(shù)據(jù)結(jié)構(gòu)的格式 .83
4.3 檢查數(shù)據(jù)結(jié)構(gòu) .85
4.3.1 連續(xù)數(shù)據(jù)和分類數(shù)據(jù) .85
4.3.2 定類數(shù)據(jù)與定序數(shù)據(jù) .87
4.4 可視化 .90
4.5 結(jié)論 .93
第 5 章 數(shù)據(jù)清洗和準(zhǔn)備. 95
5.1 本章目標(biāo) .95
5.2 缺失值 .95
5.2.1 更正不一致的缺失值記錄 .96
5.2.2 NA 和 NULL .98
5.2.3 處理(真實(shí)存在的)缺失值 .99
5.3 處理分類數(shù)據(jù)中的 NA 和錯(cuò)誤值 .100
5.4 處理連續(xù)數(shù)據(jù)中的 NA 和錯(cuò)誤值 .100
5.5 結(jié)論 .102
第 6 章 線性回歸:最佳實(shí)踐. 105
6.1 本章目標(biāo) .105
6.2 相關(guān)性 .105
6.2.1 強(qiáng)相關(guān)和因果關(guān)系 .108
6.2.2 強(qiáng)相關(guān)和直線關(guān)系 .109
6.2.3 弱相關(guān)性和無(wú)趨勢(shì) .110
6.3 單輸入變量的線性回歸 .112
6.4 多重R 方和調(diào)整R 方 .115
6.5 線性回歸方程和線性回歸模型 .117
6.6 模型診斷圖 .118
6.7 有影響力的異常值 .119
6.8 向模型中增加一個(gè)二次項(xiàng) .121
6.9 多因子的線性回歸 .123
6.10 訓(xùn)練 - 測(cè)試拆分 .135
6.11 結(jié)論 .137
第 7 章 邏輯回歸:最佳實(shí)踐. 140
7.1 本章目標(biāo) .140
7.2 相對(duì)風(fēng)險(xiǎn)和勝算比 .140
7.3 單一連續(xù)輸入變量的二元邏輯回歸 .145
7.3.1 示例: 基于學(xué)習(xí)時(shí)長(zhǎng)預(yù)測(cè)考試結(jié)果 .148
7.3.2 邏輯回歸的混淆矩陣 .152
7.4 多輸入變量的二元邏輯回歸 .154
7.5 多元邏輯回歸 .159
7.5.1 多分類值Y 的邏輯函數(shù) .160
7.5.2 示例:影響服務(wù)評(píng)級(jí)的因素 .161
7.6 結(jié)論 .166
第 8 章 分類回歸樹(shù) . 171
8.1 本章目標(biāo) .171
8.2 預(yù)測(cè)心臟病發(fā)作的模型和要求 .172
8.3 階段 1:使用二分法將樹(shù)增長(zhǎng)到最大值 .175
8.3.1 度量分類變量結(jié)點(diǎn)的雜質(zhì) .176
8.3.2 CART 樹(shù)的增長(zhǎng)過(guò)程 .179
8.4 階段 2:用最弱連接剪枝法將樹(shù)修剪到最小值 .180
8.4.1 最弱連接剪枝 .182
8.4.2 rpart 包中的α 和cp .185
8.4.3 k 折交叉驗(yàn)證和 1 標(biāo)準(zhǔn)誤差規(guī)則 .185
8.5 示例:CART 模型在定向信用卡營(yíng)銷(xiāo)中的運(yùn)用
(Y 為分類數(shù)據(jù)) .187
8.6 示例:CART 模型在汽車(chē)燃油效率中的運(yùn)用
(Y 為連續(xù)數(shù)據(jù)) .198
8.7 通過(guò)代理項(xiàng)自動(dòng)處理缺失值 .205
8.8 結(jié)論 .211
8.9 rpart 包的重要函數(shù)和參數(shù)總結(jié) .212
第 9 章 神經(jīng)網(wǎng)絡(luò). 219
9.1 本章目標(biāo) .219
9.2 大腦處理信息過(guò)程的建模 .220
9.3 信息的處理、關(guān)聯(lián)和傳輸 .221
9.4 示例:巧克力口味測(cè)試 .222
9.5 通過(guò)增加權(quán)重訓(xùn)練神經(jīng)網(wǎng)絡(luò) .226
9.5.1 反向傳播 .226
9.5.2 彈性反向傳播和權(quán)重回溯 .228
9.6 設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)需要考慮的細(xì)節(jié) .229
9.6.1 規(guī)范所有輸入變量的取值范圍 .229
9.6.2 限制網(wǎng)絡(luò)復(fù)雜度 .230
9.6.3 neuralnet 和 nnet .230
9.7 示例:不孕風(fēng)險(xiǎn) .231
9.8 結(jié)論 .236、
第 10 章 字符串和文本挖掘 . 240
10.1 本章目標(biāo) .240
10.2 處理字符串 .240
10.3 基本的文本挖掘概念 .247
10.3.1 示例:對(duì)期刊標(biāo)題進(jìn)行分析的字符串操作 .249
10.3.2 示例:對(duì)期刊標(biāo)題分析的文本挖掘操作 .252
10.3.3 文檔要素矩陣 .256
10.3.4 非索引字 .257
10.4 情緒分析 .259
10.5 結(jié)論 .266
第 11 章 結(jié)束感想和后續(xù)計(jì)劃. 269
附錄 A R 和 RStudio 的安裝 . 271
A.1 下載安裝 R .271
A.2 下載安裝 RStudio .273
A.3 在 RStudio 中將 R 升級(jí)到最新版本 .274
附錄 B 基本的 R 命令和腳本 . 275
B.1 RStudio 界面的 4 個(gè)面板 .275
B.2 檢查和設(shè)置工作目錄 .280
B.3 將數(shù)據(jù)輸入 RStudio .281
B.4 R 中的對(duì)象命名約定 .284
B.5 R 中的通用運(yùn)算符 .285
B.6 R 函數(shù) .285
B.7 創(chuàng)建你自己的 R 函數(shù) .287
B.8 練習(xí) R .288