時(shí)間序列分析實(shí)戰(zhàn):基于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)
定 價(jià):139.8 元
- 作者:[美] 艾琳·尼爾森(Aileen Nielsen)
- 出版時(shí)間:2022/12/1
- ISBN:9787115605443
- 出 版 社:人民郵電出版社
- 中圖法分類(lèi):O211.61
- 頁(yè)碼:376
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
時(shí)間序列在現(xiàn)代生活中無(wú)處不在,它也是數(shù)據(jù)分析的重要對(duì)象。本書(shū)介紹時(shí)間序列分析的實(shí)用技巧,展示如何結(jié)合機(jī)器學(xué)習(xí)方法和傳統(tǒng)的統(tǒng)計(jì)方法來(lái)分析各類(lèi)時(shí)間序列數(shù)據(jù),并提供Python示例和R示例。本書(shū)共有17章,首先概覽時(shí)間序列分析的歷史,然后介紹數(shù)據(jù)的獲取、清洗、模擬和存儲(chǔ),接著關(guān)注可用于時(shí)間序列分析的建模技術(shù),最后探討時(shí)間序列分析在幾個(gè)常見(jiàn)領(lǐng)域中的應(yīng)用。
本書(shū)適合與時(shí)間序列打交道的數(shù)據(jù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家及其他相關(guān)從業(yè)人員閱讀。
天氣、股票、心跳都會(huì)產(chǎn)生時(shí)間序列數(shù)據(jù),物聯(lián)網(wǎng)、數(shù)字化醫(yī)療和智慧城市的興起更是產(chǎn)生了大量的時(shí)間序列數(shù)據(jù)。隨著數(shù)據(jù)的規(guī)?焖僭鲩L(zhǎng),應(yīng)用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法進(jìn)行時(shí)間序列分析的做法越來(lái)越普遍,也越來(lái)越重要。
本書(shū)從實(shí)戰(zhàn)角度介紹時(shí)間序列分析中的創(chuàng)新技術(shù)和實(shí)際用例,幫助你結(jié)合使用傳統(tǒng)的統(tǒng)計(jì)方法和先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)來(lái)解決時(shí)間序列分析中的常見(jiàn)問(wèn)題。由于Python和R都是時(shí)間序列分析常用的語(yǔ)言,因此本書(shū)兼顧這兩種語(yǔ)言并對(duì)時(shí)間序列進(jìn)行系統(tǒng)的闡釋,可以讓數(shù)據(jù)分析師、數(shù)據(jù)工程師和其他與數(shù)據(jù)打交道的讀者快速上手。
* 發(fā)現(xiàn)并整理時(shí)間序列數(shù)據(jù)
* 針對(duì)時(shí)間序列進(jìn)行探索性數(shù)據(jù)分析
* 模擬時(shí)間序列
* 存儲(chǔ)時(shí)間序列
* 為時(shí)間序列生成并選擇特征
* 測(cè)量誤差
* 使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)分析時(shí)間序列
* 評(píng)估模型的精度和性能
【作者簡(jiǎn)介】
艾琳·尼爾森(Aileen Nielsen)是軟件工程師和數(shù)據(jù)分析師。她畢業(yè)于耶魯大學(xué)和普林斯頓大學(xué),從事過(guò)多個(gè)領(lǐng)域的時(shí)間序列研究工作,包括醫(yī)療行業(yè)、物理學(xué)研究和金融行業(yè)等。她目前專注于研發(fā)用于預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)。
【譯者簡(jiǎn)介】
王祎,擁有6年軟件開(kāi)發(fā)、數(shù)據(jù)與人工智能領(lǐng)域方面的工作經(jīng)驗(yàn),現(xiàn)任ThoughtWorks機(jī)器學(xué)習(xí)工程師。為金融、汽車(chē)、藥企等客戶提供過(guò)專業(yè)服務(wù),在利用時(shí)間序列進(jìn)行預(yù)測(cè)、數(shù)據(jù)分析、數(shù)據(jù)可視化等方面擁有豐富的經(jīng)驗(yàn)。
馮英睿,在數(shù)據(jù)與人工智能領(lǐng)域有14年工作經(jīng)驗(yàn),現(xiàn)任ThoughtWorks數(shù)據(jù)科學(xué)家。為銀行、電信、汽車(chē)和制造業(yè)等客戶提供過(guò)專業(yè)服務(wù),在利用時(shí)間序列進(jìn)行預(yù)測(cè)、故障診斷、異常檢測(cè)和預(yù)測(cè)性維護(hù)等方面擁有豐富的經(jīng)驗(yàn)。
前言 xi
第 1章 時(shí)間序列:概述和簡(jiǎn)史 1
1.1 時(shí)間序列在歷史上的各種應(yīng)用 1
1.1.1 醫(yī)學(xué)中的時(shí)間序列問(wèn)題 2
1.1.2 氣象預(yù)測(cè) 5
1.1.3 經(jīng)濟(jì)增長(zhǎng)預(yù)測(cè) 5
1.1.4 天文學(xué) 7
1.2 時(shí)間序列分析的興起 7
1.3 統(tǒng)計(jì)時(shí)間序列分析的起源 8
1.4 時(shí)間序列分析在機(jī)器學(xué)習(xí)領(lǐng)域的起源 9
1.5 更多資源 10
第 2章 時(shí)間序列的發(fā)現(xiàn)與整理 11
2.1 時(shí)間序列數(shù)據(jù)何處尋 11
2.1.1 準(zhǔn)備好的數(shù)據(jù)集 12
2.1.2 “找到的時(shí)間序列” 16
2.2 將表集合改造成時(shí)間序列數(shù)據(jù)集合 17
2.2.1 示例:組裝時(shí)間序列數(shù)據(jù)集合 18
2.2.2 構(gòu)造“找到的時(shí)間序列” 23
2.3 時(shí)間戳問(wèn)題 25
2.3.1 誰(shuí)的時(shí)間戳 25
2.3.2 推測(cè)時(shí)間戳以理解數(shù)據(jù) 26
2.3.3 什么是有意義的時(shí)間尺度 27
2.4 清理數(shù)據(jù) 28
2.4.1 處理數(shù)據(jù)缺失 28
2.4.2 上采樣和下采樣 38
2.4.3 數(shù)據(jù)平滑 40
2.4.4 季節(jié)性數(shù)據(jù) 44
2.4.5 時(shí)區(qū) 47
2.4.6 預(yù)防前瞻 50
2.5 更多資源 51
第3 章 針對(duì)時(shí)間序列的探索性數(shù)據(jù)分析 53
3.1 常用方法 53
3.1.1 折線圖 54
3.1.2 直方圖 56
3.1.3 散點(diǎn)圖 57
3.2 探索時(shí)間序列數(shù)據(jù)的方法 59
3.2.1 理解平穩(wěn)性 60
3.2.2 應(yīng)用窗口函數(shù) 64
3.2.3 理解和識(shí)別自相關(guān)性 67
3.2.4 偽相關(guān)性 76
3.3 一些有用的可視化方式 78
3.3.1 一維可視化 78
3.3.2 二維可視化 79
3.3.3 三維可視化 86
3.4 更多資源 89
第4 章 模擬時(shí)間序列 90
4.1 模擬時(shí)間序列有何特別之處 91
4.2 代碼模擬 91
4.2.1 自己動(dòng)手 92
4.2.2 構(gòu)建一個(gè)自行運(yùn)轉(zhuǎn)的模擬世界 97
4.2.3 物理模擬 102
4.3 寫(xiě)在最后 107
4.3.1 統(tǒng)計(jì)模擬 108
4.3.2 深度學(xué)習(xí)模擬 108
4.4 更多資源 108
第5 章 存儲(chǔ)時(shí)間序列 109
5.1 定義需求 110
5.2 數(shù)據(jù)庫(kù)解決方案 113
5.2.1 SQL與NoSQL 113
5.2.2 流行的時(shí)間序列數(shù)據(jù)庫(kù) 116
5.3 文件解決方案 119
5.3.1 NumPy 119
5.3.2 Pandas 120
5.3.3 R 語(yǔ)言中的標(biāo)準(zhǔn)格式 120
5.3.4 Xarray 120
5.4 更多資源 121
第6 章 時(shí)間序列的統(tǒng)計(jì)模型 123
6.1 為什么不使用線性回歸 123
6.2 時(shí)間序列的統(tǒng)計(jì)方法 125
6.2.1 自回歸模型 125
6.2.2 移動(dòng)平均模型 136
6.2.3 差分自回歸移動(dòng)平均模型 140
6.2.4 向量自回歸模型 149
6.2.5 多樣的統(tǒng)計(jì)模型 152
6.3 時(shí)間序列統(tǒng)計(jì)模型的優(yōu)缺點(diǎn) 153
6.4 更多資源 154
第7 章 時(shí)間序列的狀態(tài)空間模型 155
7.1 狀態(tài)空間模型的優(yōu)缺點(diǎn) 156
7.2 卡爾曼濾波器 157
7.2.1 概述 157
7.2.2 為卡爾曼濾波器編碼 159
7.3 隱馬爾可夫模型 163
7.3.1 模型的工作原理 163
7.3.2 如何擬合模型 165
7.3.3 通過(guò)編碼實(shí)現(xiàn)擬合 167
7.4 貝葉斯結(jié)構(gòu)時(shí)間序列 171
7.5 更多資源 176
第8 章 時(shí)間序列的特征生成與選擇 178
8.1 入門(mén)示例 179
8.2 生成特征時(shí)需要考慮什么 180
8.2.1 時(shí)間序列的性質(zhì) 180
8.2.2 領(lǐng)域知識(shí) 181
8.2.3 外部考慮因素 181
8.3 何處尋找特征靈感 181
8.3.1 開(kāi)源時(shí)間序列特征生成庫(kù) 182
8.3.2 特定領(lǐng)域的特征示例 185
8.4 生成特征后如何進(jìn)行選擇 188
8.5 結(jié)語(yǔ) 190
8.6 更多資源 191
第9 章 針對(duì)時(shí)間序列的機(jī)器學(xué)習(xí) 193
9.1 時(shí)間序列分類(lèi) 194
9.1.1 生成并選擇特征 194
9.1.2 決策樹(shù)方法 197
9.2 聚類(lèi) 203
9.2.1 由數(shù)據(jù)生成特征 204
9.2.2 具有時(shí)間感知能力的距離度量指標(biāo) 210
9.2.3 聚類(lèi)代碼 213
9.3 更多資源 215
第 10 章 針對(duì)時(shí)間序列的深度學(xué)習(xí) 217
10.1 深度學(xué)習(xí)概念 219
10.2 通過(guò)編程實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò) 220
10.3 構(gòu)建訓(xùn)練流程 224
10.3.1 檢查數(shù)據(jù)集 224
10.3.2 訓(xùn)練流程的步驟 227
10.4 前饋網(wǎng)絡(luò) 240
10.4.1 一個(gè)簡(jiǎn)單示例 241
10.4.2 運(yùn)用注意力機(jī)制使前饋網(wǎng)絡(luò)更具時(shí)間意識(shí) 243
10.5 卷積神經(jīng)網(wǎng)絡(luò) 245
10.5.1 一個(gè)簡(jiǎn)單的卷積模型 246
10.5.2 其他可用的卷積模型 248
10.6 循環(huán)神經(jīng)網(wǎng)絡(luò) 250
10.6.1 繼續(xù)研究用電量示例 252
10.6.2 創(chuàng)新:自編碼器 253
10.7 組合架構(gòu) 254
10.8 結(jié)語(yǔ) 258
10.9 更多資源 258
第 11 章 測(cè)量誤差 260
11.1 基礎(chǔ)知識(shí):如何檢驗(yàn)預(yù)測(cè)結(jié)果 261
11.2 預(yù)測(cè)結(jié)果何時(shí)才算足夠好 263
11.3 通過(guò)模擬估計(jì)模型中的不確定性 265
11.4 預(yù)測(cè)多步 268
11.4.1 直接擬合感興趣的范圍 268
11.4.2 針對(duì)較遠(yuǎn)時(shí)間步的遞歸方法 268
11.4.3 對(duì)時(shí)間序列應(yīng)用多任務(wù)學(xué)習(xí) 268
11.5 模型驗(yàn)證陷阱 269
11.6 更多資源 269
第 12 章 擬合及使用時(shí)間序列模型時(shí)的性能考量 271
12.1 使用為一般用例構(gòu)建的工具 272
12.1.1 用于橫截面數(shù)據(jù)的模型不在樣本間“共享”數(shù)據(jù) 272
12.1.2 沒(méi)有預(yù)先計(jì)算的模型造成數(shù)據(jù)測(cè)量與預(yù)測(cè)間的非必要延遲 273
12.2 數(shù)據(jù)存儲(chǔ)格式的優(yōu)缺點(diǎn) 274
12.2.1 以二進(jìn)制格式存儲(chǔ)數(shù)據(jù) 274
12.2.2 以能夠在數(shù)據(jù)上“滑動(dòng)”的方式預(yù)處理 275
12.3 為適應(yīng)性能考量而修改分析 275
12.3.1 使用所有數(shù)據(jù)不一定更好 275
12.3.2 復(fù)雜的模型并不總是表現(xiàn)得更好 276
12.3.3 簡(jiǎn)要介紹可用的高性能工具 276
12.4 更多資源 277
第 13 章 醫(yī)療保健應(yīng)用 278
13.1 流感預(yù)測(cè) 278
13.1.1 案例研究:發(fā)生在大都市的流感疫情 278
13.1.2 流感預(yù)測(cè)領(lǐng)域的最新技術(shù) 291
13.2 血糖水平預(yù)測(cè) 292
13.2.1 探索和清洗數(shù)據(jù) 293
13.2.2 生成特征 297
13.2.3 擬合模型 303
13.3 更多資源 307
第 14 章 金融應(yīng)用 308
14.1 獲取并探索金融數(shù)據(jù) 308
14.2 金融數(shù)據(jù)預(yù)處理與深度學(xué)習(xí) 314
14.2.1 由原始數(shù)據(jù)生成新指標(biāo) 314
14.2.2 轉(zhuǎn)換數(shù)據(jù)并避免前瞻 315
14.2.3 為神經(jīng)網(wǎng)絡(luò)格式化數(shù)據(jù) 317
14.3 構(gòu)建并訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò) 319
14.4 更多資源 325
第 15 章 政務(wù)應(yīng)用 326
15.1 獲取政府?dāng)?shù)據(jù) 327
15.2 探索時(shí)間序列大數(shù)據(jù) 328
15.2.1 在遍歷數(shù)據(jù)時(shí)進(jìn)行上采樣并聚合 331
15.2.2 對(duì)數(shù)據(jù)排序 331
15.3 時(shí)間序列數(shù)據(jù)的在線統(tǒng)計(jì)分析 335
15.3.1 剩余問(wèn)題 343
15.3.2 后續(xù)改進(jìn) 344
15.4 更多資源 344
第 16 章 時(shí)間序列工具包 345
16.1 規(guī);A(yù)測(cè) 345
16.1.1 谷歌內(nèi)部的工業(yè)級(jí)預(yù)測(cè)框架 346
16.1.2 Facebook的Prophet開(kāi)源工具包 347
16.2 異常檢測(cè) 351
16.3 其他時(shí)間序列工具包 353
16.4 更多資源 354
第 17 章 關(guān)于預(yù)測(cè)的預(yù)測(cè) 355
17.1 預(yù)測(cè)即服務(wù) 355
17.2 深度學(xué)習(xí)提高了概率 356
17.3 重要性正由統(tǒng)計(jì)方法向機(jī)器學(xué)習(xí)方法轉(zhuǎn)移 356
17.4 更深入地結(jié)合統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法 357
17.5 涉及日常生活的更多預(yù)測(cè) 357