數(shù)據(jù)科學(xué)導(dǎo)論——基于Python語(yǔ)言(微課版)
定 價(jià):42 元
叢書名:高等院校“十三五”規(guī)劃教材——Python系列
- 作者:朝樂(lè)門 著
- 出版時(shí)間:2021/1/1
- ISBN:9787115548207
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561-43
- 頁(yè)碼:202
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書重點(diǎn)講解數(shù)據(jù)科學(xué)的核心理論與實(shí)踐應(yīng)用。全書共7章,主要介紹數(shù)據(jù)科學(xué)的基礎(chǔ)理論、統(tǒng)計(jì)學(xué)與模型、機(jī)器學(xué)習(xí)與算法、數(shù)據(jù)可視化、數(shù)據(jù)加工、大數(shù)據(jù)技術(shù)、數(shù)據(jù)產(chǎn)品開發(fā)及數(shù)據(jù)科學(xué)中的人文與管理等內(nèi)容。本書內(nèi)容通俗易懂,深入淺出,便于讀者理解。
本書可作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、大數(shù)據(jù)管理與應(yīng)用、計(jì)算機(jī)科學(xué)與技術(shù)、管理科學(xué)與工程、工商管理、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分析、信息管理與信息系統(tǒng)、商業(yè)分析等多個(gè)專業(yè)的教材,也可作為數(shù)據(jù)科學(xué)從業(yè)人士的參考用書。
1.作者權(quán)威,編寫經(jīng)驗(yàn)豐富,且讀者反映良好。
1.內(nèi)容以實(shí)踐為主,強(qiáng)化技能訓(xùn)練。 本書通過(guò)Python編程實(shí)踐、書中代碼演示和習(xí)題等,幫助讀者快速掌握數(shù)據(jù)科學(xué)相關(guān)技能。
2.實(shí)例貼近實(shí)際,實(shí)用性強(qiáng)。本書案例皆與生活例子相關(guān),更實(shí)用。
3.配套資源豐富。本書提供PPT、教學(xué)大綱、參考答案等資源,方便讀者使用。
中國(guó)人民大學(xué)副教授,博士生導(dǎo)師;國(guó)家精品開放在線課程《數(shù)據(jù)科學(xué)導(dǎo)論》負(fù)責(zé)人;中國(guó)計(jì)算機(jī)學(xué)會(huì)信息系統(tǒng)專委員會(huì)委員、全國(guó)高校人工智能與大數(shù)據(jù)創(chuàng)新聯(lián)盟專家委員會(huì)副主任、國(guó)際信息學(xué)院聯(lián)盟iSchools數(shù)據(jù)科學(xué)課程專委會(huì)委員、全國(guó)高校大數(shù)據(jù)教育聯(lián)盟大數(shù)據(jù)教材專家指導(dǎo)委員會(huì)委員、《計(jì)算機(jī)科學(xué)》執(zhí)行編委;獲得國(guó)家自然科學(xué)基金項(xiàng)目?jī)?yōu)秀項(xiàng)目、數(shù)據(jù)科學(xué)50人、全國(guó)高校大數(shù)據(jù)教育杰出貢獻(xiàn)獎(jiǎng)、IBM全球卓越教師獎(jiǎng)、中國(guó)大數(shù)據(jù)學(xué)術(shù)創(chuàng)新獎(jiǎng)、中國(guó)大數(shù)據(jù)創(chuàng)新百人榜單、全國(guó)高校人工智能與大數(shù)據(jù)學(xué)術(shù)創(chuàng)新獎(jiǎng)等多種獎(jiǎng)勵(lì)30余項(xiàng)。主持完成國(guó)家自然科學(xué)基金、國(guó)家社會(huì)科學(xué)基金等重要科學(xué)研究項(xiàng)目10余項(xiàng);參與完成核高基、973、863、國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目等10余項(xiàng)。
第 1章 數(shù)據(jù)科學(xué)的基礎(chǔ)理論 1
1.1 為什么要學(xué)習(xí)數(shù)據(jù)科學(xué) 1
1.2 數(shù)據(jù)科學(xué)的定義 4
1.3 數(shù)據(jù)科學(xué)的知識(shí)體系 6
1.4 數(shù)據(jù)科學(xué)的基本流程 8
1.5 數(shù)據(jù)科學(xué)與其他學(xué)科的區(qū)別 11
1.5.1 學(xué)科定位 11
1.5.2 研究視角 13
1.5.3 研究范式 13
1.6 數(shù)據(jù)科學(xué)的人才類型 16
1.7 數(shù)據(jù)科學(xué)的常用工具 19
1.8 數(shù)據(jù)科學(xué)的相關(guān)應(yīng)用 21
1.9 繼續(xù)學(xué)習(xí)本章知識(shí) 23
習(xí)題 26
第 2章 統(tǒng)計(jì)學(xué)與模型 29
2.1 統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué) 29
2.1.1 描述統(tǒng)計(jì)與推斷統(tǒng)計(jì) 30
2.1.2 基本分析法和元分析法 31
2.2 統(tǒng)計(jì)方法的選擇思路 32
2.3 數(shù)據(jù)劃分及準(zhǔn)備方法 33
2.3.1 自變量與因變量 34
2.3.2 數(shù)據(jù)抽樣 35
2.4 參數(shù)估計(jì)與假設(shè)檢驗(yàn) 37
2.4.1 參數(shù)估計(jì) 37
2.4.2 假設(shè)檢驗(yàn) 38
2.5 常用統(tǒng)計(jì)方法及選擇 39
2.5.1 相關(guān)分析 39
2.5.2 回歸分析 41
2.5.3 方差分析 41
2.5.4 分類分析 42
2.5.5 聚類分析 43
2.5.6 時(shí)間序列分析 44
2.5.7 關(guān)聯(lián)規(guī)則分析 44
2.6 統(tǒng)計(jì)學(xué)面臨的挑戰(zhàn) 45
2.7 Python編程實(shí)踐 45
2.8 繼續(xù)學(xué)習(xí)本章知識(shí) 53
習(xí)題 55
第3章 機(jī)器學(xué)習(xí)與算法 57
3.1 數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí) 57
3.2 機(jī)器學(xué)習(xí)的應(yīng)用步驟 60
3.3 數(shù)據(jù)劃分及準(zhǔn)備方法 61
3.4 算法類型及選擇方法 62
3.5 模型的評(píng)估方法 64
3.6 機(jī)器學(xué)習(xí)面臨的挑戰(zhàn) 67
3.7 Python編程實(shí)踐 68
3.8 繼續(xù)學(xué)習(xí)本章知識(shí) 77
習(xí)題 79
第4章 數(shù)據(jù)可視化 81
4.1 數(shù)據(jù)科學(xué)與數(shù)據(jù)可視化 81
4.2 數(shù)據(jù)可視化的基本原則 84
4.3 視覺編碼與數(shù)據(jù)類型 84
4.4 可視分析學(xué) 87
4.5 常用統(tǒng)計(jì)圖表 89
4.6 數(shù)據(jù)可視化的發(fā)展趨勢(shì) 92
4.7 Python編程實(shí)踐 93
4.8 繼續(xù)學(xué)習(xí)本章知識(shí) 97
習(xí)題 98
第5章 數(shù)據(jù)加工 100
5.1 數(shù)據(jù)科學(xué)與數(shù)據(jù)加工 100
5.2 探索性數(shù)據(jù)分析 101
5.3 數(shù)據(jù)大小及標(biāo)準(zhǔn)化 103
5.4 缺失數(shù)據(jù)及其處理方法 104
5.5 噪聲數(shù)據(jù)及其處理方法 105
5.5.1 離群點(diǎn)處理 105
5.5.2 分箱處理 106
5.6 數(shù)據(jù)維度及其降維處理方法 108
5.6.1 特征選擇 109
5.6.2 主成分分析 110
5.7 數(shù)據(jù)脫敏及其處理方法 110
5.8 數(shù)據(jù)形態(tài)及其規(guī)整化方法 112
5.9 Python編程實(shí)踐 115
5.10 繼續(xù)學(xué)習(xí)本章知識(shí) 121
習(xí)題 122
第6章 大數(shù)據(jù)技術(shù) 124
6.1 數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù) 124
6.2 Hadoop生態(tài)系統(tǒng) 125
6.3 大數(shù)據(jù)計(jì)算技術(shù)與Spark 128
6.3.1 大數(shù)據(jù)計(jì)算與Lambda
架構(gòu) 128
6.3.2 Spark的出現(xiàn)及其特點(diǎn) 129
6.3.3 Spark的計(jì)算流程 131
6.3.4 Spark的關(guān)鍵技術(shù) 132
6.4 大數(shù)據(jù)管理技術(shù)與MongoDB 136
6.4.1 關(guān)系數(shù)據(jù)庫(kù)及其優(yōu)缺點(diǎn) 136
6.4.2 NoSQL及其數(shù)據(jù)模型 139
6.4.3 CAP理論與BASE原則 140
6.4.4 分片技術(shù)與復(fù)制技術(shù) 141
6.4.5 MongoDB 144
6.5 大數(shù)據(jù)分析技術(shù) 150
6.5.1 Analytics 3.0 150
6.5.2 Gartner分析學(xué)價(jià)值扶梯模型 152
6.5.3 數(shù)據(jù)分析中的陷阱 152
6.6 Python編程實(shí)踐 154
6.7 繼續(xù)學(xué)習(xí)本章知識(shí) 165
習(xí)題 167
第7章 數(shù)據(jù)產(chǎn)品開發(fā)及數(shù)據(jù)科學(xué)中的人文與管理 171
7.1 數(shù)據(jù)產(chǎn)品開發(fā)及數(shù)據(jù)科學(xué)的人文與管理屬性 171
7.2 數(shù)據(jù)產(chǎn)品及開發(fā) 172
7.3 數(shù)據(jù)科學(xué)的項(xiàng)目管理 174
7.3.1 數(shù)據(jù)科學(xué)項(xiàng)目中的主要角色 174
7.3.2 數(shù)據(jù)科學(xué)項(xiàng)目中的主要活動(dòng) 175
7.4 數(shù)據(jù)能力 176
7.4.1 關(guān)鍵過(guò)程域 177
7.4.2 成熟度等級(jí) 179
7.4.3 成熟度評(píng)價(jià) 181
7.5 數(shù)據(jù)治理 183
7.5.1 主要內(nèi)容 183
7.5.2 基本過(guò)程 184
7.5.3 參考框架 185
7.6 數(shù)據(jù)安全 186
7.6.1 信息系統(tǒng)安全等級(jí)保護(hù) 186
7.6.2 P2DR模型 187
7.7 數(shù)據(jù)偏見 187
7.7.1 數(shù)據(jù)來(lái)源選擇偏見 188
7.7.2 數(shù)據(jù)加工和準(zhǔn)備偏見 189
7.7.3 算法與模型選擇偏見 189
7.7.4 分析結(jié)果的解讀和呈現(xiàn)上的偏見 189
7.8 數(shù)據(jù)倫理與道德 190
7.9 繼續(xù)學(xué)習(xí)本章知識(shí) 191
習(xí)題 191
術(shù)語(yǔ)索引 193
參考文獻(xiàn) 198