本書將開發(fā)適用于文科專業(yè)、財經(jīng)類以及管理類專業(yè)的,具有很強實際操作性質的關于數(shù)據(jù)科學思維、技術以及實踐的數(shù)據(jù)科學導論教材。該教材不是簡單的羅列相關技術,而是利用現(xiàn)有的工具來實現(xiàn)項目的實踐,讓學生學會分析問題的思想和方法,培養(yǎng)學生對數(shù)據(jù)科學技術的興趣與熱情。本書面對的是零基礎的文科類和財經(jīng)類學生,技術要求相對比較簡單,同時在課程設計上盡量以圖像化編程工具讓學習接觸到數(shù)據(jù)科學的應用。本書對數(shù)據(jù)挖掘感興趣的一般社會讀者也有一定參考價值。
鄧莎莎
上海外國語大學國際工商管理學院副教授、博士生導師,營銷科學系副系主任、人工智能與數(shù)據(jù)科學應用實驗室副主任。在中南大學獲得計算機應用碩士學位,在上海交通大學獲得管理科學與工程博士學位,研究方向為社交媒體數(shù)據(jù)分析、商務分析、自然語言分析等。目前主持國家自然科學基金面上項目及青年項目、企業(yè)橫向課題,作為主要人員參與國家自然科學基金重點項目、國家社會科學基金重大項目。在 MISQ、Journal of Advertising、Information & Management等頂級期刊發(fā)表高水平論文二十余篇。獲國家教學成果二等獎、上海市教學成果一等獎、校三八紅旗手和教育獎勵基金教學科研獎等獎項。擔任中國人工智能學會智慧醫(yī)療專委會委員、中國管理現(xiàn)代化研究會電子商務與網(wǎng)絡空間管理專委會會員等社會兼職。
第1章 數(shù)據(jù)科學緣起
1.1 數(shù)據(jù)科學基礎概念
1.2 大數(shù)據(jù)內涵
1.3 大數(shù)據(jù)技術
1.4 數(shù)據(jù)科學思維
數(shù)據(jù)采集與預處理篇
第2章 數(shù)據(jù)爬取
2.1 數(shù)據(jù)爬取的基本原理
2.2 數(shù)據(jù)爬取工具概述
2.3 UiPath數(shù)據(jù)爬取
2.4 Python
第3章 數(shù)據(jù)預處理
3.1 探索性數(shù)據(jù)分析
3.2 數(shù)據(jù)清洗
3.3 數(shù)據(jù)變換
3.4 數(shù)據(jù)集成與數(shù)據(jù)規(guī)約
數(shù)據(jù)可視化篇
第4章 數(shù)據(jù)可視化
4.1 數(shù)據(jù)可視化基礎
4.2 數(shù)據(jù)可視化工具包
4.3 Tableau數(shù)據(jù)連接與數(shù)據(jù)類型
4.4 Tableau視圖與篩選器
第5章 Tableau圖表深入學習
5.1 文本表
5.2 條形圖
5.3 樹狀圖
5.4 折線圖
5.5 組合圖
5.6 散點圖
5.7 直方圖
5.8 儀表盤
第6章 電話營銷可視化分析示例
6.1 案例數(shù)據(jù)
6.2 連接數(shù)據(jù)源
6.3 用戶畫像
6.4 客戶群的年齡分布
6.5 轉化率與職業(yè)的關系
6.6 轉化的一致性
6.7 宏觀經(jīng)濟因素分析
6.8 設計儀表盤
數(shù)據(jù)建模篇
第7章 機器學習的一般流程
7.1 機器學習概述
7.2 特征工程
7.3 可視化建模工具
第8章 機器學習算法
8.1 分類算法
8.2 聚類算法
8.3 模型評估與選擇
8.4 H20數(shù)據(jù)建模分析實例
第9章 社交網(wǎng)絡分析
9.1 概述
9.2 社交網(wǎng)絡的類型
9.3 社交網(wǎng)絡分析工具
9.4 社交網(wǎng)絡分析指標
第10章 基于鏈家租房網(wǎng)數(shù)據(jù)的租房價格預測示例
10.1 房價數(shù)據(jù)爬取(全量數(shù)據(jù))
10.2 房屋數(shù)據(jù)預處理
10.3 房屋地理信息爬取
10.4 租房價格數(shù)據(jù)可視化
10.5 租房價格預測建模
自然語言處理篇
第11章 自然語言處理
11.1 概述
11.2 自然語言處理開發(fā)工具
11.3 自然語言處理的基礎任務
第12章 自然語言處理工具
12.1 綜合性分析工具
12.2 分詞與詞性標注工具
12.3 綜合性Python工具
第13章 自然語言處理案例:情感分析
13.1 場景介紹
13.2 算法應用