本書詳細闡述了大數(shù)據領域數(shù)據采集與預處理的相關理論和技術。全書共8章,內容包括概述、大數(shù)據實驗環(huán)境搭建、網絡數(shù)據采集、分布式消息系統(tǒng)Kafka、日志采集系統(tǒng)Flume、數(shù)據倉庫中的數(shù)據集成、ETL工具Kettle、使用pandas進行數(shù)據清洗。本書在第3章至第8章中安排了豐富的實踐操作,以便讀者更好地學習和掌握數(shù)據采集與預處理的關鍵技術。 本書可以作為高等院校大數(shù)據專業(yè)的大數(shù)據課程教材,也可供相關技術人員參考。
1.本書作者為大數(shù)據領域的知名作者廈門大學林子雨,作者長期從事大數(shù)據教學,在大數(shù)據教育領域有較高的知名度和較大的影響力,其編著的《大數(shù)據技術原理與應用 概念、存儲、處理、 分析與應用(第3版)》一書今年銷售預計超過5萬冊;
2.本書內容全面,配套資源豐富:PPT、教學大綱、授課視頻、實驗指南、課后習題答案等;
3.有服務平臺:作者教學團隊打造了在線的高校大數(shù)據課程公共服務平臺,為全國高校師生提供相關教學服務并經常更新。目前該平臺已經成為國內高校大數(shù)據教學品牌,平臺累計訪問量超過1300萬次;
4.有教師服務QQ群:916443807。
林子雨 博士,國內高校知名大數(shù)據教師,廈門大學計算機科學系副教授,廈門大學信息學院實驗教學中心主任,廈門大學數(shù)據庫實驗室負責人,中國高校首個數(shù)字教師提出者和建設者。2013年開始在廈門大學開設大數(shù)據課程,建設了國內高校首個大數(shù)據課程公共服務平臺,平臺累計網絡訪問量超過1000萬次,成為全國高校大數(shù)據教學知名品牌,并榮獲2018年福建省教學成果二等獎和2018年廈門大學教學成果特等獎,主持的課程大數(shù)據技術原理與應用獲評2018年國家精品在線開放課程和2020年線上一流本科課程。
第 1 章概述.
1.1 數(shù)據
1.1.1 數(shù)據的概念.
1.1.2 數(shù)據類型
1.1.3 數(shù)據的組織形式.
1.1.4 數(shù)據的價值
1.1.5 數(shù)據爆炸.
1.2 數(shù)據分析過程.
1.3 數(shù)據采集與預處理的任務
1.4 數(shù)據采集
1.4.1 數(shù)據采集的概念
1.4.2 數(shù)據采集的三大要點
1.4.3 數(shù)據采集的數(shù)據源.
1.4.4 數(shù)據采集方法.
1.5 數(shù)據清洗
1.5.1 數(shù)據清洗的應用領域
1.5.2 數(shù)據清洗的實現(xiàn)方式.
1.5.3 數(shù)據清洗的內容.
1.5.4 數(shù)據清洗的注意事項
1.5.5 數(shù)據清洗的基本.流.程.
1.5.6 數(shù)據清洗的評價標.
1.6 數(shù)據集成.
1.7 數(shù)據轉換.
1.7.1 數(shù)據轉換策略.
1.7.2 平滑處理
1.7.3 規(guī)范化處理.
1.8 數(shù)據脫敏.
1.8.1 數(shù)據脫敏原則.
1.8.2 數(shù)據脫敏方法.
1.9 本章小結.
1.10 習題
第 2 章 大數(shù)據實驗環(huán)境搭建.
2.1 Python 的安裝和使用.
2.1.1 Python 簡介
2.1.2 Python 的安裝
2.1.3 Python 的基本使用方法
2.1.4 Python 基礎語法知識
2.1.5 Python 第三方模塊的安裝。
2.2 JDK 的安裝.
2.3 MySQL 數(shù)據庫的安裝和使用
2.3.1 關系數(shù)據庫
2.3.2 關系數(shù)據庫標準語言SQL
2.3.3 安裝MySQL
2.3.4 MySQL 數(shù)據庫的使用方法
2.3.5 使用 Ppython操作MySQL數(shù)據庫
2.4 Hadoop的安裝和使用
2.4.1 Hadoop簡介
2.4.2分布式系統(tǒng)HDFS
2.4.3 Hadoop安裝
2.4.4 Hadoop的基本使用方法
第 3 章網絡數(shù)據采集.
3.1 網絡爬蟲概述.
3.1.1 什么是網絡爬蟲
3.1.2網絡爬蟲的類型
3.1.3反爬機制
3.2 網頁基礎知識
3.2.1超文本和HTML
3.2.2 HTTP.
3.3 用 Python 實現(xiàn)HTTP請求
3.3.1 urllib模塊
3.3.2 urllib3 模塊.
3.3.3 requests 模塊.
3.4 定制 request.s.
3.4.1 傳遞 URL參數(shù),
3.4.2 定制請求頭,
3.4.3 網絡超時
3.5 解析網頁
3.5.1 BeautifulSoup 簡介.
3.5.2 BeautifulSoup 四大對象
3.5.3 遍歷文件樹
3.5.4 搜索文檔樹
3.5.5 CSS選擇器
3.6 綜合實例
實例1:采集網頁數(shù)據保存到文本
實例2:采集網頁數(shù)據保存到MYSQL數(shù)據庫
3.7 Scrapy 框架
3.7.1 Scrapy 框架概述
3.7.2 XPath 語言
3.7.3 Scrapy 框架應用實例,
3.8 本章小結
3.9 習題.
實驗 2 網絡爬蟲初級實踐
第 4 章分布式消息系統(tǒng) afu.a .
4.1 Kafka 簡介
4.1.1 Kafk的特性
4.1.2 Kafka 的應用場景.
4.1.3 Kafka 的消息傳遞模式….
4.2 Kafka 在大數(shù)據生態(tài)系統(tǒng)中的作-用
4.3 Kafka 與 Flume 的區(qū)別與聯(lián)
4.4 Kafka 相關概念
4.5 Kafka 的安裝和使用
4.5.1 安裝Kafk
4.5.2 使用 Kafka
4.6 使用 Python 操作 Kafka
4.7 Kafka 與 MysQL 的組合使用,
4.8 本章小結
4.9 習題
實驗 3 熟悉 Kafka 的基本使用方法
第 5 章日志采集統(tǒng)Flume
5.1 Flume 簡介.
5.2 Flume 的安裝和使用
5.2.1 Flume 的安裝.
5.2.2 Flume 的使用.
5.3 Flume 和 Kafka 的組合使用.
5.4 采集日志文件到 HDFS.
5.4.1 采集目錄到 HDFS
5.4.2 采集文件到 HDFS.
5.5 采集 MySQL 數(shù)據到 HDFS
5.5.1 準備工作
5.5.2 創(chuàng)建 MysQL 數(shù)據庫.
5.6 本章小結.
5.7 習題
實驗 4熟悉 Flume 的基本使用方法
第 6 章 數(shù)據倉庫中的數(shù)據集成
6.1數(shù)據倉庫的概念
6.1.1傳統(tǒng)的數(shù)據倉庫
6.1.2 實時主動數(shù)據倉庫
6.2 數(shù)據集成
6.2.1 數(shù)據集成方式
6.2.2 數(shù)據分發(fā)方式
6.2.3 數(shù)據集成技術
6.3 ETL.
6.3.1 ETL 簡介.
6.3.2 ETL基本模塊
6.3.3 ETL工具
6.4 CDC .
6.4.1 CDC 的特性
6.4.2 CDC 的組成
6.4.3 CDC 的應用場景
6.4.4 CDC 需要考慮的問題
6.5 本章小結
6.6 習題
第7章 ETL工具的Kettle
7.1 Kettle 的基本概念!
7.2 Kettle 的基本功能
7.3 安裝 Kettle. .
7.4 數(shù)據抽取
7.4.1 把文本文件導入Excel 文件
7.4.2 把文本文件導入 MySQL 數(shù)據庫
7.4.3 把 Excel 文件導入MySQL數(shù)據庫
7.5 數(shù)據清洗與轉換
7.5.1 使用 Kettle 實現(xiàn)數(shù)據排序
7.5.2 在 Kettle 中用正則表達式清洗數(shù)據
7.5.3 使用 Kettle 去除缺失值
7.5.4 使用 Kettle 轉化 MySQL 數(shù)據庫中的數(shù)據
7.6 數(shù)據加載
7.6.1 把本地文件加載到 HDFS 中
7.6.2 把 HDFS 文件加載到 MySQL 數(shù)庫
7.7 本章.小結.
7.8 習題
實驗 5 熟悉 Kettle 的基本使用方法
第 8 章 使用 pandas 進行數(shù)據清洗
8.1 NumPy 的基本使用方法
8.1.1 數(shù)組創(chuàng)建
8.1.2數(shù)組索引和切片
8.1.3 數(shù)組運算
8.2 pandas的數(shù)據結構
8.2.2 Series
8.2.2 DataFrame
8.2.3索引對象
8.3 pandas的基本功能
8.3.1 重新索引.
8.3.2 丟棄指定軸上的項
8.3.3 索引、選取和濾.
8.3.4 算術運算.
8.3.5 DataFrame 和 Series 之間的運算.
8.3.6 函數(shù)應用和映射
8.3.7 排序和排名
8.3.8 分組
8.3.9 shape函數(shù)
8.3.10 info()函數(shù)
8.3.11 cut()函數(shù)
8.4 匯總和描述統(tǒng)計
8.4.1 與描述統(tǒng)計相關的函數(shù)
8.4.2 值、值計數(shù)以及成員資格,
8.5 處理缺失數(shù)據
8.5.1 檢查缺失值
8.5.2 清理 填充缺失值.
8.5.3 排除缺少的值
8.6 綜合實例
8.6.1 Matplotlib 的使用方法
8.6.2 實例 1:對一個數(shù)據集進行基本操作
8.6.3 實例 2:百度搜索指數(shù)分析
8.6.4 實例 3:電影評分數(shù)據分析
8.6.5 實例 4:App行為數(shù)據預處理
8.7 本章小結
8.8 習題
實驗6 pandas數(shù)據清洗初級實踐
參考文獻