大數(shù)據(jù)采集與預(yù)處理(微課版)
定 價:56 元
叢書名:工業(yè)和信息化精品系列教材——大數(shù)據(jù)技術(shù)
本書按照大數(shù)據(jù)采集與預(yù)處理的實現(xiàn)流程,由淺入深地講解大數(shù)據(jù)采集與預(yù)處理的相關(guān)技術(shù),以及如何使用不同方式對大數(shù)據(jù)進(jìn)行采集與預(yù)處理。本書內(nèi)容系統(tǒng)、全面,可幫助開發(fā)人員快速實現(xiàn)大量數(shù)據(jù)的采集。本書主要內(nèi)容包括大數(shù)據(jù)采集與預(yù)處理簡介、PyCharm的安裝與使用、Urllib庫數(shù)據(jù)采集、Requests庫數(shù)據(jù)采集、XPath和Beautiful Soup庫數(shù)據(jù)解析、Scrapy框架數(shù)據(jù)采集與存儲、Flume和Kafka日志數(shù)據(jù)采集以及使用Pandas、Pig、ELK進(jìn)行數(shù)據(jù)預(yù)處理等。本書既可作為高職高專院校大數(shù)據(jù)、人工智能相關(guān)專業(yè)的教材,也可作為相關(guān)技術(shù)人員的參考書。
1.本選題資源與案例均為本校多年教學(xué)經(jīng)驗的總結(jié),同時結(jié)合大數(shù)據(jù)一線企業(yè)浪潮集團(tuán)在數(shù)據(jù)采集行業(yè)的行業(yè)經(jīng)驗與案例總結(jié)。做到了真正的產(chǎn)教融合。2.以項目為模塊組織教材內(nèi)容,打破了原有教材體系的章節(jié)框架局限。3.深度契合高等職業(yè)學(xué)校大數(shù)據(jù)技術(shù)與應(yīng)用最新專業(yè)教學(xué)標(biāo)準(zhǔn)
宋磊。電子與信息工程學(xué)院專業(yè)技術(shù)副總管,教授,全國技術(shù)能手(經(jīng)核準(zhǔn)后授予)、龍江技術(shù)能手,校級教學(xué)名師,校級師德先進(jìn)個人,哈爾濱市四有好老師。黑龍江省高職高專計算機(jī)類教學(xué)指導(dǎo)會員會委員、區(qū)塊鏈智能合約開發(fā)職業(yè)技能等級證書考評員、數(shù)據(jù)采集職業(yè)技能等級證書考評員。從事軟件技術(shù)專業(yè)教學(xué)工作18年,主講《Java項目實戰(zhàn)》《Web綜合實戰(zhàn)》《Java企業(yè)級項目開發(fā)實戰(zhàn)》等多門課程。主講課程《Java項目實戰(zhàn)》2018年評為省級精品在線開放課程,2020年評為省級課程思政示范課。參加黑龍江省教學(xué)能力大賽獲二等獎2項。指導(dǎo)學(xué)生參加全國職業(yè)院校技能大賽物聯(lián)網(wǎng)技術(shù)應(yīng)用區(qū)塊鏈技術(shù)應(yīng)用賽項獲二等獎2項,三等獎3項。指導(dǎo)學(xué)生參加省級職業(yè)院校技能大賽物聯(lián)網(wǎng)技術(shù)應(yīng)用、云計算技術(shù)與應(yīng)用、大數(shù)據(jù)技術(shù)與應(yīng)用、移動應(yīng)用開發(fā)等賽項獲一等獎10余項。參與起草《數(shù)據(jù)采集》《JAVA應(yīng)用開發(fā)》2項職業(yè)技能等級標(biāo)準(zhǔn)。擔(dān)任44-46屆世界技能大賽黑龍江省選拔賽網(wǎng)站設(shè)計與開發(fā)賽項裁判長和命題專家。主持省級區(qū)塊鏈技術(shù)應(yīng)用專業(yè)教學(xué)資源庫建設(shè)、主持校級新一代信息技術(shù)專業(yè)群教學(xué)資源庫建設(shè)。榮獲黑龍江省一類職業(yè)技能大賽物聯(lián)網(wǎng)技術(shù)職業(yè)技能大賽個人賽第一名(金牌)、黑龍江省第一屆職業(yè)技能大賽區(qū)塊鏈應(yīng)用操作金牌,全國第二屆職業(yè)技能大賽區(qū)塊鏈應(yīng)用操作銅牌。
目錄 CONTENTS項目1初識動態(tài)網(wǎng)頁數(shù)據(jù)采集與預(yù)處理 1項目導(dǎo)言 1思維導(dǎo)圖 1知識目標(biāo) 1技能目標(biāo) 1素養(yǎng)目標(biāo) 2任務(wù)1-1 認(rèn)識數(shù)據(jù)采集與預(yù)處理 2任務(wù)描述 2素質(zhì)拓展 2任務(wù)技能 2技能點(diǎn)1 認(rèn)識大數(shù)據(jù)來源 2技能點(diǎn)2 認(rèn)識數(shù)據(jù)采集 5技能點(diǎn)3 認(rèn)識數(shù)據(jù)預(yù)處理 10任務(wù)1-2 搭建數(shù)據(jù)采集與預(yù)處理開發(fā)環(huán)境 14任務(wù)描述 14素質(zhì)拓展 14任務(wù)技能 14技能點(diǎn)1 認(rèn)識PyCharm 14技能點(diǎn)2 下載及安裝PyCharm 15技能點(diǎn)3 使用PyCharm 18任務(wù)實施 20項目小結(jié) 24課后習(xí)題 24自我評價 25項目2動態(tài)網(wǎng)頁數(shù)據(jù)采集 26項目導(dǎo)言 26思維導(dǎo)圖 26知識目標(biāo) 26技能目標(biāo) 26素養(yǎng)目標(biāo) 27任務(wù)2-1 使用Urllib庫完成新聞動態(tài)網(wǎng)頁數(shù)據(jù)采集 27任務(wù)描述 27素質(zhì)拓展 27任務(wù)技能 27技能點(diǎn)1 request模塊 27技能點(diǎn)2 error模塊 30技能點(diǎn)3 parse模塊 31任務(wù)實施 32任務(wù)2-2 使用Requests庫完成浪潮云說網(wǎng)頁數(shù)據(jù)采集 36任務(wù)描述 36素質(zhì)拓展 37任務(wù)技能 37技能點(diǎn)1 Requests庫的簡介及安裝 37技能點(diǎn)2 Requests庫的基本使用方法 38技能點(diǎn)3 Requests庫的高級使用方法 42任務(wù)實施 45項目小結(jié) 48課后習(xí)題 48自我評價 49項目3動態(tài)網(wǎng)頁數(shù)據(jù)解析 50項目導(dǎo)言 50思維導(dǎo)圖 50知識目標(biāo) 50技能目標(biāo) 50素養(yǎng)目標(biāo) 51任務(wù)3-1 使用XPath解析新聞動態(tài)網(wǎng)頁數(shù)據(jù) 51任務(wù)描述 51素質(zhì)拓展 51任務(wù)技能 51技能點(diǎn)1 XPath的簡介 51技能點(diǎn)2 定位 55技能點(diǎn)3 數(shù)據(jù)提取 57任務(wù)實施 58任務(wù)3-2 使用Beautiful Soup解析浪潮云說網(wǎng)頁數(shù)據(jù) 63任務(wù)描述 63素質(zhì)拓展 63任務(wù)技能 63技能點(diǎn)1 Beautiful Soup的安裝 64技能點(diǎn)2 Beautiful Soup的使用 65任務(wù)實施 68項目小結(jié) 75課后習(xí)題 75自我評價 76項目4基于Scrapy實現(xiàn)動態(tài)網(wǎng)頁數(shù)據(jù)采集與存儲 77項目導(dǎo)言 77思維導(dǎo)圖 77知識目標(biāo) 77技能目標(biāo) 77素養(yǎng)目標(biāo) 78任務(wù)4-1 使用Scrapy框架完成新聞公告頁面數(shù)據(jù)采集與存儲 78任務(wù)描述 78素質(zhì)拓展 78任務(wù)技能 78技能點(diǎn)1 Scrapy的簡介及安裝 78技能點(diǎn)2 Scrapy的操作指令 82技能點(diǎn)3 段定義及Scrapy設(shè)置 83技能點(diǎn)4 文本解析 89技能點(diǎn)5 內(nèi)容存儲 93任務(wù)實施 95項目小結(jié) 104課后習(xí)題 104自我評價 105項目5動態(tài)網(wǎng)頁訪問日志數(shù)據(jù)采集 106項目導(dǎo)言 106思維導(dǎo)圖 106知識目標(biāo) 106技能目標(biāo) 106素養(yǎng)目標(biāo) 107任務(wù)5-1 使用Flume采集某官網(wǎng)訪問日志數(shù)據(jù) 107任務(wù)描述 107素質(zhì)拓展 107任務(wù)技能 107技能點(diǎn)1 Flume的簡介 107技能點(diǎn)2 Flume數(shù)據(jù)采集配置 110技能點(diǎn)3 Flume的啟動方法 119技能點(diǎn)4 Flume攔截器配置 122任務(wù)實施 125任務(wù)5-2 使用Kafka消費(fèi)Flume中某官網(wǎng)訪問日志數(shù)據(jù) 129任務(wù)描述 129素質(zhì)拓展 130任務(wù)技能 130技能點(diǎn)1 Kafka的簡介 130技能點(diǎn)2 Kafka的配置 131技能點(diǎn)3 Kafka腳本操作 134技能點(diǎn)4 Kafka Python API 137任務(wù)實施 140項目小結(jié) 144課后習(xí)題 144自我評價 145項目6動態(tài)網(wǎng)頁數(shù)據(jù)預(yù)處理 146項目導(dǎo)言 146思維導(dǎo)圖 146知識目標(biāo) 147技能目標(biāo) 147素養(yǎng)目標(biāo) 147任務(wù)6-1 使用Pandas實現(xiàn)新聞動態(tài)網(wǎng)頁數(shù)據(jù)預(yù)處理 147任務(wù)描述 147素質(zhì)拓展 147任務(wù)技能 148技能點(diǎn)1 Pandas的簡介 148技能點(diǎn)2 Pandas的數(shù)據(jù)結(jié)構(gòu) 148技能點(diǎn)3 Pandas的基本功能 149技能點(diǎn)4 匯總和描述統(tǒng)計 155技能點(diǎn)5 處理缺失數(shù)據(jù) 157任務(wù)實施 158任務(wù)6-2 使用Pig實現(xiàn)浪潮云說網(wǎng)頁數(shù)據(jù)預(yù)處理 161任務(wù)描述 161素質(zhì)拓展 161任務(wù)技能 162技能點(diǎn)1 Pig的簡介 162技能點(diǎn)2 Pig配置運(yùn)行 162技能點(diǎn)3 Pig Latin執(zhí)行 165技能點(diǎn)4 運(yùn)算符 166技能點(diǎn)5 內(nèi)置函數(shù) 171任務(wù)實施 177任務(wù)6-3 使用ELK實現(xiàn)某官網(wǎng)日志數(shù)據(jù)預(yù)處理 182任務(wù)描述 182素質(zhì)拓展 182任務(wù)技能 182技能點(diǎn)1 Elasticsearch 182技能點(diǎn)2 Logstash 184技能點(diǎn)3 Kibana 195任務(wù)實施 200項目小結(jié) 207課后習(xí)題 207自我評價 208