Python自然語(yǔ)言處理入門與實(shí)戰(zhàn)
本書以自然語(yǔ)言處理常用技術(shù)與真實(shí)案例相結(jié)合的方式,深入淺出地介紹自然語(yǔ)言處理中的關(guān)鍵內(nèi)容。全書共8章,內(nèi)容包括自然語(yǔ)言處理概述、文本數(shù)據(jù)爬取、文本基礎(chǔ)處理、文本進(jìn)階處理、天問一號(hào)事件中的B站網(wǎng)民情感分析、新聞文本分類、基于瀏覽記錄的個(gè)性化新聞推薦以及基于TipDM數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)新聞文本分類。本書大部分章節(jié)包含了課后習(xí)題,其中前4章設(shè)置了選擇題,后4章設(shè)置了操作題,希望通過練習(xí)和操作實(shí)踐,幫助讀者鞏固所學(xué)的內(nèi)容。
本書可作為高校數(shù)據(jù)科學(xué)、人工智能和新聞傳播相關(guān)專業(yè)教材,也可作為自然語(yǔ)言處理愛好者的自學(xué)用書。
1. 泰迪大數(shù)據(jù)套系
2. 隨書附帶Python源碼,方便讀者系統(tǒng)學(xué)習(xí)并動(dòng)手實(shí)踐
3. 技術(shù)與實(shí)例相結(jié)合,使讀者深入學(xué)習(xí)自然語(yǔ)言處理在新聞方向的應(yīng)用
張良均,高級(jí)信息系統(tǒng)項(xiàng)目管理師,泰迪杯全國(guó)大學(xué)生數(shù)據(jù)挖掘競(jìng)賽(www.tipdm.org)的發(fā)起人。華南師范大學(xué)、廣東工業(yè)大學(xué)兼職教授,廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)理事。兼有大型高科技企業(yè)和高校的工作經(jīng)歷,主要從事大數(shù)據(jù)挖掘及其應(yīng)用的策劃、研發(fā)及咨詢培訓(xùn)。全國(guó)計(jì)算機(jī)技術(shù)與軟件專業(yè)技術(shù)資格(水平)考試?yán)^續(xù)教育和CDA數(shù)據(jù)分析師培訓(xùn)講師。發(fā)表數(shù)據(jù)挖掘相關(guān)論文數(shù)二十余篇,已取得國(guó)家發(fā)明專利12項(xiàng),主編圖書《神經(jīng)網(wǎng)絡(luò)實(shí)用教程》、《數(shù)據(jù)挖掘:實(shí)用案例分析》、《MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》等9本暢銷圖書,主持并完成科技項(xiàng)目9項(xiàng)。獲得SAS、SPSS數(shù)據(jù)挖掘認(rèn)證及Hadoop開發(fā)工程師證書,具有電力、電信、銀行、制造企業(yè)、電子商務(wù)和電子政務(wù)的項(xiàng)目經(jīng)驗(yàn)和行業(yè)背景。
目錄
第 1章 導(dǎo)論 1
1.1 自然語(yǔ)言處理概述 1
1.1.1 發(fā)展歷程 1
1.1.2 研究任務(wù) 3
1.1.3 自然語(yǔ)言處理與新聞傳媒 5
1.2 自然語(yǔ)言處理工具 11
1.2.1 常見的自然語(yǔ)言處理工具 12
1.2.2 Python與自然語(yǔ)言處理 14
1.3 NLP的開發(fā)環(huán)境 14
1.3.1 Anaconda安裝 14
1.3.2 Anaconda應(yīng)用介紹 15
小結(jié) 22
課后習(xí)題 22
第 2章 文本數(shù)據(jù)爬取 24
2.1 HTTP通信基礎(chǔ) 24
2.1.1 熟悉HTTP請(qǐng)求方法與過程 24
2.1.2 熟悉常見HTTP狀態(tài)碼 27
2.1.3 熟悉HTTP頭部信息 28
2.1.4 熟悉Cookie 29
2.2 靜態(tài)網(wǎng)頁(yè)爬取 31
2.2.1 實(shí)現(xiàn)HTTP請(qǐng)求 32
2.2.2 網(wǎng)頁(yè)解析 35
2.2.3 數(shù)據(jù)存儲(chǔ) 42
2.3 動(dòng)態(tài)網(wǎng)頁(yè)爬取 44
2.3.1 逆向分析爬取 45
2.3.2 使用Selenium庫(kù)爬取 50
小結(jié) 58
課后習(xí)題 59
第3章 文本基礎(chǔ)處理 61
3.1 語(yǔ)料庫(kù) 61
3.1.1 語(yǔ)料庫(kù)概述 61
3.1.2 語(yǔ)料庫(kù)種類與原則 63
3.1.3 NLTK庫(kù) 65
3.1.4 語(yǔ)料庫(kù)的獲取 68
3.1.5 語(yǔ)料庫(kù)的構(gòu)建與應(yīng)用 70
3.2 分詞與詞性標(biāo)注 74
3.2.1 中文分詞簡(jiǎn)介 74
3.2.2 基于規(guī)則的分詞 74
3.2.3 基于統(tǒng)計(jì)的分詞 76
3.2.4 中文分詞工具jieba庫(kù) 79
3.2.5 詞性標(biāo)注簡(jiǎn)介 80
3.2.6 詞性標(biāo)注規(guī)范 81
3.2.7 jieba詞性標(biāo)注 82
3.3 命名實(shí)體識(shí)別 85
3.3.1 命名實(shí)體識(shí)別簡(jiǎn)介 86
3.3.2 CRF模型 87
3.3.3 命名實(shí)體識(shí)別流程 87
3.4 關(guān)鍵詞提取 91
3.4.1 關(guān)鍵詞提取技術(shù)簡(jiǎn)介 91
3.4.2 關(guān)鍵詞提取算法 92
3.4.3 自動(dòng)提取文本關(guān)鍵詞 93
小結(jié) 97
課后習(xí)題 97
第4章 文本進(jìn)階處理 99
4.1 文本向量化 99
4.1.1 文本向量化簡(jiǎn)介 99
4.1.2 文本離散表示 100
4.1.3 分布式表示 102
4.1.4 Word2Vec詞向量的訓(xùn)練 106
4.2 文本相似度計(jì)算 108
4.2.1 文本相似度的定義 108
4.2.2 文本的表示 108
4.2.3 常用文本相似度算法 111
4.3 文本分類與聚類 117
4.3.1 文本挖掘簡(jiǎn)介 117
4.3.2 文本分類常用算法 118
4.3.3 文本聚類常用算法 120
4.3.4 文本分類與聚類的步驟 121
4.3.5 新聞文本分類 122
4.3.6 新聞文本聚類 130
小結(jié) 135
課后習(xí)題 136
第5章 天問一號(hào)事件中的網(wǎng)民評(píng)論情感分析 137
5.1 業(yè)務(wù)背景與項(xiàng)目目標(biāo) 137
5.1.1 業(yè)務(wù)背景 138
5.1.2 數(shù)據(jù)說明 138
5.1.3 分析目標(biāo) 139
5.2 分析方法與過程 140
5.2.1 數(shù)據(jù)探索 140
5.2.2 文本預(yù)處理 145
5.2.3 繪制詞云圖 149
5.2.4 使用樸素貝葉斯構(gòu)建情感分析模型 154
5.2.5 模型評(píng)估 160
5.2.6 模型優(yōu)化 162
小結(jié) 167
課后習(xí)題 167
第6章 新聞文本分類 172
6.1 業(yè)務(wù)背景與項(xiàng)目目標(biāo) 172
6.1.1 業(yè)務(wù)背景 172
6.1.2 數(shù)據(jù)說明 173
6.1.3 分析目標(biāo) 173
6.2 分析方法與過程 174
6.2.1 數(shù)據(jù)采集 174
6.2.2 數(shù)據(jù)探索 175
6.2.3 文本預(yù)處理 181
6.2.4 SVM模型構(gòu)建 185
6.2.5 模型評(píng)價(jià) 189
小結(jié) 191
課后習(xí)題 191
第7章 基于瀏覽記錄的個(gè)性化新聞推薦 193
7.1 業(yè)務(wù)背景與項(xiàng)目目標(biāo) 193
7.1.1 業(yè)務(wù)背景 194
7.1.2 數(shù)據(jù)說明 194
7.1.3 分析目標(biāo) 195
7.2 分析方法與過程 196
7.2.1 數(shù)據(jù)探索 196
7.2.2 數(shù)據(jù)預(yù)處理 201
7.2.3 模型構(gòu)建 202
7.2.4 模型評(píng)估 209
小結(jié) 210
課后習(xí)題 211
第8章 基于TipDM數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)新聞文本分類 212
8.1 平臺(tái)簡(jiǎn)介 212
8.1.1 實(shí)訓(xùn)庫(kù) 213
8.1.2 數(shù)據(jù)連接 214
8.1.3 實(shí)訓(xùn)數(shù)據(jù) 215
8.1.4 系統(tǒng)算法 217
8.1.5 個(gè)人算法 219
8.2 實(shí)現(xiàn)新聞文本分類 220
8.2.1 數(shù)據(jù)源配置 221
8.2.2 文本預(yù)處理 223
8.2.3 支持向量機(jī)模型 231
小結(jié) 233
課后習(xí)題 233