《自然語言處理的Python實踐》通過5章內(nèi)容深入解讀了自然語言處理(NLP)的文本數(shù)據(jù)處理方法和行業(yè)實際應(yīng)用。其中討論了文本數(shù)據(jù)的根本問題所在和在文本數(shù)據(jù)中如何提取信息、提取哪種信息等,同時通過第2~5章,重點講解了客戶服務(wù)行業(yè)、在線評論、銀行與金融服務(wù)及保險行業(yè)、虛擬助手四大NLP重點領(lǐng)域的實際應(yīng)用方法,其中詳細解讀了意圖挖掘、基于ML的監(jiān)督學習、情感分析與挖掘、Word2Vec、CBOW、LSTM、編碼器-解碼器模型框架和當今NLP領(lǐng)域解決問題效果最好的BERT模型等關(guān)鍵技術(shù)方法。內(nèi)容全面,案例真實。本書案例均直接深入到各行業(yè),讀者在閱讀學習過程中,能通過書中相應(yīng)的代碼和案例思路,真正解決實際工作中遇到的問題。
本書適合各個行業(yè)自然語言處理方向的技術(shù)人員閱讀學習,也適合開設(shè)自然語言處理課程的院校師生及計算機專業(yè)教學參考使用。
吳偉國,無黨派人士。哈爾濱工業(yè)大學教授,博士生導師,機電控制及自動化學科工學博士,日本國立名古屋大學微系統(tǒng)工學博士后研究員。長期從事工業(yè)機器人、仿生仿人機器人及智能運動控制、人工智能、人工情感等方面研究。作為項目負責人先后主持完成國家自然科學基金、國家863計劃、國家重點實驗室、教育部歸國留學基金項目以及參與完成各類項目共10余項。主持“十三五”國家重點研發(fā)計劃項目課題、國家自然科學基金重點課題子課題各1項。發(fā)表學術(shù)論文80余篇,參編“十一五”國家級規(guī)劃教材1部,著有國家出版基金項目資助著作3部,以第1發(fā)明人獲發(fā)明專利權(quán)20項,獲部級科技進步一、二等獎各1項。
第1章 數(shù)據(jù)類型 001
1.1 搜索 002
1.2 評論 003
1.3 社交媒體中的帖子/博客 005
1.4 聊天數(shù)據(jù) 006
1.4.1 私人聊天 006
1.4.2 商務(wù)聊天和語音通話數(shù)據(jù) 007
1.5 SMS(短信)數(shù)據(jù) 008
1.6 內(nèi)容數(shù)據(jù) 009
1.7 IVR(交互式語音應(yīng)答)話語數(shù)據(jù) 010
1.8 數(shù)據(jù)中的有用信息 010
第2章 NLP在客戶服務(wù)中的應(yīng)用 013
2.1 語音通話 014
2.2 聊天 015
2.3 票證數(shù)據(jù) 016
2.4 郵件數(shù)據(jù) 016
2.5 客戶需求 018
2.5.1 意圖挖掘 018
2.5.2 意圖理解的熱門詞匯 019
2.5.3 詞云 021
2.5.4 主題分類規(guī)則 024
2.6 基于機器學習的監(jiān)督學習 028
2.6.1 獲取人工標記的數(shù)據(jù) 028
2.6.2 分詞 030
2.6.3 文檔詞條矩陣 031
2.6.4 數(shù)據(jù)標準化 035
2.7 替換某些模式 036
2.8 識別并標注問題所在的行 040
2.9 熱門客戶查詢 041
2.10 熱門客戶滿意度(CSAT)驅(qū)動器 043
2.11 熱門凈推薦值(NPS)驅(qū)動器 045
2.12 深入了解銷售對話 050
2.12.1 銷售對話中的熱門產(chǎn)品 050
2.12.2 未交易的原因 051
2.12.3 調(diào)查評論分析 052
2.12.4 挖掘語音記錄 052
第3章 NLP在在線評論中的應(yīng)用 059
3.1 情感分析 060
3.2 情感挖掘 061
3.3 方法1:基于詞典的方法 062
3.4 方法2:基于規(guī)則的方法 066
3.4.1 觀察結(jié)果1 066
3.4.2 觀察結(jié)果2 067
3.4.3 觀察結(jié)果3 067
3.4.4 觀察結(jié)果4 068
3.4.5 總體得分 069
3.4.6 處理觀察結(jié)果 070
3.4.7 情緒分析庫 085
3.5 方法3:基于機器學習的方法(神經(jīng)網(wǎng)絡(luò)) 086
3.5.1 語料庫的特征 087
3.5.2 構(gòu)建神經(jīng)網(wǎng)絡(luò) 091
3.5.3 加以完善 093
3.6 屬性提取 093
3.6.1 步驟1:使用正則表達式進行規(guī)范化 095
3.6.2 步驟2:提取名詞形式 097
3.6.3 步驟3:創(chuàng)建映射文件 098
3.6.4 步驟4:將每個評論映射到屬性 100
3.6.5 步驟5:品牌分析 101
第4章 NLP在銀行、金融服務(wù)和保險業(yè)(BFSI)的應(yīng)用 109
4.1 NLP之于風險控制 110
4.1.1 方法1:使用現(xiàn)有的庫 111
4.1.2 方法2:提取名詞短語 113
4.1.3 方法3:訓練自己的模型 115
4.1.4 模型應(yīng)用 142
4.2 NLP在銀行、金融服務(wù)和保險業(yè)的其他應(yīng)用案例 157
4.2.1 短信數(shù)據(jù) 157
4.2.2 銀行業(yè)的自然語言生成 158
第5章 NLP在虛擬助手中的應(yīng)用 163
5.1 網(wǎng)絡(luò)機器人(Bot程序)種類 164
5.2 經(jīng)典方法 165
5.2.1 LSTM概述 169
5.2.2 LSTM的應(yīng)用 173
5.2.3 時間分布層 174
5.3 生成響應(yīng)法 178
5.3.1 編碼器-解碼器模型框架 179
5.3.2 數(shù)據(jù)集 180
5.3.3 框架的實現(xiàn) 180
5.3.4 編碼器-解碼器模型框架的訓練 189
5.3.5 編碼器輸出 192
5.3.6 解碼器輸入 192
5.3.7 預(yù)處理 195
5.3.8 雙向LSTM 200
5.4 BERT(基于轉(zhuǎn)換器的雙向編碼表征) 202
5.4.1 語言模型和微調(diào) 202
5.4.2 BERT概述 203
5.4.3 微調(diào)BERT以構(gòu)建分類器 208
5.5 構(gòu)建網(wǎng)上對話機器人的更多細微差別 211
5.5.1 單輪對話和多輪對話的比較 211
5.5.2 多語言網(wǎng)上機器人 213