本書以如何在語料庫的教與學(xué)及其應(yīng)用、語料庫科研中習(xí)得Python能力的邏輯關(guān)系為線索,描述了Python的價(jià)值、意義和作用,并將內(nèi)容組合成可有效助力于Python能力習(xí)得的三個(gè)層次。*層次是掌握與語料庫相關(guān)的基礎(chǔ)性代碼;第二層次是活學(xué)活用這些基礎(chǔ)性代碼;第三層次是以創(chuàng)新方式運(yùn)用這些代碼去解決與語料庫相關(guān)的較為復(fù)雜的問題。Python是語料文本處理的利器,需要在一定的理念指導(dǎo)下方可充分理解其在特定領(lǐng)域內(nèi)所呈現(xiàn)的特征,而本書的首要目標(biāo)就是幫助讀者去運(yùn)用這一語言 技術(shù)理念,其次才是Python技術(shù)本身。
本書的適用讀者是那些設(shè)想從語料庫中挖掘出更多信息的文科生、文科教師或相關(guān)的研究人員。
本書的特色有三:
● 一是聚焦于語料庫。所有的代碼、代碼段或代碼塊均圍繞語料庫這一主題展開,所處理的對(duì)象是語料庫研究過程需要面對(duì)的各種相關(guān)問題。
● 二是語言 技術(shù) 法律三位一體。這意味著案例的解釋都包含了三方面的要素,而非從純粹的技術(shù)角度出發(fā)。所選擇的語料也多是法律文本,目的是為了呈現(xiàn)法律文本的語篇特征,即以法律文本通過技術(shù)研究獲取其語言學(xué)方面的特征信息。
● 三是深入淺出,易學(xué)易用。本書強(qiáng)調(diào)編程并非是工科專業(yè)的專利,文科生同樣可以學(xué)會(huì)編程,而且能夠編寫出更為細(xì)膩、更利于語言學(xué)處理的代碼。再者,閱讀本書至少可習(xí)得一種能力即讀懂代碼的能力,就像學(xué)會(huì)一門自然語言一樣。
第1章 緒論
1.1 語料庫與Python
1.1.1 語料庫的若干維度
1.1.2 語料庫的技術(shù)實(shí)現(xiàn)
1.2 本書概要
上篇 語料文本的基礎(chǔ)性代碼
第2章 語料文本的讀取及其運(yùn)行結(jié)果的輸出
2.1 概述
2.2 語料文本的讀取
2.2.1 讀取NLTK固有語料庫
2.2.2 讀取自制語料庫
2.2.3 讀取非獨(dú)立存儲(chǔ)的語料文本
2.2.4 讀取docx格式的語料文本
2.2.5 讀取xlsx格式的語料文本
2.3 語料文本運(yùn)行結(jié)果的輸出
2.3.1 操作界面直接輸出結(jié)果
2.3.2 輸出txt文件格式
2.3.3 輸出xlsx文件格式
2.4 中文語料文本的讀取和結(jié)果輸出
2.4.1 自制語料庫
2.4.2 非獨(dú)立存儲(chǔ)的語料文本
第3章 語料庫應(yīng)用的基礎(chǔ)性代碼
3.1 概述
3.2 停用詞的使用
3.2.1 不同語種的停用詞
3.2.2 自有停用詞的設(shè)置
3.3 文本降噪代碼
3.3.1 具體代碼的功用
3.3.2 組合使用代碼的功用
3.3.3 降噪與文本計(jì)數(shù)
3.4 語料文本的語言學(xué)處理代碼
3.4.1 字母大小寫轉(zhuǎn)換
3.4.2 詞形還原
3.4.3 文本分句或分詞
3.4.4 詞性標(biāo)注
3.5 語料庫詞頻排序
3.5.1 簡(jiǎn)單詞頻排序
3.5.2 降噪處理后詞頻排序
3.5.3 清除停用詞后排序
3.6 語料庫檢索與統(tǒng)計(jì)
3.6.1 上下文關(guān)鍵詞檢索
3.6.2 類符形符比
3.6.3 N連詞提取
3.6.4 指定詞檢索與統(tǒng)計(jì)
3.7 中文語料文本的處理方法
3.7.1 上下文關(guān)鍵詞檢索
3.7.2 中文停用詞
第4章 數(shù)據(jù)可視化
4.1 概述
4.2 表格繪制
4.3 圖形繪制
4.3.1 詞頻圖形繪制
4.3.2 柱狀圖和點(diǎn)狀圖繪制
4.4 詞云圖繪制
4.4.1 英文文本詞云圖
4.4.2 中文文本詞云圖
第5章 代碼運(yùn)行錯(cuò)誤分析
5.1 概述
5.2 錯(cuò)誤分析案例
5.2.1 輸入輸出錯(cuò)誤(IOError)
5.2.2 對(duì)象屬性錯(cuò)誤(AttributeError)
5.2.3 數(shù)據(jù)類型錯(cuò)誤(TypeError)
5.2.4 變量名稱錯(cuò)誤(NameError)
5.2.5 索引錯(cuò)誤(IndexError)
5.2.6 縮進(jìn)錯(cuò)誤(IndentationError)
5.2.7 參數(shù)類型錯(cuò)誤(ValueError)
5.2.8 語法錯(cuò)誤(SyntaxError)
5.2.9 Unicode解碼錯(cuò)誤(UnicodeDecodeError)
5.2.10 關(guān)鍵字錯(cuò)誤(KeyError)
中篇 基礎(chǔ)性代碼的組合使用
第6章 算法、代碼與編程
6.1 篇章結(jié)構(gòu)
6.2 算法和代碼
6.2.1 算法
6.2.2 代碼
6.3 選擇不同代碼的影響
6.3.1 分詞處理方式對(duì)后續(xù)文本分析的影響
6.3.2 不同的降噪效果
6.3.3 鏈表、字符串、元組和字典對(duì)比
6.3.4 停用詞的功用
6.4 Python與既有語料庫工具的關(guān)系
第7章 基礎(chǔ)性代碼的語料庫組合應(yīng)用
7.1 以Excel文件格式輸出術(shù)語(類符)
7.1.1 簡(jiǎn)單輸出術(shù)語
7.1.2 按詞頻輸出術(shù)語
7.2 以Excel文件格式輸出表格
7.3 語篇詞匯密度的計(jì)算
7.4 語篇詞匯復(fù)雜性的計(jì)算
7.5 語篇詞長(zhǎng)分布的計(jì)算
7.6 NLTK固有語料庫
7.6.1 總統(tǒng)就職演說語料庫
7.6.2 華爾街雜志語料庫
7.6.3 其他相關(guān)語料庫介紹
下篇 Python探索路徑
第8章 Python的語料庫拓展應(yīng)用
8.1 概述
8.2 單語語料導(dǎo)入Excel工作簿
8.3 KWIC檢索功能的拓展
8.4 語篇詞形還原
8.5 術(shù)語提取效果的改進(jìn)
8.6 語篇段落對(duì)齊
8.7 應(yīng)用語言學(xué)文獻(xiàn)計(jì)量研究的數(shù)據(jù)提取
8.8 專業(yè)通用詞的提取路徑探索
附錄1 與本書相關(guān)的加載模塊與函數(shù)命令對(duì)應(yīng)表
附錄2 Python2 和Python3部分代碼對(duì)比
附錄3 部分NLTK固有語料庫
附錄4 漢英對(duì)照術(shù)語表
索引