《面向大數(shù)據(jù)的高效能垃圾文本分類》全面介紹了大數(shù)據(jù)時(shí)代垃圾信息的爆發(fā)態(tài)勢(shì)和文本特性,并根據(jù)信息文檔的多域結(jié)構(gòu)特性和文本Token頻率分布的冪律特性,提出了多域?qū)W習(xí)的思想。研究了一整套面向大數(shù)據(jù)的高效能垃圾文本分類方法。
本書共分7章,第1章分析大數(shù)據(jù)時(shí)代垃圾信息態(tài)勢(shì),第2章概述垃圾信息過(guò)濾方法,第3章研究電子郵件文檔和手機(jī)短信文檔的文本特性,第4章研究多域?qū)W習(xí)總體框架,第5章提出基于Token頻率索引的文本分類算法,第6章研究有監(jiān)督反饋代價(jià)問(wèn)題,第7章設(shè)計(jì)面向大數(shù)據(jù)的高效能垃圾文本過(guò)濾系統(tǒng)。
本書可以作為普通高等院校、科研機(jī)構(gòu)大數(shù)據(jù)計(jì)算技術(shù)相關(guān)專業(yè)高年級(jí)本科生或研究生的實(shí)驗(yàn)教材,也可供網(wǎng)絡(luò)信息技術(shù)公司高級(jí)研究人員參考。
第1章 大數(shù)據(jù)與垃圾信息 1.1 大數(shù)據(jù)時(shí)代的垃圾信息 1.1.1 大數(shù)據(jù)和垃圾信息爆發(fā) 1.1.2 垃圾信息過(guò)濾研究項(xiàng)目 1.1.3 垃圾信息過(guò)濾研究意義 1.2 垃圾信 第1章 大數(shù)據(jù)與垃圾信息 1.1 大數(shù)據(jù)時(shí)代的垃圾信息 1.1.1 大數(shù)據(jù)和垃圾信息爆發(fā) 1.1.2 垃圾信息過(guò)濾研究項(xiàng)目 1.1.3 垃圾信息過(guò)濾研究意義 1.2 垃圾信息范疇 1.2.1 垃圾電子郵件 1.2.2 垃圾手機(jī)短信 1.2.3 廣義垃圾信息 1.2.4 文本垃圾信息 1.3 文本垃圾信息態(tài)勢(shì) 1.3.1 國(guó)際垃圾郵件態(tài)勢(shì) 1.3.2 我國(guó)垃圾郵件態(tài)勢(shì) 1.3.3 我國(guó)垃圾手機(jī)短信態(tài)勢(shì) 1.4 研究動(dòng)機(jī)與內(nèi)容 1.4.1 科學(xué)問(wèn)題與挑戰(zhàn) 1.4.2 研究?jī)?nèi)容與結(jié)構(gòu) 1.4.3 研究成果 本章小結(jié)第2章 垃圾信息過(guò)濾方法概述 2.1 基于協(xié)議的垃圾信息過(guò)濾 2.1.1 基于SMTP的方法 2.1.2 基于IP的方法 2.2 基于內(nèi)容的垃圾信息過(guò)濾 2.2.1 基于規(guī)則的方法 2.2.2 基于統(tǒng)計(jì)的方法 2.2.3 神經(jīng)網(wǎng)絡(luò)方法 2.2.4 集成學(xué)習(xí)方法 2.3 垃圾信息過(guò)濾性能評(píng)價(jià)方法 2.3.1 當(dāng)前性能評(píng)價(jià)方法 2.3.2 ROC曲線評(píng)價(jià)方法 2.3.3 整體性能評(píng)價(jià)方法 本章小結(jié)第3章 信息文檔的文本統(tǒng)計(jì)特性 3.1 信息文檔的正文特性 3.1.1 電子郵件和手機(jī)短信語(yǔ)料 3.1.2 正文文本長(zhǎng)度特性 3.1.3 正文和TokeN重復(fù)特性 3.2 信息文檔的結(jié)構(gòu)特性 3.2.1 信息文檔格式 3.2.2 域間文本特征 3.3 Token頻率分布的冪律特性 3.3.1 冪律 3.3.2 郵件文檔和郵件域文檔 3.3.3 短信文檔和短信域文檔 本章小結(jié)第4章 面向垃圾信息過(guò)濾的多域?qū)W習(xí)文本分類 4.1 問(wèn)題描述與框架 4.1.1 形式化描述 4.1.2 多域?qū)W習(xí)框架 4.2 分割策略 4.2.1 自然域文檔分割策略 4.2.2 特定屬性域文檔分割策略 4.3 組合策略 4.3.1 均權(quán)組合策略 4.3.2 支持向量模型權(quán)組合策略 4.3.3 域分類器歷史性能權(quán)組合策略I. 4.3.4 域文檔信息量權(quán)組合策略 4.3.5 復(fù)合權(quán)組合策略 4.4 實(shí)驗(yàn)結(jié)果 4.4.1 TREC07P上的bogo實(shí)驗(yàn) 4.4.2 TREC07P上的tftS3F實(shí)驗(yàn) 4.4.3 CSMS—P上的bogo實(shí)驗(yàn) 4.4.4 CSMS—P上的tftS3F實(shí)驗(yàn) 本章小結(jié)第5章 面向垃圾信息過(guò)濾的時(shí)空高效文本分類 5.1 基于Token頻率索引的文本分類算法 5.1.1 統(tǒng)計(jì)原理 5.1.2 Token頻率索引 5.1.3 算法描述 5.2 算法復(fù)雜度分析 5.2.1 時(shí)間復(fù)雜度 5.2.2 空間復(fù)雜度 5.3 基于多類別Token頻率索引的文本分類算法 5.3.1 Token頻率統(tǒng)計(jì)特性 5.3.2 多類別Token頻率索引 5.3.3 算法描述 5.4 實(shí)驗(yàn)結(jié)果 5.4.1 TREC07P上的ffibtc實(shí)驗(yàn) 5.4.2 CSMS—P上的ffibtc實(shí)驗(yàn) 5.4.3 TanCorp—12上的mtfibtc實(shí)驗(yàn) 本章小結(jié)第6章 面向垃圾信息過(guò)濾的主動(dòng)學(xué)習(xí)文本分類 6.1 問(wèn)題描述與框架 6.1.1 形式化描述 6.1.2 主動(dòng)多域?qū)W習(xí)框架 6.2 主動(dòng)學(xué)習(xí)策略 6.2.1 時(shí)序優(yōu)先主動(dòng)學(xué)習(xí)策略 6.2.2 先驗(yàn)區(qū)間主動(dòng)學(xué)習(xí)策略 6.2.3 基于方差的非確定采樣主動(dòng)學(xué)習(xí)策略 6.3 實(shí)驗(yàn)結(jié)果 6.3.1 TREC07P上的10000反饋tfibtc.cs5實(shí)驗(yàn) 6.3.2 TREC07P上的1000反饋ffibtc.cs5實(shí)驗(yàn) 6.3.3 CSMS—P上的10000反饋tfibtc.cs5實(shí)驗(yàn) 6.3.4 CSMS—P上的1000反饋tfibtc.cs5實(shí)驗(yàn) 本章小結(jié)第7章 面向大數(shù)據(jù)的高效能垃圾文本過(guò)濾系統(tǒng) 7.1 研究結(jié)論 7.1.1 多域?qū)W習(xí)框架的有效性 7.1.2 NFD和ASFD分割策略的有效性 7.1.3 復(fù)合權(quán)組合策略的最優(yōu)性 7.1.4 基于TFI的文本分類算法的時(shí)空高效性 7.1.5 基于方差的非確定采樣主動(dòng)學(xué)習(xí)策略的有效性 7.2 高效能垃圾文本過(guò)濾系統(tǒng)設(shè)計(jì) 7.2.1 多Cluster垃圾文本過(guò)濾系統(tǒng) 7.2.2 多語(yǔ)種大數(shù)據(jù)深度輿情系統(tǒng) 7.2.3 個(gè)性化垃圾郵件過(guò)濾系統(tǒng) 本章小結(jié)參考文獻(xiàn)