本書(shū)分六章,內(nèi)容包括:面向自然語(yǔ)言處理的情感模型、漢語(yǔ)情感詞表構(gòu)建、情感詞的搭配研究、產(chǎn)品評(píng)論分析、總結(jié)及未來(lái)的工作。
自萬(wàn)維網(wǎng)誕生以來(lái),各種信息不斷在網(wǎng)絡(luò)上涌現(xiàn),網(wǎng)絡(luò)用戶數(shù)量也與日俱增些年,網(wǎng)絡(luò)內(nèi)容組織方式也在逐漸地發(fā)生變化,從博客到Facebook,再到Twitter,互聯(lián)網(wǎng)上出現(xiàn)了越來(lái)越多的網(wǎng)民表達(dá)。這些網(wǎng)民表達(dá)含大量的評(píng)價(jià)、態(tài)度、情緒等主觀性觀點(diǎn)。概括地說(shuō),網(wǎng)絡(luò)上有很多的網(wǎng)民,網(wǎng)民有很多的觀點(diǎn),而這些觀點(diǎn)擴(kuò)散得很快。這種現(xiàn)象不得不引起個(gè)人、企業(yè)乃至政府的關(guān)注。我們需要找出這含觀點(diǎn)的信息,更需要含觀點(diǎn)的信行情感分析。
本書(shū)的研究有兩個(gè),分別是漢語(yǔ)情感詞表構(gòu)建和產(chǎn)品評(píng)論分析。對(duì)于情感分析,情感詞表是重要的資源,而漢語(yǔ)情感詞表資源還相對(duì)匱乏。另外,產(chǎn)品評(píng)論分析作為一個(gè)重要的情感分析應(yīng)用也越來(lái)越受到關(guān)注。產(chǎn)品評(píng)論分析的工作也可以看成本書(shū)情感詞表構(gòu)建工作的應(yīng)用和延伸。
據(jù)美國(guó)調(diào)研機(jī)構(gòu)Royal Pingdom對(duì)201pan>年全球互聯(lián)網(wǎng)發(fā)展?fàn)罱Y(jié)顯示,全球網(wǎng)民數(shù)量為2pan>億,其中亞洲多,為9.22億,歐洲為4.76億,北美為2.7pan>億。根據(jù)《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至201pan>年12月底,中國(guó)網(wǎng)民規(guī)模突破5億,達(dá)到5.13億;中國(guó)手機(jī)網(wǎng)民規(guī)模達(dá)到3.56億。
除了網(wǎng)絡(luò)用戶數(shù)量令人驚嘆地增長(zhǎng),網(wǎng)絡(luò)內(nèi)容組織方式也在逐漸發(fā)生變化。這種變化所帶來(lái)的震撼并不亞于網(wǎng)民數(shù)量的增長(zhǎng)。自萬(wàn)維網(wǎng)推出以來(lái),網(wǎng)絡(luò)上的信息不斷涌現(xiàn),一些以前需要從傳統(tǒng)媒體中查找的信息可以方便地從網(wǎng)絡(luò)上獲得。隨著時(shí)間的推移,人們不再滿足于將網(wǎng)絡(luò)當(dāng)作純粹的獲取信息的場(chǎng)所,而是希望將其作為表臺(tái)。
1997年出現(xiàn)了“博客”一詞。這是一種充分個(gè)性化的網(wǎng)絡(luò)表達(dá)工具,在其上“博主”可以發(fā)表自己的見(jiàn)聞和觀點(diǎn),訪客可以留言。2004年,Facebook向大學(xué)生開(kāi)放。信息的交流以人為節(jié)點(diǎn),以好友關(guān)系為邊,迅速擴(kuò)散到整個(gè)網(wǎng)絡(luò)。結(jié)合了博客和移臺(tái)的Twitter 出現(xiàn)在2006年,并且在短短的幾年時(shí)間內(nèi)全球。2009年8月,中國(guó)的門(mén)戶網(wǎng)站新浪網(wǎng)推出“新浪”內(nèi)測(cè)版,成為門(mén)戶網(wǎng)站服務(wù)的網(wǎng)站,正入中文上網(wǎng)主流人群視野。
當(dāng)人們購(gòu)買商品的時(shí)候,往往要通過(guò)網(wǎng)絡(luò)查找大家對(duì)該商品的評(píng)價(jià),以便決定自己的購(gòu)買行為。企業(yè)則對(duì)客戶和潛在客戶的意見(jiàn)尤為關(guān)注,從而指導(dǎo)產(chǎn)品的設(shè)計(jì)、服務(wù)等。政府部門(mén)對(duì)影響社會(huì)的輿論密切關(guān)注,從而選擇應(yīng)對(duì)措施。
傳統(tǒng)的信息檢索并不能滿足以上各種需求。一個(gè)明顯的不足之處在于,傳統(tǒng)的檢索工具是針對(duì)主行檢索,并不能定制化地提供對(duì)某個(gè)實(shí)體的評(píng)價(jià)。
在自然語(yǔ)言處理(Natural Language Processing,NLP)中,情感分析這個(gè)概念應(yīng)運(yùn)而生。情感分析的工括對(duì)評(píng)論的極行分類,提取產(chǎn)品的產(chǎn)品特征并對(duì)其評(píng)行分析,識(shí)別觀點(diǎn)的發(fā)出者等。粗略地講,凡是和文本中觀點(diǎn)、情緒、評(píng)價(jià)等相關(guān)的自然語(yǔ)言處理工作都可以歸人情感分析領(lǐng)域。自然語(yǔ)言處理經(jīng)過(guò)多年的發(fā)展,積累了豐富的資源,可以獲得各種人工標(biāo)注的語(yǔ)料、句法分析工具、語(yǔ)義詞典等。這些都為情感分析的開(kāi)展奠定了研究基礎(chǔ)。
目前,學(xué)術(shù)界和工業(yè)界對(duì)文本情感分析的相關(guān)問(wèn)行了廣泛和深入的研究。僅在美國(guó)就至少有20個(gè)公司提供情感分析服務(wù)。國(guó)際上的高校中基本都設(shè)立相應(yīng)的研究機(jī)構(gòu)和小行情感分析的研究。在國(guó)內(nèi),、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交大、復(fù)旦大學(xué)、廈門(mén)大學(xué)、大連理工大學(xué)、重慶大學(xué)、北京郵電大學(xué)等許多科研機(jī)構(gòu)和高校都開(kāi)展了情感分析的研究工作。
文本情感分析的研究已經(jīng)成為當(dāng)前自然語(yǔ)言處理研究的熱點(diǎn)。
1.2本書(shū)主要研究?jī)?nèi)容
本書(shū)的研究有兩個(gè):一是情感詞表的構(gòu)建;二是產(chǎn)品評(píng)論的分析。在詞表構(gòu)建完成后行情感詞搭配的研究工作。這部分工作可以看成連接情感詞表構(gòu)建和產(chǎn)品評(píng)論分析的環(huán)節(jié)。事實(shí)上,可以把情感詞作為一種評(píng)價(jià),把產(chǎn)品特征看成評(píng)價(jià)的特殊搭配,并在此基礎(chǔ)上開(kāi)展產(chǎn)品評(píng)論分析的有關(guān)工作。這樣,從情感詞表的構(gòu)造過(guò)渡到產(chǎn)品評(píng)論分析的工作就十分自然了。
選擇這兩個(gè)部分作為本書(shū)的主要工作是基于這樣的考慮。
(pan>)情感詞表是情感分析的重要資源;诟哔|(zhì)量的詞典,一些情感分析任務(wù)只需要采用簡(jiǎn)單的方法即可以獲得很好的效果。對(duì)于中文而言,情感詞表資源還很匱乏。
(2)采用自動(dòng)的方式構(gòu)建詞表,充分利用語(yǔ)言學(xué)的知識(shí),盡可能降低構(gòu)建情感詞表的人工代價(jià)。
(3)以產(chǎn)品評(píng)論分析作為實(shí)際的應(yīng)用背景,利用已有的資行深人的分析,得到具有實(shí)用性的成果。
自然語(yǔ)言處理需要重視語(yǔ)言學(xué)。Wintner(2009)建議在ACL里設(shè)置一個(gè)語(yǔ)言學(xué)專委會(huì),并呼吁語(yǔ)言學(xué)回歸計(jì)算語(yǔ)言學(xué)。他認(rèn)為,當(dāng)代的自然語(yǔ)言工程里,語(yǔ)言學(xué)整體上是缺位的。從語(yǔ)言學(xué)的角度出發(fā),將語(yǔ)言學(xué)中的知識(shí)和計(jì)算機(jī)的方法結(jié)合起來(lái)是本書(shū)的一個(gè)基本原則。