本書以Fillmore的框架語義學為核心,在吸收和借鑒已有成果的基礎上,提出“面向領域的多語框架語義表示”(DOMLFSR)模式作為研究的理論模型。越-英-漢時事新聞框架網絡構建是該理論模型的具體實踐,探討了具有一定普適性的領域多語框架網絡構建方法,構建了較為豐富的越-英-漢框架語義資源。本書較為系統(tǒng)地將框架語義學思想運用于越南語詞匯語義分析,提出了越南語框架語義核心依存圖模型,設計并開發(fā)了多語種Web新聞語料抓取軟件,探索了框架語義標注在事件抽取中的應用。
林麗,1979年6月生,四川成都人,外國語言學及應用語言學博士,F為解放軍外國語學院講師,主要從事語義知識庫、越南語語言信息處理等方面的研究。公開發(fā)表學術論文30篇,其中被EI檢索2篇,在《中文信息學報》《山東大學學報(理學版)》《解放軍外國語學院學報》《山西大學學報(自然科學版)》《模式識別與人工智能》等核心期刊發(fā)表9篇。參與編寫網絡信息檢索、越南語教學方面的教材3部。參與多項國家自然科學基金重大項目、教育部重大項目、河南省社科規(guī)劃項目研究。
第一章 緒論
第一節(jié) 研究背景
第二節(jié) 研究內容
第三節(jié) 研究思路
第四節(jié) 學術創(chuàng)新
第五節(jié) 研究意義
第六節(jié) 使用資源
第二章 框架語義研究綜述
一、相關語義理論模型
二、框架語義學的特點與優(yōu)勢
第三節(jié) FrameNet述評
第四節(jié) 小結
第三章 面向領域的多語框架語義表示(DOMLFSR)模式
第一節(jié) FrameNet語義表示模式
第二節(jié) DOMLFSR對FrameNet語義表示模式的改進
第三節(jié) DOMLFSR模式整體架構及核心內容
第四節(jié) 小結
第四章 越-英-漢時事新聞框架網絡的體系構建
第一節(jié) 越-英-漢時事新聞框架網絡語料制備——主題域層面的對應
第二節(jié) 領域詞元集的采集和分類——語義域層面的整合
第三節(jié) 框架體系構建及其關系描述——框架層面的復用、整合及新建
第四節(jié) 框架元素的定義和描述——框架元素層面的整合
第五節(jié) 小結
第五章 越-英-漢時事新聞框架網絡例句標注與詞元庫構建
第一節(jié) 待標注例句庫構建
第二節(jié) 例句框架語義標注
第三節(jié) 詞元庫構建
第四節(jié) 小結
第六章 越-英-漢時事新聞框架網絡應用實驗
第一節(jié) 框架語義標注在事件抽取應用中的可行性論證
第二節(jié) 基于核心依存圖(KDG)的事件信息抽取
第三節(jié) 基于框架元素格標(FK)的事件信息抽取
第四節(jié) 小結
第七章 結語
第一節(jié) 本書已經取得的研究進展和成果
第二節(jié) 存在的問題和下一步研究計
查看全部↓
第一章 緒 論
第一節(jié) 研究背景
據2014年3月12日統(tǒng)計數據①,Internet內容語種(Content languages for websites)世界排名前十位中包括聯合國七種通用語種(英語、俄語、德語、西班牙語、法語、漢語、阿拉伯語)中除阿拉伯語外的六種。非通用語種中的日語、葡萄牙語、意大利語、波蘭語也進入排名前十。這表明,一方面Internet內容語種呈多語化發(fā)展趨勢,另一方面,除英語外,其余各通用語和非通用語之間發(fā)展差距并不顯著。
圖1—1 2014年3月12日Internet內容語種統(tǒng)計
當前,多語種大數據信息呈現出爆炸增長態(tài)勢,不論是否為通用語種,各語種網頁絕對數量都相當龐大。如何利用現代語言學方法和信息處理技術對巨量的多語種新聞文本進行知識表示、知識獲取,及時、準確地追蹤和發(fā)現有效信息具有重要的理論價值和實踐意義。
根據圖靈機模型,現代計算機通常采用線性符號識別與轉換對語言信息進行處理。當前腦科學研究認為,人腦處理語言信息時一般依賴存儲的語義和情景知識進行并行擴散多路搜索。因此,計算機對文本的語義理解和知識表示成為目前制約語言信息處理發(fā)展的重要瓶頸之一。
對紛繁復雜的語義和情景知識進行形式化,將其表示為計算機可操作的符號,采用詞匯語義知識庫(Lexical Semantic Knowledge Database,LSKD)②的形式進行存儲,是解決信息處理中語義問題的主流方法。LSKD構建已經成為語言信息處理的核心工程,基于LSKD的語義分析方法對各種語言信息處理應用(信息檢索、信息抽取、自動文摘、自動問答、機器翻譯、詞義消歧)都不可或缺。
通過研究人們理解情景和故事時的思維過程,Minsky于1975年根據相應的心理學模型提出框架理論(Frame Theory)③,引起了學術界的廣泛重視;“框架”隨后成為人工智能界常用的一種知識表示方法;格語法的創(chuàng)立者Fillmore④借鑒“框架”概念,提出了框架語義學(Frame Semantics),將研究重點確定為對概念結構和句法-語義映射關系的描寫,以此對句法-語義接口問題進行探索(林麗,畢玉德,2012:42-46)?梢,框架語義學研究方法符合語義知識表示的需求,其實質是一種語義知識的形式化表示方法;诳蚣苷Z義學理論構建的FrameNet⑤以事件框架的方式確定詞匯化編碼的語義信息(可轉化為DAML+OIL語言)并預測這些信息如何在句法上得到投射。(俞士汶,黃居仁,2005:1-20) FrameNet以語義框架⑥作為基本描述單元,并建立了框架與框架之間的網狀層級聯系,具備完善的語義表示與描述體系,是LSKD中設計合理、構建完備、應用廣泛的典型工程。
從具體應用上看,由于框架語義學和FrameNet以人的認知經驗作為基礎,對“概念結構”,即人類關于現實世界的語義知識進行闡釋和描寫,因此在一定程度上具有普適性。截至目前統(tǒng)計,各國研究學者基于框架語義學,以FrameNet為藍本構建了19個語種⑦的平行框架網絡資源。除我國民族語言維吾爾語和藏語外,其余17種外語均在有具體排名的Internet內容語種前36位之列(各語種具體排名見腳注中括號內數字)。也就是說,Internet內容語種前36位中,已研究構建FrameNet的語種比重為47.2%。由此可見,FrameNet的多語種擴展趨勢與Internet內容語種的發(fā)展是一致的?梢該送茢郌rameNet對于巨量網絡信息處理是必要的。
基于以上背景,本書認為,一方面對巨量的多語種網絡新聞文本知識表示、知識獲取進行研究有迫切需求,而各語種,特別是非通用語在領域語料庫構建、面向語言信息處理的語義研究方面尚顯滯后和薄弱;另一方面,框架語義學和FrameNet在理論和實踐兩方面都可作為語義知識形式化表示的典范,在研究深度和廣度上都有突出的貢獻。
因此,充分發(fā)揮框架語義學和FrameNet的已有優(yōu)勢,以多語種網絡新聞文本知識表示、知識獲取為應用導向,探索更加高效、通用的框架語義表示模式并進行框架網絡構建和應用探索具有較為重要的理論和現實意義。
第二節(jié) 研究內容
本書的研究目標是將框架語義學理論應用到非通用語(特別是缺乏嚴格意義上形態(tài)變化的孤立語)語義分析中,參照FrameNet工程構建面向領域的多語框架網絡并基于此進行事件抽取應用探索,研究內容主要分為理論研究、工程實踐和應用探索三個方面。
理論研究方面:通過系統(tǒng)研究框架語義學作為語義分析理論模型的的特點和優(yōu)勢,深入探究FrameNet作為語義知識工程所具有的多語種可擴展性和領域延伸性,分析其針對自然語言處理(NLP)⑧方面的不足之處,提出面向領域的多語框架語義表示(Domain-oriented Multilingual Frame Semantic Representation,DOMLFSR)⑨模式,確定該模式的整體架構及核心內容。
基于框架語義學的越南語詞匯語義研究也是本書的研究內容之一。由于越南語和漢語同為孤立語的典型代表,本書也將從語言類型特點角度著重分析其在框架語義構造式系統(tǒng)方面的共性。
工程實踐方面:將“越南語-英語-漢語”作為“非通用語-中介語-通用語”多語模式的一個研究實例,以時事新聞語料作為特定領域開展研究。設計并開發(fā)多語種Web新聞語料抓取軟件,構建了越-英-漢語領域語料庫;對各語種語料進行預處理并統(tǒng)計出高頻動詞詞元;采集領域詞元并進行語義分類,根據《同義詞詞林》(擴展版)為每一詞元進行語義分類賦碼,由此建成三語領域高頻動詞詞元庫;提出基于FrameNet 1.5數據的半自動框架庫映射方法,通過三語領域高頻動詞詞元庫中的英語動詞詞元激活FrameNet相應框架進行復用和整合;設計并實現輔助建庫、標注工具,構建領域越-英-漢框架網絡(Domain-oriented Vietnamese-English-Chinese FrameNet,DOV-E-CFN)⑩,其主要工作包括搭建一定規(guī)模的時事新聞領域框架體系,確立框架關系,構建標注例句庫和詞匯庫,統(tǒng)計詞元配價模式等。
另一方面,基于FrameNet的越南語句法-語義基礎資源構建也是工程實踐的重要目標之一。原因在于越南語在Internet內容語種世界排名中列第19位11,目前使用人數超過9000萬12,其重要性在亞洲,特別是東南亞地區(qū)更為明顯。越南語信息處理在2000年后才正式開始起步,面向NLP的基礎資源的建設還較為滯后。
應用探索方面:基于越-英-漢時事新聞框架網絡(DOV-E-CFN),將框架語義分析方法與傳統(tǒng)事件抽取方法進行對比,論證了框架語義標注方法在事件抽取中應用的可行性及優(yōu)勢,并分別基于核心依存圖(kernel dependency graph,KDG)13和框架語義格標(frame element kasus,FK)探索其在新聞文本事件信息抽取中的應用。
本書的具體章節(jié)安排如下:
第一章為緒論,主要對本書的研究背景、研究內容及方法、學術創(chuàng)新、研究意義、結構和使用資源進行介紹;
第二章為框架語義研究綜述;
……
查看全部↓