2015年11月,《中共中央關(guān)于制定國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃的建議》發(fā)布,繼續(xù)強(qiáng)調(diào)了國(guó)家文化事業(yè)發(fā)展的重要戰(zhàn)略意義,指出:“十三五”期間要繼續(xù)展開文化體制改革,建設(shè)重大文化工程,完善公共文化的產(chǎn)業(yè)、市場(chǎng)和服務(wù)體系發(fā)展。而圖書館作為文化傳播和保障公民文化需求的重鎮(zhèn),應(yīng)繼續(xù)發(fā)揮其優(yōu)勢(shì),并不斷發(fā)展和變革,為廣大人民群眾提供更優(yōu)質(zhì)的服務(wù)。
進(jìn)入互聯(lián)網(wǎng)時(shí)代,圖書館資源由傳統(tǒng)的實(shí)體走向數(shù)字化和網(wǎng)絡(luò)化,用戶對(duì)信息的需求也由原來的信息查找轉(zhuǎn)向?qū)χR(shí)的獲取與個(gè)性化服務(wù)。歷年來,各地、各級(jí)單位圖書館的建設(shè)通過不斷擴(kuò)大其規(guī)模來滿足讀者的信息需求,但卻造成“館藏資源孤島”和“館藏資源超載”兩大困境。而用戶的需求不再僅僅是從無數(shù)館藏中快速找到所要信息,還要求獲得信息中蘊(yùn)含的知識(shí)內(nèi)容及邏輯關(guān)系,以進(jìn)行知識(shí)的理解、使用和創(chuàng)造。針對(duì)圖書館的這種困境和數(shù)字化資源環(huán)境中用戶更高的閱讀需求等問題,通過多種途徑、多種方法來揭示和關(guān)聯(lián)日益豐富的數(shù)字資源,以利于用戶對(duì)信息資源的有效獲取和知識(shí)內(nèi)容的共建共享。所以,如何對(duì)館藏資源進(jìn)行深層次揭示、聚合和有效地展示、利用成為業(yè)界關(guān)注的熱點(diǎn)問題。
基于此,本書從理論、方法和實(shí)踐角度探討了如何從具有豐富語(yǔ)義信息的館藏中進(jìn)行資源的語(yǔ)義聚合和可視化展示,以期能夠通過資源聚合更好地服務(wù)于用戶。只有在館藏資源的語(yǔ)義化基礎(chǔ)上,才能通過共通的語(yǔ)義形式從多個(gè)方面對(duì)資源進(jìn)行關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)從資源聚合到知識(shí)的創(chuàng)新。本書以用戶需求為導(dǎo)向,采用用戶行為、本體、關(guān)聯(lián)數(shù)據(jù)等理論思想,以及相關(guān)方法工具,以探究館藏的知識(shí)內(nèi)容以及知識(shí)單元的語(yǔ)義關(guān)系,通過關(guān)聯(lián)、聚類、融合和分類等過程,使得散亂和獨(dú)立的資源再次組織成為一個(gè)有序整體,用以服務(wù)于用戶對(duì)館藏中所需的規(guī)律、模式、特色等知識(shí)單元以及知識(shí)之間的關(guān)聯(lián)關(guān)系,最終實(shí)現(xiàn)基于語(yǔ)義的資源聚合和可視化展示平臺(tái)。
全書共分為10章,每章的主要內(nèi)容簡(jiǎn)述如下。
第1章,首先,從全局概述開展數(shù)字圖書館館藏資源語(yǔ)義聚合的背景和意義,并從數(shù)字資源聚合、數(shù)字資源聚合的方式、數(shù)字資源聚合技術(shù)和數(shù)字資源聚合的實(shí)踐探索四個(gè)角度對(duì)當(dāng)前館藏資源語(yǔ)義聚合的基本現(xiàn)狀進(jìn)行梳理和述評(píng)。其次,根據(jù)現(xiàn)有館藏資源的聚合方式及存在問題,總結(jié)得出在關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上的資源聚合的優(yōu)缺點(diǎn),其后提出完善館藏資源的服務(wù)內(nèi)容的研究思路和方法。最后,對(duì)本書的主要內(nèi)容及創(chuàng)新之處進(jìn)行了總結(jié)。
第2章,分析了當(dāng)前數(shù)字資源聚合的基本概念和方法,根據(jù)數(shù)字圖書館中資源聚合出現(xiàn)的問題,歸納了當(dāng)前數(shù)字資源聚合所面臨的困境。在用戶行為相關(guān)研究的基礎(chǔ)上,闡述了國(guó)內(nèi)外學(xué)者對(duì)用戶行為的不同認(rèn)識(shí),給出了本書對(duì)用戶行為的理解。進(jìn)一步分析基于用戶行為的數(shù)字資源語(yǔ)義聚合理論框架,具體從用戶行為定義、用戶行為理論和方法、用戶行為數(shù)據(jù)聚合三個(gè)方面做了詳細(xì)闡述。
第3章,論述了基于語(yǔ)義的館藏資源語(yǔ)義聚合的相關(guān)理論。首先,對(duì)語(yǔ)義網(wǎng)及語(yǔ)義標(biāo)注相關(guān)理論進(jìn)行了闡述,主要包括語(yǔ)義網(wǎng)的發(fā)展、語(yǔ)義標(biāo)注相關(guān)技術(shù),并厘清了元數(shù)據(jù)、本體及語(yǔ)義標(biāo)注間的關(guān)系。其次,介紹了關(guān)聯(lián)數(shù)據(jù)的概念、關(guān)聯(lián)數(shù)據(jù)的類型劃分、關(guān)聯(lián)數(shù)據(jù)的支撐技術(shù)及其構(gòu)建的關(guān)鍵實(shí)現(xiàn)技術(shù)。最后,分析了基于關(guān)聯(lián)標(biāo)簽的數(shù)字資源語(yǔ)義聚合方法的內(nèi)涵、特點(diǎn)、步驟和優(yōu)勢(shì)。
第4章,深入對(duì)如何構(gòu)建用戶行為特征庫(kù)進(jìn)行了研究。首先,從構(gòu)建用戶行為特征庫(kù)的外部系統(tǒng)環(huán)境入手,對(duì)用戶行為的獲取與挖掘進(jìn)行了宏觀研究。其次,從數(shù)據(jù)庫(kù)的層次結(jié)構(gòu)視角對(duì)構(gòu)建用戶行為特征庫(kù)進(jìn)行了可行性分析。接著從數(shù)據(jù)預(yù)處理、數(shù)據(jù)采集、數(shù)據(jù)抽取,到數(shù)據(jù)格式標(biāo)準(zhǔn)化對(duì)用戶行為創(chuàng)建流程進(jìn)行了詳細(xì)論述,并對(duì)特征庫(kù)的層次結(jié)構(gòu)進(jìn)行描述。最后,在本章實(shí)驗(yàn)部分,依照特征庫(kù)創(chuàng)建流程設(shè)計(jì)了三個(gè)用戶行為特征采集與挖掘工具。
第5章,基于用戶行為特征庫(kù)內(nèi)的詞語(yǔ)集合,創(chuàng)建用戶行為詞表,研究詞詞關(guān)聯(lián)和詞表聚合。首先,利用成熟的詞表技術(shù)將用戶行為特征庫(kù)中的詞匯進(jìn)行序化,并借助TF-IDF改進(jìn)算法及MDS算法兩種方式來提取能代表用戶特征的中心詞匯。其次,討論了模糊集合理論中詞詞關(guān)系的數(shù)據(jù)處理問題,在此基礎(chǔ)上進(jìn)行詞表中詞詞關(guān)聯(lián)值的探討,并通過關(guān)聯(lián)矩陣進(jìn)行詞間語(yǔ)義關(guān)系的實(shí)證研究。然后,借助比較排序、相關(guān)排序、Pagerank等方法對(duì)詞表進(jìn)行融合研究。最后根據(jù)詞間語(yǔ)義關(guān)系進(jìn)行由詞表向本體的轉(zhuǎn)化,并闡述了如何利用詞表創(chuàng)建用戶行為的本體過程。
第6章,主要在第4和5章的技術(shù)基礎(chǔ)上構(gòu)建用戶行為本體庫(kù),并以用戶為中心進(jìn)行本體聚合。首先,用戶需求、用戶體驗(yàn)、用戶興趣三者為用戶行為本體構(gòu)建的出發(fā)點(diǎn),在本體創(chuàng)建總方向上對(duì)用戶行為本體構(gòu)建做出規(guī)范。其次,進(jìn)行了用戶本體的存儲(chǔ)與操作的相關(guān)內(nèi)容,在這些理論與方法的基礎(chǔ)上闡述了用戶行為本體的構(gòu)建流程。再次,提出以用戶行為特征為中心的異質(zhì)本體聚合與融合的解決方案。