在以“數(shù)字資源揭示——海量數(shù)據(jù)環(huán)境下圖書館資源發(fā)現(xiàn)之路”為題的第二屆2014圖書館現(xiàn)代技術(shù)學(xué)術(shù)研討會上,國家圖書館副館長魏大威分享和探討了他對大數(shù)據(jù)環(huán)境下國家數(shù)字圖書館建設(shè)的一些思考。如果說未來不會用大數(shù)據(jù)的企業(yè)就像現(xiàn)在的企業(yè)不會用電,這一點對圖書館也一樣。
圖書館要重視對大數(shù)據(jù)的整理和挖掘
由信息爆炸時代產(chǎn)生的海量數(shù)據(jù)即大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等關(guān)鍵技術(shù)引領(lǐng)的信息技術(shù)變革,為處于大數(shù)據(jù)環(huán)境下數(shù)字圖書館的資源整合以及服務(wù)創(chuàng)新帶來了機(jī)遇和挑戰(zhàn)。
圖書館的大數(shù)據(jù)是什么?我認(rèn)為它由以下幾方面構(gòu)成:一是多種類型的海量資源及龐大用戶群體所涵蓋的用戶數(shù)據(jù);二是圖書館的生產(chǎn)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)根據(jù)數(shù)字資源生命周期,在各業(yè)務(wù)系統(tǒng)間高速流轉(zhuǎn)及由此建立的數(shù)據(jù)體系;三是通過圖書館海量數(shù)據(jù)滿足用戶的知識需求和個性化服務(wù)需求的價值體現(xiàn)。
截至2014年12月,國家數(shù)字圖書館數(shù)字資源總量從上一年的874.5TB躍增至1024.37TB,電子圖書3,671,058種,電子期刊57,943種,電子報紙15,237種,特藏專藏合計10,349,917種,外購數(shù)據(jù)庫277個。在2013年底,文津搜索匯集的元數(shù)據(jù)已達(dá)2.9億條,數(shù)據(jù)資源增長量保持迅猛態(tài)勢。(見表1)
隨著服務(wù)的創(chuàng)新,國家數(shù)字圖書館讀者服務(wù)已擴(kuò)展至計算機(jī)、數(shù)字電視、手機(jī)、手持閱讀器、平板電腦、電子觸摸屏等多種服務(wù)終端,服務(wù)前端包括國家圖書館主站、國家圖書館讀者門戶、OPAC檢索、文津搜索、國家圖書館手機(jī)門戶、國家圖書館WAP網(wǎng)站、移動閱讀平臺、各APP應(yīng)用程序。這都取得了較好的服務(wù)效果。如,國家數(shù)字圖書館網(wǎng)站2013年總點擊量達(dá)到13.03億次,2013年為10.36億次。像文津搜索系統(tǒng)、讀者門戶對象數(shù)據(jù)、手機(jī)門戶等月均頁面訪問次數(shù)都為百萬余次,隨著服務(wù)量的增加,各業(yè)務(wù)系統(tǒng)每天都會產(chǎn)生大量的日志數(shù)據(jù),其中包含了大量的用戶行為信息,例如,Aleph系統(tǒng)日均產(chǎn)生日志數(shù)據(jù)約20GB,文津搜索系統(tǒng)日均產(chǎn)生日志數(shù)據(jù)大于300G。讀者數(shù)據(jù),尤其是讀者行為數(shù)據(jù)中包含大量有價值的信息,對這些信息的挖掘和利用,越來越得到圖書館的重視。
圖書館的數(shù)據(jù)包括資源數(shù)據(jù)、采集數(shù)據(jù)、讀者數(shù)據(jù)及管理數(shù)據(jù)等幾個方面。資源數(shù)據(jù)既有傳統(tǒng)文獻(xiàn)的數(shù)字化,也有各種類型的原生數(shù)字資源,包含電子圖書、電子期刊、數(shù)據(jù)庫、音視頻資源以及網(wǎng)絡(luò)資源等多種類型,還包括其它異地存儲為我所用的虛擬館藏及大量網(wǎng)絡(luò)資源,具有不同的數(shù)據(jù)格式和展示形式。
綜上,國家數(shù)字圖書館加強(qiáng)海量數(shù)據(jù)之間的關(guān)聯(lián)和價值提煉,深入挖掘用戶行為與數(shù)字資源間的關(guān)聯(lián)關(guān)系、通過用戶行為分析為圖書館數(shù)字資源整合與建設(shè)決策提供數(shù)據(jù)支撐;最終滿足用戶的知識需求和個性化服務(wù)需求,盤活珍貴的資產(chǎn),實現(xiàn)保值增值,已成為必然選擇。
以大數(shù)據(jù)理念實現(xiàn)國家數(shù)字圖書館的資源整合
面對完善的數(shù)據(jù)體系和高速的數(shù)據(jù)流,我們要以大數(shù)據(jù)理念實現(xiàn)國家數(shù)字圖書館的資源整合。國家數(shù)字圖書館資源整合原則是什么?統(tǒng)籌規(guī)劃、分步實施;面向用戶、需求牽引;突出特色、博采眾長。從實現(xiàn)途徑來說,首先,建立超大型元數(shù)據(jù)倉儲,構(gòu)建資源利用新格局。盤活圖書館長期建設(shè)積累的數(shù)據(jù)和知識資產(chǎn),可以形成科學(xué)、高效的統(tǒng)一數(shù)字資源服務(wù)體系。其次,完善統(tǒng)一發(fā)現(xiàn)與服務(wù),實現(xiàn)大數(shù)據(jù)環(huán)境下的資源處理。圖書館要采用新技術(shù),實現(xiàn)資源的統(tǒng)一聚合與一站式檢索,為用戶提供精準(zhǔn)化和個性化的信息和知識。再次,利用語義和關(guān)聯(lián)技術(shù),實現(xiàn)數(shù)字館藏的組織和聚合。將云服務(wù)與關(guān)聯(lián)數(shù)據(jù)結(jié)合起來的資源管理和服務(wù)模式,可鏈接并聚合圖書館數(shù)字資源,形成一個有序的知識服務(wù)體系,并有效實現(xiàn)區(qū)域內(nèi)資源的傳遞和共享。以及,結(jié)合數(shù)據(jù)分析技術(shù),實現(xiàn)數(shù)字資源的可持續(xù)發(fā)展。通過大數(shù)據(jù)技術(shù)對這些數(shù)據(jù)進(jìn)行分析可以掌握不同用戶群體的資源和服務(wù)需求,了解館藏資源的使用水平和流轉(zhuǎn)狀況,并通過對圖書館用戶檢索、瀏覽、點擊、下載、評論、閱讀學(xué)習(xí)筆記的相關(guān)數(shù)據(jù),構(gòu)建“資源——用戶”關(guān)系模型,按照用戶的喜好和使用習(xí)慣向用戶推薦具有針對性的O2O信息服務(wù)。最后,擴(kuò)大網(wǎng)絡(luò)信息保存規(guī)模,提升網(wǎng)絡(luò)資源服務(wù)效力。通過對不同廣度、深度的網(wǎng)絡(luò)信息的采集、加工和管理,還可以對外界提供知識服務(wù)和決策支持。
我國的數(shù)字圖書館體系是由國家圖書館、各級公共圖書館、行業(yè)圖書館共同組成的,需要圖書館界基于大數(shù)據(jù)環(huán)境下的新技術(shù)發(fā)展,通力協(xié)作,探索實踐圖書館發(fā)展的新業(yè)態(tài),激發(fā)生命力和活力,釋放圖書館生態(tài)圈的新能量。