王 浩
(黑龍江八一農墾大學圖書館 黑龍江 大慶 163319)
大數據時代,數字圖書館發展與大數據密切相關。因為,一方面數字圖書館的建設為大數據技術的發展提供了一個很好的探索和實踐平臺,另一方面,大數據技術的不斷推進勢必對數字圖書館的建設過程、發展形態等造成深遠影響。本文在分析大數據內涵與圖書館大數據的基礎上,闡述了大數據背景下數字圖書館建設所面臨的挑戰,并提出了數字圖書館的建設新思路。
“大數據”通常被認為是一個用來描述海量的結構化和非結構化數據的短語,關于大數據的定義目前還沒有明確的界定,但大數據的四個重要特征得到公認。第一個特征是數據量大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。第二個特征是數據類型繁多。包括網絡日志、音頻、視頻、圖片等,數據多樣性對數據的處理能力提出了更高要求。第三個特征是數據價值密度相對較低。如何迅速地完成數據的價值“提純”,是大數據時代亟待解決的難題。第四個特征是信息處理速度要快,時效性要求高。這是大數據有別于傳統數據挖掘最顯著的特征。應該說,大數據時代的到來對人類數據的駕馭能力提出了新的挑戰。
圖書館在長期的工作中積累了大量數據,雖然在規模和數據處理速度上尚未達到大數據的標準,但它們具有大數據的特征,筆者認為它們就是“圖書館的大數據”。我們要從大數據的角度去思考和分析,開展新的服務。
1.2.1 館藏數據
圖書館的紙質資源、電子資源、音頻、視頻等各種館藏資源,其實質都是知識數據的集合。圖書館的信息服務要從簡單的文獻服務,升級為復雜的知識服務的關鍵環節是從館藏數據集中尋找關聯,加強知識挖掘與整合的力度,揭示規律或發現新知識。
1.2.2 書目數據
書目數據是圖書館界科學的、規范的結構化數據。隨著越來越多的圖書館開放書目數據和發布關聯數據,使得書目數據不僅可以用于檢索,還可以發揮出更多的價值,如用于出版行業的動態研究、書目數據的關聯化研究等。
1.2.3 讀者數據
讀者數據是讀者在使用圖書館過程中所產生的自然數據,包括讀者信息、訪問數據、咨詢信息等,它能客觀地反映出讀者需求的變化趨勢,關注和分析這些數據,可以了解和揣摩讀者的心理和興趣愛好,圖書館應該根據讀者的需求變化及時調整服務策略。
1.2.4 工作數據
圖書館工作的自動化,產生了大量的相關業務數據,具體說來主要有:(1)采訪數據,包括書商提供的書目數據、訂購數據、到館周期、到館率、入藏登記等;(2)編目數據,包括已完成的書目數據、編目員個人信息、編目數據源、審核記錄等;(3)流通數據,包括讀者到館率、文獻借閱率、流通率、借閱記錄等;(4)咨詢數據,包括通過網絡軟件、通訊技術等途徑,在咨詢過程中產生的大量咨詢記錄。
2.1.1 分析讀者與資源以完善服務
大數據技術不僅可以幫助圖書館了解讀者行為、意愿和閱讀習慣,對其知識信息的需求進行預測,開展交互式知識服務。還可以通過對網絡資源、信息資源及軟硬件的運行狀況進行分析,來預測可能出現的問題,便于圖書館對資源運行情況的突然波動做出相應的應對策略,及時采取應對的措施。
2.1.2 建立智能化網絡信息資源組合方式
大數據將成為圖書館的核心資產,從用戶體驗出發,利用大數據技術,靈活、方便地從已有的數據資源中抓取有用的知識、模式和關系等,以打造個性化的網絡化信息資源的智能組合,獲得更加準確的讀者及服務人員的服務洞察,設計網絡化信息資源的智能組合,提供新型的知識服務方式。
2.1.3 建立模型輔助決策
可以利用大數據分析、預測及智能輔助決策技術建立具有特色的、實用的、科學的業務評估模型輔助機構或者讀者進行決策判斷。例如圖書出版與收益模型、信息資源的采購與利用模型等。
2.2.1 基礎設施的挑戰
數據量的快速增長及非結構化數據的增加,對支持非結構化數據存儲與分析的基礎設施提出了更高的要求。首先,傳統網絡的架構設計主要是垂直結構,大數所時代,強調的是水平結構的橫向服務,要設計分層合理、分級存儲架構。其次,要升級軟硬件設施,利用高性能計算機,新的數據表示方法、數據分析技術,建立具有經濟高效的存儲與計算分析計算能力平臺,來保存PB級別的數據。最后,需要擁有保護分布式基礎設施和數據的安全可信的軟硬件應用系統平臺。
2.2.2 大數據深入分析的挑戰
大數據時代,信息海量增加,數字圖書館要為讀者提供高效信息就要進行數據分析。大數據分析是圖書館創新知識服務體系與完善讀者服務工作的基礎,對數據的分析,包括常規分析、時間順序分析、關聯數據分析、社會網絡分析、移動平均線等廣度及深度分析。通過對圖書館數據的分析,可以了解圖書館業務工作的開展情況,客觀反饋讀者對圖書館的需求與服務評價,快速地做出決策,了解最新知識服務趨勢,快速調整信息服務方向,利用大數據技術提升知識服務能力,降低知識服務成本。
3.1.1 數據存儲
支撐大數據的核心硬件是存儲系統,當前網絡化存儲根據傳輸協議,分為網絡接入存儲(NAS)和存儲區域網絡(SAN)。大數據時代,隨著海量的非結構化數據的不斷產生,“NAS+SAN”(也就是統一存儲),將是數字圖書館建設過程中主要的存儲解決方案。統一存儲的磁盤陣列配置多端口的存儲控制器和一個管理接口,允許存儲管理員按需創建存儲池或空間,并將其提供給不同訪問類型的主機系統,可適應業務和應用變化的動態需求。
3.1.2 基于云計算的數據挖掘平臺
云計算的出現給數據挖掘帶來了新的機遇,通常認為云計算包括3個層次的服務,基礎設施即服務(IaaS)、平 臺 即 服 務 (PaaS)、軟 件 即 服 務(SaaS)[1]?;谠朴嬎愕臄祿诰蚱脚_架構(如圖1所示),采用分層的思想,自下而上依次為:云計算支撐平臺層、數據挖掘能力層、數據挖掘云服務層。

圖1 基于云計算的數據挖掘平臺架構
云計算支撐平臺層主要是提供分布式文件存儲、數據庫存儲以及計算能力;數據挖掘能力層主要是提供挖掘的基礎能力,包含算法服務管理、調度引擎、數據并行處理框架,提供對數據挖掘云服務層的能力支撐;數據挖掘云服務層主要是對外提供數據挖掘云服務。
虛擬化技術是數據挖掘云服務技術的支撐,數字圖書館建設數據挖掘云服務平臺,要依賴于虛擬化技術,需要計算資源,需要自主分配和調度。在滿足讀者需求方面,要爭取大眾參與,有了大眾的參與,個性化和多樣化的需求就能夠得到更好的滿足。為增加服務的可信性,算法要通用、可查、可調、可視,并且要注重對隱私數據進行加密保護。
3.1.3 數據分析
大數據分析是指在研究大量的數據過程中,尋找模式、相關性和其他有用的信息,可以幫助圖書館更好地適應變化,并做出更明智的決策。在大數據處理分析過程中可用的工具有很多,如Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。具有高可靠性、高擴展性、高效性、高容錯性、成本低等優點;Storm是自由的開源軟件,易于設置和操作,能可靠地處理龐大的數據流,并且可以應用到實時分析、在線機器學習、不停頓的計算、數據抽取、轉換和加載等許多領域。其他分析工具還有 Apache Drill、HPCC、RapidMiner等[2],各館可以根據實際需要進行選擇使用。
3.2.1 資源體系建設
大數據時代,文獻信息獲取方式與文獻資源發行方式都發生了巨大的改變。讀者對資源獲取的便捷性、可視化要求逐漸提高,而信息資源生產、組織與服務正在向著載體多樣化、開放獲取、泛出版方向轉變[3]。這就要求,圖書館必須重新定義資源建設,在整個數字空間發現、評估、登記、采集、描述和組織各類信息資源,植根于讀者環境,構建開放化(多樣的信息對象與信息種類)、數據化(可計算的信息資源)、語義化(支持用戶驅動的信息資源環境)的信息資源體系。在信息資源體系建設的過程中要堅持三個原則:一是優化夯實數字文獻資源保障體系,二是積極推進長期保存與本地倉儲,三是持續推進開放信息資源共建共享建設。
3.2.2 資源建設要注意的幾個問題
第一,原生特色資源開發問題。大數據環境下,圖書館沒有必要也不可能將全部館藏數字化,但應該對具有特色,形成了一定規模的、結構比較完整的原生信息,進行開發整理。例如美國加州圣何塞大學的貝多芬圖書館,現在已經發展成為歐洲之外最大的貝多芬文獻資源收藏地,出版有《貝多芬期刊》,提供在線目錄——貝多芬門戶,不僅為參觀者和研究者提供服務,還為喜歡貝多芬卻不能實地到訪的人提供服務[4]。第二,知識產權問題。要遵守知識產權法律法規,慎重對待版權、著作權和網絡傳播權。第三,標準化問題。要推動數字資源建設的國際化進程,優先采用國際已有的成熟標準,實現信息資源的無縫鏈接。第四,信息安全問題。在數據共享、數據公開的大趨勢下,需要從技術、管理和法律等多方面建立完整的安全體系。
3.3.1 個性化知識服務
數字圖書館應該在基于云計算等技術模式的支持下,進行數字資源的深層次開發,使系統具備更強大的互操作性,并能夠在此基礎上進行系統定制。如可以從讀者滿意度調查、讀者興趣、資源利用、分布及發展趨勢等方面的海量數據中,篩選出有用信息,并通過可視化技術展示出來,進行多種角度解析,以便跟蹤并推送讀者所關注的信息,滿足讀者的個性化需求,拓展新型知識服務功能。
3.3.2 協作共享服務
數字圖書館應積極調動相關行業的優勢力量,提升服務能力和運作效率,不斷充實自身的業務流程,實現不同用戶群體之間的信息共享與利用。如2009年,歐洲一些領先研究型圖書館和科技信息研究機構建立了伙伴關系,致力于改善互聯網上獲取科學數據的簡易性,2012年5月,美國行政管理和預算局則發布了《數字政府:建立一個面向21世紀的平臺來更好地服務美國人民》的行政指令。
3.3.3 智能化服務
智能信息服務已成功應用在知識管理、智能軟件幫助、用戶服務、網上營銷等多個領域?,F階段,智能短信服務、智能聊天機器人和智能搜索引擎等,已經成為新的應用亮點,智能信息服務正在不斷走向實用化和大眾化。清華大學圖書館在這方面進行了有益地嘗試和探索,其應用的具有自動學習功能的機器人“小圖”就是在線咨詢服務的一種全新體驗。
[1]Peter M,Timothy G.The NIST Definition of Cloud Computing[S].Recommendation of the National Institute of Standards and Technology,2011.
[2]吳昱.大數據精準挖掘[M].北京:化學工業出版社,2014:3
[3]Youngsuk Chi(Y.S.Chi).數字時代的學術出版:最新進展、當前趨勢與未來展望[EB/OL].[2014-10-08].http://ir.las.ac.cn/handle/12502/6452.
[4]Fang.馬丁路德金圖書館內有貝多芬博物館[EB/OL].[2014-11-02].http://blog.sina.com.cn/s/blog_4e276 d2c0102e453.html.