馬曉亭(蘭州商學院信息工程學院 甘肅 蘭州 730020)
目前,移動互聯網、云計算、物聯網、大數據和傳感器網絡技術飛速發展,圖書館通過對采集的海量讀者閱讀行為數據、社會關系數據、閱讀終端運行數據,以及其他相關監控數據進行實時的處理、存儲和分析,可準確預測讀者閱讀需求和閱讀方式的變化趨勢,為讀者提供安全、高效、經濟和便捷的大數據閱讀服務。
但是,伴隨讀者閱讀QOS(Quality of Service,服務質量)標準、數據中心系統結構和服務模式復雜度的增長,圖書館數據呈現數據體量巨大(Volume)、數據類型繁多(Variety)、處理速度快(Velocity)和商業價值高(Value)的4V大數據特性,對圖書館數據的產生、收集、保存、維護、處理和利用的生命周期管理提出了新要求[1]。此外,讀者閱讀的QOS保證,也要求圖書館的大數據資源可長期保存、維護、管理和二次開發利用。因此,圖書館必須加強對所屬大數據資源的監護管理,將工作重點從數據資源的單純長期保存,轉移到以用戶服務需求和圖書館服務能力提升為核心,對數據資源的主動、持續和不間斷監護工作上,才能確保大數據資源安全、可控、高價值密度和長期可用[2]。
世界權威研究機構和組織依據數據產生、存在、組織和使用方式的不同,給“數據”賦予不同的定義。英國JISC(Joint Information Systems Committee,聯合信息系統委員會) 將“數據”定義為“原始的研究數據”[3]。美國NSC(National Science Foundation,國家科學基金)將“數據”定義為“數據是指所有能以數字化形式存儲并能以電子方式獲取的信息,包括數字、文本、出版物、感應器讀數流、視頻、音頻、算法、軟件、模型、模擬、圖像等”[4]。大數據時代,依據圖書館服務過程中數據的使用價值、存儲方式、應用對象和內容,本文將“圖書館數據”定義為“圖書館在以讀者為核心的服務過程中所涉及的圖書館服務系統管理、用戶閱讀行為、社會關系采集、讀者閱讀反饋和閱讀收益評估、服務器設備和閱讀終端運行結果等數字的信息”。
而對于“數據監護”的定義,英國JISC定義為“指在數據的生命周期內,對數據進行評估管理、維護和完善增值,以便于數據在當前和未來被使用”[5]。本文根據讀者閱讀活動的大數據QOS保證和數據可用性需求,將圖書館數據監護定義為:“圖書館在讀者大數據閱讀服務過程中,為了保證所采集、存儲的大數據資源具有較高的價值密度、可用性、可控性和經濟性,根據數據生命周期發展規律,對大數據資源長期開展的管理、評價、選擇、注釋、加工、重現、組織、完善和存儲活動,以確保數據未來可被再發現和再利用”。
圖書館的傳統用戶服務數據、系統服務器歷史監測數據、讀者閱讀行為歷史數據、讀者社會關系數據、讀者個體特征數據等大數據資源具有較強的動態數據特征。有效實現對此類動態數據的實時動態監控、持續性補充、完善和更新,是保證大數據資源真實、完整、高價值和可用的關鍵。
首先,圖書館應依據動態數據的類型、結構特點、使用方向和存儲方式,通過存檔實現數據資源的選擇性管理和存儲,保證數據在物理特性上安全、正確、完整、可控和可用。其次,圖書館通過數據動態存儲方式實現數據的可持續性更新與維護,避免數據因為存儲與應用系統技術的革新,以及應用對象、方法和途徑變化而不被發現、獲取、理解和使用[3]。第三,動態數據監護應廣泛調研數據使用者的應用需求、內容、途徑和方法,重點加強數據在圖書館不同用戶、服務系統和應用過程中的共享,并對重點數據資源的原始內容和補充內容進行標注,避免數據內容被誤讀和誤用。
大數據環境下,傳統的數據安全管理與防御手段,難以滿足圖書館大數據服務對數據質量、價值密度、可用性和可控性的需求。
首先,傳統IT環境下,圖書館通常以人工安全管理為主,系統服務平臺安全管理與監測軟件系統為輔,完成用戶服務網站漏洞掃描、海量安全數據統計、系統安全狀況跟蹤和安全事件排隊周期處理等,處理過程具有低效、實時性差、周期長和不經濟的缺點,不能滿足讀者大數據服務安全、高效、便捷和低碳的需求。其次,黑客會利用大數據技術對圖書館系統進行安全評估、漏洞發現、權限提升、植入黑鏈和木馬移植等,且利用的大數據新型攻擊方法具有計劃周密、目標明確、隱蔽性強、破壞力大和持續時間長的特點,大幅增加了非法攻擊的成功率和有效性。第三,在大數據時代,圖書館的用戶服務系統組織結構和服務模式更加復雜。此外,傳統的安全管理與監測系統具有反應周期長、應急響應慢、攻擊發現不敏感和安全管理策略效率低的缺點,很難在海量、多用戶、多數據類型和數據高速處理的大數據環境中快速發現被入侵目標,不能實時開展攻擊源的發現、系統漏洞補丁和病毒檢測等活動[6]。
依據大數據技術構建智慧圖書館和為讀者提供智慧閱讀服務,是目前圖書館建設和服務模式變革的一個主要趨勢。
首先,在大數據時代,圖書館通過對采集的海量服務系統管理與監控數據、用戶行為與社會關系數據、服務終端傳輸與運行數據,以及其他與讀者大數據閱讀活動相關的數據進行采集、分析、評估和決策,來準確分析與預測讀者的閱讀需求、大數據服務有效性、讀者群閱讀活動輿情監控、讀者閱讀活動安全與質量管理活動,并為圖書館服務模式與方法變革提供強大的數據決策支持。因此,基于物聯網技術的數據采集、傳輸、管理與應用平臺是圖書館大數據監護應關注的重點,圖書館必須加強以讀者為核心的大數據服務感知層、傳輸層、平臺層和應用層的數據監護,才能確保大數據監護決策具有科學性、準確性、前瞻性和及時性[7]。其次,為了提高智慧閱讀服務的質量標準和有效性,圖書館必須不斷增加讀者數據采集設備、監控設備、網絡數據傳輸設備、閱讀終端設備的數量和密度。這將會導致大數據服務數據量的快速激增,對圖書館的數字信息采集效率、數據智慧存儲與處理能力、網絡數據傳輸與轉發性能、數據挖掘和發現質量提出較高要求。而數據監控的有效性則是提高數據價值密度,以及緩解系統數據采集、存儲、評估、處理和決策壓力的有效途徑[8]。第三,對大數據資源的有效監護,也是圖書館準確掌握讀者群閱讀需求和閱讀活動輿情變化趨勢,將讀者服務從以“傳統經驗”為依據向以“科學大數據”為指導轉變的重要途徑。
隨著讀者閱讀需求和圖書館用戶QOS標準的提高,傳統IT環境下的數字資源長期保存策略,已不能滿足圖書館大數據服務的需求[9]。在大數據時代,圖書館數據管理不僅要求確保數據的安全性、易控性、可用性和經濟性,還要求必須依據數據生命周期發展規律,通過數據監護技術對大數據資源的長期存儲、管理和應用機制進行優化和完善。
伴隨圖書館數據管理與存儲技術的發展,如何避免數據在圖書館技術革新和設備更換中被損壞、丟失、無法識別和可用性降低,是長期困擾圖書館數據采集、存儲、管理和應用的一個難題。因此,數據監護在保證數據存儲長期完整、真實和可控的前提下,還必須將管理重點從數據的被動存儲與保護,轉換到以大數據資源積極存儲與管理、價值發現與挖掘、資源利用和再利用為核心的大數據監護上來。此外,依據大數據資源生命周期發展規律,通過科學構建數據監護模型來實現數據的精確選擇、價值評估、數據發表、系統組織和可用性監護等,是數字資源長期保存、優化和完善的必要保證。
大數據閱讀服務要求數據具有較強的科學性、實時可用性、生命周期活動可控性和數據管理動態可維護性。因此,圖書館在數據監護系統的設計中,應堅持數據管理的科學性、有效性和數據可用性相結合,依據讀者閱讀服務過程中大數據的生命周期發展規律,重點做好數據監護系統在數據采集與處理、數據質量保證、數據的高效與可靠存儲策略、數據存儲平臺可靠性4個方面的建設工作。
以圖書館數據價值提升和讀者服務數據可用性保證為目的,本文設計的圖書館大數據監護系統組織結構圖如圖1所示。

圖1 圖書館大數據監護系統的組織結構圖
該系統的設計過程依據圖書館大數據的生命周期發展規律和服務對象,在堅持開放、互連、模塊化和低復雜度原則的前提下,將系統劃分為4個相互獨立并具有較強無關性的模塊。高層系統模塊依靠較低層模塊提供的服務支持,最終為讀者大數據服務提供安全、高效、經濟和可控的數據管理與保障服務[10]。
首先,圖書館利用服務系統運行監控設備、用戶行為采集設備、傳感器、網絡監測設備等,對涉及服務系統運行、用戶服務、用戶閱讀行為與社會關系等數據,進行數據的發現、采集和數據類型轉換等操作。其次,根據數據集的性質、結構、內容、文檔的數量和復雜度等情況,為不同的數據集分配相應的數據處理標準,并對數據集進行創建元數據、數據處理、文檔處理和發布數據等操作,確保數據完整、標準化、可檢索、能共享和易管理,并將最終處理后的數據通過網絡系統傳輸至存儲平臺保存[11]。
圖書館大數據監護的核心是加強對數據質量的控制,保證數據質量可滿足讀者閱讀和圖書館大數據服務需求。
首先,圖書館應依據服務系統的建設與管理、用戶閱讀需求與內容、讀者服務模式與方法革新、大數據質量保證的標準,制訂相應的原數據內容采集、數據內容保留與轉讓、數據質量跟蹤、數據補充與完善等大數據質量保證體系,確保大數據管理過程全面、規范、科學和合理。其次,應將大數據資源完全數據化并匿名處理,對大數據集的數據總量、元數據、數據可用性、元數據完整性、數據保密性、數據格式轉換有效性進行監控和檢查。同時,在堅持數據定性和定量質量控制方法相結合的前提下,依據數據資源的內容、結構特征、使用途徑和質量保證標準,實現數據質量的分級管理與保證。第三,應制訂可靠和易執行的大數據庫資源備份、保存和繼承機制,確保大數據庫存儲系統與備份系統相互兼容、補充、完善、錯誤檢測和服務轉換,保證用戶對數據的長期、不間斷訪問[12]。第四,應聘請第三方權威機構參與到圖書館大數據質量的管理與控制中來。通過對大數據資源的加密、訪問權限控制等方式,確保數據在采集、管理、使用與共享過程中,不被非法用戶截獲、竊取和篡改,并為數據所有者和讀者的個人隱私安全提供技術支持。
圖書館大數據保存策略基于下層數據質量控制層的服務支持,為上層可靠的大數據存儲平臺提供數據的真實性、可靠性、邏輯完整性和可用性保障。
首先,圖書館大數據存儲系統應具備較強的智慧管理功能,可高效、自動地實現大數據融合存儲、查詢、分析和歸檔的全生命周期管理。同時,應支持對多種設備接口、通信協議和數據類型的結構化與非結構化數據,進行統一存儲、歸檔與分析,避免“數據孤島”現象發生。其次,管理系統應結構簡單和易于控制,可對存儲系統硬件設備、軟件系統和存儲區域網絡進行統一的管理。其通過對所采集的存儲系統運營狀態反饋數據進行性能統計和智能分析,實現系統的自動化精簡配置和存儲空間的動態分配。第三,大數據環境下,圖書館大數據存儲系統通常采取分布式存儲節點結構,存在存儲介質異構、數據分片和存儲資源分配難度大的問題。因此,圖書館應增強基于大數據存儲管理算法的科學性,實現大數據資源存儲的智能、虛擬化管理[13]。第四,大數據存儲平臺建設和系統運營過程應加強能耗管理。圖書館在存儲系統構建中應盡量使用閃存、PCM(Phase Change Memory, 相變存儲器)等低能耗的新型存儲介質。同時,還應采用能耗查詢優化、數據存儲節點負載均衡、能耗均衡的集群存儲分配、面向集群的高能效緩沖區置換算法等,實現大數據存儲平臺的低碳運營和綠色存儲[14]。
首先,為了確保大數據存儲過程安全、高效、經濟和易控,圖書館可靠的大數據存儲平臺應采用集群存儲系統的模式建設,并將主存儲集群存儲的大數據資源在備份存儲集群上進行冗余備份存儲。當主存儲集群遭受不可預測的攻擊導致服務暫停或者數據丟失時,圖書館則自動將數據存儲、查詢等待服務切換至備份存儲集群上,確保數據存儲、訪問等服務安全、高效、可控和不間斷。其次,存儲平臺系統應具備對大數據資源的快速索引和高效分析能力,有較強的硬件兼容性和后續橫向擴展特性,可根據未來圖書館大數據資源增量和閱讀服務對數據存儲的性能需求、存儲平臺的系統性能、存儲能力和數據監護能力進行動態擴展[15]。第三,對于復雜大數據的存儲,存儲平臺應根據大數據的安全級別、數據類型、應用模式和訪問頻率,把存儲系統隔離為若干個相互獨立的物理空間,保證數據存儲過程安全、高效、可控和易于訪問。
隨著高新技術在圖書館系統建設和用戶服務過程中的大量應用,圖書館用戶服務過程會即時產生海量的數據。這些數據是圖書館用戶服務創新和讀者閱讀滿意度保障的重要戰略性資源,同時,也為圖書館用戶服務模式決策與方法變革提供可靠的大數據支撐作用。因此,圖書館必須以滿足讀者個性化閱讀需求和提升服務系統保障能力為目標,加強大數據在采集、處理、存儲、管理和應用等過程的監護工作,這樣才能確保數據資源安全、高價值、可控和易用,才能為讀者提供安全、高效、經濟、易控和可預測的個性化大數據閱讀服務。
[1]楊鶴林. 從數據監護看美國高校圖書館的機構庫建設新思路:來自DataStaR的啟示[J]. 大學圖書館學報, 2012, 27(2):23-28,73.
[2]鐘 聲. 大數據驅動的高校圖書館數據監護探究[J]. 情報資料工作, 2014(3):103-106.
[3]Lord P, Macdonald A. Data Curation for E-Science in the UK:An Audit to Establish Requirements for Future Curation and Provision[EB/OL].[2014-09-02]. http://www.jisc.ac.uk/uploaded_documents/e-scienceReportfinal. pdf.
[4]張興旺. 圖書館大數據體系構建的學術環境和戰略思考[J]. 情報資料工作, 2013(2):12-17.
[5]程蓮娟. 美國高校圖書館數據監護的實踐及其啟示[J]. 圖書館雜志, 2012,31(1):76-78.
[6]孟小峰, 慈 祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展, 2013,50(1):146-149.
[7]衛 瀟. LOCKSS系統中的數據監護[J]. 圖書館學研究, 2014(1):28-31.
[8]王文聯. 嵌入數據監護的圖書館機構庫高效運行模式[J]. 新世紀圖書館, 2014(3):36-38,43.
[9]張秋彥. 高校科學數據監護研究[J]. 情報科學, 2013, 31(5):42-45.
[10]姜 山, 王 剛. 大數據對圖書館的啟示[J]. 圖書館工作與研究,2013(4):52-54,79.
[11]裴玉香. 高校圖書館數據監護工作初探[J]. 圖書館理論與實踐,2013(8):79-81.
[12]White House. Big Data Across the Federal Government[EB/OL].[2013-12-22].http://www. whitehouse. gov/sites/default/files/microsites/ostp/big_data_factsheet.p df.
[13]殷沈琴, 張計龍, 竇 方. 歐洲科學數據監護的標準與實踐[J].圖書館雜志, 2013(6):76-80.
[14]楊鶴林. 英國數據監護研究成果及其在高校圖書館的應用:DCC建設回顧[J]. 圖書館雜志, 2014(3):84-90.
[15]夏姚璜. 國外數據監護教育和培訓實踐及啟示[J]. 新世紀圖書館,2013(6):35-37.