李可風,李晚照
數字圖書館的海量信息存儲策略
李可風,李晚照
針對數字圖書館在海量信息存儲方面存在數據來源各異、數據存儲方式多樣化、數據非結構化問題,文章設計了在數據中心架構下的數字圖書館海量信息存儲模型,討論利用三層存儲模型解決數字圖書資源存儲問題。
海量數據 數字圖書館 信息存儲
數字圖書館存儲著海量數據,而數據來自不同的數據源。面對海量和非結構性的數字資源,數字圖書館在信息存儲方面有特別的需求。第一,高存儲速率。海量的數字資源面臨著海量的讀者查詢請求和存儲請求[1-2]。為滿足讀者的使用體驗,須加快資源的存儲速率。第二,多元化存儲。數字圖書館包含大量的音頻和視頻資源[3-5],需采取合理的存儲策略,比如根據不同的數字信息存儲形式,動態地調整存儲方法,以實現信息資源的高效配置。第三,高抗毀性。在突發性的不可抗力影響下,如突然斷電、設備突然損毀,如果缺乏合理的備份措施,會造成數據丟失,損失無法估量。因此,數字資源在數據備份和數據修復方面需要重點考慮[6]。
面臨著上述存儲需求,當前數字圖書館的信息存儲存在三大挑戰:一是數據來源各異,數量巨大,現有的數據存儲方式不適應非結構化數據的存儲,無法提供較高的存儲速率。二是數據呈現多元化,現有的文件管理方式不能適應數據的多樣性和海量性,難以實現高效率的查找和定位。三是現有的存儲方式在數據安全性和抗毀性方面存在缺陷。針對上述存儲需求和存儲挑戰,需要相應的數字存儲技術支持。
面對海量的數字資源,除原有存儲技術和方法,如磁盤陣列RAID、直連存儲、網絡附加存儲、網絡局域存儲外,還有滿足高速存儲的光纖通道存儲、基于對象的存儲以及內容尋址存儲。
(1)光纖通道(Fiber Channel,FC)存儲。光纖信道是越來越普遍的高速網絡技術,高速局域網最早使用FC技術。由于光纖通道具有傳輸距離長、傳輸速度快、延遲低和故障率低等特點,如果數字圖書館采用光纖通道存儲,能提升資源共享范圍和質量。光纖通道存儲一般采用3種拓撲結構:點對點拓撲、限定環路拓撲和光纖拓撲。在光纖拓撲中,存儲設備需要多個光纖交換機連接。如果數字圖書館采用光纖通道存儲,需要購置特殊的具有FC接口的存儲設備,既使數字圖書館的管理成本增加,也會增加管理難度。隨著以太網Ethernet發展,存儲網絡和傳輸網絡不斷融合,以太光纖通道網絡FCoE(Fibre Channel over Ethernet)進入海量存儲管理者的視野,并占據主要地位。FCoE與光纖通道網絡相比,最大的優勢是無需具有FC接口的存儲設備,簡化存儲管理的復雜度,降低設備帶來的損耗。數字圖書館的海量信息資源需要高傳輸速率,須采用多樣化的靈活的存儲策略,可以考慮使用以太網光纖通道存儲策略。
(2)基于對象的存儲,主要采用基于對象的存儲設備Object-based Storage Device(OSD)。其與傳統的磁盤存儲類似,不同之處是:基于對象的存儲方式工作在比磁盤存儲更高的層次上。磁盤存儲是以數據塊為單位進行數據的組織和存取,數據塊的大小固定;OSD則將數據以對象的方式進行存儲,對象的大小可變。OSD具有較高的靈活度,能很好地滿足數字圖書館存儲的多元化需求。對象不僅包含屬性說明,而且包含普通的文本數據。同時,OSD可以提供命令接口,不局限于新建和擦除數據,也包含向對象寫入字節、讀取字節,以及設置和讀取對象的屬性。OSD不僅承擔管理數字對象的工作,還針對每一管理對象和命令建立安全機制來實現訪問控制?;趯ο蟮拇鎯δ軐崿F數字圖書館面向文本、音頻和視頻資料的多元化存儲,是數字圖書館信息存儲的新趨勢。
(3)基于內容尋址的存儲,是針對部分固定內容的存儲方式。固定內容主要指生成后不輕易變動或不再發生變動的內容。這些數據一般的存取模式為寫入一次、讀取多次。一般來說,法律文書、電子規范文檔、電子郵件歸檔、衛星圖像等可以考慮使用基于內容尋址的存儲方式。顧名思義,基于內容尋址的存儲指數據的存取是基于數據內容,而不是根據數據存放位置和存放名稱來檢索數據。基于內容尋址的存儲數據的存取主要依靠數字指紋,系統會根據文本內容計算哈希值,將哈希值作為數字指紋,然后根據數字指紋決定數據的存放。此外,基于內容尋址的存儲方法還有豐富的標簽,能對信息資源的軌跡進行追溯,具有較強的搜索能力。
數字圖書館信息資源存儲可以考慮綜合運用上述三種技術。筆者結合數字圖書館數字資源現狀,建立存儲模型,見圖1。

圖1 數字圖書館資源存儲模型
(1)存儲物理層。主要為數字資源提供最基本的網絡環境和物理存儲環境。原有的磁盤陣列RAID、光盤庫、集群、直連存儲、網絡附加存儲、網絡局域存儲等存儲技術和存儲設備可沿用。數字圖書館可以使用的云存儲設備和存儲網絡,大多先使用現有的存儲設備進行網絡連接,然后增加新的技術元素。FC光纖通道存儲可以在原有的存儲局域網中進行改造升級。這些技術的提升依賴統一的存儲設備管理軟件。通過該軟件,能整合底層的存儲硬件,并在上層提供虛擬化存儲管理,能實時監測存儲硬件設備狀態,以及進行硬件維修。
(2)存儲邏輯層。所有存儲核心管理在該層實現,分布式文件系統技術是主角。通過分布式文件系統和分布式數據庫系統等平臺,數字圖書館的多元化數字資源可以協同存儲,實現海量的數字資源調度、監控和備份。該層同樣需要存儲管理系統。通過存儲管理系統,采用基于對象的存儲和基于內容尋址的存儲技術策略來適應數字圖書館不同的數字資源存儲需求。該層的存儲強調使用存儲管理軟件實現物理層上的虛擬化存儲管理。隨著時間推移,數字圖書館會面對不同廠家、不同型號、遵循不同通信協議的存儲設備,如何將這些設備鏈接起來,以及整合這些異構的物流存儲設備和存儲資源,是數字圖書館建設必須考慮的問題。虛擬化存儲設計可以使存儲架構具有較大的可擴展性,能充分利用新舊設備,提高管理效率,降低管理成本。
(3)應用邏輯層。在該層向用戶提供可以直接操作的管理平臺。管理平臺不僅提供普通的web頁面服務,也向用戶提供數字信息收集、匯總、分析、綜合管理等實用性功能。這里的用戶包括讀者用戶和管理員用戶。管理員用戶可以方便地在應用層使用云端的借還書系統、書目管理系統等。應用層的使用方式靈活,移動終端、PC機、筆記本電腦,只要能接入數字圖書館局域網,就能在應用邏輯層使用數字圖書館的大數據存儲平臺,滿足信息收集和分析需求。
通過設置包括存儲物流層、存儲邏輯層和應用邏輯層,組成存儲模型,進行信息資源的數字化存儲,能有效解決數據多元化、數據源異構和數據存儲安全性問題。采用這樣的架構,能在應用邏輯層上為多種可聯網設備提供數據服務。
本文探討了在海量數據影響下,數字圖書館實現海量信息的存儲策略;在分析新技術的基礎上,構建數字圖書館存儲模型,描述存儲模型中不同的存儲層次的角色和作用,分析每一層提供的具體功能,并給出每一層的對應管理系統的功能設計。今后的研究重點是以該存儲策略為基礎的存儲應用程序實現,通過架設云平臺,將文中探討的關鍵存儲技術以應用程序的方式運用于存儲管理系統中,增強數字圖書館用戶的使用體驗。
[1]李愛勤,鮑凌云,馮曉娜.數字圖書館資源云存儲模型研究[J].現代情報,2012,32(2):48-50.
[2]魏曉萍.數字圖書館網格存儲模型及關鍵技術分析[J].現代情報,2009,29(11):85-86.
[3]Borthakur D.The hadoop distributed file system:Architecture and design[J].Hadoop Project Website,2007,11:21.
[4]Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
[5]Ihaka R,Gentleman R.R:a language for data analysis and graphics[J].Journal of computational and graphical statistics,1996,5(3):299-314.
[6]金志敏.基于云存儲技術的數字圖書館信息資源存儲架構模型探討[J].辦公自動化,2015(16):26-30,52.
Massive Information Storage Strategy of Digital Library
LI Ke-feng,LI Wan-zhao
In view of the issues concerning different data sources,diverse data storage and unstructured data existing in massive information storage of digital library,this paper designs a massive information storage model for digital library based on data center architecture,and discusses how to effectively use the three-storage model to solve data storage problems in digital libraries.
massive data;digital library;information storage
格式 李可風,李晚照.數字圖書館的海量信息存儲策略[J].圖書館論壇,2015(12):100-102.
李可風,南昌大學管理學院信息管理系副研究員;李晚照,南昌大學管理學院研究生。
2015-09-10