劉 樂
(陜西職業技術學院,陜西西安,710054)
數字圖書館中海量異構數據存儲組織研究
劉 樂
(陜西職業技術學院,陜西西安,710054)
在大數據時代,圖書館工作中最為重要的問題就是數據的存儲以及存取。圖書館數字化的管理方式也提升了資料的數據容量,數字圖書館也面臨著更高的存儲要求。
數字圖書館;大數據;存儲;應用
圖書館與其他行業相比,在數據存儲上有著較大的不同,主要體現在圖書館的數據量非常龐大,數據存儲的時間較長,并且數據具有多種類型,對數據存儲的安全性要求較高。隨著圖書館信息化程度不斷提高,數據存儲系統也面臨著更高的要求,要能夠實現系統的自動精簡配置、數據的壓縮以及刪除重復數據等技術,只有這樣才能夠管理好海量的數據。
所謂數字圖書館,也可以稱為一種系統,它屬于信息檢索系統。數字圖書館就是把傳統的資源經過數字化之后進行存儲,用戶能夠通過圖書館的終端設備或者通過互聯網對數字化的資源進行瀏覽。當今時代早已成為信息化的時代,所以,世界各國都在建立數字圖書館,企圖通過數字圖書館來促進國民教育,提高國民的綜合素質。隨著信息化的不斷發展,對數字圖書館的研究也在最近幾年越來越多,包括了數字資源的加工、存儲等一系列過程。
現代圖書館的結構非常復雜,其中不僅需要對圖書館讀者的信息數據進行存儲,比如讀者的圖書借閱信息和出入信息等,還需要將圖書資料進行數字化的處理,同時進行存儲和管理。在圖書館當中,對圖書本身的數據管理以及對數字化的圖書資料進行管理和存儲,二者是數據量最大的部分,尤其是一些大型圖書館,資源種類齊全,并且借閱量較大,內容齊全,設備種類多樣,這就增加了數據結構以及數據量。圖書館需要面對的數據量隨著時間的推移呈現出線性增長的趨勢,并且由于圖書館中各種各樣的服務設備也越來越多,信息化程度越來越高,同時圖書館對圖書和讀者的管理也更加規范,另外讀者對圖書館中的數字資源需求不斷加深,都導致了圖書館數據量增長速度越來越快。目前,我國大型圖書館的數據增長量已經達到了最高30TB每年。面對如此巨大的數據,而圖書館的儲存容量一般為100TB,相當于圖書館的數據儲存空間能夠滿足幾年的使用需要,所以必須采取針對性的措施。并且使用碎片整理技術,不能夠有效地挖掘出未使用的空間,所以該技術只適用于小型圖書館。
3.1 利用分布式文件管理系統,有效利用空間
在海量資源面前,要想存儲全部數據必然需要大規模的服務器,這也是近年來比較流行的一種方法。目前國外比較流行的方法是構建分布式文件系統,這也是許多大型公司采取的方法。比較著名的有谷歌的GFS系統,雅虎的HDFS系統,以及亞馬遜的Dymamo。谷歌采用的GFS系統屬于可擴展的分布式文件系統,主要應用于對大數據量的信息進行訪問。而且該系統能夠在普通硬件上使用,花費較低,所以應用于大型數字圖書館具有可操作性。GFS的系統機構比較簡單,包括了一臺主機和多個服務模塊。數據在GFS文件系統當中會被分割為大小相同的多個模塊,在不同的模塊服務區上進行存儲,每個模塊都有多個備份。而主機只需要對元數據進行維護即可,比如文件的目錄以及模塊的相對位置等,同時要管理模塊服務區。當對內容資源進行訪問時,首先在客戶端通過主機獲取元數據信息,然后通過元數據獲得所需數據在文件中的具體位置,向模塊服務區發出命令,將目標文件的數據展現出來。HDFS文件系統時對GFS系統的一種改變,在該系統中,包括了一臺主控節點和多臺數據節點。這樣的結構構成與GFS相仿。但是在文件訪問模式的設計上二者出現了差別,HDFS采用了一次錄入多次訪問的模式,將一致性問題簡化。存放副本時,HDFS通過使用機架感知策略提高了數據的可用性、安全性和網絡傳輸利用率。亞馬遜提出的Dunamo系統通過一致性哈希實現對集群節點的動態調整,在管理數據版本時,使用到了向量時鐘。亞馬遜所使用的文件系統與GFS和HDFS相比,它最大的特征是它屬于去中心化的文件系統,所需對于人工依賴性不強,所需的人工管理較小。分布式文件系統具有良好的存儲數據功能,所以在大型分布式服務上應用較多。
3.2 使用非結構化的數據索引技術,保證高效存取
數字圖書館信數據的存儲不僅是要高效地保存信息資源,同時也是為了更好的方便用戶。而用戶查找數據就需要使用到數據索引,不同的索引技術效果不同,只有索引結果的準確度較高時才能夠達到用戶的滿意。由于索引機制的效率不斷提升,所以非結構化的數據管理也逐漸在現實中應用。非結構化數據索引技術中還涉及到了索引緩存技術、索引分片技術等,最近幾年,已經根據非非結構化數據的不同誕生了許多索引技術。當前,XML索引技術包括了兩個種類,結構摘要類索引以及節點記錄類索引。對于結構摘要類索引,其中的基礎為樹結構的節點路徑信息,該索引采用的方式比較簡單,所以其樹結構只需要對不同的路徑數據進行維護即可,同時在這種索引方式中,也不可能有重復節點存在的可能。所謂節點記錄類索引技術,就是將XML的數據進行分解,使其成為包含數據單元的記錄集合,數據的位置信息同樣也是在該記錄中保存。要想支持高維數據,可以對多維數據索引模型進行修改,使索引模型能夠較好的支持高維數據,目前的技術主要包括了四個種類。第一是樹形索引技術;第二,對高維數據進行壓縮,然后存儲;第三種方法基于距離尺度,將高維數據的維度降低,使其轉變為一維數據,進而再對高維數據進行檢索;第四種方法主要基于Hash函數,其目的同樣是將高維數據的維數降低,使其轉化為一維數據,這種方法與第三種方法雖然原理不同,達到的效果基本一致,都是縮小了數據查詢范圍。
3.3 提升存儲空間的利用率
當前,數字圖書館對電子數據的存儲方法只要是要求電子圖書商家進行數據備份,但是采用這種方法進行數據存儲,顯然效率較低。為了能夠將數據存儲的效率大幅提升,最好的途徑就是使用重復數據刪除技術以及數據壓縮技術。目前可以采取Delta技術,該技術能夠對文件夾內部以及文件夾之間的數據信息進行對比,將其中的多余數據刪除,壓縮數據,當數據相似度越高時,壓縮比就越小。其次還可以通過消重技術來增加空間利用率。由于圖書館數據的存儲多是采用數據備份,但數據經過較多次的備份之后,重復數據就會大量產生,而重復數據刪除技術主要就是在備份過程中發揮作用,當進行備份時,該技術能夠很好地將其中相同的內容刪除,達到節約空間的效果。重復數據刪除又包括了兩種,一種是空間數據消除,另一種是時間數據消除。圖書館的數字化書籍數據本質上屬于自然數據,這種數據具有變化率低、數據備份完備、數據保存時間長、數據內容可感知性等特點。在備份重要的數據時,應該使用冗余級別的主機,或者使用RAID硬盤。在對比較關鍵的數據信息進行備份時,可采用RAID陣列的軟件鏡像,鏡像通過兩個相互獨立的硬件來控制。這個方法具有一定的可操作性,同時還有一定的優點,當設備中的某一部分意外發生故障時,整個系統的使用不會受到任何影響,而且更換非常容易。比如當網卡、控制器、視頻設備或者語音設備等發生故障時,整個系統的運行不會受到影響。另外還可以使用RAID4冗余技術,使用該技術對數據進行備份不僅效果好,同時還最為經濟。該技術需要一個冗余盤和多個數據盤構成,在盤的對應模塊當中,存儲著相應為的1的數量需要使偶數個。當其中的某個數據盤發生意外故障時,必須要更換新的數據盤,而要將原有數據恢復到新的數據盤當中,只需要根據偶數個1的規則就可以完成相應操作。在對數字圖書館的數據進行備份的實際操作當中,備份的方案有很多種,停機備份是使用比較多的方案,將需要操作的數據正常關閉,然后對數據進行冷備份。
3.4 采用自動精簡配置技術,提高存儲空間利用效率
在傳統情況下,針對某個應用,為了保證該應用的增長空間足夠使用,采取的空間分配方法均是完全供給,而這樣的分配手段必定會導致存在大量的閑置空間,不僅浪費了存儲空間,同時也浪費了能源。要解決這種問題,可以采用自動精簡配置技術,該技術能夠對存儲空間進行有效的管理。通常情況下,使用該技術不僅保證了應用性能不會受到影響,同時還能夠將存儲空間的利用效率大幅提升,幫助用戶實現100%的存儲空間利用率。該技術會根據數據的空間需求量進行自動分配,所以不會產生任何的多余空間。自動精簡分配技術的另一個明顯特點就是還能夠實現分配卷的自動擴展功能,不需要任何的手動操作。當數據占用空間需求變大時,不需要人工修改存儲的容量設置,能夠實現自動調整。將數據信息通過虛擬技術進行集成存儲,不僅實現了存儲空間利用率的大幅提升,同時還降低了總功耗,所以這種技術還能夠有效的降低機房能耗,節省了能源。
在大數據時代,數字圖書館要想尋求長遠的發展,必須要做好數據存儲和數據管理工作,有效的對海量異構數據進行存儲,提高存儲率。有條件數字圖書館可以選擇增加存儲服務器的方法,增加存儲空間。而一般情況下,數字圖書館可以采用分布式文件系統,有效地利用空間,同時在存儲數據時,必須要考慮到數據索引問題,可以采用非結構化的索引技術,縮小數據查詢范圍,提高查詢精度。另外,還可以通過重復數據刪除技術,數據壓縮技術,自動精簡配置技術,在有限的空間下提升存儲空間利用效率,實現更多數據的存儲。
[1] cADAL管理中心,大學數字圖書館國際合作計劃在中國的背景情況[OL].2010,http;//www.eadal.Zju.edu.cn
[2] 彭磊.建立SAN(存儲局域網)——高校圖書館數據存儲系統發展的趨勢[J].現代情報,2004,(04):36-37.
[3] Hubert Yoshida.大數據存儲平臺必須具有彈性[J].微電腦世界,2012,(10):97.
[4] 劉青寶等,鄧蘇,張維明等.海量信息組織與集成技術[J].計算機世界報,2004,(B8):94-95.
[5] 陳耀盛.網絡信息組織〔M].北京:科學技術出版社.2004:25-34.
Research on massive heterogeneous data storage in Digital Library
Liu Le
(Shaanxi Vocational and Technical College,Xi'an,Shaanxi,710054)
In the age of big data, an important problem is the data storage and access to the library work. Management mode of digital library also increased data capacity, digital library is facing higher storage requirements.
digital library;data storage;application