999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數字圖書館中海量異構數據存儲組織研究

2014-03-25 01:04:27
電子測試 2014年16期
關鍵詞:圖書館

劉 樂

(陜西職業技術學院,陜西西安,710054)

數字圖書館中海量異構數據存儲組織研究

劉 樂

(陜西職業技術學院,陜西西安,710054)

在大數據時代,圖書館工作中最為重要的問題就是數據的存儲以及存取。圖書館數字化的管理方式也提升了資料的數據容量,數字圖書館也面臨著更高的存儲要求。

數字圖書館;大數據;存儲;應用

0 引言

圖書館與其他行業相比,在數據存儲上有著較大的不同,主要體現在圖書館的數據量非常龐大,數據存儲的時間較長,并且數據具有多種類型,對數據存儲的安全性要求較高。隨著圖書館信息化程度不斷提高,數據存儲系統也面臨著更高的要求,要能夠實現系統的自動精簡配置、數據的壓縮以及刪除重復數據等技術,只有這樣才能夠管理好海量的數據。

1 數字圖書館概念

所謂數字圖書館,也可以稱為一種系統,它屬于信息檢索系統。數字圖書館就是把傳統的資源經過數字化之后進行存儲,用戶能夠通過圖書館的終端設備或者通過互聯網對數字化的資源進行瀏覽。當今時代早已成為信息化的時代,所以,世界各國都在建立數字圖書館,企圖通過數字圖書館來促進國民教育,提高國民的綜合素質。隨著信息化的不斷發展,對數字圖書館的研究也在最近幾年越來越多,包括了數字資源的加工、存儲等一系列過程。

2 數字圖書館大數據存儲組織中存在的問題

現代圖書館的結構非常復雜,其中不僅需要對圖書館讀者的信息數據進行存儲,比如讀者的圖書借閱信息和出入信息等,還需要將圖書資料進行數字化的處理,同時進行存儲和管理。在圖書館當中,對圖書本身的數據管理以及對數字化的圖書資料進行管理和存儲,二者是數據量最大的部分,尤其是一些大型圖書館,資源種類齊全,并且借閱量較大,內容齊全,設備種類多樣,這就增加了數據結構以及數據量。圖書館需要面對的數據量隨著時間的推移呈現出線性增長的趨勢,并且由于圖書館中各種各樣的服務設備也越來越多,信息化程度越來越高,同時圖書館對圖書和讀者的管理也更加規范,另外讀者對圖書館中的數字資源需求不斷加深,都導致了圖書館數據量增長速度越來越快。目前,我國大型圖書館的數據增長量已經達到了最高30TB每年。面對如此巨大的數據,而圖書館的儲存容量一般為100TB,相當于圖書館的數據儲存空間能夠滿足幾年的使用需要,所以必須采取針對性的措施。并且使用碎片整理技術,不能夠有效地挖掘出未使用的空間,所以該技術只適用于小型圖書館。

3 數字圖書館海量異構數據存儲問題解決辦法

3.1 利用分布式文件管理系統,有效利用空間

在海量資源面前,要想存儲全部數據必然需要大規模的服務器,這也是近年來比較流行的一種方法。目前國外比較流行的方法是構建分布式文件系統,這也是許多大型公司采取的方法。比較著名的有谷歌的GFS系統,雅虎的HDFS系統,以及亞馬遜的Dymamo。谷歌采用的GFS系統屬于可擴展的分布式文件系統,主要應用于對大數據量的信息進行訪問。而且該系統能夠在普通硬件上使用,花費較低,所以應用于大型數字圖書館具有可操作性。GFS的系統機構比較簡單,包括了一臺主機和多個服務模塊。數據在GFS文件系統當中會被分割為大小相同的多個模塊,在不同的模塊服務區上進行存儲,每個模塊都有多個備份。而主機只需要對元數據進行維護即可,比如文件的目錄以及模塊的相對位置等,同時要管理模塊服務區。當對內容資源進行訪問時,首先在客戶端通過主機獲取元數據信息,然后通過元數據獲得所需數據在文件中的具體位置,向模塊服務區發出命令,將目標文件的數據展現出來。HDFS文件系統時對GFS系統的一種改變,在該系統中,包括了一臺主控節點和多臺數據節點。這樣的結構構成與GFS相仿。但是在文件訪問模式的設計上二者出現了差別,HDFS采用了一次錄入多次訪問的模式,將一致性問題簡化。存放副本時,HDFS通過使用機架感知策略提高了數據的可用性、安全性和網絡傳輸利用率。亞馬遜提出的Dunamo系統通過一致性哈希實現對集群節點的動態調整,在管理數據版本時,使用到了向量時鐘。亞馬遜所使用的文件系統與GFS和HDFS相比,它最大的特征是它屬于去中心化的文件系統,所需對于人工依賴性不強,所需的人工管理較小。分布式文件系統具有良好的存儲數據功能,所以在大型分布式服務上應用較多。

3.2 使用非結構化的數據索引技術,保證高效存取

數字圖書館信數據的存儲不僅是要高效地保存信息資源,同時也是為了更好的方便用戶。而用戶查找數據就需要使用到數據索引,不同的索引技術效果不同,只有索引結果的準確度較高時才能夠達到用戶的滿意。由于索引機制的效率不斷提升,所以非結構化的數據管理也逐漸在現實中應用。非結構化數據索引技術中還涉及到了索引緩存技術、索引分片技術等,最近幾年,已經根據非非結構化數據的不同誕生了許多索引技術。當前,XML索引技術包括了兩個種類,結構摘要類索引以及節點記錄類索引。對于結構摘要類索引,其中的基礎為樹結構的節點路徑信息,該索引采用的方式比較簡單,所以其樹結構只需要對不同的路徑數據進行維護即可,同時在這種索引方式中,也不可能有重復節點存在的可能。所謂節點記錄類索引技術,就是將XML的數據進行分解,使其成為包含數據單元的記錄集合,數據的位置信息同樣也是在該記錄中保存。要想支持高維數據,可以對多維數據索引模型進行修改,使索引模型能夠較好的支持高維數據,目前的技術主要包括了四個種類。第一是樹形索引技術;第二,對高維數據進行壓縮,然后存儲;第三種方法基于距離尺度,將高維數據的維度降低,使其轉變為一維數據,進而再對高維數據進行檢索;第四種方法主要基于Hash函數,其目的同樣是將高維數據的維數降低,使其轉化為一維數據,這種方法與第三種方法雖然原理不同,達到的效果基本一致,都是縮小了數據查詢范圍。

3.3 提升存儲空間的利用率

當前,數字圖書館對電子數據的存儲方法只要是要求電子圖書商家進行數據備份,但是采用這種方法進行數據存儲,顯然效率較低。為了能夠將數據存儲的效率大幅提升,最好的途徑就是使用重復數據刪除技術以及數據壓縮技術。目前可以采取Delta技術,該技術能夠對文件夾內部以及文件夾之間的數據信息進行對比,將其中的多余數據刪除,壓縮數據,當數據相似度越高時,壓縮比就越小。其次還可以通過消重技術來增加空間利用率。由于圖書館數據的存儲多是采用數據備份,但數據經過較多次的備份之后,重復數據就會大量產生,而重復數據刪除技術主要就是在備份過程中發揮作用,當進行備份時,該技術能夠很好地將其中相同的內容刪除,達到節約空間的效果。重復數據刪除又包括了兩種,一種是空間數據消除,另一種是時間數據消除。圖書館的數字化書籍數據本質上屬于自然數據,這種數據具有變化率低、數據備份完備、數據保存時間長、數據內容可感知性等特點。在備份重要的數據時,應該使用冗余級別的主機,或者使用RAID硬盤。在對比較關鍵的數據信息進行備份時,可采用RAID陣列的軟件鏡像,鏡像通過兩個相互獨立的硬件來控制。這個方法具有一定的可操作性,同時還有一定的優點,當設備中的某一部分意外發生故障時,整個系統的使用不會受到任何影響,而且更換非常容易。比如當網卡、控制器、視頻設備或者語音設備等發生故障時,整個系統的運行不會受到影響。另外還可以使用RAID4冗余技術,使用該技術對數據進行備份不僅效果好,同時還最為經濟。該技術需要一個冗余盤和多個數據盤構成,在盤的對應模塊當中,存儲著相應為的1的數量需要使偶數個。當其中的某個數據盤發生意外故障時,必須要更換新的數據盤,而要將原有數據恢復到新的數據盤當中,只需要根據偶數個1的規則就可以完成相應操作。在對數字圖書館的數據進行備份的實際操作當中,備份的方案有很多種,停機備份是使用比較多的方案,將需要操作的數據正常關閉,然后對數據進行冷備份。

3.4 采用自動精簡配置技術,提高存儲空間利用效率

在傳統情況下,針對某個應用,為了保證該應用的增長空間足夠使用,采取的空間分配方法均是完全供給,而這樣的分配手段必定會導致存在大量的閑置空間,不僅浪費了存儲空間,同時也浪費了能源。要解決這種問題,可以采用自動精簡配置技術,該技術能夠對存儲空間進行有效的管理。通常情況下,使用該技術不僅保證了應用性能不會受到影響,同時還能夠將存儲空間的利用效率大幅提升,幫助用戶實現100%的存儲空間利用率。該技術會根據數據的空間需求量進行自動分配,所以不會產生任何的多余空間。自動精簡分配技術的另一個明顯特點就是還能夠實現分配卷的自動擴展功能,不需要任何的手動操作。當數據占用空間需求變大時,不需要人工修改存儲的容量設置,能夠實現自動調整。將數據信息通過虛擬技術進行集成存儲,不僅實現了存儲空間利用率的大幅提升,同時還降低了總功耗,所以這種技術還能夠有效的降低機房能耗,節省了能源。

4 總結

在大數據時代,數字圖書館要想尋求長遠的發展,必須要做好數據存儲和數據管理工作,有效的對海量異構數據進行存儲,提高存儲率。有條件數字圖書館可以選擇增加存儲服務器的方法,增加存儲空間。而一般情況下,數字圖書館可以采用分布式文件系統,有效地利用空間,同時在存儲數據時,必須要考慮到數據索引問題,可以采用非結構化的索引技術,縮小數據查詢范圍,提高查詢精度。另外,還可以通過重復數據刪除技術,數據壓縮技術,自動精簡配置技術,在有限的空間下提升存儲空間利用效率,實現更多數據的存儲。

[1] cADAL管理中心,大學數字圖書館國際合作計劃在中國的背景情況[OL].2010,http;//www.eadal.Zju.edu.cn

[2] 彭磊.建立SAN(存儲局域網)——高校圖書館數據存儲系統發展的趨勢[J].現代情報,2004,(04):36-37.

[3] Hubert Yoshida.大數據存儲平臺必須具有彈性[J].微電腦世界,2012,(10):97.

[4] 劉青寶等,鄧蘇,張維明等.海量信息組織與集成技術[J].計算機世界報,2004,(B8):94-95.

[5] 陳耀盛.網絡信息組織〔M].北京:科學技術出版社.2004:25-34.

Research on massive heterogeneous data storage in Digital Library

Liu Le
(Shaanxi Vocational and Technical College,Xi'an,Shaanxi,710054)

In the age of big data, an important problem is the data storage and access to the library work. Management mode of digital library also increased data capacity, digital library is facing higher storage requirements.

digital library;data storage;application

猜你喜歡
圖書館
去圖書館坐坐
發明與創新(2021年6期)2021-03-10 07:13:54
圖書館
圖書館里送流年
圖書館
文苑(2019年20期)2019-11-16 08:52:12
夜間的圖書館
幽默大師(2019年5期)2019-05-14 05:39:38
圖書館里的小驚喜
圖書館 Library
幼兒畫刊(2018年11期)2018-12-03 05:11:44
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
主站蜘蛛池模板: 青青国产视频| 国产一区二区人大臿蕉香蕉| 中文字幕人妻av一区二区| 国产乱码精品一区二区三区中文 | 日韩精品专区免费无码aⅴ| 日本草草视频在线观看| 日韩欧美综合在线制服| 秋霞国产在线| 日韩毛片在线视频| 波多野结衣一区二区三视频 | 最新亚洲人成无码网站欣赏网 | 国产成本人片免费a∨短片| 国产69精品久久| 三上悠亚一区二区| 看av免费毛片手机播放| 亚洲人成人无码www| 亚洲 欧美 偷自乱 图片| 亚洲最黄视频| A级毛片无码久久精品免费| 久久无码高潮喷水| 久久中文字幕av不卡一区二区| 久久综合九色综合97网| 亚洲中文字幕久久精品无码一区| 人人91人人澡人人妻人人爽| 欧美α片免费观看| 免费看a毛片| 老司机aⅴ在线精品导航| 国外欧美一区另类中文字幕| 又污又黄又无遮挡网站| 在线观看免费黄色网址| 亚洲精品福利视频| 无码丝袜人妻| 国产91小视频在线观看| 国产午夜精品一区二区三| 亚洲视频免费播放| 超清无码熟妇人妻AV在线绿巨人| 日本欧美一二三区色视频| 欧美色丁香| 在线视频97| 欧美精品三级在线| 无码一区二区三区视频在线播放| 高清不卡毛片| 国产成人亚洲精品色欲AV| 老司机午夜精品视频你懂的| 国产Av无码精品色午夜| 国产亚洲精久久久久久无码AV| 亚洲一级毛片| 永久免费精品视频| 高清码无在线看| 亚洲午夜国产片在线观看| 伊人久久福利中文字幕| 玖玖精品视频在线观看| 91九色国产在线| 国产91精选在线观看| 色悠久久综合| 欧美国产菊爆免费观看| 天天综合网色中文字幕| 无码乱人伦一区二区亚洲一| 四虎免费视频网站| 亚洲第一色视频| 天堂va亚洲va欧美va国产| 成人午夜视频在线| h视频在线观看网站| 亚洲精品va| 国产成人欧美| 青青久在线视频免费观看| 人妻丝袜无码视频| 一级一级一片免费| 国产激爽爽爽大片在线观看| 欧美日韩久久综合| 亚洲国产看片基地久久1024| 美女裸体18禁网站| 一区二区三区四区精品视频| 国产精品女同一区三区五区 | a级毛片视频免费观看| 国产又大又粗又猛又爽的视频| 亚洲日本一本dvd高清| 成人免费视频一区二区三区| 992tv国产人成在线观看| 一级毛片在线播放免费| 亚洲视频一区在线| 99视频在线精品免费观看6|