西安武警工程大學 楊濟華
分布式系統下的元數據管理研究
西安武警工程大學 楊濟華
網絡,通信,計算機等電子技術的飛快發展加快了信息化建設的腳步,而直線上升的信息量在給我們工作生活帶來便利和財富的同時,也讓我們陷入了深深的數據迷霧當中,隨著移動終端的發展,使人們對于網絡信息的依賴程度逐漸加深,因此對于信息資源的管理顯得尤為重要,元數據,就在海量信息管理的難題中應運而生。
元數據;分布式系統;元數據分布策略
元數據是為了解決雜亂無章網絡數據而提出的,因此當前元數據就是為了解決數據管理問題。
區穎薇、吳開華、趙慧勤、王曄等人分別在自己的文章中對數據產生背景進行了論述,他們的觀點基本一致。他們指出網絡的出現使大量的信息以一種新的方式涌現在我們面前。而對這些無序的數字化信息的進行有效的檢索與控制是目前各界人士都十分關注的一個問題。目前網絡資源的管理、檢索有兩種類型,一種是機讀目錄(MARC),它是“用計算機識別與閱讀的目錄”。另一種是搜索引擎(Search engine),它是“一類自動搜索、組織網絡的信息資源,并提供檢索服務的信息服務系統”。數據制定簡單、方便,特別是它更新快,能幫助人們及時找到最新信息,但不夠精確,查全、查準率低。
在數據管理方式不夠健全的背景下,為了將數據有序化,提高查詢效率,元數據作為一種新的概念被提出。
關于元數據概念的認識,雖然存在層次高低的區別,但對其基本特性意見基本一致,劉嘉博士在她的論文中對元數據這一概念作了最有深度的探討,對元數據的含義作了詳盡的闡述, 認為“元數據是關于數據的數據,關于結構化數據的數據。”在文件系統中,元數據就是描述系統文件的屬性信息,記錄文件位置的數據,我們可以理解為“一本書的目錄”。
元數據記錄了數據集群的特征信息和相對信息的映射,保證了查詢的準確性和數據定位的效率。
根據不同標準,可以將元數據劃分沖不同的類型
從數據組織上劃分,可以分為四類:
(1)知識描述型元數據(Intellectual Metadata)用來發現、鑒別和描述信息,如都柏林核心(Dublin Metadata Core Element Set,DC)、MARC是描述信息資源的特征信息;
(2)結構型元數據(Sturctural Metadata),用來描述數據的內部特征,比如位置信息(目錄、章節等);
(3)存取控制型元數據(Access Control Metadata)用來描述信息資源的權限,如使用條件,使用期限等;
(4)評價型元數據(Critical Metadata)用來評價和管理數據在整個系統中的位置
從結構化程度上劃分,可以分為三類:
(1)非結構化元數據,如Yahoo;
(2)簡單結構化元數據,指其字段較少,如DC;
(3)高度結構化元數據,如MARC;
從功能上劃分,可以分為三類:
(1)描述型元數據,是用來描述基本信息,用來查詢的元數據;
(2)結構型元數據,是記錄數據的結構;
(3)管理型元數據,是用來詳細記錄數據信息的元數據。
分布式系統是應對海量數據存儲管理,高擴展,高可靠的數據系統。而當今社會數據量在TB、PB 甚至 EB數量級的數據中心越來越多,因此需要大量的存儲資源來存儲和管理這些數據,而高效簡潔的數據組織管理更是必不可少目前分布式文件系統(如GFS、HDFS、Dynamo)由于其內在設計的簡潔性和通用性已成為解決大數據存儲管理的有效技術途徑。而對文件系統數據操作均要涉及到對元數據的操作,系統文件的訪問,首先就是要訪問其元數據進行定位,而后對服務器的數據塊進行訪問修改等。雖然元數據尺寸較小,大概占整個數據空間的0.1%~1%,但訪問頻率占所有數據訪問的50%—80%,可以看出,元數據在系統訪問中是十分重要的。
元數據的管理算法總的來說有兩種:第一種是子樹劃分,第二種是哈希算法,下面對這兩種算法進行介紹。
子樹劃分分為靜態和動態兩種,但動態子樹劃分不適合命名空間樹的性質因而很少使用,在這里不做介紹,主要介紹靜態子樹劃分。
靜態子樹法是一種比較簡單的劃分方法,常出現在早期的分布式文件系統中,如NFS、AFS,而近來的分布式文件系統如HDFS也使用了靜態子樹劃分法,該方法一般需要系統管理員來決定如何將命名空間樹劃分并將每一個子樹賦給指定的元數據服務器。其優點是元數據訪問數據服務器數量較少,因此重復訪問的效率高。而缺點則是無法動態分布數據,容易產生局部負載過高的“熱點”問題,還有子樹的遷移比較麻煩。
基于散列函數映射的方法是將散列函數應用于文件的路徑名或文件名去定位文件的元數據服務器。這種方式不但可以減輕元數據服務器間工作負載不平衡,這種方法的主要問題是元數據訪問的局部性無法得以很好地保持。另外,路徑名的修改會導致大量的文件元數據在MDS集群中遷移,增大了網絡負載。
子樹散列混合法,是將兩種方法融合,子樹劃分對局部訪問負載問題無法解決,散列算法無法處理存儲負載,將兩種方法混合,Brandt等基于這個想法提出了一種名為懶惰更新的混合策略(Lazy Hybrid,LH)。利用散列函數實現元數據服務器集群中元數據分布均勻,通過命名空間子樹實現對信息資源的分布均勻,而兩者同時使用的后果是網絡的通訊開銷增大。
本文對元數據的背景,概念,分類及元數據在分布式系統中的作用和管理方式,而面對當前數據量的激增,無序化數據的管理存在巨大的挑戰,這促使我們隊元數據進行更加深入,細致的研究。
[1]劉仲,周興銘.基于目錄路徑的元數據管理方法[J].軟件學報,2007,18(2):236-245.
[2]黃斌,彭宇行,彭小寧,云計算環境中高效可擴展的元數據管理方法[J].計算機工程與設計,2014,35(9):2991-2994.
[3]Xu L,Huang ZL,Jiang H,et al.VSFS:a searchable distributed file system[C]//Proceedings of the 9th Parallel Data Storage Workshop,2014:25-30.
楊濟華(1992—),男,陜西西安人,武警工程大學碩士研究生在讀,研究方向:武警信息化。