胡輝,胡松,蔡昭權,盛杰,劉江林,雷莉
(1.惠州學院,惠州 516007;2.惠州市疊維科技有限公司,惠州 516001;3.廣東科學技術職業學院,珠海 519090)
一種基于節點容器的多源異構技術
胡輝1,胡松1,蔡昭權1,盛杰2,劉江林2,雷莉3
(1.惠州學院,惠州516007;2.惠州市疊維科技有限公司,惠州516001;3.廣東科學技術職業學院,珠海519090)
過去大量企業得益于計算機技術,建立各種各樣的業務系統以提高企業的工作效率和業務水平,然而這些各自為政的業務系統在今天顯然已經不再適應大數據時代的發展,在融合這些業務系統的時候均遇到歷史數據重構的問題。提出一種基于節點容器的多源異構數據庫技術,解決不同數據庫數據在融合過程中出現的結構性差異帶來的障礙。關鍵詞:
在過去,許多企業認識到計算機技術能夠帶動自身的能動性,提高企業整體的工作效率和業務水平,于是大量的業務系統被開發出來,以滿足當時的企業需求。然而由于當時的計算機技術尚未成熟,在應用系統方面,少有具有前瞻性的設計,從而導致了大量的業務系統僅僅能滿足一時的需求,具有極大的局限性和極低的拓展性[1]。而計算機技術的飛速發展使得原有的業務系統不愿被繼續維護,企業迫切的期待新技術帶來更靈活更優于企業發展的業務平臺。不同業務系統攜帶的不同數據庫數據的結構性差異就對數據的整合和重構帶來了極大的障礙[2]。
本文提出了一種基于節點容器的多源異構數據庫技術,通過將數據集成結構以節點容器的結構進行存儲,將多個單源同構節點容器轉化成多源異構節點容器,從而實現了不同數據集成結構的數據整合和重構。
美國的計算機高級信息技術公司開發了一款名為MULTIBASE的聯邦數據庫,通過視圖定義描述局部模式和全局模式,使得位置透明性對于用戶而言更為完全,但這僅僅只是一個原型系統。而為了處理大規模的異構多媒體信息,IBM公司的Almaden研究中心提出了一個名為Garlic[3]的項目,通過中間件式的查詢處理器,利用數據庫查詢優化技術提高查詢效率,進而提高相關聯的不同數據庫的搜索能力。Stanford大學也開發了一個異構信息源集成系統——TSIMMIS[4],通過自描述的形式為數據打上標簽,形成標簽樹后轉化為OEM(Object Exchange Model)模型,使得來自異構數據源的數據可以不受限制地被各自的對應程序解讀,但非智能的人工編寫特定的OEM轉換程序使得工作量大增。Standford大學的另一個數據庫管理信息系統Lore同樣采用OEM數據模型,但引入了XML處理模塊。而采用XML作為統一數據交換標準的數據集成平臺是BEA公司開發的Liquid Data[5],允許用戶手動定制數據轉換及整合的規則,可抽取和過濾來自多個不同應用系統的數據信息。
在國內,北京大學基于XML開發了一個名為CoXML[6]的數據集成系統,使得國產的DBMS可以與國外主流的DBMS通過XML標準共享異構數據,但XML DTD在一定程度上限制了數據的表述能力。北京理工大學開發的UUHDB通過采用全局查詢語言,實現了異構數據庫關聯互通,但未經優化的查詢技術效率較低。而西北工業大學也在XML和RDB及其中間件方面做了一些研究。
目前主流市場上普遍使用的數據庫大多為關系型數據庫,其明顯的特征就是以大量的表結構來設定數據間的關系,以表與表之間的關聯和索引來構成一個完整的數據庫,這就需要解釋一下單源同構的概念了。
傳統意見上典型的、狹義的節點容器,除了根節點以外,所有的節點都只能有一個父節點,我們稱之為單源同構節點容器。同時,同一個父節點下若干多個子節點,一般是無序,即節點與節點之間沒有順序要求,如圖1所示。

圖1 單源同構示意圖
從圖1可以看出,每個節點可以有多個子節點,但只能有一個父節點,同時,情形1與情形2在功能上,是完全一致的。在數據存儲上,也是典型的節點容器結構存儲方法,兩種情形并無不同。其中單源同構無序節點容器的典型應用就是傳統職能型組織架構圖等。
然而在實際的應用中,子節點之前的排序是有意義的,這需要用到有序節點容器,將同一父節點下的子節點用序號排序,或用指針定義方向,如圖2所示。

圖2 單源同構有序圖
從圖2可以看出,對于課程計劃,其節點容器的節點之間順序很重要,情形1是符合實際使用需要的,而情形2是不符合實際情況。有序節點容器反映了實際的應用過程中對順序的需要。典型應用是與計劃有關、章節有關的用途,例如一本書的存儲,其章節是以順序的方式展開的,所以存儲的時候,要以有序節點容器的方式存儲。還有例如各類規章、制度,其存儲章節條款都有順序的,均可以有序權的形式存儲。
基于多態自由擴展的理念,將數據庫中的數據集結構抽象成節點容器,容器中包含了容器的結構定義以及數據,那么數據庫就相當于一座森林一樣的子集庫,每一個節點容器就是一個子集,一個數據環境中擁有一個或多個子集,其實就是在森林下面還有很多節點容器林,這些節點容器林擁有很多具體的節點容器。
多源異構節點容器,就是除根節點及一級子節點以外,每個節點都必須有一父一母兩個節點。多源異構節點容器又可分為多源異構無序節點容器,多源異構有序節點容器。多源異構節點容器,可以應用在例如矩陣式組織架構圖的存儲與使用中,而多源異構節點容器,可以應用在二維數據集成的存儲與使用中。一般多源異構節點容器的典型應用如圖3所示。
從圖3可以看出,矩陣式組織架構圖中,有些部門同時屬于兩個上級部門,有些部門只屬于一個上級部門。矩陣式組織架構圖,一般表述為一條X軸,一條Y軸,X與Y軸構成90度的關系。可以視著一顆X橫向的節點容器,一顆Y縱向的節點容器,只是節點容器X節點容器與Y節點容器之間共用一些葉子節點。我們如果將X,Y軸變成一條180度的直線,其實就是把X節點容器與Y節點容器合并成同一顆節點容器,其表達存儲的本質上是一樣的,只是表述形式不同,如下步驟所示:
第一步:以X集團為原點,向上下抽離,分離X,Y節點容器,如圖4所示:

圖3 一般多源異構數據集成圖

圖4 多源異構轉換分解圖一
第二步:將抽離到X節點容器區域的部分向X軸方向旋轉90度,將虛線框與對應實線框合并,保持所有連線,如圖5所示:

圖5 多源異構轉換分解圖二
第三步,將X節點容器,Y節點容器合并為一個節點容器,以X集團為根結點重新整理,如圖6所示:

圖6 多源異構轉換分解圖三
多源異構無序節點容器中,節點之間對順序沒有要求,而多源異構有序節點容器中,所有節點都有順序要求,通過后繼節點與前繼節點指針實現。上述多源異構轉換結果可抽象成圖7。
通過國內外對于多源異構數據的整合與重構的研究以及單源同構概念的研究和引申,提出了一種基于節點容器的多源異構技術思路。本文提出了一種基于節點容器的多源異構技術,通過將數據集成結構以節點容器的結構進行存儲,將多個單源同構節點容器轉化成多源異構節點容器,解決了不同數據庫數據在融合過程中出現的結構性差異帶來的障礙性問題,從而實現了不同數據集成結構的數據整合和重構。

圖7 多源異構轉換抽象圖
[1]涂炎欽.海南省國土資源業務系統統一組織架構研究[J].國土資源信息化,2015,05:15-17+9.
[2]孟浩華,匡堯.電力企業信息系統數據庫優化整合研究與實踐[J].電力信息化,2013,04:74-77.
[3]Haas L M,Kossmann D,Wimmers E L,et al.Optimizing Queries Across Diverse Data Sources[C].VLDB 97:International Conference on Very Large Data Bases.2001:276-285.
[4]Bergamaschi S.Extraction of Informations From Highly Heterogeneous Source of Textual Data[J].Lecture Notes in Computer Science,2010,1202:42-63.
[5]Carey M J.BEA Liquid Data for WebLogic:XML-Based Enterprise Information Integration[J].Mccarthy,2004:800-803.
[6]Liu S,Chu W W.CoXML:A Cooperative XML Query Answering System[C].Advances in Data and Web Management,Joint,Asia-Pacific Web Conference,APWEB 2007,and,International Conference,on Web-Age Information Management,WAIM 2007,Huang Shan,China,June 16-18,2007,Proceedings.2007:614-621.
Multi-Source Heterogeneous Technology Based on Nodes Container
HU Hui1,HU Song1,CAI Zhao-quan1,SHENG Jie2,LIU Jiang-lin2,LEI Li3
(1.Huizhou University,Huizhou 516007;2.Huizhou Diewei Technology Ltd.,Huizhou 516001;3.Guangdong Institute of Science and Technology,Zhuhai 519090)
Thanks to computer technology in the past a large number of enterprises,the establishment of various business systems to improve business efficiency and operational level,however,these fragmented business systems today is clearly no longer meet the development of big data era,in which integration when business systems are experiencing historical reconstruction.Proposes the multi-source heterogeneous database technology based on node container to address the structural barriers to differences appear in the database data fusion process brings.
Node Container;Data Reconstruction;Multi-Source Heterogeneous Database
廣東省教科規劃項目(No.11JXZ012、No.14JXN065)、廣東省自然科學基金項目(No.S2013010013432、No.S20130100 15940)、廣東省教育廳項目(No.2013LYM00874)、廣東省高校優秀青年創新人才培養計劃資助項目(No.2013LYM_ 0087)、惠州市科技計劃項目(No.2013B020015008、No.2014B020004026、No.2014B050013016、No.2014B020004023)、肇慶市科技計劃目(No.2015B010902009)
1007-1423(2016)26-0032-04DOI:10.3969/j.issn.1007-1423.2016.26.008
胡輝(1979-),女,江蘇鹽城人,碩士,講師,研究方向為計算機軟件
2016-06-24
2016-09-05
節點容器;數據重構;多源異構數據庫