999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息集成數據模型研究

2008-01-01 00:00:00周興社
計算機應用研究 2008年5期

摘要:信息集成是指將多個信息源進行整合,為用戶提供一個統一訪問這些信息的接口或數據視圖。公共數據模型是設計信息集成系統的基本出發點,從分類的角度對信息集成公共數據模型進行研究。對各種數據模型的特點、描述能力、應用領域以及發展現狀作了分析和比較。

關鍵詞:信息集成; 數據模型; 信息集成系統

中圖分類號:TP311文獻標志碼:A

文章編號:1001-3695(2008)05-1285-03

信息集成是指將多個信息源集成為一個信息系統,為用戶提供一個統一的訪問這些信息的接口或數據視圖 [1]。在信息集成系統中,公共數據模型是解決各信息源不同數據模式之間異構性的基礎。設計一個信息集成系統的首要問題就是選擇或者設計一個適合的公用數據模型。數據模型包括數據的靜態描述、數據支持的操作和數據之間的約束三方面的內容。信息集成系統中的成員系統具有已存性、自治性、分布性和異構性的特點[1]。為了解決各個成員系統的數據模式具有異構性,研究者提出了各種各樣用于信息集成的數據模型。

1關系數據模型及擴展

關系數據模型的基本概念是元組和數據表,表可以看成是元組的集合。關系數據模型支持關系代數操作,支持參照實體完整性約束、參照完整性約束和域約束,用戶使用SQL語言來訪問關系數據模型[2] 。關系數據模型有著堅實的數學理論基礎,概念簡單,得到了廣泛的應用。1980年前后,一些早期的信息集成系統開始采用關系數據模型來集成多個數據庫[3]。

典型的采用關系數據模型的信息集成系統是美國密歇根—迪爾伯恩大學的CORDS[4],該系統實現了對多個異構關系數據庫的集成。在此基礎上,該項目組對多數據庫系統查詢處理特別是查詢優化作了較多的研究,提出了查詢采樣、查詢探測、模糊查詢等技術對全局查詢進行優化,還提出了衰減代價評估模型以實現對全局查詢的優化。中國科學院軟件研究所設計的IS-Global采用的也是關系數據模型。

采用關系數據模型作為信息集成系統的公共數據模型的優點在于:

a)關系數據模型概念簡單并且有著廣泛的應用背景,采用關系數據模型作為公共數據模型易于被用戶理解和接受。

b)關系數據模型有著堅實的理論基礎,形成了完整的理論體系。這些豐富的理論知識能夠指導研究者采用關系數據模型的信息集成作深入研究。

c)關系型數據庫有著廣泛的應用,采用關系數據模型特別適合對遺留系統的關系型數據進行集成,全局模式和局部模式之間的映射和轉換比較容易。

人們就基于關系數據模型的數據集成作了很多的研究工作并取得了豐富的成果。例如,采用形式化的方法來描述數據集成;在LAV方法中引入一個虛擬的全局模式,將各個信息源視為物化了的查詢,在理論上將用戶基于全局模式的查詢轉換為基于視圖來回答查詢的問題[5];論證了基于視圖的查詢回答問題是NP完全問題[6]等。

采用關系數據模型作為信息集成系統的公共數據模型雖然具有上述優點,但是關系數據模型的描述能力有限、語義信息不豐富。并不是所有的信息都可以描述成數據表的形式,如果集成系統的成員數據模型還包括非關系模型,就必須對關系模型進行擴展。為了能夠集成更多類型的信息系統,一些研究者采用擴展的關系數據模型來設計信息集成系統。

采用擴展關系數據模型的信息集成系統的典型代表是ATT Bell實驗室的Information Manifold。該系統的目標是對WWW上的結構化信息源進行集成[7] 。該系統中存在一個虛擬的全局模式,信息源的內容被描述成基于全局模式的查詢,信息源的查詢能力采用五元組的形式來描述。該系統采用的數據模式是在關系模型的基礎上作了面向對象的擴展,引入了類和類的繼承層次架構,類在實現時用多個數據表來描述。這種擴充增強了數據模型的描述能力,使得系統的全局模式具有較好的穩定性,當新的信息源加入后不需要對全局模式頻繁地修改和擴充。Manifold系統采用該數據模型實現了對網絡的幾百個信息源的集成,并且得到了較好的實驗效果。

擴展的關系模型在關系模型中加入了面向對象的思想,描述能力得到了擴充,但是仍然具有很多局限性。擴展關系模型在對于復雜數據的描述和對于數據間聯系的表現力上不盡如人意。為了增強公共數據模型的描述能力,適應信息源多樣性的特點,集成各種類型的信息源,研究人員開始采用面向對象的數據模型來進行信息集成[8] 。

2面向對象數據模型

面向對象數據模型的基本概念是對象。對象是由一組數據結構和在其上定義的操作封裝而成。每個對象在全局范圍內有一個惟一的對象標志ID。類是對象的模板,類之間的關系包括泛化、特化和繼承。對象數據模型支持將簡單對象進行組合構成復雜的對象[9] 。面向對象的數據模型支持的約束包括對象約束和類約束,支持的操作是對象代數。一般來講,采用對象數據模型作為公共數據模型的信息集成系統都會支持一種類SQL語言的對象查詢語言。

典型的采用面向對象數據模型作為公共數據模型的信息集成系統是惠普實驗室數據庫技術部開發的Pegasus系統[8] ,它能集成本地和外部的多個自治數據庫。Pegasus的公共數據模型是稱為Iris的面向對象模型,包括對象、類型和函數。類型相當于類的概念,被組織在一個能提供泛化、特化和多重繼承的有向無環圖中,對象的性質、對象間的關系以及對象的計算都由函數表達。Pegasus是用一種叫做HOSQL語言作為數據定義和數據操作語言。HOSQL是OSQL的超集,它使用非過程化的表達式來操作多個數據庫。

另外,大部分多數據庫系統都采用面向對象的數據模型作為公共數據模型。例如土耳其中東技術大學的多數據庫管理系統MIND、愛爾蘭Dublin City大學的OASIS系統、東北大學提出的面向對象的信息集成系統SCOPE/CIMS、意大利Universit a di Roma Tre數據庫研究小組研制的ARANEUS系統中提出的面向Web頁面的模型ADM都是基于ODMG(object database management group)的面向對象的數據模型。德國GMD-IPSI的KODIM開發的原型系統ViewSystem、美國通用電信公司GTE實驗室開發的DOMS系統、OMS的公共數據模型FUGUE、歐洲信息技術研究發展戰略計劃中的CIS項目、美國普渡大學的InteBase等項目中采用的數據模型也是典型的面向對象的數據模型。

采用面向對象數據模型作為信息集成的公用數據模型的優點在于:a)面向對象數據模型具有泛化、聚合、繼承和方法的概念,有豐富的語義和很強的描述能力。b)相對擴展的關系模型而言,面向對象的數據模型支持集成的成員系統類型更豐富。基于關系模型和對象模型的信息系統都可以被集成進來,新的數據源經過包裝并描述其檢索能力后,就可以插入到集成系統中來。

在理論研究方面,關于面向對象數據模型、對象代數、對象查詢語言等方面有很多研究成果。研究者們就對象數據模型到其他類型的數據模型的映射與轉換問題做了很多的研究工作。在集成過程中模式語義沖突問題的研究中,國內東北大學的SCOPE/CIMS研究組提出了一種面向對象數據模型的多數據庫系統中模式語義沖突分離方法及解決策略。在對象數據模型完整性約束的集成研究中,研究者們還提出了相關在模型集成中處理完整性約束的規則等。

隨著計算機網絡和WWW的發展,人們對信息集成系統的要求已經不是集成數據庫系統了,還要求能集成非數據庫系統的數據,如文件系統、電子郵件、電子表格、HTML/XML文檔等。這些數據的特點是沒有顯式的數據模式。面向對象數據模型能夠管理的主要還是結構化數據,對于存儲在HTML/XML文檔、多媒體數據等使用面向對象的數據模型描述比較困難。另外,在面向對象數據模型中數據模式和數據是分開存放的,這不便于自描述數據的集成。在這種背景下,一些研究者提出了基于有向圖的數據模型來進行信息集成[10] 。

3基于有向圖的數據模型

在基于有向圖的數據模型中,數據與數據之間的關系用有向圖中的節點和邊來描述。與傳統的數據模型不同,在這類數據模型中,數據描述信息與數據是存放在一起的,因此特別適合描述沒有顯示結構的數據。基于圖的數據模型非常靈活,具有很強的描述能力,能夠自然地描述復雜對象與其成員對象的引用關系和WWW上HTML/XML文件的鏈接關系。

TSIMMIS是由美國斯坦福大學數據庫研究組研制開發的著名的異構信息源集成系統[10] 。該系統中采用了基于有向圖的自描述數據模型OEM(object exchange model)。該模型中數據與數據的模式信息混合在一起,不僅具有描述結構化數據的能力,而且能夠較好地描述無結構化和半結構化的數據。在OEM對象模型中,一個對象用四元組〈OID,label,type,value〉來描述。其中:OID是對象表示符;label用于描述對象所表示的意義;type用于描述對象的類型;value用于描述對象的值。為了能夠描述來自各種數據源的數據,一個對象描述子〈OID,label,type,value〉中,type除了可以表示基本數據類型外,還可以表示集合數據類型(如set、list)和引用類型。如果一個對象的類型是引用類型,表示該對象由其他對象聚集而成,它的值是所引用對象標志符的集合。

一個OEM對象O可以用一個帶根的連通有向圖表示成O(r,V,E)。其中節點表示對象;邊表示對象之間的引用關系。根節點是一個聚集對象,它是引用類型的;V是該聚集對象及其所有引用對象的集合;E是對象之間引用關系的集合,即E={〈vi,vj〉| vi是V中對象Oi的標志符∧vj是V中對象Oj的標志符∧Oi引用對象Oj是V中對象Oj的標志符}。例如,由A.Gupta撰寫的資料(包含一本書目信息和一篇文獻)可以描述如下:

〈1,DBPL,set,{2,3}〉

〈2,book,set,{4,5,6,7}〉 

〈4,title,string,′materialized views′〉

〈5,ISBN,integer,999〉

〈6,keyword,string,′relational′〉

〈7,author,string,′A.Gupta′〉

〈3,article,set,{7,8,9}〉 

〈8,title,string,′constraint checking′〉

〈9,conference,set,{10,11,12}〉

〈10,name,string,′SIGMOD′〉

〈11,year,integer,1993〉

〈12,location,string,′Washington, DC′〉

該對象的結構可以用有向圖描述,如圖1所示。

XML是元標記語言,它完全面向數據內容,是自描述語言,可以描述線性表、樹、圖等數據結構。它允許用戶為各類數據創建自己的標記,以此來創建不依賴于平臺、語言的開放數據。自XML標準出現后, OEM采用XML重新構建其OEM模型。自此OEM模型逐漸向native XML DB方向發展。

華中科技大學在Panorama項目中提出的XIDM模型是一種基于XML的集成數據模型[11] 。在XIDM中一個集成系統的全局模式可以表示為一個置標的有向連通圖G =〈vertex,edge〉。其中:vertex是節點的集合;edge是邊的集合。圖G的一個節點可以表示為一個五元組ecluster=〈key,attributes,subEClusters,qualifications,mappings〉。其中:key是元素簇的關鍵屬性列表;attributes是元素簇的屬性有序列表,且keyattributes;subEClusters是ecluster的子元素簇的有序列表;qualifications是ecluster的元素所滿足的限定條件集;mappings是ecluster模式映射信息的集合。在XIDM中有兩類邊,標記類邊用于描述元素簇與子元素簇之間的聯系,引用類邊表示不同元素簇之間的引用關系。

東南大學在Versatile項目中提出的OIM模型也是基于有向圖的數據模型[12]。在定義OIM對象模型的基礎上,他們提出了OIM對象代數。OIM對象代數定義了一系列OIM對象操作,包括對象的并、差、選擇、投影、粘貼和切削。

基于圖的數據模型主要是為異構數據源集成而設計。與面向對象數據模型相比,它具有以下優點和特點:

a)有豐富的語義,支持復雜類型和抽象機制,能夠提供傳統數據模型所不能表示的基本構造符之間的關系。b)具有自描述的特性,數據與數據模式存放在一起,適合描述那些沒有顯示模式或者模式無法與之匹配的數據對象。

c)更加方便的集成包括數據庫系統、文件系統、Web信息系統等多種異構系統中的數據。

d)基于圖的數據模型是極其靈活的數據模型,能夠方便地描述各種數據源中的數據,尤其是自描述的數據。這是其他數據模型無法比擬的。

4幾類數據模型的比較分析

綜上所述,可以從如下角度對用于信息集成的數據模型進行比較和分析。

a)從信息集成公共數據模型的發展歷史來看。關系數據模型產生于1970年,而最早的基于關系數據模型的信息集成系統產生于1981年[4]。20世紀80年代初,面向對象思想與數據處理技術相結合產生了面向對象數據模型。基于對象數據模型的信息集成系統出現在1990年左右[8] 。研究者就基于這兩類的數據模型的信息集成系統作了持續、深入和廣泛的研究。基于有向圖的數據模型的信息集成系統產生于1995年左右[10],這類數據模型有著描述能力強和靈活的優點,正越來越多地得到研究人員的關注。

b)從概念的數據結構和模型的描述能力角度來看。關系數據模型的基本概念是元組和數據表,數據結構相比較而言最簡單,但描述能力較弱;擴展的關系模型增強了在關系模型基礎上的描述能力,但仍然受到關系數據模型的約束和局限;面向對象的數據模型支持復雜對象,引入了繼承、封裝方法等概念,描述能力得到了大大的增強;基于有向圖的數據模型最靈活,描述能力也最強,但是其數據結構比較復雜。

c)從支持的操作角度看。關系數據模型支持關系代數;面向對象的數據模型支持對象代數;而基于有向圖的數據模型支持對象代數或者基于XML的代數。

d)從模型支持的約束角度看。關系數據模型支持和參照完整性約束,數據之間的約束較強;對象數據模型支持對象約束和類約束;而基于有向圖的數據模型涉及的約束較少。

e)從應用領域的角度看。關系數據模型適合用來集成經典關系型數據庫;面向對象的數據模型不僅可以支持集成關系型數據庫,還能夠集成有復雜結構的數據對象,較多地應用于既需要集成關系型數據庫又需要集成對象數據庫的多數據庫集成領域;基于有向圖的數據模型比較靈活,能夠較好地描述無結構化和半結構化數據的數據模型,適用于需要集成包括數據庫、文件、Web信息等多種異構系統的應用領域。

f)從查詢語言角度來看。關系數據模型支持結構化查詢(SQL)語言,SQL語言有著高度非過程化的特點,非常適合結構化數據,但對半結構化和無結構化數據無能為力;面向對象數據模型支持對象查詢語言(object query language,OQL),它是以ODMG對象模型為基礎的類SQL語言;基于有向圖的數據模型支持XML查詢語言或對象查詢語言。XML查詢語言能實現多種復雜的數據操作、支持多種數據類型、處理無結構和半結構化數據的能力比較強。相同點是這些語言都有類似“select-form-where”的結構,而且都是高度非過程化的。

從分析和比較中可以看出以下發展趨勢:

a)用于集成信息的公共數據模型正從傳統的數據模型向能夠集成文件系統等非數據庫系統的方向發展。

b)這些數據模型在不同程度上運用面向對象的思想,很多信息集成系統的數據模型都是典型的面向對象的數據模型。而在基于有向圖的數據模型中,圖中數據元素仍常運用對象的方式來表示。

c)基于有向圖的數據模型是信息集成數據模型的發展方向。由于基于有向圖的數據模型有很強的描述能力,特別適合非結構化信息的集成。

d)越來越多的數據模型采用XML作為描述語言。

5結束語

隨著信息集成技術的發展,目前又出現了許多新的研究熱點。例如基于本體的信息集成、面向半結構化數據的集成、動態的不穩定信息的集成、不精確信息的集成與處理等。而傳統的信息集成從研究到原型,現已逐步走向產業階段了。相信隨著研究的深入,會出現越來越多的新的信息集成數據模型。

參考文獻:

[1]HAMRI S, BOUFAIDA M, BOUDJLIDA N. An architecture for the interoperability of workflow models[C]//Proc of the 1st International Workshop on Interoperability of Heterogeneous Information Systems. New York: ACM Press, 2005:31-38.

[2]李建中,王珊. 數據庫系統原理[M]. 北京:電子工業出版社, 2004.

[3]SMITH J,BERNSTEIN P,DAYAL U, et al. Multibase: integrating heterogeneous distributed database systems[C]//Proc of AFIPS National Computer Conference.Arlington:AFIPS Press,1981:487-499.

[4]COBURN N, MARTIN T P, PER-AKE L, et al. Cords multidatabase project: research and prototype overview[C]//Proc of Conference of the Centre for Advanced Studies on Collaborative Research. Indiana-polis: IBM Press, 1993:767-778.

[5]MAURIZIO L. Data integration: a theoretical perspective[C]//Proc of the 21st ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems. New York: ACM Press, 2002:233-246.

[6]ALON Y L, ALBERTO O M, YEHOSHUA S, et al. Answering queries using views[C]//Proc of the 14th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. New York:Springer-Verlag, 1995:95-104.

[7]ALON Y L, ANAND R, JOANN J O. Querying heterogeneous information sources using source descriptions[C]//Proc of the 22nd International Conference on Very Large Data Bases. San Francisco: Morgan Kaufmann Publishers Inc,1996:251-262.

[8]AHMED R, de SMEDT P, DU Wei-min, et al. The pegasus heterogeneous multidatabase system[J]. Computer,1991,24(12):19-27.

[9]MALCOLM A, FRANCOIS B, DAVID D, et al. The object-oriented database system manifesto[C]//Proc of the 1st International Con-ference on Deductive and Object-Oriented Databases. San Francisco: Morgan Kaufmann Publishers Inc,1989:40-57.

[10]GARCIA H, PAPAKONSTANTINOU Y,QUASS D,et al. The TSIMMIS project: integration of heterogeneous information sources[J]. Journal of Intelligent Information Systems, 1997,8(2):117-132.

[11]LI Bing, LU Zheng-ding, PENG De-chun. XIDM: a common data model based on XML[J]. Wuhan University Journal: Natural Sciences,2001,6(1-2):432-437.

[12]王寧,徐宏炳,王能斌. 基于帶根連通有向圖的對象集成模型及代數[J]. 軟件學報,1998,9(12):894-898.

“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

主站蜘蛛池模板: 亚洲人成色在线观看| 国产欧美日韩专区发布| 精品国产Av电影无码久久久| 91成人在线免费视频| 真实国产乱子伦视频 | 欧美午夜精品| 亚洲清纯自偷自拍另类专区| 一区二区三区精品视频在线观看| 亚洲啪啪网| 91久久性奴调教国产免费| 99999久久久久久亚洲| 67194亚洲无码| 欧美三级自拍| 天天干伊人| 亚洲热线99精品视频| 国产免费黄| 久久久亚洲色| www亚洲天堂| 亚洲天堂精品在线| 看国产一级毛片| 亚洲天堂日韩在线| 国产高清在线精品一区二区三区| 成人免费视频一区| 日本a级免费| 免费不卡在线观看av| 久久综合九色综合97网| 91破解版在线亚洲| 国产91全国探花系列在线播放| 亚洲国产成人久久精品软件| 四虎精品黑人视频| 91欧美亚洲国产五月天| 精品视频一区二区三区在线播| 国产精品第一区| 一级看片免费视频| 91精品久久久无码中文字幕vr| 国产成人调教在线视频| 久久中文无码精品| 9啪在线视频| 黑色丝袜高跟国产在线91| 毛片久久久| 幺女国产一级毛片| 中文字幕无码电影| 91色在线观看| 国内精品视频在线| 国产一区在线观看无码| 日本午夜在线视频| 国产精品不卡片视频免费观看| 99精品视频在线观看免费播放| 国产女人水多毛片18| 69视频国产| 狠狠ⅴ日韩v欧美v天堂| 亚洲一本大道在线| 狠狠五月天中文字幕| 亚洲啪啪网| 91精品啪在线观看国产91| 国产一级视频久久| 一级全免费视频播放| 114级毛片免费观看| 欧美精品亚洲精品日韩专区| 五月婷婷导航| 91久久国产热精品免费| 最新国产高清在线| 精品无码国产一区二区三区AV| 欧美国产在线看| 91外围女在线观看| 538精品在线观看| 国产欧美精品一区aⅴ影院| 国产原创第一页在线观看| 国产激情国语对白普通话| 国产99欧美精品久久精品久久| 欧美亚洲网| 女人18毛片一级毛片在线 | 国产日韩欧美精品区性色| 久久国产成人精品国产成人亚洲| 欧美一级一级做性视频| 亚洲天堂网视频| 国产精品无码在线看| 青草视频网站在线观看| 久久精品一品道久久精品| 国产91熟女高潮一区二区| 国产精品香蕉| 波多野结衣中文字幕一区二区|