張守勝
(江西財經大學現代教育技術中心,江西 南昌 330013)
信息資源是實現企業、政府、商業信息化的源泉。隨著Internet技術的發展,這些信息資源逐漸呈現分布性、動態性,多領域、半結構化或無結構化、非規范化等特點。不同應用系統之間要進行準確的信息共享和交換,需要設計一個數據交換來實現跨部門、跨系統、跨異構數據庫的數據共享,為領導管理、決策提供信息支持與服務。將不同的數據形式變異構為同一,化分散為集中,才能有利于集成人員對數據的發布、訂閱和查詢操作。
數據交換是實現數據共享的一種方式。通過數據交換的方法,實現企業業務系統間的數據共享、互聯互通、業務協同,也是解決目前“信息孤島”現象的關鍵途徑。本文設計了一個基于RDF/XML的異構數據交換模型,利用RDF/XML文件為公共數據模型來實現異構數據庫管理系統間模式轉換和數據交換。
目前很多Web站點使用內嵌于HTML(超文本標記語言)中的
一個完整的元數據體系可以從橫向和縱向兩方面分析。橫向分析包括內容元數據、管理元數據和結構型元數據。縱向分析包括語義(元數據表達的含義)、結構(元數據元素之間的相互關系)和語法 (元數據體系如何描述和表達)。語法是前兩者的表現基礎,只有選擇合適的語法才能體現出元數據的語義和結構[1]。元數據的語法通常是各種標記語言,如SGML(Standard Generic Markup Language,標準通用標記語言)、HTML,XML,RDF等。
RDF是采用XML作為交換和處理元數據的通用語法結構體系,致力于增強WWW上對元數據的創建、交換和使用,甚至可以通過簡單地嵌套RDF描述來生成由其他RDF資源所組成的資源。RDF的含義就是描述資源的框架(Framework for Describing Resources),這樣,不同的用戶或團體能在這一框架下定義他們自己的元數據資源。我們可以用對象模型的原則來辨別這些資源:
(1)資源(Resource):資源對象標識實際的以網絡為基礎的資源,包含世界上所有的網頁及部分元素或網絡應用程序、所有在Web上被命名、具有URI的東西,如網頁、XML文檔中的元素等。
(2)描述(Description):對資源屬性(Property)的一個陳述,以表明資源的特性或者資源之間的聯系。
(3)框架(Framework):與被描述資源無關的通用模型,以包容和管理資源的多樣性、不一致性和重復性。
綜合起來,RDF就是定義了一種通用的框架,即資源-屬性-值的三元組,以不變應萬變,來描述Web上的各種資源。
用RDF/XML描述企業信息的元數據的優勢在于:
(1)當前各個應用系統不同的機構和部門根據需要建設了形式多樣、內容各異的資源庫,把RDF/XML應用于基礎信息元數據描述,通過其對資源庫的領域知識進行識別和規范描述,達成領域內關于元數據及其關系之間的共識,從而實現資源庫真正的重用和共享,解決資源庫建設存在的問題。
(2)提供元數據映射方案,集成到基礎信息的元數據管理中,使其有機地成為交換協議的一部分,實現公共元數據之間的語義映射、不同詞匯之間的關系定義及約束規則,從而保證各個應用分布式資源的語義互操作。
(3)在RDF/XML的元數據層基礎上構建有關領域知識的本體層幫助提供一種智能瀏覽技術,實現對查詢請求的語義理解。
表1描述了一個國標的公共元數據一覽表。

表1 GB/T 2261.1-2003人的性別代碼表
上表的RDF/XML描述為:
xmlns:dbinst-"http://www.baseinformation.com/RDF/dbinst"
數據交換模型是數據特征的抽象,是數據庫管理的形式框架。數據交換模型包括數據庫數據的結構部分、數據庫數據的操作部分和數據庫數據的約束條件。所有的數據庫管理系統都是基于這樣的概念和實現模式。借鑒這樣的思想和實現模式,復雜網絡環境下RDF/XML數據交換模型充分地吸取了RDF/XML的優點,用RDF/XML文件作為中間數據,利用RDF/XML豐富的表示形式和通用性自定義了數據的數據文檔和結構文檔,將數據表示和結構表示分開。

圖1 數據交換模型圖
如圖1所示為數據交換模型,在該模型中,數據交換的過程是:首先通過數據采集將源數據的數據和結構都抽取出來,形成原始層的結構文檔(以下也稱Structure)和數據文檔(以下也稱Data);同時,也需要通過數據采集將目標數據結構抽取出來,形成轉換層的結構文檔(Structure)。然后對原始層和轉換層的結構文檔進行分析,按照轉換的需求,形成數據轉換規則配置文檔。在原始層和轉換層的結構文檔和轉換規則文檔的基礎上生成映射文檔(以下也稱Data Mapping),結合轉換規則文檔和映射文檔完成數據的交換,并同時得到轉換層數據文檔。最后,利用轉換層數據與目標層數據之間的映射文檔,將轉換層數據文檔中的數據推送到目標數據庫中,到此一個完整的數據交換過程結束。
數據采集模塊、數據交換模塊、數據推送模塊是該數據交換模型的三個主要部分,下面分析各個模塊的功能。數據采集模塊是整個交換模型的基礎,主要是和用戶直接交互,獲取源數據和目標數據的匹配信息;數據交換模塊是整個交換模型的核心,主要是將源數據和目標數據表示成相應的數據文檔和結構文檔,按照用戶需求,進行結構匹配操作,消除類型異構、語義異構、長度異構、精度異構、度量異構和聯系異構等異構,同時按照數據映射文檔和相關算法,將原始層數據轉換成轉換層數據庫中;數據推送模塊主要是將轉換層文檔按照數據映射文檔,將轉換層數據寫入目標數據庫中。
數據采集模塊是整個數據交換模型的基礎,它的主要任務是與用戶交互,獲取數據源連接的相關信息,獲取源數據表和目標數據表之間的數據結構對應關系,產生數據結構文檔,為數據交換做好準備。
數據采集模塊在整個數據交換模型中負責與用戶進行交互工作,因為數據庫連接方式的選擇與系統的可擴展性緊密相關。因此,數據采集模塊的設計模式選擇是至關重要,要盡量減少數據之間的耦合,盡量考慮到系統的擴展性。考慮到整個模型今后在實際應用中的發展空間,為實際應用打下良好的基礎。同時,對數據采集時,需要對采集的數據都用中間數據表示,因此對RDF/XML文檔進行處理時應根據文檔的特點及編程要求來選擇相應的編程模型。
數據采集部分包括模式采集模塊、模式提交模塊、數據卸載模塊。模式采集模塊的任務是從關系數據庫抽取關系數據表的結構信息作為結構文檔,抽取關系數據表的值信息作為數據文檔,實現關系模式與RDF/XML模式的轉換。模式提交模塊的任務是在模式提取模塊將關系模式轉換為RDF/XML模式后,分別將結構文檔和數據文檔提交保存為文件RDF/XML,進行不需要的索引處理,以供數據交換時使用。
數據交換模塊的作用是連接源數據和目標數據,利用RDF/XML作為存儲和交換的中間媒介格式,生成源數據表和目標數據表的結構文檔和數據文檔,分別表示需要轉換的數據和結構,完成從關系模式到RDF/XML模式的轉換。為了方便下一步的數據交換,有時候,也可以將目標數據表認為是空。該模塊通過對結構文檔的匹配操作,來消除源數據和目標數據的類型異構、語義表示異構、數據長度異構、精度異構、度量異構和聯系異構,是整個數據交換模型的核心。
關系數據庫中的數據都是規則的二維結構關系表,所以能使用很簡單的RDF/XML文檔來表示。對象數據庫中的數據,由于RDF/XML文檔本身就是樹形組織模式,所以也能使用RDF/XML文檔來表示。利用RDF/XML作為交換的中間媒介格式,源數據和目標數據通過中間格式來進行表示和交換。一方面,利用RDF/XML來表示需要轉換的數據本身;另一方面,也利用RDF/XML來表示數據結構。
數據交換文檔詳細給出了數據交換過程中原始層數據的每個字段是如何交換到轉換層數據中的。生成一個轉換層數據所需要的所有信息,包括原始層節點、轉換層節點、轉換規則。在這個模塊中,將復雜的RDF/XML數據映射操作分解為若干個相對簡單的子操作,每個子操作的計算過程被封裝在轉換函數中,轉換鏈將轉換函數按執行順序組合在一起,全部轉換函數計算完畢后,將計算結果組裝成轉換層的RDF/XML數據文檔。
數據推送模塊的任務是負責將從目標層的數據文檔傳送到目標數據庫管理系統,加入具體的數據庫中。
隨著社會化數字信息進程的飛速發展,人們訪問的信息量呈指數增長,再加上資源分布的擴散性、自治性,信息分布趨勢越來越異構化、海量化、動態化。在這種情況下,信息網絡的異構數據交換一直是研究人員關注的焦點。本文在研究目前網絡集中式數據轉換技術基礎上,提出了基于復雜網絡環境下RDF/XML模式的數據轉換模型,很好地解決了不同部門異構數據庫之間的數據交換問題。同時消除各個信息孤島,把這些孤島一個一個互聯起來,形成為信息共享的數據集合;及時獲取這些有價值的數據信息的同時,積極充分地利用這些資源,降低信息化建設成本發揮更大的效益。
[1]趙永輝.信息網絡異構數據交換技術研究與實現[D].西北工業大學,2007.
[2]杜思峰.數據交換平臺中異構數據轉換技術的研究[D].西安工業大學,2011.
[3]房成萍,馬坤,楊波,陳貞翔.分布式一體化及數據交換平臺的設計與實現[J].濟南大學學報(自然科學版),2011(1):11~14.
[4]齊小文.高等學校電子校務數據交換平臺設計初探[J].中山大學學報,2010(10):126~128.
[5]孫璐.一種面向服務的異構系統間數據交換平臺設計[J].武漢理工大學學報(信息與管理工程版),2010(10):609~702.