胡德森 廣東工業大學華立學院 廣州增城 511325
?
基于異構數據庫在信息系統中的應用分析
胡德森 廣東工業大學華立學院 廣州增城 511325
【文章摘要】
隨著計算機網絡技術的不斷發展,各單位都建立了相應的信息系統,這些系統確實提高了工作效率,但孤立分散的數據無法實現數據及時更新及共享,在很大程度上是在獨立運行,缺乏統一的規劃和信息標準。基于這種信息標準化和信息資源共享的迫切性,最為有效的方法就是數據集成及同步處理,本方通過對異構數據進行分析,提出了相關的應用方式。
【關鍵詞】
異構數據庫;數據集成;數據同步;信息共享
由于異構數據庫系統有著各自的數據庫管理系統,每個數據庫系統在加入異構數據庫系統之前本身就已經存在自己的DMBS,缺乏統一的規劃和信息標準,難以適應在大數據時代信息共享的要求,因此要將各自的應用特性加以統籌,以局部數據庫模式為基礎,采用數據集成和同步技術,建立全局的數據模式,從而使相關的多個數據庫系統的集合成一個整體異構數據庫系統,可以實現數據的共享和透明訪問。同時,使得異構數據庫的各個組成部分具有自身的自治性,實現數據共享的同時,每個數據庫系統仍保有自己的應用特性、完整性控制和安全性控制。
異構數據庫系統在未統籌之前,其異構性主要體現在以下方面:
1.1系統異構,包括數據源所依賴的應用系統、操作系統、數據庫管理系統之間的不同構成了系統異構。
1.1.1計算機體系結構的異構,各個參與互聯的數據庫可以分別運行在大型機、小型機、工作站、或嵌入式系統中,而各種硬件性能的差異導致數據庫共享的不協調。
1.1.2操作系統的異構,各個數據庫系統的基礎操作系統可以是Windows NT、Unix等,而這些操作系統之間本身就存在兼容性差異。
1.1.3數據庫可以同為關系型數據庫系統的SQL 、Oracle等,也可以是不同數據模型的數據庫,如關系、網絡、面向對象等,而這些不同的數據模型直接導致數據庫系統的差異。
1.2模式異構,數據源在存儲模式上的不同。一般的存儲模式包括關系模式、對象模式、對象關系模式和文檔嵌套模式等幾種,其中關系模式為主流存儲模式。
2.1異構數據庫集成模式
集成模式就是在異構數據的情況下,通過建立中心數據倉庫,從集成的角度提供訪問來達到數據的集成,把數據從源到目標進行批量數據處理,在保證事務完整性的同時,也保證數據的完整性。因此實施過程要簡單易用、流程化、易擴展,這樣項目的實施過程才能高效。
2.2確立集成總體架構
對數據集成架構采用集線型的架構,即引入集成中心數據庫,將各系統與集成中心數據庫進行數據交互,使得各系統與集成中心庫之間通過集成工具彼此互連互通,從而實現源數據庫與中心庫的數據集成。
2.3異構數據集成實現
2.3.1將原有的數據移植到新的數據管理系統中來,為了集成不同類型的數據,在進行數據集成之前,必須將一些非傳統的數據類型轉化成新的數據類型,對數據庫中的數據進行統一處理,將數據源多樣化、質量差、標準不統一、容易產生異常的數據庫進行整合,集成具有統一格式和標準的、穩定的數據集合。但這種集成方式可能隨著數據管理系統的升級,原來的相關應用軟件可能需要更改或重新開發,才能適應新的數據管理系統。
2.3.2利用中間件集成異構數據庫,新一代的數據集成工具(如OracleDataIntegrator)可提供集成平臺,針對面向事件的體系架構或者面向服務的體系架構,也可用其它中間件方式(如Middleware)定義統一的數據交互接口,對源數據庫和目標數據庫進行差異化的區分,并進行快速的大數據集成、捕獲、轉換處理,達到集成的效果,確保數據的一致性和正確性。
該方式不需要改變原有數據的存儲和管理方式,因為中間件位于異構數據庫系統(數據層)和應用程序(應用層)之間,向上可為訪問集成數據的應用提供統一數據模式及數據訪問的通用接口,而其向下可協調各數據庫系統完成它們各自的任務,中間件系統可集中為異構數據源提供高層次的檢索服務功能。
2.3.3對于集成的數據,需要在傳統的數據模式上擴展用于集成的字段,包括數據庫的結構、字段映射關系、字段轉換關系、數據集成周期等,將集成的系統數據庫形成一份需求文檔,用以描述提供給集成中心庫的數據庫數據庫的版本類型、訪問權限、訪問端口等信息。
3.1異構數據庫數據同步構想
不同信息系統的數據交換,最大的障礙就是異構數據庫的不匹配,可以設計一種異構數據庫同步系統,實現每個數據庫之間的數據邏輯同步,要對存在異構特征的源數據庫與目標數據庫之間進行同步處理,可以較好地實現數據捕獲、檢測及轉換,從而實現數據文件的傳輸及解析,最終完成異構數據庫的數據同步。
3.2同步策略的實現
3.2.1在設計同步系統時,讓系統中的客戶端和服務器端之間采用一種數據同步交互規則,如:定時同步等。在數據掃描過程中,先將這些數據的結構、類型和名稱,進行專門的定義,以區別各數據實體的差異。并建立觸發器記錄表的變化情況,在源數據庫建立增、刪、改觸發器,然后根據變化登記表進行處理。這樣做的優點是充分結合業務進程進行處理,保持數據的一致性、完整性,特別是實時性較強時,對多個數據源合并有非常大的優勢。
3.2.2客戶端可以根據某種異構規則來掃描數據,通過分析源數據庫日志,來獲得源數據庫中的變化的數據。使用這種方式,其可能的缺點是會出現一定的延時。也可采用局部查詢、遠程查詢和全局查詢等手段,遍歷站點中的數據;也可將數據復制到緩存,再對緩存中的數據進行復制,可避免復制記錄的沖突性。
3.2.3在進行數據模型轉換時,如果對數據庫進行定義模式轉換和數據轉換,可能會引起同一數據集合在系統中存在不同副本,這樣就要引入新的訪問控制機制,以維護其數據的完整性和安全性;如果不產生新的副本,目的數據庫定義模型還是對源數據庫系統中的數據進行訪問,則數據處理語言必須進行事務級的翻譯才能繼續執行。
3.2.4接下來就是對數據進行加解密及冗余處理,最終實現異構數據庫中數據鏈的同步轉換,并確保數據的高可靠性和息傳遞的一致性。在轉換的過程中,要想實現嚴格的等價轉換是比較困難的。因為要確定兩種模型中所存在的各種語法和語義上的沖突,這些沖突可能包括幾種:一是命名沖突:即源模型中的標識符可能是目的模型中的保留字,這時就需要重新命名;二是格式沖突:同一種數據類型可能有不同的表示方法和語義差異,這時需要定義兩種模型之間的變換函數;三是結構沖突:如果兩種數據庫系統之間的數據定義模型不同,如分別為關系模型和層次模型,那么需要重新定義實體屬性和聯系,以防止屬性或聯系信息的丟失。
4.1由于不同的數據庫之間的數據定義模型不同,有的是關系模型,有的是層次模型,則需要重新定義實體屬性和聯系,以防止屬性或聯系信息的丟失。
4.2如果用轉換工具進行包括數據定義模式轉換和數據轉換的類型轉換,將源數據庫模型轉化為目標數據庫模型,則可采用訪問控制機制和并發機制,以保證各數據庫的完整性和安全性,然后裝入數據后,進行數據重組,同時去掉冗余的關聯信息。
4.3如果數據庫轉換只進行數據定義轉換,應利用目標數據庫系統中的數據處理語言,實現數據的透明訪問,可以將開放式數據庫互連(ODBC)作為存取數據的標準應用接口,使數據庫系統具有很好的開放性。
4.4如果使用中間件集成全局數據模式,則不論各數據庫系統的運行環境如何更新,初始定義的統一數據交互接口應保持不變,同時通過API形式提供的軟件服務,才具有良好的可擴展性和互通性。
本文主要針對異構數據庫在信息系統中的數據集成與數據同步問題進行了研究,通過對不同數據庫間的信息資源處理,不僅集成了具有統一格式和標準的、穩定的數據集合,而且實現客戶端和服務器端異構數據庫的信息傳輸與共享,也方便數據庫能夠實現數據庫同步,數據的一致性得到維護。
【參考文獻】
[1]林源,陳志泊.分布式異構數據庫同步系統的研究與應用[J].計算機工程與設計,2010(31)
[2]陳敏,姜大慶.基于工作流的服務集成研究[J].信息與電腦(理論版),2015(18)
[3]鄒盟軍,楊瑩,王建紅.分布式非結構數據管理平臺的應用研究[J].電力信息與通信技術,2015(09)
[4]賈彩虹,趙文劍,鄧記才.基于XML的異構數據集成系統的研究與設計[J].河南科技,2014(21)