郭文龍
(福建江夏學院電子信息科學學院,福建 福州 350108)
在各類企事業單位中,由于開發時間不同,往往存在許多異構的運行于不同軟硬件平臺上的信息管理系統,由于采用不同的數據庫開發技術,造成這些系統的數據庫彼此獨立,各個數據庫系統之間無法融合與共享。隨著互聯網的不斷發展與普及,企事業單位間信息交流的需求日益迫切,這就需要把不同數據源的異構數據庫融合集成起來。[1]異構數據庫集成技術是指把分布于不同數據庫的數據在物理上或者邏輯上進行有機集中,從而為企事業單位提供數據共享的一種技術。異構數據庫是獨立存在的,每個獨立的數據庫都有專屬于自己的數據庫管理系統,各個組成部分完全自治,如果直接把不同數據庫合并形成一個大型的共用庫顯然是行不通的,目前可以采用的方式有基于聯邦式、基于中間件或數據倉庫等,其中基于數據倉庫的方式是應用比較多的一種方法。數據倉庫從不同數據源抽取所需的數據避免重新建設共用庫而投入大量的人力、物力和財力成本,然而集成后的數據倉庫產生了大量的臟數據和相似重復數據,如何消除臟數據和清洗相似重復數據就成了一個亟需解決的問題。[2-4]
相似重復記錄指同一個現實世界中的實體在數據庫中擁有了多條記錄,這些記錄互為相似重復記錄,相似重復記錄清洗是指刪除構成相似重復的記錄,只保留一條記錄的過程。……