王英杰
(北京建筑大學 測繪與城市空間信息學院,北京100044)
目前數字化建設方面城鎮比城市相對落后,使得城鎮規劃、管理、服務不能依靠現代化技術提高,多年的數據累積了大批城鎮數據資源,由于數據技術規范使得很難相互共享。因此在現有基礎上,構建無縫的、規范的城鎮地理空間框架數據,提高城鎮數據資源的應用范圍,減少數據重復率、信息獲取費用。并且還能夠為城鎮經濟信息等空間分析和城鎮各類信息系統實現提供地理空間信息的有力支撐。
數據整合主要針對數據的異構問題,這是數據整合的核心,通常被分為三個方向系統、模式、來源異構。由于數據存儲的數據庫管理系統和運行的業務系統以及桌面系統之間不同導致系統異構。數據存儲的數據庫的不同導致數據類型不同,同時也導致存儲模式的不同,造成模式異構。業務系統內處理的內部數據與外部輸入的數據不同造成來源異構。
在數據整合中數據語法和數據語義為數據整合的難點,其中數據語法的異構是因為設計中數據字段與數據類型在不同的數據源中不能匹配。解決的方法為依照數據結構滿足不同數據源中數據結構映射。但數據異構整合還要考慮數據的語義問題,需要對數據內容的含義理解再做匹配,通常需要對數據內容進行拆分處理。
異構整合為了把非同一數據源中的數據集成到結構統一的數據集合中。主要目的是為了把相關的異構數據有效的利用起來,可以達到通用快捷的數據查詢,便于數據共享。為了達到條件,異構數據整合要建立數據的繼承性、數據的完整性、數據的一致性以及數據的安全性。
異構數據整合設計方法針對以下問題:a.針對不同數據源,提供通用查詢,并且如何查詢數據源的更新數據。b.數據源的整合數量,面對互聯網網絡數據源,大量未知的數據結構如何匹配。c.不同的數據管理系統保管的不同數據,例如非結構化數據(圖片,音頻),這些數據如何處理。
首先用戶輸入數據模式,將此數據模式作為目標然后一次對異構數據中的各個屬性進行匹配判斷,匹配輸出后將異構數據源的屬性建立映射關系。

圖1

表1
屬性匹配器是根據兩個不同屬性間的相似度判斷進行匹配,輸出的是布爾對象,true 代表相似,false 代表不相似。數據屬性名稱的相似度是非常重要的衡量標準之一。但由于在不同業務系統下,往往屬性名稱不同但含義相同,所以利用特征詞的相似度可以匹配不同數據源中的數據結構,通常相似度計算方法有互信息法、余弦系數法、基于距離的計算模型法等。首先判斷特征詞的相似度需要中文語料庫,通過語料庫中包含的所有中文詞匯,能從中抽取出數據屬性名稱的特征,依據特征再建立特征向量模型,根據模型計算出特征詞之間的相似度。此外數據的類型也可以作為匹配的標準之一。例如不同數據源的兩個屬性描述相同的實體,因此它的數據類型往往都是相同的,所以本文依據數據類型總結歸納為四種:第一是數字類型,第二是字符串類型,第三是日期類型,第四是布爾類型。數據類型的相似度可以依據項目經驗給予不同之間的數據類型賦值,例如布爾類型數據對應數字類型數據1 和0,那么它的相似度賦值就偏高,再有比如同樣的數據類型,但數據長度不同,那么它的賦值就會低于相同長度的相同數據類型的相似度賦值。根據這種方式我建立賦值表,見表1。
每個屬性匹配器輸出0-1 的數字,再將不同輸出的數值進行向量矩陣處理,從而得到一個相似度值。因此屬性匹配器輸出的結果聚合后。通過聚合函數將直接影響數據的匹配。
本文采用基于幕平均的聚合策略對多個屬性匹配器返回的結果進行合并。
本論文提供異構數據整合方法思路,使整合后的數據保證一定的集成性、完整性和一致性。為實現不同結構的數據之間的數據合并和共享提供了基礎,通過開源工具和處理,建立全局統一的數據集成。