范冬林,康傳利,付波霖,高二濤 ,徐雯婷,藍貴文
(1.桂林理工大學測繪地理信息學院,廣西桂林541004;2.廣西空間信息與測繪重點實驗室,廣西桂林541004;3.東華理工大學測繪工程學院,江西南昌330013)
在信息化、智慧化浪潮的推動下,智慧城市已成為我國城市化發展的新趨勢[1]。供水管網作為城市信息基礎設施的重要組成部分,是智慧城市建設的重要數據源之一。智慧城市的發展與數字城市的建設一脈相承[2],在數字城市建設進程中,供水管網信息化系統作為GIS平臺的一個行業應用,通常僅以現有的數據模型來解決城市管網的特殊應用,未能深入考慮管網運行的行業特性[3],主要表現在:①管網信息資源缺乏語義信息,不能滿足智慧城市對重要資源的整合、共享、集成的要求;②供水管網數據多樣化,系統建設層次不一。由于管網管理者需求的不同以及系統建設者對城市管網認識的差異,使得現有系統的應用層次各不相同,進而導致了供水管網數據格式多樣化且語義一致性差[4]。此類供水信息系統對外提供的WEB服務資源(即共享信息)缺乏統一的語義描述,難以形成具有統一語義與知識表達的信息共享。
為解決上述問題,必須對現行的異構數據進行集成,形成一致的數據語義描述,構建集成數據模型[5]。對GIS空間數據而言,數據集成是消除源數據在數據模式、數據屬性和數據結構上的差異和沖突,按照目標數據進行一致化處理,最后為用戶提供統一的表現形式[6]。本文從數據集成的層面,實現供水管網異構數據集成研究,為城市其他行業管網數據集成提供參考。
對供水管網本身數據而言,不僅存在數據格式的不同,如常見的數據格式有ArcGIS的SHP格式、AutoCAD的DWG格式、MapGIS的W*格式等。而且,即使是同一格式的管網數據,對管網領域概念理解的不同,也會存在對相同實體的數據存儲描述的差異,如數據結構沖突、字段命名沖突以及實例的度量單位沖突等。
從數據的語義層面看,供水管網數據異構包括2種類型[7]:實例異構和模式異構。實例異構是指不同的數據源對同一個實體具有不同的描述,對相同的地理實體的描述使用同義字或同形異義字。如系統A中材質為“普通鑄鐵管”,而系統B中表示為“灰口鑄鐵管”,由于其表現形式不同,通過精確匹配方式則無法將2個數據描述一一對應起來。模式異構是指不同數據源數據含義相似或有差別,包含2方面異構:一方面是指2個局部模式的屬性具有相同的含義,但屬性名卻不相同,這種異構亦稱為命名異構,如在模式A中“材質”字段名和模式B中“管材”指的是同一個概念;另一方面則指不同的數據源對相同實體的屬性采取不同的定義方法,這種異構也稱為結構異構,如模式A對“地址”的表示在一個屬性字段中完成,而在模式B中“地址”由“省”、“市”、“街道”3個屬性字段描述。
本體技術能夠解決數據集成中語義異構問題,最根本的原因在于其定義的共享概念模型使用戶和應用程序對概念和術語具有共同的理解[8]。因此,對供水管網領域中核心概念的抽象顯得尤為重要。在傳統的本體集成技術研究中,核心概念僅僅是對領域內實體和關系的表達[9],而在本文中,核心概念不僅包含供水管網中的實體類型與關系,同時包含實體內屬性集合的抽象。為了構建供水管網集成數據模型,本文將屬性集合的概念抽象為特性,其邏輯上是對供水管網概念的形式化表述,而物理上則是一組屬性的集合。本文將特性分為3類:存儲特性、普通特性和標識特性。
(1)存儲特性。用于管理數據類型的存儲方式,主要功能包括基于類型的數據創建、數據選擇、數據讀取和修改等。
(2)普通特性。包含一定數量的固有屬性字段,并在該固有屬性字段的基礎上定義了基于特性的基礎應用操作,如管材特性中的獲取管材信息,規格特性中的獲取設備規格信息以及進行設備規格檢查等。
(3)標識特性。用于對管線設備標識,這類特性不需要匹配固有的屬性字段信息,如針對供水的閥門設備以及燃氣的調壓站設備都具有的關斷特性,當給某一數據類型賦予了關斷特性時,說明該數據所存儲的設備具有阻斷網絡流通功能的特性。
按照地下管線探測規程和集成數據模型的需求,建立供水設備類型,并進一步確定每種設備類型的屬性。對于集成數據模型而言,類型的屬性結構不僅需要考慮異構數據中的相同概念,還需考慮數據源中的特殊屬性,以便更大程度兼容異構數據源。上文提到的特性能夠很好地解決這一問題。類型通過特性間接決定其屬性結構,不直接持有屬性,屬性的管理由特性完成。
閥門類型-特性-屬性關系見圖1。閥門類型被指定為點設施存儲特性,該閥門類型還具有關斷特性和關閥影響2個標識特性。同時,普通特性記錄了該類型公共數據屬性字段集合。數據類型還可以派生子數據類型,子數據類型繼承了父類型的所有特性。派生的子類型只能添加普通特性和標識特性,不能更改存儲特性。按照上述原則,本文設計了供水設備集成數據模型,該模型將作為目標本體參與異構源數據的集成。

圖1 類型-特性-屬性關系示意
建立映射關系是為了將供水管網集成數據模型與不同的源數據進行關聯,消除集成數據模型與源數據的模式和實例異構[10],其關鍵是概念之間相似度的計算。在研究相似度計算方法的文獻[11-13]中,按照不同的標準,將相似度計算方法分為模式級、實例級、元素級和結構級。本文主要考慮模式級和實例級的相似度計算算法,前者指利用本體中的模式信息來計算相似度,該計算方式主要是計算詞法層面的語義相似度[14];后者指利用一定量實例來進行相似度的計算,該計算方式主要以數學聯合分布概率為基礎進行相似度計算。每一種相似度在一定程度上反應了本體概念間的關系,對映射關系的建立都有不同程度的影響,單獨使用一種相似度在一些場景亦能取得較為滿意的效果。如在文獻[15]中提供的數據中,使用基于實例的相似度計算方法可以取得較理想的匹配結果,但當遇到語義上一致,但詞義不同的實例便難以勝任?;谏鲜鲈颍⒔Y合供水管網中異構數據的特性,本文將應用結合詞義、語義和實例的相似度算法進行加權計算的綜合相似度計算方法。
假設simw(A,B)、sime(A,B)、simc(A,B)分別表示本體O1中A概念與本體O2中B概念的詞義相似度、語義相似度和實例相似度,則綜合相似度的計算方法表示為
sim(A,B)=α×simw(A,B)+β×sime(A,B)+
λ×simc(A,B)
(1)
α+β+λ=1.0
(2)
min{simw(A,B),sime(A,B),
simc(A,B)}≤sim(A,B)≤max{simw(A,B),
sime(A,B),simc(A,B)}
(3)
式中,α、β、λ為權重值,依賴于經驗值,在實際應用中,α、β、λ的值通過訓練確定。在本體與源數據中選取1組訓練樣本,計算得到的相似分量,變換α、β、λ的取值,得到更多的試驗值,從結果中選取映射準確率高的作為經驗值。
本文從供水管網數據中選取了1組數據進行綜合相似度的計算,計算結果見表1。其中,α、β、λ的值分別取0.3、0.5、0.2。
通過綜合相似度計算得到的相似度矩陣,本體中一個概念可能具有多個相似度差別不大的另一本體的概念組,如“高程”對應的“管頂高程”和“管底高程”相似度的值都大于0.7。因此,需要確定選擇具體哪個概念與之對應,從而建立本體概念間的映射關系。設定閾值T可以有效減少關聯概念的數量,當2個概念的相似度小于T時,便認為概念無相關性;當相似度大于T時,則將被匹配概念作為1個候選概念。如在表1中,當T取0.7時,數據源本體管頂標高、管底標高對應集成本體的候選概念皆為管底高程和管頂高程。
本文選取了106個目標概念和122個源概念,對兩者分別使用詞義、語義、實例和綜合相似度計算方法進行匹配處理,并使用查準率(Precision)、查全率(Recall)和F1-Measure作為評判匹配結果的有效性指標,評判指標見表2。從表2可知,由于實例相似度算法僅就數值型的概念進行匹配處理,故其計算結果相對其他算法準確率稍低;而綜合相似度計算方法反應了概念的多個方面的信息,其準確率明顯高于其他相似度算法。

表2 相似度計算算法結果評價
本文中,映射關系的建立包含模式和數值映射關系2個方面。前者指建立集成數據模型和異構源關于類型和屬性字段之間的映射關系,后者指建立集成數據模型和異構源屬性數值的映射關系。
模式映射可將非標準化的數據轉換為標準化的數據,實現模式映射需要經過3個步驟:類型匹配→屬性字段匹配→數值匹配。類型匹配通過字符相似度計算可以確定初步的映射關系;屬性字段匹配通過綜合相似度計算也可確定初步的映射關系,在初步映射關系的基礎上,通過人工干預確定最終的映射關系。在計算相似度之前,需經過預定義字典過濾,將在預定義字典中有明確對應關系的概念剔除,以減少計算量。模式映射過程如圖2所示。
完成模式映射關系后,還需進一步對數據值進行匹配。本文僅就文本和數值類型的屬性值進行考慮。數值匹配處理流程見圖3。對屬性值進行匹配的原因是存在實例異構,在創建集成本體時,對字段進行過值域約束(范圍約束、選項約束)或進行了統一度量單位的約束等。文本類型的數據值可能存在n∶1、1∶1的映射關系以及數值書寫格式的統一,這部分的映射關系生成同樣需要進行相似度的計算。

圖2 模式映射處理流程

圖3 數值匹配處理流程

圖4 集成管網數據模板
數值型的數據值僅考慮度量單位的統一,這部分主要通過元信息、均值來判別換算關系。
供水管網異構數據集成與共享平臺是在供水集成數據模型和綜合相似度計算方法的支撐下,基于MapGIS SDK二次開發的供水管網數據異構的集成共享平臺。該平臺以特性為基本處理單元而開發的特性工具集合,為上層應用提供了一套完整的數據操作接口。特性工具降低了數據與功能的耦合性,提高了基于集成數據模型開發的供水地理信息系統在異構數據下的復用性和系統的擴展性。平臺還提供了數據的統一發布,基于GML格式的數據,可以實現不同系統或平臺間的數據共享。由于數據是已經進行過集成化處理的,因此使這類數據的共享是具有相同語義和知識的共享。集成管網數據模板見圖4。管網拓撲的統一語義表達見圖5。

圖5 管網拓撲的統一語義表達
本文針對不同供水管網存在異構性和共享信息語義不一致問題,對其中的關鍵技術進行了探討,構建了一個供水管網異構數據集成共享平臺應用實例,并使用該平臺先后對常州、桂林2個城市的供水管網數據進行異構集成,達到了預期效果。
異構數據集成共享平臺在一定程度上解決了供水管網數據語義一致的集成共享,特性的引入也可在一定程度上降低供水應用系統的開發周期,提高應用功能的復用性,可供城市其他管網行業數據集成和共享提供參考。