丁宇虹
(山西省交通科學研究院,山西 太原 030006)
隨著我國城市建設速度的加快,道路新建、改建、擴建等情況時有發生,現在電子地圖更新的速度遠遠滿足不了用戶需求。如何使變化及時準確地反映到電子地圖數據中,成為制約電子地圖發展應用的一個難題[1]。
傳統的地圖數據更新方法數據重復加載,效率低。地圖測繪工作的重心已經從數據生產轉變為數據更新,如何利用已有的工作成果和數據快速準確地更新電子地圖,減少地圖更新中的重復勞動,提高地圖數據更新的效率,是目前研究的一個重要方向。不同時刻道路數據更新主要是提取增量信息,提取方法會直接影響道路網數據更新的準確率和效率。本文采用基于目標匹配的方法結合語義匹配來識別和提取同比例尺道路網數據的增量信息。
本文的增量信息是同一區域范圍內的同比例尺不同時刻道路網的變化信息,其識別和提取其實是一個目標匹配的過程。語義匹配主要是通過道路屬性信息來判斷匹配,完成匹配的道路不用再進行目標匹配。目標匹配是通過緩沖區面積迭置率和最大類間方差法實現,這里的重點是面積迭置率閾值的確定。通過語義匹配和目標匹配二者結合實現導航道路網增量信息識別和提取。
由于數據屬性信息并不完全一致,語義匹配只能完成一部分道路的匹配,還有很大一部分道路還需要進行增量信息提取。對于這部分數據通過面積迭置率和最大類間方差法相結合來處理。此處面積迭置率定義為2個道路緩沖區的相互重疊部分的面積占各自總面積的比值[2],是通過對2條道路線要素根據試驗情況建立一定寬度的緩沖區,對兩者的緩沖區進行計算。
首先定義面積迭置率指標。假設Ai和Bi是2個待匹配線實體的面狀緩沖區,Sim(Ai,Bi)和Sim(Bi,Ai)是各自的面積迭置率。則:

Sim(Ai,Bi)和Sim(Bi,Ai)中必須至少有一個大于某個閾值(0.3),才說明兩者有匹配的可能;且當Sim(Ai,Bi)接近于1的時候,說明Ai是整體和Bi匹配的;對于Bi也是這樣;當Sim(Ai,Bi)和Sim(Bi,Ai)都同時接近1的時候,說明Ai和Bi是1∶1匹配的。
圖像分割就是指把圖像分成具有特殊含義的區域,并提取出感興趣的目標的過程,本文采取的方法是基于閾值計算的圖像分割方法。閾值計算方法本文采用最大類間方差閾值法,是由Ostu提出的。Ostu法的圖像模型是:把圖像分為目標和背景兩類,處于目標和背景交接處兩邊的像素灰度值有較大的差別,它的灰度直方圖可以看成是由對應目標和背景的2個單峰的直方圖混合構成。如果這2個分布大小相隔很近且均值相距足夠遠,而且2個部分的均方差也足夠小,則直方圖表現為較明顯的雙峰,如圖1,這類圖像適用最大類間閾值法[3]。用類間方差閾值法來進行圖像分割可以使圖像錯分概率最小。Ostu法的不足是當目標與背景灰度差不明顯時,分割得到的圖像誤差較大,甚至會丟失整幅圖像的信息[4]。利用最大類間方差法,使2個數據集的差異達到最大的值便是最佳閾值。

圖1 迭置率灰度直方圖(適用Ostu方法)
為了驗證上述的方法是否可行,采用ESRI公司的ArcGIS Engine SDK和Visual Studio.NET 2008開發工具進行驗證。本文研究的數據源為北京房山區2007和2010年的1∶10 000道路矢量數據。將2010年和2007年道路矢量數據進行疊加分析后得到這2年道路數據的交集數據表,在進行目標識別和提取前可以根據計算的閾值把小于閾值的從交集數據表中刪除。
下面用面積迭置率的方法對本文的數據進行分析。在進行匹配前,先要對2年的數據建立緩沖區,緩沖區的大小與比例尺有關。通常選為對應比例尺最小許可間隔距離的2倍[5]。因此此處設定的緩沖區寬度為D=10 000×0.2 mm×2=4 m。
在ARCGIS9.3中生成緩沖區的疊加分析圖層,在新圖層的屬性表中會自動生成兩列數據,記錄每個要素對應的2007年和2010年道路要素ID,如表1。其中第一列為系統ID,第二、三列為2007、2010道路要素ID,第四列“Have07”代表相交面積Area(07∩10)/Area(07),第五列“Have10”代表相交面積Area(07∩10)/Area(10)。對這些數據根據面積迭置的計算方法進行處理,分別得到2007的迭置率集合和2010年的迭置集合:


表1 道路網緩沖區疊加分析屬性數據
對2個集合分別按大小排序后生成它們相關的折線圖如圖3所示。

圖2 迭置率統計圖
圖2中縱坐標代表面積迭置率,橫坐標代表重新排序后的自動生成的序號。從圖2中可以看出這2年的面積迭置率基本重合,2個的面積迭置率介于0~0.9之間,其中在折線拐點左側0~0.2之間的元素占了很大的比例,但并不能確定閾值的大小。為了進一步找出數據的分布規律,在Matlab中做出數據的灰度直方圖,如圖3所示。

圖3 迭置率灰度直方圖
圖3中橫坐標表示面積迭置率,縱坐標表示面積迭置率的某個值的要素個數,可以看出數據呈明顯的雙峰分布,在25處出現了一個較明顯的峰谷。為了分析數據這種分布的原因,把值域分為(0~5)、(5~30)、(30~100)3 組來進行抽樣分析,每個樣本個數為30。發現值域為(0~5)的要素主要是多條相交線段結點緩沖區重合引起的疊加分析誤差導致,值域在(5~30)的要素主要是由于地圖數據誤差造成。值域30以上的要素是2條線要素存在匹配關系形成的。由此可知整個數據集大致有兩類:一類為非匹配關系產生的冗余非匹配數據,另一類是由匹配關系產生的有效匹配數據。接下來用最大類間方差法來計算圖像的最佳閾值,把圖像進行分割。
用最大類間方差法得到2007年匹配閾值是29,2010年的是30,2個值非常接近。如果選擇30為最佳匹配閾值,刪除的數據要比閾值是29時要多,為了避免個別匹配的數據被刪除,這里選取29為最佳匹配閾值,即2條道路的面積迭置率達到29%,認為這2條道路是匹配的。
為了確定29是最佳的匹配閾值,本文選取了不同閾值統計了不同閾值的匹配準確率,如表2所示。不同閾值抽樣統計的道路個數不同,實驗閾值取10、20、29、40、50,對應的抽樣道路個數依次為 155、191、237、207、150。通過人工匹配數和閾值匹配數計算匹配的準確率,判斷29是否為最佳閾值。從表2可以發現,當實驗閾值較小時,閾值匹配的道路個數要略比人工匹配的道路個數大,這是因為閾值較小時被選取的道路要相對多一些;當實驗閾值較大時則反之。閾值大小會影響匹配的準確率,發現閾值取29時,匹配準確率最高。試驗發現通過面積疊置率和最大類間方差計算的閾值對同比例尺電子地圖道路數據增量信息進行識別和提取的效果比較好。

表2 不同閾值匹配精度
本文通過對目標匹配提取增量信息,發現面積疊置率結合最大類間方差的方法有很好的數據針對性,提取的效果比較好,且算法簡單容易實現。但該方法在實際應用中還存在不完善的地方有待改進。如當數據沒有明顯差異,在數據直方圖上沒有單峰出現,計算得到的匹配閾值匹配效果不能滿足要求,在下一步的工作中對該方法進行改進,提高該方法的通用性。