王銀花
(1.福建省基礎地理信息中心,福建 福州 350000)
多源地名地址和興趣點數據整合方法研究
王銀花1
(1.福建省基礎地理信息中心,福建 福州 350000)

主要研究將來源不同的地名地址和興趣點數據進行整合的技術方法,建立一個具有相同的數據模型和組織結構的福建省基礎地名地址庫,實現地名地址、興趣點數據的統一管理以及數據的有效利用。
多源;地名地址;興趣點;數據整合
地名、地址、興趣點數據是以坐標點位的方式描述某一特定空間位置上自然或人文地理實體的專有名稱和屬性,是專業或社會經濟信息與地理空間信息通過地理編碼或地址匹配進行掛接的媒介與橋梁[1]。地名地址數據來源途徑包括通過采購、共建共享、自行采集等多種方式,獲取多套地名地址、興趣點數據,這些數據在數據格式、分類標準上都存在較大差異。
為滿足天地圖·福建和數字城市地理空間框架建設、數據查詢、測繪應急保障服務等應用的需求[2],需要對現有數據進行整合,使數據具有統一的數據模型,建設適合福建省的基礎地名地址庫。福建省基礎地名地址庫是指包括福建省地名數據、地址數據和興趣點數據的數據庫[3],3種不同類型的數據具有統一的數據模型和組織方式,方便數據的統一管理與維護,為福建省的地名地址服務提供可靠的基礎地名地址數據,提高政府管理水平和公共服務能力。本文對如何將不同來源的地名地址數據進行整合開展研究。
多源地名地址數據空間參考、屬性字段、組織方式等多方面都可能存在不一致,所以,只有設計一個統一合理的數據模型,并將其投影到同一空間參考,才能進行數據整合。本文多源地名地址數據整合方法包括:①數據模型和組織結構設計;②數據預處理,即將不同空間參考的數據進行投影轉換;③重復點查詢與剔除;④多源數據融合,包括數據屬性信息的融合;⑤解密處理,即通過敏感涉密關鍵字,將敏感信息挑選出來單獨存儲。如圖1所示。
1.1 數據模型與組織結構
不同來源的地名、地址以及興趣點數據結構、屬性字段、空間參考都不一致,要將其整合為一套數據,必須具有合理的數據模型以及相同的組織結構,以實現數據的統一管理。本文參照相關地理實體的模型定義,將數據模型分為基本屬性和擴展屬性。基本屬性是共有字段,而擴展屬性按照不同實體類型設置不同的屬性內容,以數據表的格式存儲,二者通過唯一的圖元碼進行標識和鏈接。該數據模型既滿足統一管理要求,又能夠保留不同數據的特有屬性。

圖1 多源地名地址數據整合方法技術路線圖
1)基本屬性。根據數據的使用要求,設定其基本屬性,包括要素名稱、地址、類型碼、經度、緯度、分類代碼、圖元標識碼等。
2)擴展屬性。地名、地址和興趣點都有各種特征屬性,無法用統一的數據結構進行描述,擴展屬性項可以按照各種數據類型進行自由擴展,保證數據信息的完整性和可擴展性。
地名庫數據中按照類別添加各種擴展屬性項,在實際作業過程中根據需要再定,如路名點需要擴展的屬性可以包括道路編號、道路等級、道路寬度等,水系點擴展屬性中可以包括水系等級、所屬流域等專業屬性[4]。地址庫數據相對屬性較單一,可以根據實際需要進行適當擴展。興趣點涉及的數量多,類別復雜,每種類別的特有信息豐富,因此興趣點的擴展屬性可按照不同的三級分類類別特征進行擴展,但一般都要包含聯系電話、網址、郵編、數據采集時間、采集單位、采集人等信息[5]。
另外,如圖2所示,本文將基礎地名地址庫分為地名數據、地址數據、涉密敏感數據和興趣點數據,其中地名數據分為人文地理實體和自然地名實體2個要素集[6],自然地名實體包括水系、海域和陸地地形,人文地理實體要素集包括具有地名意義的交通運輸設施,具有地名意義的建筑物,具有地名意義的水利、電力、通訊信施,具有地名意義的紀念地、旅游勝地、居民點、行政區域及其他區域。地址數據包括小區名、門牌號,興趣點數據包括生產制造、旅游娛樂業、賓館住宿、醫療衛生、文化教育、文化藝術業、交通運輸、機關事業及社會團體、購物、通信傳媒、金融業、餐飲美食、公共管理服務以及居民服務等[7]。

圖2 多源地名地址數據組織結構
1.2 重復點剔除
不同來源的地名地址數據,在相同區域存在交叉,需要進行數據判重,保留現勢性好、精度高的點。由于數據的來源、精度、正確性不同,重復點出現的情況多種多樣,包括名稱完全一致的重復點,名稱不一致,二者出現簡稱或者同音字甚至錯別字,可通過主觀斷定是否同一個地理實體的重復點。
重復點的查詢主要有2種方法。方法一是結合空間位置,將不同來源數據根據名稱字段進行連接,找出名稱相同的點,將其導出后參照資料進行篩選。該方法的不足是只能找出名稱完全一致的點,很多名稱不同的重復點無法查找出來,所以需要對數據進行模糊查詢。
方法二是利用FME軟件,構建數據模糊查詢模塊,將某一要素與其一定距離范圍內的所有要素進行一一匹配,取匹配度最高的要素,并將其匹配度值和匹配上要素的名稱寫在其屬性里面。其中,匹配的距離可以根據實際情況進行設置,對于地名、公園、工業園區、住宅小區等指代范圍比較大的點,匹配距離可以設置稍微大點,如500 m~1 000 m左右;而對于一般的POI類型,匹配距離可以設置在50 m~100 m范圍之間。結合匹配度和匹配名稱,可以快速判讀要素之間是否為相同要素,再根據影像等參考資料和數據源本身現勢性、精度、屬性完整性、正確性等因素,選擇屬性信息全、位置精度高、現勢性相對較好的點,從而剔除重復點。
方法二是通過模糊匹配進行數據查重,同時能夠將名稱完全一致的重復點查出來,具有較高的實用性和正確性。
本文研究了福建省地名地址庫的整合方法,結合ArcGIS、FME等工具,快速地將不同來源的數據進行判重、數據融合以及解密處理等,使不同來源的數據融合到一起,得到數據組織結構、空間參考、數據屬性標準相一致的地名地址數據,大大減少了人工參與過程,縮短了整合時間,從而說明該方法具有較高的有效性和實用性,為今后福建省地名地址數據的不斷增多提供了快速有效的整合方法,也為天地圖·福建建設、數字城市地理空間框架建設以及滿足福建省經濟社會發展和社會公眾生活對地名地址的需求奠定了堅實的基礎。
[1] 國家測繪地理信息局.地理信息公共服務平臺地理實體與地名地址數據規范[S].
[2] 王野,張志文.沈陽市地名地址數據采集與建庫[J].城市勘測,2013(6):40-43
[3] 劉娟,智升翠.“天地圖”市級節點地名地址數據建設的研究[J].測繪與空間地理信息,2012,35(9):109-112
[4] 戴冬冬.基于地址匹配方法的POI 數據更新研究[J].電腦知識與技術,2010,6(1):1-11
[5] 王會娜,王瑋.“天地圖·江蘇”省級節點地理實體的建設[C].江蘇省測繪學會2011年學術年會論文集,南京,2011
[6] 張玲.POI 的分類標準研究[J].測繪通報,2012(10):82-84
[7] 朱家彪.公眾地理信息公共服務平臺系統建設研究——以湖南省為例[J].測繪通報,2010(9):60-62
P208
B
1672-4623(2016)04-0037-02
10.3969/j.issn.1672-4623.2016.04.012
王銀花,碩士,工程師,主要從事地理信息數據生產和電子地圖制作等工作。
2016-01-21。