吳張峰,夏蘭芳
(上海市測繪院,上海 200063)
伴隨著信息時代的到來,位置服務需求的深度和廣度在不斷增加,位置服務的產生離不開基礎數據的支持。POI數據作為位置服務的重要載體,直接掌控著位置服務的質量。與此同時,以POI為代表的位置服務數據的獲取和更新模式正在發生深刻變化。另一方面,隨著位置服務的普及,POI數據的鮮活性成為提升位置服務質量的核心因素。如何進行高質量的數據采集和多源POI數據的融合成為提升位置服務能力的關鍵。本文在廣泛試驗的基礎上,探索出一套基于FME Server的多源異構POI融合方法,為POI數據的動態維護更新提供了一種新的思路。
本文的研究框架如圖1所示。
本文研究的核心內容為:首先將來源可靠且經過質檢的POI數據形成一個母庫;然后將來源不同的POI數據進行數據清洗,進行基于FME Server空間位置信息和門址等屬性信息的融合,形成內容詳盡、結構規整的POI融合庫;最后,對于形成的POI融合庫再進行基于空間約束關系的門址掛接,建立POI數據與門址信息的對應關系,滿足各類基于LBS和Location Point的業務應用。
對獲取的大量的POI數據進行處理,處理的方法是利用FME軟件流程化的模塊設計對數據進行清洗,從而保證用于融合的數據的基本質量。處理流程如圖2所示,主要包括以下內容。
(1) 針對數據中存在特殊分隔符的問題,分析數據產生的原因,對特殊字符進行刪除處理。
(2) POI數據格式的統一,非漢字字符統一使用英文字符。

圖1 研究框架

圖2 數據清洗流程
(3) 設計標準POI庫的屬性結構,規范POI屬性名稱,如原始的POI數據結構中屬性字段各不相同,需建立原始字段與標準字段的對應關系,統一到標準的POI屬性字段名稱。
(4) 刪除奇異點,刪除空間字段為NULL的POI數據,優化POI數據質量。
(5) 刪除重復項,進行POI數據中同名地物的判斷及刪除。
(6) 坐標統一,坐標變換,使獲取的POI數據具有相同的坐標系。
數據源采用實測并經過質檢的數據,母庫的屬性結構定義如圖3所示,建成的母庫如圖4所示。

字段名稱含義描述數據類型空值性唯一性KEY_ID唯一標識NUMBER(38)NOTTYPE類型VARCHAR2(38)NULLNAME名稱VARCHAR2(100)NOTA_NAME所屬區縣VARCHAR2(50)NULLCOUNTY所屬街道VARCHAR2(50)NULLDOORPLATE_ID掛接門址IDVARCHAR2(100)NULLNAME_PHONETICIZE拼音VARCHAR2(200)NULLNAME_ENG英文名稱VARCHAR2(50)NULLNAME_ABBR簡稱VARCHAR2(50)NULLNAME_ALIAS別名VARCHAR2(50)NULLNAME_REGIS工商登記名稱VARCHAR2(50)NULLTEL電話號碼VARCHAR2(50)NULLPOSTAL_CODE郵政編碼VARCHAR2(50)NULLURL網址VARCHAR2(100)NULLEMAIL電子郵箱VARCHAR2(50)NULLDATA_SOURCE數據來源VARCHAR2(50)NULLDES描述信息VARCHAR2(50)NULLCOLLECTION_TIME采集時間DATENULLUPDATE_TIME更新時間DATENULLSTOP_TIME停用時間DATENULLDOOR_ACCU門址掛接準確度NUMBERNULLIMPORT_TIME入庫時間DATENULLPOI_TYPEPOI類型VARCHAR2(50)NULLDOOR_TYPE門址掛接類型NUMBERNULLPATCH批次VARCHAR2(50)NULLORIGINAL_ADDRESS原始地址VARCHAR2(100)NULLLINKED_ADDRESS掛接地址VARCHAR2(100)NULLGEOMETRY空間字段MDSYS.SDO_GEOMETRYNOT
圖3POI庫的屬性結構

圖4 建成的母庫
在進行POI融合過程中,首先要進行同名地物的判別,即同名POI點的識別。本文采用文本名稱相似度、距離相似度、門址相似度3個指標進行同名POI點的判別,在判別過程中,分別賦予0.6、0.2、0.2的權重。對于兩個POI對象,如果總體相似度大于閾值(本文設定為0.9),則認為是同名POI點,否則認定為新的POI點,進行POI數據的增量融合更新。具體流程圖5所示。

圖5 多屬性相似度的POI融合流程
POI作為點狀地物,與其他地物存在空間約束關系。在進行門址掛接的時候,要充分考慮其與參考地物(包括街道數據、小區數據和建筑面數據)的邏輯關系。如圖6所示,首先進行POI數據、門址點POI與參考地物之間的空間關系計算,判斷出與參考地物邏輯關系一致的POI點和門址點,再按照相對最近原則進行掛接。
門址掛接的結果如圖7所示。如果發現POI數據所掛接的門址數據與原始地址有較大出入,可以進行異常拋出,進一步進行數據質量的檢查。

圖6 基于空間約束關系的門址掛接

圖7 門址掛接結果
(1) 首先制作FME數據處理模板,主要將POI處理流程中的各階段數據處理分步制作成FME模板。具體包括以下模板:數據清洗模塊、POI母庫建立模塊、POI融合模塊、POI與門址掛接模塊、POI維護更新模塊。
(2) 將制作好的模板通過FME Workbech發布到FMEServer上,形成數據處理服務,如圖8所示。
(3) 模板的更新維護。通過FME Workbench從FME Server中下載工作空間進行維護,進行需要的升級,并重新發布到FME Server。
本文提出了一種多源POI數據歸并融合方法。該方法通過對POI信息的門址信息、位置信息和屬性信息進行比對,確定不同POI數據之間是否需要融合,最終形成一個結構統一、信息豐富的新POI庫,用于基于LBS和Location Point的業務應用。總體來說,該方法是一種比較實用而且簡單的方法,為多源POI資源的有效利用提供了一種新的思路。

圖8 發布服務
參考文獻:
[1] 邵蕾.網絡POI數據增量更新技術研究[D].蘭州:蘭州交通大學,2016.
[2] 高新院.基于空間位置信息的多源POI數據融合問題的研究[D].青島:中國海洋大學,2013.
[3] 張巍,高新院,李瑞姍.空間位置信息的多源POI數據融合[J].中國海洋大學學報(自然科學版),2014,44(7):111-116.
[4] 陳瑞.基于多源POI數據的匹配融合方法研究[D].蘭州:蘭州交通大學,2014.
[5] 李瑞姍.基于自然語言處理的多源POI數據融合的研究[D].青島:中國海洋大學,2013.
[6] 王婷婷.基于位置與屬性的多源POI數據融合的研究[D].青島:中國海洋大學,2014.
[7] 曾李陽,齊華,譚明建,等.基于天地圖的POI數據采集系統設計與實現[J].測繪與空間地理信息,2016,39(3):55-58.
[8] 周春輝,朱欣焰,蘇科華,等.基于LBS的興趣點查詢與更新機制研究[J].微計算機信息,2009,25(19):143-145.
[9] 林娜,王斌.空間數據庫增量式更新機制的研究[J],測繪科學,2008,33(3):198-200.
[10]宋曉紅,張立朝,祿豐年,等.地理國情普查中多源異構數據整合研究[J].測繪通報,2014(9):104-107.
[11]曹勁舟,武紅宇.基于微博位置簽到數據的POI更新方法[J].地理空間信息,2013,11(2):15-18.
[12]朱慶,陳松林,黃鐸.關于空間數據質量標準的若干問題[J].武漢大學學報(信息科學版),2004,29(10):863-866.
[13]LONEY K.Oracle Database 10g完全參考手冊[M].北京:清華大學出版社,2008.
[14]KOTHURI R,GODFRIND A,BEINAT E.Oracle Spatial空間信息管理[M].北京:清華大學出版社,2009.
[15]朱宏斌,陸海英,盛琦,等.城市基礎地理信息數據庫更新方案研究[J].測繪通報,2011(1):29-31.