唐 權, 吳勤書,曹全龍
(1.江蘇省基礎地理信息中心,江蘇南京210013;2.江蘇省測繪研究所,江蘇南京210013)
隨著經濟社會對地理空間信息的需求日益增加,以及互聯網的飛速發展和普及,GIS應用日益豐富,基于地理位置的服務廣泛用于交通、醫療、教育、居住、娛樂、公共安全等行業服務中。門牌、道路、單位等地名地址數據作為最常用的社會公共信息資源之一,不僅與人們的日常生活息息相關,而且是政府行政管理、經濟建設中不可或缺的基礎信息資源,加快建立涵蓋各行業各專題數據的標準地址庫系統具有廣泛的應用前景。在省級標準地址庫層面,加快整合分散在市縣政府各部門和其他單位的地址信息資源,實現跨部門、跨行業、跨應用系統之間的地址空間信息交換、共享與協同處理已成為當前迫切需求。然而,在實際工作中,各個機構或部門的業務系統大多是相互孤立的,且不同部門業務應用系統采用的GIS軟件平臺、數據模型、地理表達方式、投影方式等各不相同,導致地址數據存在著各種差異,造成數據共享和一體化管理較為困難[1-2]。
空間ETL技術能實現對空間數據的抽取、轉換和裝載,本文將其引入到省級標準地址庫建設中,實現對各市縣部門和其他相關部門地址信息資源的匯集和整合,并以江蘇省警務標準地址庫建設為例進行應用實踐,成功匯集了全省5市警務地理信息平臺(PGIS)和其他業務系統中的地址數據,取得了較好的應用效果,證明了基于空間ETL技術實現省級標準地址庫的匯集方法的有效性。該方法具有一定的實踐借鑒意義,可為其他地區和行業開展類似的標準地址庫和空間數據匯集提供一定的科學參考。
ETL是數據抽取、轉換和裝載(extract,transformation,loading)的英文簡稱,是數據倉庫獲取高質量數據的關鍵環節,是對分散在各業務系統中的現有數據進行提取、轉換、清洗和加載的過程,如圖1所示[3]。空間數據主要指用來表示空間實體的位置、形狀、大小及其分布特征諸多方面信息的數據,空間數據倉庫則是面向主題的空間數據集合[4]。空間ETL技術主要實現對空間數據的抽取、轉換、裝載。標準地址庫可以視為空間數據倉庫的一種子集。標準地址庫主要包括門樓牌位置、地標中心點位置、興趣點門面中心點或特征點位置和自然地物中心點等各類地址信息。數據屬性項由地址描述、地址編碼、地址空間位置、地址生命周期、管理屬性等屬性數據項構成。

圖1 ETL實現的主要步驟
空間ETL不僅要處理常規的屬性數據,同時還需要處理海量的、多時態的、多尺度的空間數據。因此,除了對屬性數據進行處理之外,還需要與其他GIS工具相結合,如地理編碼工具、坐標轉換工具、尺度轉換工具、空間數據拼接與分割工具,對空間數據進行有效的處理[5]。Safe Software FME(feature manipulation engine)是一款強大的空間ETL商業產品,可以支持150多種空間格式數據之間的轉換,如圖2所示。

圖2 空間ETL實現的主要步驟
空間ETL包括數據抽取、轉換和裝載3個過程,基于空間ETL實現省級標準地址庫匯聚過程具體如圖3所示。
地址信息是政府行政管理和社會經濟建設的基礎性信息資源,許多相關業務應用系統均涉及地址數據。這種現象在市縣級政府部門中更為普遍,諸多部門建有與地名地址相關的業務系統。如民政局為實現更好地規范和完善地名的管理,建有“數字地名”系統;公安局為了通過門牌號實現可視化的網絡門牌管理,并解決門牌、戶籍、治安管理中的諸多問題,大力推進標準地址庫建設;國土資源局、房屋管理局和規劃局等其他GIS相關部門,為方便進行各種管理和應用,同樣建有涉及地址信息的業務系統。因此,省級標準地址庫的數據源可能來自于不同部門的數據庫系統或者其他業務應用系統。

圖3 基于空間ETL技術實現省級標準地址庫匯聚過程
在開展地址數據整合之前,首先需要對各數據源進行調研分析,了解各數據源的數據格式、內容、相關指標體系、采集手段、時間跨度、數據質量、空間分辨率、坐標系等多源異構性,制訂一套標準化整合方案和規劃;然后,在嚴格的質量控制與保證體系下進行空間ETL數據整合改造,確保整合后的地址數據成果正確、規范、有效。
(1)數據抽取
利用空間ETL實現省級標準地址庫匯聚首先是地址數據的抽取。從不同部門、不同的業務系統、不同數據庫及數據格式中抽取數據,而且數據不僅指數據庫中的標準空間地址數據,可能還涉及非結構化(如文本文件等)的數據,這需要設計多個接口去建立跨平臺、跨數據訪問、跨數據格式的數據讀取接口,實現數據的訪問與讀取[5]。按照抽取時間的不同,數據ETL過程可以被分為兩種類型:全量ETL過程和增量ETL過程。全量ETL過程一般用于數據倉庫的初始化,而增量ETL過程則用于地址庫的后期增量維護[3]。數據抽取是省級標準地址庫匯聚的關鍵,抽取的數據集一般先保存到數據準備區內,在此進行數據清理、轉換和集成,然后再裝載到數據倉庫中。
(2)數據轉換
空間數據轉換,也就是建立數據映射以后進行數據轉換。數據的映射指的是從源數據到目標數據的映射,空間數據的映射轉換就是要建立源數據到目標數據的關系,可以將源數據模型映射到目標數據模型的模式數據作為映射規則保存到映射規則文件中[5]。
空間數據轉換步驟包括:
1)實現投影轉換,將已抽取的數據源空間投影轉換為與標準地址庫相一致的投影;
2)實現數據格式化,將來自不同地址數據源的同類數據轉換為相同格式;
3)實現數據類型轉換,包括將某種數據類型或格式轉換為另一種數據類型或格式的較低層次轉換;
4)實現數據選擇操作,根據選擇條件對數據源中的數據進行選擇;
5)實現字段抽取,從一個或多個數據源中抽取有用的字段;
6)實現字段合并,包括地址字符串操作、日期和時間算術運算、其他條件語句,以及基本計算等功能。
可以將各轉換方法或轉換步驟進行模塊化設計,便于后續快速構建和重復利用轉換模型,以提高轉換效率,轉換方法包括投影轉換、格式轉換、列值計算、屬性空間化、空間屬性化、聯合處理和自定義SQL等。
(3)數據清洗
在已抽取的數據中有許多“臟數據”存在,因此,有必要對其進行全面檢查及改正,消除數據差錯,這一過程就稱作數據清洗。數據清洗過程中要刪除數據中的錯誤和不一致的數據,過濾掉不符合要求的數據。這些不符合要求的數據主要有不完整的數據(定位信息丟失、地址屬性信息無值),錯誤的數據(定位信息錯誤、所填值無效),重復的數據(不同數據源抽取的相似數據、同數據源過程數據或相同數據)三大類。通過數據清洗轉換,剔除“臟數據”,使得數據具有良好的正確性和較高的可用性。
(4)數據加載
各種地址數據在完成數據抽取、轉換、清洗后,最后按照統一的數據格式進行存儲和加載。利用空間數據庫管理系統的批裝載功能和優化裝載技術,將支持整個地址數據裝載處理過程。在裝載過程中,數據庫裝載服務支持刪除和重建空間索引、空間數據查詢等基本功能,以及提供系統日志、錯誤報告、數據備份與恢復功能。
經過抽取匯集的省級標準地址庫負責最終地址數據的組織和管理。標準地址庫中的數據組織是否合理、管理是否規范,對后續地址數據的應用效果起著決定性的作用。經過空間ETL過程形成的地址數據庫為后續地址數據的分析和應用提供了統一的數據基礎,從而為各政府部門、企事業單位和社會公眾提供基礎地理信息服務。
空間標準地址庫是警用地理信息開展應用的前提和基礎,如業務地理數據上圖定位、批量比對、空間分析等,都以空間標準地址庫為基礎。目前,部、省和市三級公安部門已全面建設警務地理信息平臺(PGIS),大量的公安業務數據通過標準地址庫實現了業務數據的空間化,警用標準地址庫已經成為公安業務系統與警用地理信息相互關聯的橋梁。在江蘇省范圍內,已有南京、常州、蘇州等市公安局在其警務地理信息平臺中建設了市級標準地址庫。江蘇省公安廳在這些市級標準地址庫和省廳已有人口住址信息、機構信息的基礎上,通過空間ETL技術,建立各數據源的轉換通道,對全省地址進行抽取、轉換和加載,匯集形成了省級警務標準地址庫,如圖4所示。截至目前,江蘇省警務標準地址庫已經匯聚了南京、常州、蘇州、南通、鎮江5個市級PGIS平臺中的標準地址庫數據和省廳人口住址信息、機構信息中的地址數據,總記錄數達200萬余條,省級標準地址庫還在進一步建設完善之中。
在江蘇公安日常警務業務應用中,標準地址庫取得了較好的應用效果。公安業務信息包括人員住址信息、機構信息、接處警信息、案事件信息等警務基礎數據,警務標準地址庫基本上覆蓋了90%的這些公安業務數據中的空間地址信息。在人員和機構相關業務系統中,可直接引用標準地址庫,如在標準地址庫中可查找到相應地址,則直接保存該地址編碼,而無需手動輸入,大大減少了地址信息錄入的工作量,增加了地址數據的規范性與準確性,減少了數據冗余。通過與標準地址庫進行地址匹配,分析人員可以通過PGIS系統在地圖上直接展示出110報警的位置、案事件的發生地,為后續空間分析應用奠定基礎。由于所有地址均引用自唯一的警用標準地址庫,以此作為相互關聯的載體和橋梁,實現了各警務業務平臺與地址相關的業務數據的互通,可以消除部門業務之前形成的數據孤島,進一步拓展業務數據進行地理空間分析的廣度和深度。

圖4 基于空間ETL技術江蘇省級警務標準地址庫建設的應用
標準地址庫是數字城市建設中的基礎工程之一,構建統一的省級標準地址庫,在省域范圍內整合各行業地址信息資源,基于標準地址使各部門分散的信息資源庫建立起有機聯系,可為全省各政府部門實現信息共享、交換和整合提供基礎信息支撐。由于地址空間數據的多源異構性,導致了其整合工作的復雜性,本文提出的基于空間ETL技術實現省級標準地址庫的匯集,較好地解決了地址數據整合過程中由于數據多源異構性而造成的數據難以實現集成的問題,并在江蘇省警務標準地址庫建設中進行了應用實踐。江蘇省警務標準地址庫的成功建設取得了較好的應用效果,證明了基于空間ETL技術實現省級標準地址庫的匯集方法的有效性,具有一定的實踐意義,可為其他地區和行業開展類似的標準地址庫和空間數據匯集提供一定的科學參考。
采用基于空間ETL匯集省級標準地址庫的方法能夠解決多源異構空間地址數據抽取、轉換、清洗和裝載,但是由于空間ETL技術的復雜性和地址數據的多源異構性,如何提高空間地址數據整合效率和數據質量等問題,尚待進一步深入研究。
[1]龔健雅.空間信息資源共享與互操作技術[J].國土資源信息化,2003(5):15-21.
[2]王雅琴,陶華學,高華,等.基于GML的多源異構數據交換模式研究[J].測繪科學,2006,31(2):88-89.
[3]徐俊剛,裴瑩.數據ETL研究綜述[J].計算機科學,2011,38(4):15-20.
[4]田揚戈,邊馥苓.空間數據倉庫的ETL研究[J].武漢大學學報:信息科學版,2007,32(4):362-365.
[5]陳紅華,王志杰,鄭加柱,等.基于空間ETL實現VCT數據交換共享[J].測繪科學,2012,37(1):185-186.
[6]劉龍庚,楊東日,李小平.信息產業資源共享與分析平臺中ETL技術研究[J].四川大學學報:自然科學版,2012,49(1):85-89.