姜志淵
(溫州市龍灣區統計局,浙江溫州 325058)
從門牌號到行政區劃代碼
——談行政區劃計算機自動編碼實現方式的思考
姜志淵
(溫州市龍灣區統計局,浙江溫州 325058)
行政區劃代碼的編碼工作在統計系統中大量存在,人工編碼繁瑣且缺點明顯,針對人工編碼工作中存在的不足,本文依托現有的“三經普”、名錄庫等大數據背景,結合信息化技術,提出了一種可行性較高的計算機自動編碼的實現方式。
行政區劃編碼;自動編碼
行政區劃代碼是一種用數字編碼來表示一個地區序號的編碼格式,廣泛應用于全國各地區、各部門的信息系統,涉及到統計、普查、社會保障、教育、戶籍等領域,是我國社會現代化管理中一項重要的基礎標準。
在統計系統中,行政區劃代碼是各項統計調查的基礎代碼標準,也是建立數據平臺的基礎,有利于各專業、各部門間的基層匯總數據的銜接。
本文所說的行政區劃代碼的編碼工作,是指將一個具體的地理位置信息轉換為行政區劃代碼的過程。在統計系統中,存在著大量的此類編碼工作:如將企業的注冊地址、經營地址以及調查戶的住址等信息編制成行政區劃代碼。即根據已知的地理位置信息找到其對應的行政區域,如縣(市、區)、街道(鎮)、村等,再將行政區域轉換成對應的行政區劃代碼。
人工編碼的一般流程是根據地址中所含的地理信息,依靠個人的經驗或者借助地圖工具等,來判斷其所在的行政區域,再找到對應的行政區劃代碼。
人工編碼目前廣泛應用于統計工作,是一項基礎且繁瑣的環節,存在以下缺點:一是地理位置信息的模糊性易導致編碼失誤。理想的情況下,獲得的地理位置包含精確的行政區域信息,如“XX省XX市XX區XX街道XX村XX路XX號”,這樣工作人員比較容易根據已知的區域信息找到對應代碼。但更多的時候,獲得的地理位置并沒有精確的行政區域信息,一般只有類似“XX省XX市XX區XX路XX號”這種“斷裂式”信息。此時,工作人員只能根據經驗或其他方式進行粗略判斷并編制12位(村級)的行政區劃代碼,因此得到的結果往往有較大誤差;二是工作量大增加基層工作難度。在名錄庫的日常維護工作中,存在較多名錄單位新增或地址變更等情況,基層工作人員需要花費大量的精力和時間在編碼工作中,加大了基層統計工作的難度和壓力。
針對人工編碼工作中存在的不足,筆者依托現有的“三經普”、名錄庫等大數據背景,結合信息化技術,提出一種可行性較高的計算機自動編碼的實現方式。
(一)主要設計思路
行政區劃代碼的編制工作,中心思想是從地理位置到代碼的轉變。計算機并不能直接理解地理位置這樣的中文信息,我們需要將其轉化為計算
機可以解析的方式,然后在已有的數據找出對應的結果。主要工作思路有兩步:
1.運用百度地圖API確定地理坐標。現在網絡上存在很多的地圖應用,如百度、Google、高德等,在這些地圖應用中,只要查詢一個地理位置,就可以定位到具體的地圖坐標。
本文思路借助的是百度地圖的定位技術。百度地圖API(Application Programming Interface)是一套為開發者免費提供的基于百度地圖的應用程序接口,程序開發者通過調用相應的API,可以將一個地理文字位置轉換為地理坐標信息。
百度地圖API家族中提供了Geocoding API,這是一類簡單的HTTP接口,用于提供從地址到經緯度坐標或者從經緯度坐標到地址的轉換服務,用戶可以使用程序開發語言發送HTTP請求且接收JSON或XML類型的返回數據。Geocoding API中的地理編碼接口,可以由詳細到街道門牌的結構化地址得到百度經緯度信息,且支持名勝古跡、標志性建筑名稱直接解析返回百度經緯度。例如:“北京市海淀區中關村南大街27號”地址解析的結果是“lng:116.31985,lat:39.959836”,“百度大廈”地址解析的結果是“lng:116.30815,lat:40.056885”。以下是一個關于地理編碼的簡單示例:發送一個地址是“溫州市龍灣區永強大道147號”的請求,返回該地址對應的地理坐標。發送請求的URL如下:
http://api.map.baidu.com/geocoder/v2/?address=溫州市龍灣區永強大道147號&output=xml&ak=64c444 fddca32845819a7edb2a380a26&callback=showLocation
點擊上述請求URL,返回地址“溫州市龍灣區永強大道147號”解析的XML格式的數據:

通過分析返回的數據,可以知道查詢地址的經緯度坐標為“lng:120.78518503423,lat:27.8431464198 46”,得到地理位置坐標之后,我們就完成了工作的第一步。
2.從地理坐標到行政區劃。“三經普”中有這么一項工作:劃區繪圖。所有普查小區的邊界信息都在計算機中繪制并上傳至國家服務器中。換種說法,就是國家的服務器中存儲著全國所有行政區域的邊界信息。
這意味著,如果已知一個地理位置坐標,就可以在國家的經普地圖中查詢到對應的行政區域,那么就等于確定了其行政區劃代碼。所以只要“三經普”地理系統開放相應的查詢接口,接受經緯度坐標為參數,返回包含行政區劃代碼信息的結果,自動編碼就可以完成了。
(二)總體流程與可行性分析
本文提出的解決方案,是通過商業地圖提供的公用接口,將地理文字位置轉換為地理坐標信息,再通過在“三經普”地理地圖中的定位,得到對應的行政區域,最后編制成行政區劃代碼。總體流程圖如下:

從正確性分析,此方案主要依賴百度地圖API的查詢結果,根據日常使用情況上來看,返回的結果具有非常高的可信度,基本可以滿足日常工作需要;從計算機技術上講,如果國家統計局提供從地理位置坐標到行政區劃代碼的查詢接口,那么結合百度地圖API,程序只需要兩步查詢就可以輕易實現;從已有的系統支持上講,國家統計局現在已經開發了“三經普”地理地圖系統,只需對外提供一個查詢接口,便可推動計算機自動編碼從設想變為現實。
(三)自動編碼的優勢分析
計算機自動編碼的優勢是顯而易見的,主要體現在:一是提高工作效率。一旦實現自動化工作,人力成本可以得到極大的節省;二是提高名錄庫精確度。此項技術有利于優化名錄庫中單位中的準確性,這可以給各專業工作的開展,甚至是下一
次普查工作帶來無窮的好處。三是不需要維護地理信息。這是一個巨大的優勢,現有的商業網絡地圖更新相當及時,且數據準確性高,這在充分利用了現有大數據的情況下,還可以很大程度上保證結果的可信度。
1.“三經普”地理信息利用率有待提高。“三經普”成果中的地理地圖有待開放查詢接口,如果現有的地理信息沒有得到很好的利用,那么將造成無形的資源浪費,而再過幾年數據將陳舊且無法使用,等下次普查工作可能就是新的一輪重復。
2.行政區域分界需要及時更新維護。為了保證行政區劃編碼的正確性與有效性,全國行政區域的變更必須及時反映在全國地理地圖中。雖然這需要花費一定的時間精力,但是考慮到行政區域較少變動,而且此項工作還可以給日后帶來很多方面的效益,那么整體的投入與產出相比,是非常有價值的。
(責任編輯:牛域寧)