毛海亞,何正國,程國榮,黃 鐸
(1. 廣州市規劃和自然資源自動化中心,廣東 廣州 510030;2. 廣州邦城信息技術有限公司,廣東 廣州 510640;3. 華南理工大學建筑學院,廣東 廣州 510641;4.亞熱帶建筑科學國家重點實驗室,廣東 廣州 510641)
“實有”人房數據在城市細微空間粒度的地理實體,特別是個體人口的表達方面,是對傳統意義上城市基礎數據的一次創新,也是推動城市精細化管理的重要基礎。本文從“實有”人房數據應用需求出發,著重分析了面向地理實體的“實有”人房數據庫建設中數據質量標準建設、地理實體空間化、多尺度實體數據管理、數據更新等方面的內容。基于制定“實有”人房數據處理方法及規則,構建數據庫中的對象關系,設計“實有”人房數據庫結構,形成以地理實體為核心的多粒度數據庫,為下一步“實有”人房數據庫應用提供了規則與范例[1-3]。
建設面向地理實體的“實有”人房數據庫的前提,是基于具有獨立編碼的人、房等地理實體單元,構建實體單元之間的規則。在此基礎上,建立地理實體單元的數據質量及清洗標準,以及數據庫的多尺度建庫與“實有”數據更新規則。以此,建立統一數據質量標準,人、房多實體關聯、多粒度數據集成以及定期更新的地理實體數據庫。
由于地理實體單元的最小粒度劃分,其數據采集具有數據量大,數據精度控制在計算和成本上都有著較大的難度[4]。在廣州市“實有”人房數據采集過程中,市域層面特別是“實有人口”數據量巨大,且采集與處理過程中存在標準不一,數據錄入缺乏審核等導致數據質量存在問題。同時,由于“實有人口”基于個體居民的數據采集,有別于傳統人口數據采集中以行政單元的人口統計為數據采集單元,其數據質量和標準化成為“實有”人房數據采集與處理中需要首先解決的問題。依據“實有”人房數據質量評估所存在的問題,主要從數據完整性、一致性、準確性等方面構建“實有”人房數據地理實體單元的清洗標準,以提高“實有”人房數據的可用性,如圖1 所示。

圖1 “實有”人房數據清洗標準構建
地理實體是能夠進行編碼且有關聯位置和屬性信息的獨立實體[3],其中獨立的編碼是“實有”人房數據作為地理實體的前提,同時統一的實體編碼能夠作為“實有”人房數據之間連接的橋梁。地理實體是由其幾何形態、語義特征和屬性信息加以描述的[1],在“實有”人房數據地理實體的構建中對地理實體的描述(包括空間位置、幾何形態、屬性特征、要素關系及時態特征),從不同的角度來強化對地理實體的描述,如圖2 所示。

圖2 以人口實體單元為中心的數據處理與空間化
“實有”人房原始數據表達了每個地理實體單元的獨立編碼以及對應社會與經濟屬性信息。基于這一關聯表構建關系鏈與空間映射,“實有人口”通過“實有房屋”空間化來獲取空間屬性。其中“實有房屋”包括“實有房屋棟”和“實有房屋套”兩部分。“實有房屋”空間化的過程,是以地名地址引擎作為空間信息與其他非空間信息的橋梁[5],首先將“實有房屋棟”的空間地址通過地名地址引擎產生標準地址代碼,然后“實有房屋棟”通過地址代碼關聯到標準門牌地址庫獲取空間屬性,“實有房屋套”通過房屋棟和房屋套間的從屬關系間接獲取空間屬性,實現“實有房屋”的空間化并進而實現“實有人口”的空間化。
“傳統”測繪向“新型”測繪轉變的核心特征之一,是以地物類型化到地理實體獨立化的轉變,這一過程中需要處理海量數據的屬性表達與獨立實體可視化這一挑戰[6]。應用實踐中,單一空間粒度與比例尺的地理實體表達不能滿足地理實體表達模式的需求,需要構建多粒度的時空實體[7]。“實有”人房數據中,特別是“實有人口”數據在廣州市數據量巨大,難以單一尺度處理,需要建立人口數據的多尺度的空間數據模型。
多尺度實體數據創建及管理是在“實有人口”實現空間化的基礎上開展,首先聚合特定空間單元中的原始人口點數據作為聚合點的屬性信息(包括各性別人數、各人口類型人數、各年齡階段人數、勞動人口、育齡婦女人口等),實現原始尺度基礎上下一尺度的空間變換與屬性聚合。在新的尺度數據基礎上,以該尺度人口聚合點重新劃分規則格網生成更小比例尺聚合點圖層,以此規則在新的聚合點圖層中重復以上過程,生成從大到小比例尺下對應的聚合點圖層,如圖3所示。

圖3 多尺度實體人口數據生成
形成不同尺度人口聚合點圖層是求解聚合點空間位置及屬性信息的過程,在每個格網單元中,聚合點的空間坐標采用加權平均數的方式,權重為該點人口總數,聚合點的屬性字段為格網單元中所有點對應字段之和,計算公式如下:

式(1)、(2)中,X、Y表示聚合點的坐標;xn、yn為一個抽稀單元中第n個點的原始點坐標;mn為抽稀單元中第n個人口點人口總數;mi為當前格網中所有點的總人數的算數平均數。(3)式中f為聚合點中字段f對應的值,fi為該抽稀單元中第i個原始人口點對應的f字段值,即聚合點f字段的值為格網單元中所有原始人口點f字段之和。依據不同比例尺將聚合每一層聚合點數據保存為庫中的空間表,每條空間表的中的記錄表示某一數據尺度下對應規則格網中所有地理實體的統計信息。形成了多粒度的人口數據,能夠為不同尺度下的數據訪問提供快速的響應。
在“實有”人房數據中,“實有人口”處于流動狀態,因而同時具有時態性。考慮數據特別是人口數據的海量規模,“實有”人房數據更新模式為以一定周期為時間節點的定時增量更新策略。基于原始“實有”人房表單數據生成初始空間數據庫基礎上,以定時更新模式對“實有”人房空間數據庫進行增量更新。更新過程以更新腳本的方式運行,按照數據處理規則,經過更新數據抽取、數據清洗、空間落地、更新地理實體及相關等步驟對原始采集數據進行處理得到空間化的“實有人口”及“實有房屋”數據,并更新到“實有”人房空間數據庫,同時將當前現勢庫通過更新時間標簽存儲到歷史庫中。在具體的更新周期控制方面,依據數據本體的時態特征并考慮數據推送及采集的實際情況,確定“實有”人房應用數據庫的更新周期為一周。
更新過程中,原始“實有”人房數據庫中存儲著“實有人口”及“實有房屋”中所有時間序列的表單數據,當原始“實有”人房數據庫更新完成后,觸發“實有”人房數據庫的更新程序。首先通過更新數據對應的更新時間戳對比當前數據庫查找更新要素,將更新的地理實體寫入到歷史庫中,并對提取的更新數據按照數據清洗流程以及已更新的對象關系進行空間化,最后進行多尺度實體數據生成,完成數據的時態更新,如圖4 所示。

圖4 “實有”人房數據庫更新機制
廣州市“實有”人房數據中地理實體的基礎屬性,主要包括實體標識信息和屬性信息這兩部分,用來標志地理實體和表示實體相關屬性,如在“實有人口”中,用人口ID 作為“實有人口”的唯一標識,人口類型、年齡、戶籍等信息表述人口實體的相關屬性,實體的空間屬性存儲著實體對象的空間幾何信息及位置信息,通過對象標識信息映射到空間幾何信息上。表1列舉了廣州市“實有”人房數據庫中的表單內容,圖 5用ER 圖來表示數據庫中的實體及其關系。

圖5 “實有”人房實體數據庫ER 模型

表1 “實有”人房數據庫表單內容
以廣州市“實有”人房數據庫中人口信息表中“人口ID”作為主鍵,其他字段如人口類型、年齡、性別等為屬性字段,同時包括空間屬性用來存儲人口的空間信息;關系信息表包括人房關系,在人房關系中使用人口ID 字段和房屋棟ID 字段的關聯來存儲人口與房屋之間的關系,統計信息表包括基于門牌的人口統計信息表;空間信息表是在屬性信息表和統計信息表的基礎上通過添加空間字段,該字段存儲著地理實體的空間位置信息。在每個地理實體對應的屬性表中保存著該地理實體的更新時間。
在空間信息表中存在不同粒度的人口統計數據,不同的比例尺對應著數據庫中不同的數據粒度的空間表,在該表中格網標號為該數據的唯一標識符,代表抽稀時的格網,表名表示某一數據粒度下相對應的比例尺,除此之外的屬性為該粒度下人口的基本屬性。基于不同的行政邊界對人口數據進行統計,生成不同等級行政區域的人口數據統計表,提供基于行政邊界人口數據的快速查詢,如圖6 所示。

圖6 “實有”人房數據庫物理結構
在上述數據處理方法和數據庫模型的支撐下,建立廣州市“實有”人房地理實體數據庫,該數據庫整合了人口、房屋,同時通過數據庫中統一的實體編碼,實現廣州市以人、房為核心數據展示及分析平臺。如圖7、8 所示為人口信息熱力圖功能及建筑物查詢功能。

圖7 基于“實有人口”的人口熱力圖生成功能
1)實現快速查詢分析某個區域中的人口結構及分布情況,支持通過行政區劃邊界、自定義空間范圍來快速生成人口的數據統計。
2)實現快速查詢地理實體的空間位置,并通過統一的實體編碼實現以人查房、以房查人等關聯查詢。
3)實現建筑物查詢功能,通過房屋套與房屋棟之間的從屬關系來生成房屋套組成的樓盤表。
4)實現服務設施人口均等化分析功能,借助現有道路數據,快速生成服務設施服務范圍,并對服務設施覆蓋的人口進行統計分析。
5)實現多比例尺下人口信息熱力圖的顯示,并通過多粒度數據集成的方式提供快速的數據響應與分析。

圖8 基于“實有房屋”的房屋棟查詢功能
本文基于廣州“實有”人房數據庫建設的研究,從數據質量、地理實體空間化、多尺度實體數據管理、數據更新這4 個方面來闡述“實有”人房實體數據庫建設需求,分析了數據庫建設過程中的數據處理及更新方法,實現“實有人口”及“實有房屋”以個體為單位的空間落點。并基于此,闡述了“實有”人房數據庫的邏輯結構及物理結構,建立了“實有”人房數據庫的具體應用支撐。在后續的研究工作中,針對應用實踐中不斷增加的“實有”人房數據需求,需要持續優化數據庫結構模型并據此構建創新應用數據模型,為更好地發揮“實有”人房數據庫應用實踐提供支撐。