張志軍,邱俊武,亢孟軍,毛海辰
(1. 天津市測繪院,天津 300381; 2. 武漢大學資源與環境科學學院,湖北 武漢 430079; 3. 靈寶市水利局,河南 靈寶 472500)
地址數據是空間數據基礎設施(spatial data infrastructure,SDI)的重要組成部分,其形式為自然語言,是公眾交換空間信息最常用的方式[1]。隨著我國數字城市和智慧城市的開展,相關部門采集和積累了大量的空間數據,這其中也包含城市地址數據。但是,由于缺乏對地址及地址模型概念框架的有效研究,導致地址數據的標準五花八門,數據的存儲和管理秩序混亂,應用效率低下。因此,有必要對城市地址模型的概念框架進行系統的研究,為地址標準的統一構建、地址數據的采集及管理提供完備的理論基礎。
相對于其他類別的空間數據,國內外對于地址模型的研究相對較少。在國內,多數研究集中在地理編碼和地址匹配結果精度的提升上[2-4],其關注的數據源由結構化地址文本擴展到非結構化文本和泛在文本[5-6],其研究的主旨是時空命名體的識別[7-8],地址數據被看作是其數據類別中最簡單的一種,故地址模型的作用未得到重視;而涉及地址模型的研究,大多是對已有的層次地址模型的簡單增補[2,9-10],這種增補往往是面向特定行業應用、特定地域范圍的,未能從根本的理論基礎上對地址所涉及的本質問題進行討論;其他也有國內學者對國外地址標準化情況進行介紹,并對比國內地址模型的建設提出改進意見,但是這些意見往往點到即止,未能系統地定義地址模型概念框架的范圍和外延[11-13]。
相比國內,國外學者對于地址模型的概念框架、標準化[1,14-19],以及與基于地址數據的相關行業應用研究較多[20],甚至出現了基于地址系統的認知過程的研究[21],其他關于地址匹配算法效率、精度及不確定性的研究更是不勝枚舉[20,22-24]。充分的理論研究使得歐美發達國家地址規劃更為健全和規范。但是地址的形式載體為自然語言,其所具備的地域和文化特性決定了地址模型本地化的必要性[17]。因此,國外地址模型的研究為中文地址模型的建設提供了有益的借鑒,但是無法解決其本地化的特殊需求,因此對中文地址模型概念框架進行系統的研究是非常必要的。
城市地址數據的混亂反映了城市規劃的滯后,如果這種混亂的局面得不到重視,沒有系統、規范的地址模型對地址規劃和建設進行指導,今后通過國家和地方各種渠道采集的不規范地址數據將源源不斷地被生產出來,造成嚴重的人力和物力浪費,并且降低了SDI整體的數據質量,成為SDI數據類別中的瓶頸。本文對城市地址模型概念框架所涉及的關鍵問題進行論述,包括地址的定義、地址的指代關系、地址的機構管理和地址標準化的現狀,對地址模型的整個理論體系的研究提出設想,以推動地址模型的研究,使之得到更多的關注。
明確地址的定義是整個地址模型概念框架的基礎,相關文獻和規范對地址有多種定義。①牛津大辭典:是個人或組織所處的具體位置;②南非國家標準1883-1(South African National Standards,SANS 1883-1):是能夠送達服務的、具體明確的點位;③是一種用來幫助用戶確定位置的描述方式,包括位置的名稱及其他補充信息[25];④FGDC (Federal Geographic Data Committee) :是個人或組織居住或者進行聯絡的位置,這種聯絡不包括電子通信方式;⑤是一種重要的、根據空間上下文提供的空間參考方式[26];⑥是公眾對位置的一種概念化表達[27];⑦具有地名的某一特定空間位置上自然或人文地理實體位置的結構化描述[28]。
通過對上述定義的分析,可以得出地址定義的一些重要特征,包括:①是一種表達位置的符號(location identifier);②主要用來進行空間信息溝通或交換(spatial communication);③地址的用戶是公眾、組織或計算機,包括人和機器;④采用自然語言的表達形式(natural language),并且空間表達邏輯符合公眾的認知習慣(spatial cognition)。
綜上所述,本文給出如下地址定義:
定義1:地址是一種采用自然語言組織、描述個體地域空間位置的抽象編碼方法,其具有一定的生命周期[4]。
地址的形式化表達為
A={(xi,t)∈V×T|P(xi,xj)≠?,xi≠xj,
i≠j,0≤i≤N,t∈T}
式中,A表示地址;V表示空間詞匯集合;xi表示組成地址的元素;N表示地址元素(address component)的最大個數;t表示地址的生命周期,其有效期為T;P(xi,xj)表示地址元素間存在的空間約束關系,且不為空。

狹義地址強調地址的抽象編碼方法的本質,其作用等同于坐標,都用于描述地理要素的空間位置,區別在于:坐標是位置的數字形式表達,其數學約束更為嚴格,適用于計算機運算;而地址是模擬形式表達,具有簡單的空間約束關系和拓撲邏輯,常用于公眾的空間信息溝通。圖1描述了以地理要素(geographical feature)為中心的地名、地址等相關概念的關系。地理要素是這些概念的核心,地名表達的是地理要素叫什么的問題,在一定程度上揭示了地理要素的本質。地名與地址最易產生混淆,現實中確實存在很多以地名表示地址的現象,但是兩者存在根本區別。地名是地理要素的靜態屬性,地址通過特定的編碼方式表示地理要素的空間位置,并且通過其簡單的空間約束關系描述了地理要素的整個尋址過程,而基于地名的尋址是由先驗空間知識構建地址的過程。
地址的重要性在于其廣泛的用戶群,包括公眾、政府、組織和商業行為。隨著地理編碼的發展,對地址的應用模式逐漸演化為兩種:一種是公眾對空間位置信息的交換,以自然語言方式進行;第二種是采用計算機處理的、地址數據的采集、存儲、匹配和應用。隨著第二種地址應用模式的迅速發展,人們往往忽略了第一種應用模式的重要性和頻繁性。城市地址模型概念框架的研究,必須重視第一種模式,要充分顧及公眾對城市空間結構的認知規律,并結合城市規劃的特點,構建易于形成公眾城市空間結構知識的地址模型。基于上述原則構建的城市地址模型將極大地提高地址數據的質量,減少數據存儲的異構負擔,對地址匹配質量的提升大于從算法層面的改進。

圖1 地理要素、地名、地址等的關系描述
地址的定義同時與地理編碼(geocoding)、地址匹配(address matching)和地址標準化(address standardization)有緊密的關聯,幾個概念經常被混淆或錯誤使用,本文結合相關文獻,給出幾個概念的定義如下:
定義2:地理編碼是指按照一定的規則賦予個體地域唯一、可識別的編碼,建立個體地域與標準地址、空間坐標的映射關系,從而可將地址與空間坐標進行自動轉換的過程。
定義3:地址匹配是指輸入地址字符串,經過算法匹配數據空間坐標的計算過程;由輸入空間坐標求解地址字符串的過程稱為逆地址匹配(reverse address matching)。
定義4:地址標準化是指對于輸入的任意地址字符串按照本地地址約束規則進行解析,并輸出符合規則的地址字符串的過程。
4個定義之間的關系如圖2所示:①地址是后3個概念的數據操作對象,地址的定義決定了后 3個定義的具體實施方式;②地理編碼是一項系統工程,涉及地址數據的采集、存儲和管理、本地化地址規則的解譯、地址匹配算法的設計、地址編碼數據質量的評估和管理,以及地理編碼產品的輸出和基于行業的推廣應用等;③地址匹配是地理編碼的核心,根據本地化地址規則,借助自然語言處理(natural language process,NPL)技術以實現地址的高效、精確檢索;④地址標準化是地址匹配的子過程,一般待匹配的地址都是非規則的,進行實際匹配之前,地址匹配算法模塊會進行一個規則化的過程,以解析輸入地址字符串的語義,并進行標準化的重組織,以待實施匹配算法。

圖2 地址、地理編碼、地址匹配、地址標準化關系
在多數SDI數據庫中,地址都是作為地理要素的一個屬性而存在,其假設的前提是一個地理要素具有唯一的地址。這種錯誤的假設是造成當前地址數據混亂的一個重要原因,是地址指代關系不明確的主要表現。
正確的地址模型必須要基于4個基本準則:①地址的作用是定位和指導尋址;②地址必須被視為獨立的實體(entity);③地址與地理要素為多對多(many-to-many)的指代關系;④地址指代地理要素的通路,而非地理要素本身的幾何形態。地理要素與地址一對一的關系是比較常見的情況,但是考慮到地理要素的幾何形態和空認知的尺度效應,情況就變得異常復雜,以武漢大學相關地址為例進行說明,如圖3所示。

圖3 武漢大學校門(底圖來源百度地圖)
武漢大學目前常用的地址有3個:①武漢市武昌區八一路299號(武漢大學官方認可地址);②武漢市洪山區珞瑜路129號;③武漢市武昌區東湖路115號。這3個地址是武漢大學合校前原武漢大學、武漢測繪科技大學和湖北醫科大學的地址,分別對應圖3中D、A和O3個校門。武漢大學作為一個獨立、完整的地理要素,3個地址都指向了武漢大學,即武漢大學地址是一對多的關系(one-to-many)。而對于地址的主次,地址關聯主體可根據需求選擇設定。
隨著新的規劃建設,原主校門D已不具備車輛通行條件,而新增了校門E替代D的作用,D地址指導尋址的作用已嚴重削弱,而E的通行功能得到強化,但是目前E還沒有標準的地址,其指導尋址的功能未得到充分發揮,反映了地址規劃的滯后。地址被視為獨立的實體表現在:①在SDI數據庫邏輯模型中的實體形態(如圖4所示);②地址是獨立的城市景觀個體,它依附于城市的空間通行結構。在城市空間通行結構相對穩定的前提下,地址是客觀存在的,不因城市建筑形態或宗地權屬的改變而改變,處于非激活狀態。在校門E開通后,地址的配置是激活該空間位置上的地址,并建立E和該地址的關聯關系。
校門A對應的地址是武漢市洪山區珞瑜路129號,其對應的更具體的地理要素是武漢大學信息學部,即地址2既對應武漢大學,又對應武漢大學信息學部。從空間尺度或粒度上而言,一個地址可指代多個地理要素,即地址和地理要素的關系是一對多的關系(one-to-many)。
武漢大學作為獨立的地理要素,其幾何形態為多邊形(multi-polygon),而地址表示的是通向地理要素的入口,其幾何形態為點,如武漢大學地址1表示校門D的坐標,該地址的語義就是通過地址要素的空間描述,到達地址的點位,即可找到該地址關聯的地理要素,這也是現實中以門址作為地址主要形式的原因。

圖4 地理要素和地址的數據庫邏輯關系
大量存在的城中村是城市地址規劃的另一難點,如圖5所示的武漢市某社區。A為該社區主要入口,出入道路為一條無名小路。使用這類地址的尋址目標一般是社區內的樓棟,線性參考系統(linear referencing system,LRS)難以適用這種樓棟分布情況的編碼。這類地址的表達主要使用行政區劃,如該社區樓棟地址表示為武漢市洪山區卓刀泉街道關公社區15棟,這種方式嚴重削弱了地址指導尋址功能,因為公眾對街道行政級別空間位置的認知度已經很低。基于前述原則,借助LRS良好的指導尋址的作用,應對此類入口進行門牌編號,增強其指路功能。

圖5 武漢市洪山區卓刀泉街道關公社區
在地址規劃中合理利用地址指導尋址的功能,還可有效引導交通流量,如圖6所示,圖中方形區域為一小型商店集中區,其地址為“1324 State Street”,其中State Street為該市的主干道路,右側的Arlington Avenue為次干道。該區域的地址采用主干道地址編號,并在此處設置“Entrance Only”入口,而才Arlington Avenue設置“Exit Only”出口。通過該地址的設置,引導前往此處的交通由主干道進入,次干道出,反之會增加次干道的交通流量,從而增加交通擁堵的可能性。

圖6 良好地址設計引導交通流量
在我國,尚未有明確、統一的地址規劃、建設和管理機構。如武漢大學信息學部所在的地址武漢市洪山區珞瑜路129號,其采用的地址結構為“市|區|道路|門牌號”,相關部分分別由民政地名部門、城市規劃部門和公安部門管理。通過查閱相關政府部門網站,表1匯總了國內可查閱到的省、市發布地址管理規定的機構,可見國內尚未有自上而下統一的地址管理機構和規定。

表1 國內發布城市地址管理規定的機構匯總
城市規劃部門是進行地址統一規劃和管理的理想機構,雖然公安部門和民政地名管理部門是很多城市地址管理規定的制定者,但是本身的職能范圍和業務特長決定了其無法全面考量地址規劃的細節及城市長期發展對地址規劃的要求。隨著空間信息在各行業和部門的廣泛應用,更多的部門依賴地址數據進行業務生產和管理,如衛生管理部門,他們同公安部門和民政部門一樣,應當作為地址數據的應用部門,通過不斷提出適合其業務開展的需求,推動城市地址管理的優化。
城市規劃部門作為地址管理首選機構的優勢體現在:①參與并實施城市的勘察測量,積累豐富的城市空間基礎數據和專題數據,具有數據優勢;②組織制定有關城市規劃,負責城市景觀環境的規劃管理,便于將城市地址規劃納入城市整體規劃;③負責城市建設用地規劃管理,審批城市建設工程的報建,便于推動城市地址與城市建筑配置。
城市地址模型所設定的原則一旦確立并實施,推翻重建的代價非常大,因為公眾建立城市地址空間認知結構需要較長的時間,一般會很抵觸重新學習的過程。因此,完善標準地址數據庫的較好辦法還是盡可能地利用已有的地址模型中合理的內容,對其進行補充完善,并確立規范的地址管理辦法,重新梳理地理要素,對已有而無地址的地理要素進行地址分配,而新的地理要素按照新的地址管理辦法進行地址分配并入庫(如圖7所示)。相關政府部門通過地址數據服務層接入地址數據服務,而地址數據的維護和管理主要由城市規劃部門負責。

圖7 城市地址數據庫構建流程及其部門應用
城市地址的標準化包括制定和貫徹實施城市地址標準的全部活動過程,表2列舉了我國目前發布的跟地址相關的標準規范,反映了以下特點:①無專門的城市地址標準;②標準制定單位類型多,有國家和地方的,涉及不同行業;③國家級標準少,無強制性國家標準。對以上標準按照術語定義準確、邏輯框架清晰、地址規范相關度、地址規劃參考價值4個層面評價,其結果如圖8所示。這些標準存在的共同問題是對地址等術語定義不夠嚴謹、準確,以及對地址模型的概念框架理解不清晰,從而導致其地址的指代關系、層級結構定義混亂,削弱了其標準化的作用,其中GB/T 18521和GB/T 14395在4個層面都有較好的評分,參考價值高。

圖8 國內地址相關規范評價
總體而言,地址標準化惠及行業多,但是并未得到足夠的重視,因此,迫切需要一個統一的部門對地址模型進行規范定義,整理現有的地址數據,發布完善的地址管理方法,進而為社會提供標準的地址數據服務。

表2 國內城市地址相關標準規范
地址以自然語言的形式傳遞空間信息,是人和數字處理進行空間信息傳遞的重要形式,行業應用對規范地址數據的需求愈加強烈。本文認為對地址模型理論框架研究不足是造成當前地址相關規范雜亂、無法適應城市規劃和行業應用的主要原因。在分析國內外研究的基礎上,本文提出了地址的定義及形式化表達,并對地理編碼過程涉及的概念進行區分,同時明確了地址與地理要素是多對多的指代關系;指出城市規劃部門是最適合進行城市地址模型設計、地址數據管理和規劃的機構;最后對國內地址相關的標準規范進行匯總和評價。
城市地址模型概念框架設計的內容還很多,本文只是對其最基本、核心的概念進行了討論,其他內容將有待進一步研究。