李 景 文,王 珂,殷 敏,劉 華 堯,王 翰 釗
(1.桂林理工大學測繪地理信息學院/廣西空間信息與測繪重點實驗室,廣西 桂林 541004;2.廣西有色勘察設計研究院,廣西 南寧 530031;3.鄭州測繪學校,河南 鄭州 450015)
隨著GIS分析方法的快速發展和空間分析推理的要求越來越高,地理信息預測成為空間數據分析的重要方面。傳統的信息預測方法有自回歸分析法[1]、灰色預測法[2]、組合預測方法[3]等,主要是從地理實體的空間信息出發,但地理實體的信息具有時間、空間與屬性復合時空特征(Temporal-Spatial Characteristics,TSC),如何將地理實體的空間、屬性與時間有機結合,將知識推理與GIS結合實現對未知信息的推理是地理信息預測的難點之一。本文充分利用神經網絡方法的強大自組織學習能力、大規模并行處理能力、優異的非線性映射能力和好的容錯性等特性[4,5],結合地理實體復雜的時空特征,采用徑向基函數(Radial Basis Function,RBF)神經網絡方法對地理實體數據隱含的規律進行分析,構建了一種基于TSC-RBF神經網絡的水質信息預測模型。
人工神經網絡以所需精度逼近任意非線性連續函數,這種特性適用于復雜系統的模擬和分析計算領域。設典型多層神經網絡(圖1)輸入層的輸入空間為m0維,隱藏層的空間為m1維,輸出層的輸出空間為m2維,從輸入層到輸出層映射的完整表達為:
推理過程選擇一個徑向基函數(RBF):


圖1 多層神經網絡結構Fig.1 Multilayer neural network structure
式中:φ(||xi-ci||)稱為徑向基函數,是N個任意函數的集合,||·||表示范數,通常為歐幾里得范數,ωi為F與φ的內積,即F為ωi與φ的線性組合逼近。由于φ(||xi-ci||)是非負的對稱函數,ci為φ的中心,求函數在未知點的值相當于函數的插值。通過F,RBF網絡可以實現從隱藏層到輸出層的線性映射,同時降低向量維數。
RBF網絡有多種學習算法,本文采用最小二乘的RBF網絡訓練方法。用回歸模型實現的RBF網絡映射為:
寫成矩陣形式,即:
式中:y是期望輸出向量,e是期望輸出與實際輸出的誤差向量。
通過Gram-Schmidt正交化[6]方法將矩陣Φ分解為:
式中:A是一個主對角線為1的上三角陣,U是具有相互正交列ui的矩陣,使得:
式中:g=Aω,期望輸出向量t表示成矩陣U的相互正交列的線性組合,坐標向量g的最小二乘解為:
由此,回歸向量gi的分量與RBF中心ci相互對應,在求和中反映每個RBF中心的作用。可得第p個RBF中心誤差縮減率為:
通過前向回歸方式的RBF中心選擇提供一個簡單有效的標準,在前向回歸的每一步中,選擇一個RBF中心使誤差的縮減率為最大。
漓江流域的水質情況一直受到重視。但通過對漓江流域飲用水源地的監測結果發現:干流水質較好,而支流污染較為嚴重;氨氮、總大腸菌群、細菌總數等項目都有超標的情況,因此,加強漓江水體污染的監測和預防必不可少。其中《地表水環境質量標準》(GB3838-2002)中規定水溫、p H值、溶解氧、氨氮、總磷、總氮、銅等共24項作為我國水質評價的基本項目。水質指標表達了水中的某一種或某一類物質的含量,反映了水質的好壞。例如p H值反映了水中各種溶解性化合物達到的酸堿平衡狀態,主要是二氧化碳、碳酸氫鹽、碳酸鹽的平衡等。水溫與水中物理性質、化學反應和生物化學反應有著密切的關系,也是引起其他水質指標發生變化的主導因素。本文以環境部和桂林市環保局公布的陽朔下游采樣點處近三年每周水體CODMn和NH3-N的含量數據作為樣本實例,并將其作為預測樣本。
水質信息的數據復雜且種類、單位、數量級等參數不同,例如河水的徑流量和水體中的p H值,從數量級上考察,兩者之間差距較大,若同時放在一個模型中進行分析,會產生較大誤差,并影響推理預測的準確性。因此,為了簡化計算,需要對原始數據進行標準化處理,本文選擇正切函數為傳遞函數,正切函數的輸出值y∈(0,1),且只有當輸入為-∞,+∞時,輸出值等于0或1。首先獲取原始數據的最大值和最小值,取兩者之和再乘以2得到一個標準參數。再將同個屬性字段全部原始數據和這個標準參數相比得到的比值(消除了不同種類數據間的數量級的差距)視為一個標準化處理后的值,輸出范圍為0.1~0.6,便于神經網絡訓練。公式如下:
式中:zij為原始數據的標準化值,xij為原始樣本值,xmax、xmin分別為原始數據中的最大值和最小值。水質信息的原始值及標準化值如表1所示。
標準化后的數據只是一個比值,并不具備現實意義,所以推理結束后需對其進行標準化系數反計算,公式如下:
用M作為地理實體的符號表達,地理實體的空間、屬性、時間信息可表達為一個數組:
式中:S為實體M的空間數據集合,表達點、線、面和坐標等點集合,R為屬性信息集合,T為采集取樣的時刻集合。在數據推理的過程中,地理實體由空間、屬性、時間3種大類的數據的數學集合來模擬:空間數據使用其坐標值或經緯度和高程(L,B,H)來記錄;地理實體的每一種屬性都作為屬性列對其進行記錄;時間以Hermann Minkowski時空維中的時間軸來記錄,表示從過去延伸到未來的線性參數,作為考察地理實體空間、屬性信息變化的參考。
由于地理實體的空間特征、屬性特征和時間特征的描述方法和數據組成不同,本文采用空間矩陣的形式對地理實體進行格式化處理。
將地理實體的時空特征視為一個多維空間:空間特征由實體的三維空間坐標表示,即(L,B,H);地理實體空間特征的格式化方法以地理實體空間特征描述地理實體空間信息采樣點,以坐標記錄其空間采樣點p的數據組織矩陣形式如下:

在地理實體數據建模過程中,需要對時空數據進行一體化擬合組織。時空流形擬合的過程變換為在高維空間中尋找一個能夠對輸入數據進行優化擬合的曲面Γ[7-10]。
設在n維空間中,Γ滿足方程:

式中:ai=(1,2,…,r;1≤i≤m)的點集合稱為代數一體化,x=(xa1,xa2,…,xam)∈Rn為一體化輸入向量。
在時空數據進行超曲面插值時,時空數據的格式化表達為:
由于不同的時刻地理實體的屬性特征不同,所以時間和屬性數據需要同步記錄,地理實體屬性維度和時間維度多元組的矩陣描述可表示如下:
由式(13)得到地理實體屬性和時間維度的格式化表達形式:

結合式(16)和式(18)時空數據的格式化描述,可表示如下:
每一個地理實體各個時刻的多元組轉化為一個獨立數值型向量,進而與歐式空間中流形超曲面的定義結合,構建時空數據超曲面。
對組織的地理實體數據作如下映射:

將每一個地理實體各個時刻的多元組都作為代數一體化的一個獨立輸入向量,每個元素則可理解為一體化的輸入參數。M中全部為地理實體的數值型數據,取值范圍為任意實數R。則映射得到的新多元組x=(x1,x2,…,xp)∈Rn,結合式(20),可得時空一體化:
式中:(ωi,ωi,j,…,ωi,j,…,p)為訓練學習后重新確定的權值,(x1,x2,…,xp)為一體化的流動坐標。
當某一流動坐標xk對最后的預測結果不產生影響時,如對于監測點固定形式,其高程等特征是恒定不變的,對推理不會產生影響,則可以將其權值賦0值,從而簡化數據的結構。
本文根據推理過程中的樣本選擇和RBF網絡推理算法,選用CODMn和NH3-N作為推理項目,選擇與CODMn和NH3-N相關的監測點監測信息作為樣本數據,建立推理機制。使用環境部和桂林市環保局公布的陽朔采樣點、大河鄉采樣點近三年每周水體CODMn和NH3-N數據為例,對下游陽朔采樣點的2011年第2季度的水質情況進行模擬推演分析。實驗選取2009年、2010年、2011年1季度的陽朔采樣點數據及大河鄉采樣點的時空數據作樣本空間[11],利用基于地理時空特征的RBF時空數據推理方法對該地區的空間、時間和水質數據進行仿真推理實驗,并依次推演出第2季度陽朔采樣點的CODMn和 NH3-N數據。
推理過程分為推理預處理階段、推理RBF網絡擬合階段和推理階段。其中,E為推理機中間過程樣本的輸出誤差,ε為期望輸出誤差,E<ε為推理擬合的判定條件。
(1)推理預處理過程:①分析斷面對CODMn和NH3-N有影響的參數。在推理目標的河流體系中,對CODMn和NH3-N產生影響的主要因素有:監測點的斷面水體徑流量Wq、數據采集時刻的斷面水體溫度Tem、河流溶解氧值Do、pH值等。②根據步驟①的采樣信息及已有數據庫中存有數據的相關程度和時間點的數量,確定RBF神經網絡的拓撲結構。確定所有輸入參數的空間位置用(l,b,h)記錄,并計算已知采樣點,距離目標采樣點的距離記作Disi。③獲得的采樣點的屬性數據主要有Wq、Tem、Do、pH,選取時間序列上不同監測數據構成推理機RBF網絡的輸入向量。在本例中,監測斷面的高程信息對結果產生的影響可忽略,故將輸入向量(ltn,btn,htn)中的htn權記為0,樣本集合簡化為8維輸入向量:根據式(20)可建立樣本集合:


表2 CODMn的推理值Table 2 Inference value of CODMn mg/L

表3 NH 3-N的推理值Table 3 Inference value of NH3-N mg/L
為了更直觀地表現基于時空特性的RBF神經網絡推理情況,將表2、表3中推理值和實際值進行對比,如圖2、圖3所示。由圖2、圖3可以看出,基于時空特性的RBF神經網絡推理結果較為準確,CODMn和NH3-N的推理值只有個別數據誤差稍大,并且隨著已知數據的不斷增多和模型自身的不斷學習匹配的過程,推理精度逐漸提高。
為了能評價和比較推理實驗的結果,使用平均絕對相對誤差mr、最大絕對相對誤差mar、均方根誤差rr3個性能指標對推理結果進行誤差分析,各項推理誤差指標比較見表4。

式中:yp(t)為數據推理值;yr(t)為數據的實際值。

表4 CODMn與NH 3-N值誤差指標Table 4 Error index value of CODMn and NH3-N
通過誤差分析,基于時空特性的RBF神經網絡推理除了個別預測數據誤差稍大,其他推理結果均較為準確,并且隨著已知數據的不斷增多和模型自身的不斷匹配的過程,推理精度也會逐漸提高,能更準確地對具有時空特性的地理實體信息進行推理。
基于神經網絡的知識推理的應用已擴展到了眾多領域,主要有模式識別與圖像處理、信息預測與評價、自動控制等方面[12]。本文將RBF神經網絡推理方法與地理信息的時空特征分析相結合,通過對RBF網絡推理算法進行分析,將水質信息的時空一體化特性進行標準化處理,并通過水質信息中CODMn和NH3-N的含量推理數據驗證了推理方法的可行性。基于TSC-RBF水質信息的預測推理方法既考慮了地理實體時空信息的復雜性,又充分利用RBF網絡知識推理的優勢,解決了異構數據建立數學模型的問題。通過實例分析結果,驗證了基于時空特征的神經網絡原理在進行信息推理時的可行性,為地理空間中其他復雜時空數據的預測與推理提供新的方法和思路。但是隨著智慧城市的建設以及物聯網的高速發展,對于解決多種地理時空信息的同時預測推理的方法需要進一步探討。
[1] 韋浩.多元回歸分析法在滑坡空間預測中的應用 ——以耀州區為例[D].西安:長安大學,2011.
[2] 胡曉華,吉成儒,虞敏,等.灰色預測法的進一步推廣及應用[J].大學數學,2013,29(1):117-121.
[3] 孫兆兵.基于概率組合的水質預測方法研究[D].杭州:浙江大學,2012.
[4] 張艷秋.基于神經網絡算法的知識獲取研究[D].南京:南京師范大學,2011.
[5] 葉世偉.史忠植(譯).神經網絡原理[M].北京:機械工業出版社,2004.183-187.
[6] 趙韜,姜金榮.分塊 Gram-Schmidt正交化算法及其應用[J].中國科學院研究生院學報,2009,3(2):224-229.
[7] HUNT N E.Phase Retrieval and Zero Crossing[M].New York:Kluwer Academic Publisher,1989.
[8] 王翰釗.基于RBF網絡的地理實體信息推理方法研究[D].桂林:桂林理工大學,2012.40-42.
[9] 王翰釗.基于神經網絡推理的GIS信息預測方法[J].工程技術管理,2013(6):53-55.
[10] 李景文,王珂,葉良松,等.基于RBF神經網絡的地理時空信息預測推理方法[J].西師范大學學報,2014,12(4):59-64.
[11] 中華人民共和國環境保護部數據中心.全國主要流域重點斷面水體環境質量自動監測周報[Z].http://datacenter.mep.gov.cn/report/getCount Graph.do type=run Qian Water.
[12] 汪洋,李明峰,王芙蓉,等.基于3S技術與RBF網絡的土地利用演變及預測[J].南京工業大學學報(自然科學版),2008,30(3):61-65.