譚興龍 趙曉慶 張玉華 胡 洪
(1.中國礦業大學(徐州)環境與測繪學院;2.國土環境與災害監測國家測繪局重點實驗室;3.江蘇省資源環境信息工程重點實驗室;4.兗礦集團東華地礦建設分公司)
礦山高精度高程基準的建立是礦山變形災害監測的基礎、安全生產的重要保障。由于礦區地形條件復雜,坡度變化較大,采用常規水準儀測量工作量大,時效性差[1],難以滿足復雜礦區高程快速測定的需求。隨著全球定位系統(Global Position System,GPS)技術迅速普及,GPS已成為大地測量的重要手段,可以實現礦區高程的快速測定。但GPS高程是基于WGS-84參考橢球的大地高,實際應用中通常采用基于似大地水準面的正常高,它們之間的差值稱為高程異常[2],因而精確地確定高程異常是將GPS高程應用到礦區高程測量的關鍵。目前,國內外常用高程異常計算方法有多項式擬合(Polynomial fitting,Polyfit)[3-4]、神經網絡(Neural Networks,NN)[5-6]、支持向量回歸(Support Vector Regression,SVR)[7]。支持向量回歸的理論基礎是小樣本統計學習的結構風險最小化原則,基本思想是通過用內積函數定義的非線性變換將輸入空間映射到一個高維的特征空間,在高維的特征空間中尋找輸入變量和輸出變量之間的映射關系[8]。本研究基于遺傳算法(Genetic Algorithm,GA)選取支持向量回歸算法最優參數,構建GPS測站坐標與對應高程異常的非線性映射模型,內插出其他各點的高程異常值。最后選取某礦區實測數據對算法進行計算分析,驗證算法可行性。
假設訓練數據集

式中,xi是第i個輸入向量,yi是第i個標量輸出,l是樣本數。SVR回歸的基本思想是利用滿足Mercer條件的核函數將輸入數據x映射到高維特征空間,并在該空間構造優化超平面f(x),

式中,ω為權重向量,b為偏置項。為求優化超平面,引入不敏感損失函數ε和懲罰參數c,根據Wolfe對偶理論,將參數ω,b的求解問題轉變為最優化問題:

其中,Qmin為優化問題最優解;αi,αj,為非負拉格朗日乘子;i,j=1,2,…,l;α*∈ R2l。
式(1)屬于凸二次規劃問題,其可行域為空,所以一定有解[8]。設優化問題Q的最優解為

則

鑒于徑向基函數在處理空間線性不可分數據時具有較好的效果,引入徑向基核函數

將其作為式(1)中xixj的映射函數,則超平面回歸函數為

值得注意的是,徑向基核函數中控制半徑的參數γ和懲罰參數c選取是否合理直接決定最優超平面的泛化能力和回歸精度。
將參數γ,c表示為適于遺傳算法求解的2個染色體問題,尋找其最優值,計算步驟如下。
(1)參數編碼。為避免聯系狀態之間轉換時可能出現邏輯混淆,采用二進制雷格碼編碼。
(2)生成初始群體。設定參數的取值范圍0≤γ≤1 000,0<c≤100,隨機產生染色體數量為20,變量數為2(即核函數參數γ和懲罰參數c),染色體用20位雷格碼表示。
(3)基于交叉驗證法和線性排序分配適應度函數值,計算個體適應度函數值。
(4)對個體進行遺傳算子操作。采用適應度比例方法進行選擇運算,以概率為0.7進行交叉運算,以概率為0.05進行變異運算,生成子代群體。
(5)判斷是否滿足終止條件(遺傳代數達到100次),若滿足則停止計算解碼輸出優化解,否則將子代染色體代替父染色體轉入步驟(3)。
根據礦區GPS測站分布,選取部分均勻分布的站點作為支持向量回歸算法的訓練數據,基于遺傳算法自動選取支持向量回歸訓練最優參數,構建適用于訓練數據的支持向量回歸模型,將剩余GPS測站數據作為預測數據,采用訓練好的支持向量回歸模型預測出回歸結果。同時基于多項式擬合和神經網絡算法分別對預測數據進行計算,通過對比殘差,分析3種算法優劣。數據處理流程圖見圖1。

圖1 數據處理流程
在沿江某礦區布設GPS控制網,經后處理得到無粗差且同精度的GPS高程點32個,平均邊長為1.2 km,測區面積約50 km2,按國家GPS網B級要求實測,同時采用二等水準聯測得到各GPS點的平面位置和高程異常,選擇第1~第20個平均分布的點作為訓練樣本,選取第21~第32個點作為測試樣本。數據見表1,其中X,Y為地方坐標,ζ為高程異常。

表1 原始數據
為避免數據較大影響回歸效果,將樣本數據做歸一化處理。基于遺傳算法對訓練數據計算支持向量回歸最優參數γ和c過程見圖2。迭代18次后收斂到均方差精度為0.001 m,收斂后支持向量回歸最優參數為:核函數寬度γ為0.55,邊界系數c為455。

圖2 遺傳算法參數尋優△—最佳適應度;○—平均適應度
采用遺傳算法尋優后的參數,對訓練數據進行支持向量訓練構造回歸模型,產生13個支持向量,得到如式(2)所示的回歸函數,其中權重向量α*iαi的值見表2,偏置項b為0.148。

表2 支持向量回歸參數
經多次驗證,采用 a0,a1,a2,a3,a4,a56 個參數的二次多項式擬合對訓練數據擬合效果最好,基于最小二乘法擬合后得到擬合函數

其中,擬合多項式參數 a0,a1,a2,a3,a4,a5的值分別為 -82.01、3.254 ×10-4、-1.399 ×10-3、-2.984×10-10、2.309 ×10-9、8.729 ×10-10。
徑向基函數神經網絡具有全局最優和最佳逼近性能。令神經元的最大數目為20,徑向基函數的擴展速度為 5,訓練截止均方誤差為 0.01,采用RBFNN算法對訓練數據進行學習訓練。
將訓練數據、測試數據分別代入遺傳算法輔助的支持向量回歸(GA-SVR)、多項式函數(Polyfit)、徑向基神經網絡(RBFNN)模型預測高程異常值,并與真值對比計算殘差,見圖3。

圖3 殘差對比□—Polyfit;●—RBFNN;○—GA -SVR
支持向量回歸算法、多項式擬合和徑向基神經網絡模型分別對實測數據擬合精度比較見表4。結果表明:3種方法的預測精度都可滿足礦區四等水準的精度要求;三者對測試數據預測的殘差最大值基本相當;GA-SVR算法殘差曲線更為平緩,其內外符合精度分別為5.162、5.972 mm,為三者之中最小,精度最高。

表3 不同方法精度比較 mm
(1)支持向量回歸機結構簡單,基于遺傳算法可以尋找到最優參數,且具有全局最優解,增強泛化能力強,可有效避免人為設定參數的盲目性。
(2)GA-SVR、多項式擬合和RBFNN均可用于礦區GPS高程異常擬合,其精度與礦區似大地水準面的復雜情況、測站點分布有直接關系。基于凸最優化理論,SVR訓練時選取凸域內的訓練數據預測精度最高,選擇凸域外的訓練數據精度較低,因而,如何選取最合理的訓練數據是下一步值得深入研究的課題。
[1] 劉曉君,孫久運,周 峰.支持向量機回歸在礦區GPS高程轉換中的應用[J].金屬礦山,2011(1):98-101.
[2] 周忠謨.GPS衛星測量原理與應用[M].北京:測繪出版社.1997:238-241.
[3] Reguzzoni M,Sanso F,Venuti G.The theory of general kriging,with applications to the determination of a local geoid[J].Geophysical Journal International,2005,162(2):303-314.
[4] 陳俊勇,李建成,寧津生,等.中國似大地水準面[J].測繪學報,2002(S1):1-6.
[5] 胡伍生,華錫生,鮑興南.轉換GPS高程的神經元網絡方法[J].河海大學學報,2001,29(6):87-89.
[6] 楊明清,靳蕃,朱達成,等.用神經網絡方法轉換 GPS高程[J].測繪學報,1999,28(4):301-307.
[7] 吳兆福,宮 鵬,高 飛,等.基于支持向量機的GPS似大地水準面擬合[J].測繪學報,2004,33(4):303-306.
[8] 鄧乃揚,田英杰.數據挖掘中的新方法——支持向量機[M].北京:科學出版社.2004:34-95.