戴子棟 王繼剛 金 鋮 孫清磊
(淮海工學(xué)院測(cè)繪工程學(xué)院,江蘇 連云港 222005)
?
·測(cè)量·
基于最優(yōu)回歸方程的GPS高程擬合研究
戴子棟 王繼剛*金 鋮 孫清磊
(淮海工學(xué)院測(cè)繪工程學(xué)院,江蘇 連云港 222005)
分析了二次曲面擬合方法,討論了最優(yōu)回歸方程選取的三個(gè)準(zhǔn)則,提出了基于最優(yōu)回歸方程的GPS高程擬合方法,最后通過(guò)實(shí)例計(jì)算,給出了最優(yōu)回歸方程的選取步驟,驗(yàn)證了該方法的有效性。
GPS高程,擬合,二次曲面,最優(yōu)回歸方程
GPS工程中常常遇到高程擬合問(wèn)題。解決這一問(wèn)題的基本思路是,首先根據(jù)聯(lián)測(cè)點(diǎn)上的高程異常,對(duì)測(cè)區(qū)內(nèi)的似大地水準(zhǔn)面進(jìn)行趨勢(shì)分析,在此基礎(chǔ)上,建立區(qū)域似大地水準(zhǔn)面的數(shù)學(xué)模型,利用該模型求得非聯(lián)測(cè)點(diǎn)的高程異常,即可求得相應(yīng)GPS點(diǎn)的正常高[1]。其中曲面擬合是常用模型之一。在應(yīng)用曲面擬合時(shí)往往采用低次曲面函數(shù),對(duì)于面積小且較為平坦的區(qū)域一般選擇一次曲面,其他情況下則選擇二次曲面。這種選擇往往依據(jù)經(jīng)驗(yàn),缺乏必要的理論解釋。從數(shù)學(xué)角度看,這種曲面擬合法就是建立平面坐標(biāo)與高程異常之間的線性回歸模型。如何選取最優(yōu)回歸方程,線性回歸模型中有著豐富的理論[2],文獻(xiàn)[3]研究了逐步回歸法。用逐步回歸法選取的擬合方程是建立在假設(shè)檢驗(yàn)基礎(chǔ)上的,該方法最大的優(yōu)點(diǎn)是自變量較多時(shí)優(yōu)越性明顯。我們知道統(tǒng)計(jì)假設(shè)檢驗(yàn)總是會(huì)犯兩類(lèi)錯(cuò)誤且受制于初始模型,鑒于GPS擬合中所選曲面次數(shù)不超過(guò)二次,自變量的個(gè)數(shù)不多,因此可以全面衡量每一個(gè)GPS高程擬合方程,從中選出最優(yōu)的回歸方程,進(jìn)而提高GPS高程擬合的精度。
因此,本文討論了建立最優(yōu)回歸方程的幾個(gè)準(zhǔn)則,結(jié)合GPS高程擬合實(shí)例,對(duì)比分析得到一些有益的結(jié)論。
在一定區(qū)域范圍內(nèi),高程異常ζ可以看作是大地坐標(biāo)(B,L)或平面坐標(biāo)(x,y)的擬合函數(shù):
ζ=f(x,y,…)+e
(1)
其中,e為隨機(jī)誤差;函數(shù)f(x,y,…)中的每一項(xiàng)看作是因變量ζ所對(duì)應(yīng)函數(shù)的自變量。如果函數(shù)模型取作二次曲面,式(1)可以寫(xiě)成:
ζ=a0+a1x+a2y+a3x2+a4y2+a5xy
(2)
其中,a0為常數(shù)項(xiàng);ai(i=1,2,3,4,5)為自變量的系數(shù),以下簡(jiǎn)稱(chēng)此模型為全模型。相對(duì)應(yīng)地,只要這六個(gè)系數(shù)不同時(shí)為0的模型,稱(chēng)之為選模型。測(cè)量中常用的一次曲面:
ζ=a0+a1x+a2y
(3)
可以看成是一種選模型,此時(shí)a3=a4=a5=0,以下簡(jiǎn)稱(chēng)為一次曲面。
利用聯(lián)測(cè)點(diǎn)的高程異常值求解這六個(gè)參數(shù),從數(shù)據(jù)處理角度上看,是一個(gè)線性回歸問(wèn)題。線性回歸理論指出可選的自變量集合中,選擇一個(gè)最優(yōu)的自變量子集是非常重要的[3]。因?yàn)槿P椭型褜?duì)因變量沒(méi)有影響的自變量也包含在回歸方程中,導(dǎo)致計(jì)算量變得很大,并且預(yù)報(bào)的精度也下降很多。如何在可用的模型中選取最優(yōu)的模型,這就是最優(yōu)回歸方程選取問(wèn)題。建立最優(yōu)回歸方程,首先要確立選取的準(zhǔn)則。
我們知道殘差平方和RSS的大小反映了實(shí)際數(shù)據(jù)與理論模型之間的偏離程度,是評(píng)價(jià)擬合方程的一個(gè)重要標(biāo)準(zhǔn)。一般來(lái)說(shuō),RSS越小,數(shù)據(jù)與模型擬合得越好,全模型殘差平方和為:
(4)
相應(yīng)地方差為:
(5)
其中,n為參與建模點(diǎn)的個(gè)數(shù)。
在選模型中,由于RSS是隨著擬合變量個(gè)數(shù)的增加而下降,為了防止選取的自變量過(guò)多,于是我們把殘差平方和乘上一個(gè)隨擬合系數(shù)個(gè)數(shù)q增加而上升的函數(shù)作為懲罰因子,記為:
(6)
按照RMSq的定義,我們可以依據(jù)RMSq越小越好的原則選取自變量子集,并簡(jiǎn)稱(chēng)為RMSq準(zhǔn)則。
式(6)說(shuō)明不能無(wú)限制增加擬合參數(shù)以提高精度,當(dāng)擬合方差變化比較緩慢了,再增加擬合參數(shù)對(duì)提高擬合精度意義不大。同時(shí)該式也說(shuō)明不能以過(guò)多地增加未知數(shù)的個(gè)數(shù)來(lái)提高擬合的精度,這也正是不宜用高次曲面擬合GPS高程的原因。實(shí)際上,式(6)就是模型擬合方差,測(cè)繪界習(xí)慣稱(chēng)之為內(nèi)符合精度。
RMSq準(zhǔn)則是從數(shù)據(jù)與擬合模型優(yōu)劣的角度出發(fā)導(dǎo)出的,如果從預(yù)報(bào)角度考慮,可以選用Mallows在1964年提出的Cp準(zhǔn)則,該準(zhǔn)則定義為:
(7)
Cp準(zhǔn)則依據(jù)“Cp愈小愈好”的原則選取自變量子集。
極大似然原理是統(tǒng)計(jì)學(xué)中估計(jì)參數(shù)的一種重要方法。日本統(tǒng)計(jì)學(xué)家Akaike把這個(gè)方法加以修正,于1974年提出了一種較為一般的模型選取準(zhǔn)則,稱(chēng)為Akaike信息量準(zhǔn)則,簡(jiǎn)稱(chēng)AIC準(zhǔn)則,它可以表述為:
AIC=nln(RSSq)+2q
(8)
使式(8)達(dá)到最小的那組自變量組合即為最優(yōu)組合,從而獲得了最優(yōu)回歸方程。
以上三個(gè)準(zhǔn)則,根據(jù)建模的不同需要,顧及各準(zhǔn)則的側(cè)重點(diǎn)不同而選取不同的準(zhǔn)則衡量最優(yōu)回歸方程。
選定準(zhǔn)則后,針對(duì)所有的備選模型計(jì)算相應(yīng)指標(biāo)。在建立高程擬合實(shí)踐中,如前所述由于全模型有六個(gè)自變量,平面擬合模型一般有三個(gè)自變量,因此可選的自變量子集僅有七個(gè),計(jì)算量并未顯著增加。從平面擬合開(kāi)始分別對(duì)這七個(gè)子集做回歸,尋找最優(yōu)回歸方程即最優(yōu)建模方程。
可以看出,本文方法不必考慮用假設(shè)檢驗(yàn)來(lái)判斷增減自變量,因此可以避免逐步回歸法中由假設(shè)檢驗(yàn)可能帶來(lái)的棄真和納偽兩種錯(cuò)誤所帶來(lái)的不良影響。

表1 高程異常的原始數(shù)據(jù)

本文選取了某市D級(jí)GPS網(wǎng)(平坦地區(qū),區(qū)域面積約為300 km2)40個(gè)水準(zhǔn)聯(lián)測(cè)點(diǎn)進(jìn)行試驗(yàn)[4,5]。高程異常的原始數(shù)據(jù)見(jiàn)表1。首先選取了測(cè)區(qū)內(nèi)均勻分布的10個(gè)點(diǎn)作為建模點(diǎn),使其滿足建立擬合模型的要求,而其余的30個(gè)點(diǎn)作為模型的檢核點(diǎn),如圖1所示。圖中編號(hào)1~10的點(diǎn)是建模點(diǎn),用矩形與十字光標(biāo)組合圖形標(biāo)示,而空心圓點(diǎn)代表檢核點(diǎn),其編號(hào)為10~40。
運(yùn)用二次曲面擬合GPS高程,自變量最大子集是{x,y,x2,xy,y2},從平面擬合至少選取{x,y}兩個(gè)自變量開(kāi)始做擬合方程,分別計(jì)算每種模型所對(duì)應(yīng)的三種最優(yōu)準(zhǔn)則指標(biāo)量,其結(jié)果如表2所示。

表2 擬合數(shù)據(jù)所有可能回歸的RMSq,Cp和AIC值及外符合精度
根據(jù)表2可知,在全模型中,y2與其他變量存在復(fù)共線關(guān)系,應(yīng)予以舍去。當(dāng)選模型的自變量子集為x,y,x2,xy時(shí),RMSq,Cp和AIC三個(gè)準(zhǔn)則的指標(biāo)值都最小,三種準(zhǔn)則呈現(xiàn)了較好的一致性,所以該子集建立的回歸模型為最優(yōu)回歸模型。此時(shí),擬合方程為:
ζ=-1 996.546 476 672 75+0.001 297 809 77x-
0.001 065 262 82y-0.000 000 000 204x2+0.000 000 000 30xy
。
按照測(cè)量習(xí)慣,我們通常要依據(jù)中誤差定義計(jì)算外符合精度[6]驗(yàn)證模型的適用性。表3給出了全模型和最優(yōu)模型的擬合殘差Δ,即擬合值與觀測(cè)值之差,此處可以視為高程真誤差。為了便于比較各模型精度,計(jì)算了所有二次曲面模型的外符合精度,結(jié)果見(jiàn)表2。從外符合精度來(lái)看,最優(yōu)模型建模精度與全模型精度相當(dāng)。
綜上所述,對(duì)于本試驗(yàn)區(qū)來(lái)說(shuō),運(yùn)用最優(yōu)回歸方程建立的擬合模型其內(nèi)外符合精度俱佳,且方法可靠。
為了進(jìn)一步比較本文提出的最優(yōu)回歸方程特點(diǎn),筆者也用了逐步回歸法尋求擬合方程,無(wú)論顯著水平選為0.05,還是0.1,所得的擬合方程都是平面擬合模型。從表2中可以看出,最優(yōu)回歸方程建立的擬合模型明顯優(yōu)于平面擬合模型。
本文在討論運(yùn)用RMSq準(zhǔn)則即中誤差準(zhǔn)則確定最優(yōu)回歸方程時(shí),對(duì)測(cè)繪工程實(shí)踐中常用平面擬合或二次曲面擬合GPS高程這一經(jīng)驗(yàn)?zāi)P停o出了合理的解釋。基于最優(yōu)回歸方程獲得的曲面擬合方程,選取最優(yōu)方程的準(zhǔn)則多樣,不僅僅是中誤差,還可以考慮Cp和AIC準(zhǔn)則,實(shí)踐中可以依據(jù)工程需要合理選擇。
實(shí)際上對(duì)于用低次曲面擬合GPS高程來(lái)說(shuō),本文所提出方法的計(jì)算量與逐步回歸方法相比增加不多,同時(shí)該法可以克服假設(shè)檢驗(yàn)選取最優(yōu)自變量所帶來(lái)的不良影響,進(jìn)而保證了入選因子在模型中都是顯著的,克服了復(fù)共線性問(wèn)題,提高了解的可靠性。

表3 檢核點(diǎn)高程異常擬合殘差
最后,需要說(shuō)明的是GPS高程擬合精度不僅與所選取的數(shù)據(jù)模型有關(guān),而且與物理模型密切相關(guān)。因此,欲進(jìn)一步提高精度應(yīng)全面考慮GPS高程擬合的幾何物理模型。
[1] 徐紹銓?zhuān)瑥埲A海,楊志強(qiáng),等.GPS測(cè)量原理及應(yīng)用[M].第3版.武漢:武漢大學(xué)出版社,2008.
[2] 王松桂,陳 敏,陳立萍.線性統(tǒng)計(jì)模型:線性回歸與方差分析[M].北京:高等教育出版社,2002.
[3] 翟高鵬,花向紅,劉金標(biāo),等.基于逐步回歸的GPS高程擬合方法研究[J].城市勘測(cè),2011(5):62-64.
[4] 胡伍生.神經(jīng)網(wǎng)絡(luò)理論及其工程應(yīng)用[M].北京:測(cè)繪出版社,2006.
[5] 胡伍生,華錫生,張志偉.平坦地區(qū)轉(zhuǎn)換GPS高程的混合轉(zhuǎn)換法[J].測(cè)繪學(xué)報(bào),2002(2):101-103.
[6] 武漢大學(xué)測(cè)繪學(xué)院測(cè)量平差學(xué)科組.誤差理論與測(cè)量平差基礎(chǔ)[M].第2版.武漢:武漢大學(xué)出版社,2010.
Study on GPS height fitting based on the optimal regression equation
Dai Zidong Wang Jigang*Jin Cheng Sun Qinglei
(Department of Surveying and Mapping of Huaihai Institute of Technology, Lianyungang 222005, China)
The quadric surface fitting method is analyzed and three principles for the choice of optimal regression equation are discussed in this paper. Therefore, GPS height fitting based on the optimal regression equation is put forward. Finally, the selection step of the optimal regression equation is given and its validity is verified through the example.
GPS height, fitting, quadric surface, optimal regression equation
1009-6825(2016)12-0203-03
2016-02-17
戴子棟(1995- ),男,在讀本科生
王繼剛(1973- ),男,博士,講師
P228.4
A