范小猛 胡 川 李成洪 張重陽(yáng)
1 重慶交通大學(xué)土木工程學(xué)院,重慶市學(xué)府大道66號(hào),400074
受觀測(cè)過(guò)程中斷和數(shù)據(jù)處理方法等因素的影響,GNSS坐標(biāo)時(shí)間序列不可避免地存在數(shù)據(jù)缺失的情況,給數(shù)據(jù)的使用帶來(lái)諸多負(fù)面影響。因此,有必要對(duì)含缺失數(shù)據(jù)的GNSS坐標(biāo)時(shí)間序列進(jìn)行插值。
基于單站的插值方法,如拉格朗日插值、三次樣條插值、線性插值等適用于缺失比例小或連續(xù)缺失數(shù)據(jù)少的情況。但當(dāng)數(shù)據(jù)缺失量較大,特別是連續(xù)缺失數(shù)據(jù)較多時(shí),上述方法插值效果較差[1-2]?;诙嗾镜牟逯捣椒ɡ弥?chē)军c(diǎn)數(shù)據(jù)對(duì)含長(zhǎng)空缺的目標(biāo)序列進(jìn)行插值,可以顧及站點(diǎn)間的相關(guān)性[3-5]。但其將目標(biāo)區(qū)域內(nèi)所有站點(diǎn)數(shù)據(jù)作為整體進(jìn)行解算,可能會(huì)受到局部信號(hào)的污染,影響插值精度[6]。
基于以上問(wèn)題,本文在數(shù)據(jù)插值經(jīng)驗(yàn)正交函數(shù)(DINEOF)算法的基礎(chǔ)上,考慮站點(diǎn)間的相關(guān)性,提出一種相關(guān)數(shù)據(jù)插值經(jīng)驗(yàn)正交函數(shù)(CDINEOF)算法,并與DINEOF算法和多項(xiàng)式插值法的插值效果進(jìn)行對(duì)比分析,驗(yàn)證其有效性。
DINEOF算法的基本流程如下[7]:假設(shè)原始數(shù)據(jù)可以表示為一個(gè)二維觀測(cè)矩陣X(m,n),其中,m和n分別為歷元個(gè)數(shù)和測(cè)站個(gè)數(shù);從整個(gè)觀測(cè)矩陣中減去平均值,并將缺失數(shù)據(jù)設(shè)置為0以獲得初始數(shù)據(jù)X0;執(zhí)行奇異值分解,將X0分解為一組經(jīng)驗(yàn)正交函數(shù),如式(1)所示:
式中,U(m×q)和V(q×n)分別為時(shí)間和空間EOF模態(tài),up和vp分別為對(duì)應(yīng)的第p列特征向量,對(duì)應(yīng)奇異值為λp。使用第1個(gè)模態(tài)的空間和時(shí)間特征模態(tài)對(duì)數(shù)據(jù)進(jìn)行重構(gòu),替換缺失位置數(shù)據(jù);使用該重構(gòu)結(jié)果迭代計(jì)算第1個(gè)模態(tài),替換缺失數(shù)據(jù),直至收斂。最后用前k(1,2,…,q)個(gè)保留模態(tài)重復(fù)該過(guò)程,使用交叉驗(yàn)證法計(jì)算最優(yōu)保留模態(tài)數(shù)。
為改善DINEOF算法可能會(huì)受到局部信號(hào)污染的問(wèn)題,本文加入站點(diǎn)篩選原則,提出CDINEOF算法,算法流程如圖1,具體步驟為:

圖1 算法流程Fig.1 Algorithm flow
1)利用公共歷元對(duì)目標(biāo)站點(diǎn)與周?chē)军c(diǎn)進(jìn)行相關(guān)性分析,根據(jù)分析結(jié)果將相關(guān)系數(shù)最大值設(shè)為初始閾值;
2)將相關(guān)性大于閾值的站點(diǎn)坐標(biāo)時(shí)間序列組成觀測(cè)矩陣X,利用DINEOF算法對(duì)含缺失值的觀測(cè)矩陣X進(jìn)行迭代插值,得到目標(biāo)站點(diǎn)插值后數(shù)據(jù),然后通過(guò)減小閾值獲取不同插值結(jié)果,采用交叉驗(yàn)證法選取最佳插值結(jié)果;
3)依次對(duì)剩余站點(diǎn)進(jìn)行上述計(jì)算,得到各站點(diǎn)完整的坐標(biāo)時(shí)間序列。
采用GNSS坐標(biāo)時(shí)間序列真實(shí)值與插補(bǔ)值之間的平均絕對(duì)誤差MAE、Pearson相關(guān)系數(shù)R和均方根誤差RMSE[4]對(duì)CDINEOF算法的插值效果進(jìn)行評(píng)估。其中,MAE和RMSE的值越小、R的絕對(duì)值越大,表示插補(bǔ)值和真實(shí)值越接近,即插值效果越好。
由于沒(méi)有真實(shí)值作為參考,采用插值后的坐標(biāo)時(shí)間序列投影到各主方向后的方差大小來(lái)評(píng)價(jià)實(shí)測(cè)數(shù)據(jù)插值效果,插值后的時(shí)間序列應(yīng)盡可能保持原有方差的最大化方向[5]。計(jì)算公式為:
式中,wj為第j個(gè)主方向,S為插值后的協(xié)方差矩陣。
為避免粗差、階躍等因素的影響,采用澳大利亞區(qū)域內(nèi)14個(gè)經(jīng)過(guò)處理的IGS站坐標(biāo)殘差時(shí)間序列進(jìn)行模擬實(shí)驗(yàn),其中HOB2站在2011年doy048~2016年doy095觀測(cè)時(shí)間段內(nèi)坐標(biāo)時(shí)間序列完整。為驗(yàn)證CDINEOF算法在不同連續(xù)缺失情況下的插值性能,以HOB2站坐標(biāo)時(shí)序?yàn)榛A(chǔ),以5個(gè)觀測(cè)歷元為步長(zhǎng),移除數(shù)據(jù)后構(gòu)成80組實(shí)驗(yàn)數(shù)據(jù),分別使用DINEOF算法、CDINEOF算法以及二階多項(xiàng)式插值法對(duì)模擬實(shí)驗(yàn)數(shù)據(jù)進(jìn)行插值。此處給出連續(xù)移除400個(gè)數(shù)據(jù)后的插值結(jié)果。圖2為插值前HOB2站N、E、U方向上的殘差時(shí)間序列,其中,空心圓點(diǎn)為后續(xù)插值保留的數(shù)據(jù),實(shí)心圓點(diǎn)為模擬數(shù)據(jù)缺失而移除的數(shù)據(jù)。由圖可見(jiàn),N、U方向存在較明顯的周期性變化,E方向上以線性趨勢(shì)為主,變化較為平緩。

圖2 HOB2站坐標(biāo)殘差時(shí)間序列Fig.2 Coordinate residual time series at HOB2 station
圖3為利用公共歷元計(jì)算出的HOB2站與周?chē)军c(diǎn)之間的相關(guān)性。由圖可見(jiàn),站點(diǎn)間相關(guān)性隨距離增加有減弱的趨勢(shì),一些站點(diǎn)在U方向上達(dá)到負(fù)相關(guān),若在插值過(guò)程中將這些站點(diǎn)納入計(jì)算過(guò)程,可能會(huì)對(duì)插值結(jié)果產(chǎn)生不利的影響。另外,個(gè)別站點(diǎn)相關(guān)性與上述趨勢(shì)有所偏離,這可能與站點(diǎn)本身的數(shù)據(jù)質(zhì)量有關(guān)。根據(jù)§1.2中的閾值選取原則,該站點(diǎn)在N、E、U方向的相關(guān)性閾值分別為0.3、0.2和0.1。

圖3 HOB2站與周?chē)军c(diǎn)相關(guān)系數(shù)Fig.3 The correlation coefficient between HOB2 and other stations
當(dāng)連續(xù)缺失400歷元時(shí),3種插值方法在各方向上的MAE、RMSE和R值如表1所示??梢钥闯?,由CDINEOF算法插值結(jié)果計(jì)算出的評(píng)價(jià)指標(biāo)值在N和U方向上均優(yōu)于DINEOF算法和多項(xiàng)式插值法。其中,CDINEOF算法的MAE最多減少了33.2%,RMSE最多減少了27.3%,R最多提高了10%。在E方向上,各指標(biāo)反映出CDINEOF算法插值性能略?xún)?yōu)于DINEOF算法而略差于多項(xiàng)式插值法。為探究其原因,本文給出插值結(jié)果與原殘差序列在3個(gè)方向上的對(duì)比,如圖4所示。

表1 不同插值方法性能對(duì)比Tab.1 Performance comparison of different methods
由圖4可見(jiàn),在N和U方向上,多項(xiàng)式插值法結(jié)果與原殘差序列相比呈現(xiàn)出明顯的線性變化,雖然保證了數(shù)據(jù)的連續(xù),但曲線過(guò)于光滑,與原殘差序列差異較大;相比于多項(xiàng)式插值法,DINEOF算法插值結(jié)果保留了一部分原殘差序列的高頻信息,尤其在U方向上其插值結(jié)果表現(xiàn)出明顯的波動(dòng)性,但是整體趨勢(shì)和原殘差序列吻合度不夠,周期性變化不明顯;CDINEOF算法的插值結(jié)果與原殘差序列有較高的吻合度,能夠在顧及原殘差序列周期性變化的同時(shí)還原其變化趨勢(shì)。在E方向上,DINEOF算法和多項(xiàng)式插值法的結(jié)果呈現(xiàn)明顯的線性變化,與原殘差序列較為相符,插值效果較好,CDINEOF算法結(jié)果與二者接近。分別計(jì)算各插值方法的MAE、RMSE和R值,如圖5所示。

圖4 不同方法的插值結(jié)果與原殘差序列Fig.4 Interpolation results of different methods and original residual series

圖5 不同方法的插值性能Fig.5 Interpolation performance of different methods
由圖5可見(jiàn),在周期性明顯的N、U方向上,當(dāng)連續(xù)缺失歷元在80以?xún)?nèi)時(shí),3種方法的插值效果相當(dāng),無(wú)明顯差異;當(dāng)連續(xù)缺失歷元大于80時(shí),CDINEOF算法的插值性能逐漸優(yōu)于DINEOF算法和多項(xiàng)式插值法,并且性能優(yōu)勢(shì)隨著連續(xù)缺失歷元的增加愈發(fā)明顯;當(dāng)連續(xù)缺失歷元達(dá)到400時(shí),CDINEOF算法插值結(jié)果與原殘差序列的相關(guān)系數(shù)仍保持在0.92以上,表現(xiàn)出強(qiáng)相關(guān)性。而在線性明顯的E方向上,不同插值方法之間的插值性能較為接近,這也與前面插值結(jié)果相對(duì)應(yīng)。
選取澳大利亞地區(qū)14個(gè)IGS站2005~2018年doy069的殘差時(shí)間序列進(jìn)行實(shí)測(cè)數(shù)據(jù)實(shí)驗(yàn)。由于觀測(cè)中斷、孤立值剔除等因素的影響,各站點(diǎn)本身已經(jīng)存在一定程度的數(shù)據(jù)缺失,其中最大缺失比例約為19.9%。利用DINEOF算法、CDINEOF算法和多項(xiàng)式插值法對(duì)14個(gè)站的殘差時(shí)間序列進(jìn)行插值,計(jì)算插值后坐標(biāo)時(shí)間序列的方差,并統(tǒng)計(jì)各插值方法前3個(gè)主成分所占總方差的百分比,結(jié)果如表2所示。

表2 不同插值方法前3個(gè)主成分方差占比Tab.2 Variance ratio of the first three principal components of different methods
由表2可知,在各方向上CDINEOF算法插值后的坐標(biāo)時(shí)間序列前3個(gè)主成分之和占總方差之比均最大。其中,CDINEOF算法所保留的最大方差在DINEOF算法的基礎(chǔ)上提升了11.8%,在多項(xiàng)式插值法的基礎(chǔ)上提升了6.7%。
1)本文提出的CDINEOF算法可以有效避免利用多站點(diǎn)數(shù)據(jù)進(jìn)行長(zhǎng)時(shí)間連續(xù)空缺插值時(shí)低相關(guān)度站點(diǎn)對(duì)插值效果產(chǎn)生的不利影響,只使用相關(guān)度較高的站點(diǎn)數(shù)據(jù)進(jìn)行插值,可以更加準(zhǔn)確地還原數(shù)據(jù)的變化趨勢(shì)。
2)多項(xiàng)式插值法會(huì)使插值后的序列呈線性變化,因此對(duì)于線性趨勢(shì)明顯的坐標(biāo)時(shí)間序列效果較好;CDINEOF算法對(duì)數(shù)據(jù)變化明顯的坐標(biāo)時(shí)間序列數(shù)據(jù)比較敏感,插值效果較好。
3)CDINEOF算法可以很好地保留原有序列方差最大化方向,相比于DINEOF算法和多項(xiàng)式插值法,其插值后坐標(biāo)時(shí)間序列前3個(gè)成分之和占總方差之比最大。但其計(jì)算效率與基于單站的插值方法相比存在一定劣勢(shì)。因此,在實(shí)際應(yīng)用中,要根據(jù)需求選擇合適的插值方法。