K-means++分區法在密集型測站中的應用研究

2018-09-06 09:55:48郝美云孫憲坤丁倩云尹玲尹京苑

全球定位系統 2018年3期

關鍵詞：區域

郝美云,孫憲坤,丁倩云,尹玲,尹京苑

(1.上海工程技術大學,電子電氣工程學院,上海 200000; 2.上海市地震局,上海 200000)

0 引言

利用GAMIT軟件處理大型密集的測站時由于軟件自身處理測站數的能力限制,只能同時處理少于100個測站的數據,所以需要對測站進行分區處理[1]。目前國內采用的經緯度分區和區域板塊分區方法會導致長短基線同時存在。對于中長基線的解算,GAMIT軟件可以達到很高的精度,而對于短基線其解算精度則相對較低[2]。所以當長短基線同時存在時,由于采用了相同的模型就會降低整網解算精度。針對這個問題,不少學者進行過相關研究。李兵等[2]為提高分布密集型測區的基線解算精度,提出了一種新的分區處理方案——“間距分區法”。該方法可以有效地避免短基線的存在，解決GAMIT 數據處理過程中短基線解算精度較低的問題,在區域網基線解算中能夠有效地提高基線解算精度。萬軍等[3]提出了格網間距分區的方法來避免較短基線的存在,提高了整個測區的解算精度。隨后曹炳強[4]等又驗證了間距分區法在針對解算數量多、分布密集測站時的精度可靠性。

雖然間距分區法能從一定程度解決長短基線帶來的低精度問題,但實際操作需要人為在地圖上找出測站分布并計算各個測站之間的距離,再將分布密集的測站抽稀[2],這是一項繁瑣耗時的工作。基于此,本文引入了K-means++算法思想來實現大型密集測站分區。利用K-means++算法對測站進行聚類,再利用Hash算法進行排序組合,形成均勻分布的子網。實驗中采用整網解算結果作為標準值,分析區域分區法和K-means++分區法的基線長度、基線精度及三維坐標差,然后再將K-means++分區方法與間距分區法進行實驗對比分析。實驗結果表明K-means++分區方法比一般區域分區法具有更高的解算精度,可以將測區站點最大程度均勻分布從而減少長短基線差異大的現象,并且與現有的間距分區法具有同樣高的解算精度。

1 K-means++算法

辜聲峰等[5]在探討大規模基準站組網與分區服務技術的時候引入了FCM算法進行子CORS三角網的分區。與 K-means++算法相似,FCM算法也是一種典型的聚類算法。不同的是,K-means是排他性聚類算法,即一個數據點只能屬于一個類別,而FCM只計算數據點與各個類別的相似度。K-means++算法在一定程度了解決了K-means算法只能達到局部最優的問題,其核心思想是把n個數據對象劃分為k個聚類,使每個聚類中的數據點到該聚類中心的平方和最小[6]。算法流程如圖1所示。

假定訓練樣本為{x(1),x(2),…x(m)},x(m)∈R,對于每一個樣例i,根據式(1)計算其所屬類別。

(1)

式中:C(i)為樣例i到所有初始聚類中心的最小距離,其對應的聚類中心就是該樣例所屬的類別;uj代表初始的k個聚類中心。計算出每一個樣本所屬類別后,所有樣本被分成了k個類。根據公式(2)重新計算每個類的質心。質心是指一個類簇內部所有樣本點的均值。

(2)

以式(2)為例,計算類別j中的所有樣本x(j)到聚類中心uj之間的距離均值。重復上述步驟,直到質心不變或者變化很小。這個收斂條件定義一個畸變函數來表示

(3)

式中:uc(j)為每個樣本點對應的聚類中心;J函數為每個樣本點到其質心的距離平方和,K-means++算法就是要將J值調到最小。

2 改進的K-means++算法分區方案

針對目前的區域分區方法導致的長短基線同時存在而使解算結果精度降低的問題,文中引入K-means++算法實現聚類,再利用Hash算法進行排序分組來實現分區,稱此分區方案為改進的K-means++算法分區方案,簡稱K-means++分區法。Hash算法,又稱散列算法,能將任意長度的輸入數據通過散列函數變成固定長度的輸出,能夠快速地將具有相同特征的數據映射到同一區域[6]。文中用到的樣本數據來源于IGS數據中心,全球現在大概有400多個IGS跟蹤站[8],其站點分布如圖2所示。從圖中可以看出15°W～60°E以及30°N～60°N圍成的區域是IGS跟蹤站分布十分密集的區域,包含96個密集分布的跟蹤站,如圖3所示。如果將該區域的所有站點進行解算,必然會因為短基線的存在而使整網解算精度降低。本文針對這部分IGS站分布密集區域采用K-means++分區法將密集測站分為4個分區,具體算法流程如圖4所示。

經過K-means++算法聚類和Hash算法排序組合能得到4個均勻分布的子網,每個子網里包含24個IGS跟蹤站,如圖5所示。與圖3對比,分布密集的96個測站經過改進的K-means++算法分區之后,形成了四個均勻分布的子網且滿足子網劃分的原則[9]。每個子網各測站之間分布較為稀松,大大減少了短基線的存在。

3 實例對比分析

3.1 實驗方案設計及數據處理策略

為了研究K-means++分區方法是否能夠有效地解決長短基線同時存在而使整網解算精度降低的問題,文中設計了三個實驗方案進行對比分析。

1) 整網解算方案:保證測站點的整體性,對其整網進行GAMIT解算和GLOBK網平差處理。

2) K-means++分區法:依據上述分區流程,將測站均勻分成四個分區,每個分區用GAMIT解算之后再聯合平差處理。

3) 區域分區法:根據測站分布的空間位置和距離遠近進行一般區域分區,如圖6所示。對比圖5,區域分區法的四個分區明顯存在短基線密集的現象。上述方案中,選取一致的公共站,采取一致的處理策略。所以方案2)、3)的區別僅在于子網劃分不同。因此,可以認為此時方案2)、3)之間的結果差異是由于不同的分區方案引起的。

為了確保實驗結果的可靠性,用TEQC軟件對96個IGS跟蹤站進行質量校核,剔除了16個不可用的站,按照公共站的選取原則[10-11]選取了6個公共站，剩下的74個IGS跟蹤站作為待解算站。為獲取高精度的平差結果,聯合2017-10-01至2017-10-03日3天的觀測數據進行精密星歷解算及網平差[11]。利用GAMIT10.6解算的主要參數及GLOBK網平差參數配置如下:采用RELAX解算處理模式,聯合全球h文件平差處理,加固體潮和海潮改正模型。觀測值模型選用LC-AUTCLN[13],天頂延遲參數個數為13,對參考站坐標X、Y、Z方向的約束為1 cm[13].采用BERE光壓模型,J2000慣性系,ITRF08框架。

3.2 實驗結果對比分析

按照以上方案利用GAMIT/GLOBK軟件進行解算[15],統計兩種分區方案解得的基線長、基線精度以及測站坐標。以整網解算結果作為標準值,分析K-means++分區方案與一般區域分區方案的基線長度、基線精度及三維方向坐標差絕對值,如圖7所示。

從圖中可以看出,在0～600 km短基線區間內,K-means++分區方案的基線個數明顯少于區域子網劃分方案;當基線長度大于800 km時,K-means++分區方案測區內的基線個數又多于區域子網劃分方案的個數。說明K-means++分區方案使得測站間距保持在相對較長的水平,基線長度比較一致,有效避免了較短基線的存在。從圖中可以看出,K-means++分區方案解算的測站坐標更加接近于整網解算方案,在X方向和Z方向的精度明顯優于區域分區法,除個別測站外精度達到1.5 mm;在Y方向優勢不明顯但整體還是優于區域劃分法且更加均勻、穩定,兩種方案精度均優于1.8 mm.

基線基線長度/km基線精度/mm K-means++分區區域分區相對精度(10-8) K-means++分區區域分區 VILL-YEBE73.7006.446.158.738.34 HUEG-ZIM2106.8522.983.032.792.84 GANP-PENC158.4762.932.971.851.87 JOZE-LAMA201.2383.213.371.601.67 AJAC-GRAS252.7493.663.761.451.49 AJAC-GENO277.1272.933.051.061.10 BZRG-GENO298.4824.054.151.361.39 BOGI-WROC313.1185.796.041.851.93 AJAC-MARS317.4065.015.181.581.63 AJAC-PADO462.0704.254.340.920.94

由于實驗中采用的待解算的IGS跟蹤站數據質量高、穩定性強[8],所以除了區域分區方案中的個別站點外,兩種方案在X，Y方向上都取得了較高的精度。但對比分析圖7,可以發現K-means++分區法比一般區域分區法精度更高且更穩定。為了進一步對比兩種分區方案的優劣,本文統計了兩種分區方案相同基線的精度和相對精度,如表1所示。分析表1可知,當基線小于100 km時,兩種分區法得到的基線精度都不是很高,但K-means++分區法還是比區域分區法高0.3 mm的精度。這是因為GAMIT軟件無論采用哪種分區方案,對于短基線的處理精度都較低[2]。當基線長度大于100 km時,兩種分區方法的基線精度相差不大,但從表中可以發現K-means++分區比區域分區精度整體更高,且更穩定。根據實驗結果可以推論,在觀測數據質量良好的情況下,將K-means++分區法運用于測站分布密集的CORS站可以獲得更高精度的解算結果。

4 K-means++分區與間距分區方案對比

目前為了解決長短基線同時存在而使整網解算精度降低的問題,不少學者提出了間距分區法。為了進一步驗證K-means++算法的優勢,利用相同的測站數據和解算處理策略,按照間距分區法的原理[4]進行分區實驗。同樣以整網解算結果為標準值,統計間距分區法在不同區間內的基線個數以及三維方向坐標差絕對值。圖8示出了間距分區法和K-means++分區法在4個區間內的基線個數,圖8(b,c,d)為間距分區法及K-means++分區法在三維方向的坐標差。

從圖8可以看出,在0～600 km短基線區間內,K-means++分區法的基線個數與間距分區法的基線個數相當,短基線個數都較少;當基線長度大于800 km時,K-means++分區方案測區內的基線個數略多于間距分區法的基線個數。這說明K-means++分區方案和間距分區法都使得測站間距保持在相對較長的水平,從而有效避免了較短基線的存在。從圖8可以看出,K-means++分區方案解算的測站坐標在X、Y、Z方向的坐標差與間距分區法的X、Y、Z方向坐標基本相差不太,但K-means++分區法坐標差整體穩定一點。除個別站點外,兩種方案的三維方向坐標精度均優于1.8 mm.這說明K-means++分區方案與間距分區法都能解決長短基線同時存在而使整網解算精度降低的問題,前者精度更加均勻穩定一些。并且K-means++分區法避免了繁瑣的人工計算和數據處理步驟,在保證精度的前提下更加高效。

5 結束語

GAMIT/GLOBK軟件依據雙差原理進行數據解算,短基線之間相關性很大,長基線相關性不大,從而導致對長短基線解算策略存在差異[3]。當長短基線同時存在時,由于采用相同的模型而導致整網解算精度降低。對此,引入了K-means++算法結合Hash算法進行分區。采用整網解算方案作為標準值,分別解算區域分區方案、K-means++分區方案及間距分區方案,統計三種分區方案的長短基線個數及三維坐標差。實驗結果表明,K-means++分區法比一般區域分區法具有提高解算精度的優勢;與間距分區法相比,具有一定的穩定性和高效性。