李松青,劉立龍,容 靜,周 威,劉林波
(桂林理工大學 a.測繪地理信息學院;b.廣西空間信息與測繪重點實驗室,廣西 桂林 541006)
水汽是大氣的重要組成部分, 其主要集中分布在對流層底部, 波動變化相當劇烈。 因此, 精準快速地掌握水汽的空間分布特征對天氣預報具有重要的實際意義。 隨著GPS的發展, 利用地基GPS衛星數據反演大氣水汽含量, 以此來預測降雨量成為當前研究的熱點。 在反演水汽過程中, 大氣加權平均溫度Tm是決定水汽反演精度的關鍵參數之一。 為了精確計算Tm, 需要獲取測站上空的溫度、 氣壓和水汽壓的廓線資料, 這限制了地基GPS探測水汽的使用[1]。 為了解決這一問題, 國內外學者對不同地區的Tm模型構建作了大量研究。 國際上, Bevis等[2]最早建立了與測站溫度相關的線性回歸模型Tm=70.2+0.72Ts, 并將之廣泛應用于中緯度地區, 但是該Tm模型與實際值的偏差會隨著站點高度的增加而增加[3]; Ross等[4]對全球53個無線電探空站提供的探空資料進行分析, 得出了加權平均溫度Tm與地表溫度Ts數據的相關性隨時空變化的分布規律。 國內學者通過研究局部地區Tm和Ts之間的關系, 建立了區域線性回歸Tm模型,如文獻[5-8]分別建立了我國香港、北京、湖南、新疆等地區的Tm模型, 結果表明,針對特定區域建立的加權平均溫度線性回歸模型均具有較高的精度;姚宜斌等[9]利用2010年中國無線電探空數據從數學上推導了加權平均溫度Tm與地表溫度Ts的非線性關系。除了區域性的Tm模型,也有研究人員基于大量數據建立了全球性的Tm模型,如Yao等[10]利用2005—2009年全球探空數據建立與地面溫度無關的全球加權平均溫度模型(global weighted mean temperature, GWMT)。 文獻[11-12]研究發現,支持向量機在數據回歸預測方面較線性回歸法具有更準確的預測結果和實用性。
基于以上分析,本文提出了運用支持向量機回歸的算法對廣西地區的大氣加權平均溫度進行建模,并與采用線性回歸法建立的大氣加權平均溫度單因素和多因素模型的精度進行對比,以此來驗證支持向量機回歸在大氣加權平均溫度建模方面的可行性。
支持向量機是一種小樣本的“機器”學習方法,其建立在統計理論的VC維理論和結構風險最小原理基礎上,對特定訓練樣本的學習精度和學習能力之間尋求最佳效果,以期獲得最好的推廣能力。支持向量機中的一大亮點是在傳統的最優化問題中提出了對偶理論,主要有最大、最小對偶及拉格朗日對偶,避免了其他方法的過學習、 欠學習、 高維數、 非線性以及局部極小等問題, 并已被成功地應用于模式識別、 回歸分析、 概率密度估計中。
與統計學中的非線性回歸和線性回歸不同,支持向量回歸(SVR)根據是否需要嵌入到高維空間可分為非線性回歸和線性回歸兩種方法。對于給定的樣本集合S以及任意給定的線性不敏感函數ε>0, 如果在原始空間中Rn存在超平面Q={f(x)≤ω,x>b|(ω∈Rn,b∈R}使得|yi-f(xi)|≤ε, ?(xi-yi)∈S, 則稱超平面Q是樣本集合S的線性回歸。 對于不可能在原始空間Rn線性分離的樣本集合S,先用一個非線性映射將數據映射到一個高維特征空間中(在SVM中就是找一個核函數K(x,y)=〈φ(x),φ(y)〉代替計算高維內積(φ(x),φ(y)), 避免了所需付出的計算代價);然后,在該特征空間中進行線性回歸;最后,返回到原始空間中,這就是支持向量非線性回歸。
本文選用臺灣大學林智仁教授等開發設計的LIBSVM工具,該工具箱中主要提供四類核函數:線性核函數、多項式核函數、徑向基(RBF)核函數、Sigmoid核函數。
非線性回歸問題的實施步驟具體如下:
① 輸入n個樣本
(x1,y1),(x2,y2),…,(xn,yn),
(1)
其中,xi為n維特征向量;yi為對應的輸出值。構造回歸函數為
f(x)=ω·φ(xi)+b,
(2)
式中:ω為權值向量;b為偏置;i=1,2,…,l(下同)。
② 采用一個常量ε(ε>0), 將不敏感損失函數Li用來度量模型每一次預測的好壞:
(3)
③ 將求解回歸函數的問題描述成一個二次凸優化問題:
(4)
(5)

(6)
(7)

⑤ 引入拉格朗日函數L將目標函數變成無約束的形式:
(8)
⑥ 選擇合適的核函數代入函數L中得到對偶優化公式:
(9)
其中: 0≤αi,αi*≤C。

(10)

地基GPS探測水汽的原理是通過GPS衛星信號穿越中性大氣層時天頂濕延遲(zenith wet delay, ZWD)計算大氣可降水量(precipitable water vapor,PWV)。
PWV=Π·ZWD,
(11)
式中:Π為大氣水汽轉換系數:
(12)
式中:ρw為水的密度;Rv為水汽氣體常數;k2′、k3為大氣折射常數。Tm是求取大氣水汽轉換系數的關鍵變量, 它是測站上空水汽壓和絕對溫度沿天頂方向的積分值。 因此, 可以利用無線電探空站的氣象數據, 采用數值積分的方法計算獲取:
(13)
式中,Pi為第i層大氣的平均水汽壓(hPa);Ti第i層大氣的平均溫度(K); Δhi為第i層大氣的厚度(m)。 由于探空數據是直接探測, 相對更加準確,本文將用式(13)計算得到的Tm視為真值。
平方相關系數(R2)可以表示預測值與真實值之間的相關程度,R2越接近1,相關性越強。
平均偏差(Bias)體現預測情況的穩定性, 即預測數據的離散程度。 其值的絕對值越小越穩定。
均方根誤差(RMSE)用來衡量預測值和實際值之間偏差, 該值越小, 說明預測模型的精度越高。

采用SVR的方法分別對廣西地區4個探空站進行Tm建模,每個站的模型構建步驟如下:
① 選取每站每月的3個氣象要素:氣壓、地面溫度和水汽壓作為模型輸入參數,數值積分法計算得到的每月的加權平均溫度作為模型輸出參數。將2013—2014年的數據作為訓練集,2015年的數據作為測試集。
② 數據預處理。對輸入參數和輸出參數進行歸一化映射預處理:
該映射的效果是原始數據被規整到[-1,1]區間,其中x、y∈Rn。
③ 確定核函數。選取運用廣泛的徑向基核函數(RBF)。
④ 確定模型參數。尋找最佳的懲罰參數C和核函數參數g。
⑤ 模型的建立與輸出。將訓練好的核函數和最佳的模型參數代入模型中,對因變量,即2015 年的每月的大氣加權平均溫度進行計算,并將輸出結果進行反歸一化。
選取位于廣西地區2013—2014年的4個探空站的數據,利用式(3)計算每天0時和12時的Tm,分析Tm與各站氣象要素的相關性。由于篇幅所限,僅列出廣西桂林站的加權平均溫度Tm與地面氣壓P、地面溫度Ts和水汽壓e的相關關系(圖1)。
可見, 所有離散點都較均勻地分布于一條直線附近, 表明了Tm與P、Ts和e均具有明顯的相關性, 其中Tm與P呈負相關關系, 與Ts和e均呈正相關關系, 為進一步定量地分析出Tm與這3種氣象因素相關性的強弱, 計算出廣西地區4個探空站的Tm與3種氣象因素的相關系數見表1。

圖1 桂林站Tm與P、Ts和e的散點圖Fig.1 Scatters of Tm to pressure P,surface atmospheric temperature Ts and vapor pressure e
整體上,Tm與地面溫度Ts的相關性最強, 其平均相關系數達到0.89; 與地面氣壓P、 水汽壓e也具有較強的相關性, 其平均相關系數都在0.82左右。 從單站的相關系數來看, 每個站的Tm與3種氣象因素均具有很強的相關性, 其所有的相關系數基本都在0.8以上。 基于上述分析, 利用2013—2014的數據建立每個站的單因素Tm模型和多因素Tm模型,結果見表2。
為了比較SVR-Tm、回歸法建立的單因素Tm模型和多因素Tm模型的精度,應用這3個模型分別計算2015年廣西地區4個站的Tm,其真實值和每種模型的計算值如圖2所示。
可知, 以上3種模型均可較好地計算出2015年的Tm。為了進一步定量分析出這3種模型的精度大小,計算得到每種模型在每個站的相關系數平方、平均偏差和均方根誤差,結果見表3。

表1 Tm與三種氣象要素的相關系數

表2 本地化單因素和多因素Tm模型

表3 SVR-Tm模型和單因素、多因素模型精度對比

圖2 各模型Tm值與真實值比較Fig.2 Comparison between Tm values and actual values of each model
每種模型在每個站的R2均可達到0.98左右,說明基于SVR建立的Tm模型可達到與針對特定區域構建的單因素和多因素Tm回歸模型達到相當的精度效果。比較3種模型的Bias發現,SVR-Tm模型比其他兩種模型的精度偏差小。從每種模型的RMSE上看,SVR-Tm模型整體上比單因素Tm模型和多因素Tm模型的稍小,驗證了SVR在Tm計算方面的可行性。
在分析支持向量機回歸工作原理的基礎上,結合無線電探空數據建立了廣西地區的Tm模型,并與采用回歸法建立的單因素Tm模型和多因素Tm模型的精度進行對比,驗證了支持向量機回歸在大氣加權平均溫度建模方面的可行性和有效性,可為進一步研究Tm提供參考。