榮 新,覃衛堅,韋文山,沈夢燕
(1.廣西民族大學電子信息學院,南寧 530006;2.廣西氣候中心,南寧 530022)
臺風作為一種極具破壞性的氣象災害,威脅著沿海城市的經濟發展,因此對臺風的預報越來越受到重視。近年來,國內外的一些預報方法如一般線性回歸、多元線性回歸、動態統計混合模式以及各種神經網絡算法等在預測各海盆地的熱帶氣旋活動中取得了巨大的成功[1-10]。本文運用的預報方法支持向量回歸,以其較強的范化和有效捕捉信息能力被廣泛應用于各個領域,童亮等[11]建立基于模糊信息粒化和支持向量回歸組合的模型,預測內核船舶的耗油量,其結果要優于BP模型和ELM模型;吳曉姣等[12]構造支持向量回歸算法預測血壓模型,可以有效地預測人的血壓值;閆水保等[13]通過優化支持向量的選擇策略來提高算法的預測能力,建立約束的支持向量回歸模型應用于電站鍋爐燃燒。在處理天氣問題方面,Nong等[14]運用支持向量機對降水進行“客觀預報”,其預測精確度高于基于BP網絡的預測模型;羅芳瓊[15]等結合線性方法和神經網絡方法提取降水的線性和非線性特征,最后使用最小二乘支持向量機集成預測,穩定性較好。另外,在機器學習方法中因子的選擇對預報的精度有很大的影響,豐富和篩選合適的特征因子,是提高臺風頻數預報精度的有效途徑之一。
特征選取是從原始集合中選擇冗余最小,并與預測對象相關性最大的特征集,隨機森林算法是一種準確的集成學習算法,對大數據集具有高效的運行和處理能力。崔兆億等[16]、林娜等[17]、林開春等[18]利用隨機森林篩選最優特征子集,獲取較高的數據精度;熊怡等[19]基于隨機森林算法選擇遙相關因子,提高了月徑流預報模型的泛化性能。
本文結合了隨機森林方法和逐步回歸方法來選擇特征因子,找出最優特征集建立基于支持向量回歸的模型預測年度臺風頻數,驗證融合隨機森林和逐步回歸方法篩選特征因子在支持向量模型預報年度臺風頻數中的有效性和適用性。
由中國氣象局上海臺風研究所提供1951—2020年共70年臺風樣本數據,國家氣候中心提供1951—2020年142項大氣環流特征量和海溫指數資料。
支持向量回歸(support vector regression,SVR)是基于統計學習理論的監督學習算法,它保留了支持向量機最大邊緣算法的對偶性、稀疏性、核性和凸性等特性[20]。主要思想是利用核函數將輸入數據映射到高維空間,并對變換后的空間進行回歸處理,利用結構風險最小化和經驗風險最小化原則,解決各種非線性回歸估計問題。給定一組訓練數據集構造超平面,公式表示為
w表示加權矩陣,b為偏置項。當且僅當訓練樣本落入超平面外,計算損失,將回歸風險最小化為
B為正則化常數,g(xk)為第k個樣本的預測值,yk為第k個真實值,lθ為不敏感損失函數:
引入松弛因子重寫式(1):
引入拉格朗日乘子,得到拉格朗日函數,將式(1)代入,再利用拉格朗日函數分別對w,b,ηk,η?k求偏導,將其代入拉格朗日函數即可得到支持向量回歸的對偶問題,經過進一步求解最后得到SVR的解為
引入高斯核G(x,xk),將樣本從原始空間映射到一個更高維的特征空間,則SVR為
相關系數是研究兩個定量變量之間線性相關程度的量,量化了兩個變量之間的標準化關系,取值范圍一般為[-1,1]。給定一組數據D=設相關系數為r,公式表示為
為了解釋某些特征共線性的可能,本文結合1951—2015年共65年的樣本,計算廣西臺風頻數時間序列與同年或前一年各月142項大氣環流特征量和海溫指數的相關系數,從中篩選出絕對相關系數值達到0.4的因子,共得到24個高相關因子。
逐步回歸是通過每次添加或刪除一個獨立預測因子構建多元回歸方程。主要分為正向選擇、逆向消除和雙向消除[21]。本實驗為了更好地優化模型,選用雙向消除,將正向選擇和逆向消除相結合建立逐步回歸模型選擇重要因子,在未引入的因子集中尋找方差貢獻最大者做檢驗,在引入的因子集中對方差貢獻較小者做剔除檢驗。最后輸出逐步回歸方程:
經過計算,復相關系數為0.619,剩余標準差為1.689。方程式從24個因子中選擇x1、x8、x11作為預報因子,其中x1為前一年9月歐亞緯向環流指數(IZ,0-150E);x8為同一年1月Nino12區海溫,表示為90°W—80°W,赤道—10°S的太平洋海溫;x11為同一年2月Nino4區海溫,表示150°W—160°E,5°N—5°S的太平洋海溫。其相關系數值見表1。

表1 逐步回歸方法篩選的特征因子
隨機森林是一種集成和最精確的算法,融合了套袋法和隨機特征選擇法,具有高效處理高維數據和高相關數據的能力。本文使用隨機森林算法計算變量的重要性評分,確定隨機子集中的最佳特征。針對特征的重要性,在訓練過程中有兩種方法MDI和MDA計算各特征的顯著性。本文使用MDI,也就是基尼指數(Gini)重要性計算特征重要性。工作原理如下:
定義原始數據D(xk,k∈1,2,3…n),
(1)在原始數據集D中有放回的多次隨機采樣,生成n個子集。
(2)每次重采樣時,選擇一種隨機特征,不剪枝,構造決策樹。
(3)投票選擇效果最好的決策樹,計算決策樹每個特征的Gini。
公式表示特征pi在節點m中重要性。
(4)對每個節點先求出Gini,之后降序排列輸出。
本文利用隨機森林對經過相關性分析得出的24個特征因子二次篩選,計算每個特征因子的基尼指數,選出排列前三的特征因子(因子重要性值見表2),分別為前一年6月AMM(Atlantic Meridional Mode)風指數,前一年9月歐亞緯向環流指數(IZ,0-150E)以及同一年1月Nino12區(150°W—160°E,5°N—5°S)海溫。

表2 隨機森林方法篩選的特征因子
本文結合逐步回歸和隨機森林篩選出特征因子,分別是前一年6月AMM(Atlantic Meridional Mode)風指數,前一年9月歐亞緯向環流指數(IZ,0-150E),同一年2月Nino4區(150°W—160°E,5°N—5°S)海溫以及同一年1月Nino12區海溫(90°W—80°W,赤道—10°S)共四個特征因子,并結合1952-2015年共64年的訓練樣本,2016—2020年共5年預測,分別使用逐步回歸篩選的因子、隨機森林篩選的因子以及融合兩種方法篩選的因子,建立基于支持向量回歸的模型預測年度熱帶氣旋頻數(分別建立模型1、模型2、模型3)。上述步驟的流程圖如圖1所示。
模型選擇不敏感損失函數為squared_epsilon_insensitive,epsilon范圍設置為(0-10),懲罰函數參數范圍為(0-1),經過調節模型參數最后確定不敏感損失函數的epsilon參數為2.64,懲罰函數C=0.3,最大迭代次數為10000次。預測結果見表3。模型1使用逐步回歸方法選擇的特征因子,建立支持向量回歸模型預報,損失函數值loss=0.82,平均絕對誤差為14.48%,均方根誤差為0.91,絕對平均誤差為0.69;模型2使用隨機森林選擇特征因子,建立支持向量回歸模型預報,損失函數值loss=0.64,均方根誤差為0.80,平均絕對誤差為14.15%,絕對平均誤差為0.65;模型3融合以上兩種方法選擇的特征,建立支持向量回歸預報模型,損失函數值loss=0.44,平均絕對誤差為9.58%,絕對平均誤差為0.42,均方根誤差為0.66。預測結果表明,基于隨機森林方法選取特征因子建模預測效果要高于逐步回歸方法,同時融合兩種方法選擇的因子,預測結果均高于以上兩種方法。

表3 基于支持向量回歸方法2016—2020年度臺風頻數預報結果對比
本文以上海臺風研究所提供的臺風樣本數據和國家氣候中心提供的大氣環流特征量和海溫指數資料為基礎,針對臺風頻數非線性變化的特征使用支持向量方法,建立模型預測。研究使用相關分析方法,去除冗余和不相關的特征,初步篩選出絕對相關系數值達到0.4的特征因子。為提高數據的線性度,分別使用逐步回歸方法建立回歸方程和隨機森林方法進一步提取因子的非線性特征。在相同的數據樣本下,建立基于支持向量回歸的模型,預測2016-2020年共5年的臺風頻數。研究表明,融合兩種方法篩選因子預測結果最好,相比直接使用隨機森林方法和逐步回歸方法篩選的數據預測結果分別提高4.57%和4.90%。這主要是因為逐步回歸方法在選擇因子、建立方程時,不僅保證了所選變量的有效性和重要性,而且減少了冗余變量帶來的額外誤差,隨機森林具有平衡不穩定數據集的誤差的類,可以產生高度精確的分類器。
目前年度的臺風預報工作相對較少,本文提出的融合人工智能方法和線性方法選擇因子建立的機器學習模型預報臺風頻數為年度臺風預報提供了一種新方法和思路,這種因子選擇方法將來也可應用于其他的領域。此外,本文在建立支持向量回歸模型過程中所采用的調參方法仍可以改進,進一步提高預報的精確度。