管 杰,翁 玲,任青峰
(1.電子科技大學 通信與信息工程學院, 四川 成都611731;2.貴陽市氣象局,貴州 貴陽,550000;3.赤水市氣象局,貴州 赤水 564700)
水位預測對于防洪減災、水資源利用和分配管理有著極為重要的作用。一個穩健的水位預測模型可以為相關決策者提供未來水位的變化情況,及時掌握潛在的水文災害,從而更早的進行相關預警部署。在水位預測領域,由于影響水位因素的多維性和復雜性,模型系統的潛在輸入量之間往往呈現非線性動態關系和多重相關性[1]。另外水位預測模型中輸入量的個數一般較大,尤其是引入滯后量后會急劇增加特征維數和計算復雜度,但是這些變量中實際上包含大量重復信息和噪聲成分,而引入非相關特征后在增加模型復雜度的同時降低了模型的性能。
為了提高模型的靈活性和解釋力,需要從原始的高維數據集中選擇包含最小冗余度的有效特征,從而構建一個具備伸縮性的更簡潔、反映真實水位變化規律的模型[2]。在水位預測領域,傳統的特征選擇法一般基于相關系數和信息學,基于相關系數的方法是計算各輸入變量與輸出量之間的相關系數,然后通過相關系數大小確定適合作為模型輸入的特征;基于信息學的選擇方法是考察輸入量與輸出量之間的互信息或局部互信息,通過互信息的大小進行特征選擇。以上兩種特征選擇方法的共同點是都通過具體的指標(相關系數或互信息)來量化輸入量與輸出量之間的關系,然后根據該指標的大小進行特征選擇,這種方式的弊端在于對于輸入變量之間本身具有高度相關性的場景,會選擇包含重復信息的多余變量。本文基于赤水河水位預測的具體應用場景,提出一種基于LASSO的特征選擇和基于最大重疊離散小波變換的特征分解方法,LASSO引入的L1懲罰項使其具有正則稀疏的性質,對于包含重復信息的多個變量,LASSO只會選擇其中的一個變量,而將其他相關變量稀疏,做到減少重復變量。
LASSO的基本思想是在回歸系數的絕對值之和小于等于一個常數的約束條件下,使殘差平方和RSS最小化,從而能夠產生某些嚴格為0的回歸系數,得到壓縮特征后具有解釋能力的模型[3,4]。LASSO回歸的目標函數為:
(1)
由于LASSO回歸引入L1范數作為懲罰收縮項,而一次項求導后可以消去變量本身,因此LASSO回歸的系數可以為0。另外,針對高度相關的特征集,LASSO會選擇其中的一個特征而使其它特征回歸系數收縮為0,這樣便實現了特征的正則稀疏化。
通過對輸入集進行離散小波變換可以得到數據的詳細頻譜信息,諸如周期性、局部變化特性、隨機性和突變性。盡管離散小波變換DWT在許多集成小波的模型中得到了廣泛的應用,但是由于其具有抽取效應,該效應會在模型構建階段引入潛在的信息缺失從而會在預測時產生偏差[5]。另外,DWT的小波變換系數結果與小波變換的起始位置有關,從而帶來一定的偶然性。
基于DWT的上述缺陷,本文采用最大重疊離散小波變換MODWT (maximum overlap discrete wavelet transform)作為特征分解的方法。MODWT是一種線性過濾操,可以較好的解決抽取效應,通過MODWT,可以得到與觀測值同維數的多維小波系數[6]。另外,小波變換的結果與變換的起點位置無關,可以用于不同樣本大小數據的變換。總的來說,MODWT可以用提取輸入信號的不同頻段成分,從而獲得更為豐富的信息,揭示數據潛在的變化規律。
考慮長度為N的時間序列信號的MODWT,通過填零補齊可以將其分解為M層小波信號的疊加[7]:
(2)
上式可簡寫為:
(3)

為了測試LASSO-MODWT特征選擇分解方法的性能,本文采用多元線性回歸模型作為基礎模型進行性能驗證。
多元線性回歸是最基本的回歸模型,它的目標是找到一組適合的回歸系數,使得預測值和實際值之間的均方誤差最小,對于某一訓練數據集,其線性回歸模型的形式為:
Y=y(x)+ε
(4)
其中ε為誤差函數,是均值為0,方差為σ2的標準正態分布,記為ε~N(0,σ2)。總體回歸函數y(x)表示當給定X時,Y的期望軌跡[8],其表達式為:
(5)

(6)
本文關注的是赤水河中下游的水位變化趨勢,目的在于預測赤水站未來3 h和6 h的水位情況。實驗中采用的數據由赤水河中下游沿岸自動監測站在2015和2016年5~10月期間采集,涉及到的相關站點信息見表1所示。由于數據是逐小時采集存儲的,從而總共有8834個數據點。在數據采集和存儲過程中不可避免會有缺失,分析發現缺失數據為WL_MT 2015-10-09 02~2015-10-14 07共126項數據,利用pandas的對數據進行插值補齊。
數據集總共有5個特征,包含如下內容:①3個水文監測站赤水站、茅臺站、二郎站水位數據(代號為WL_CS、WL_MT、WL_EL);②2個氣象監測站赤水站、習水站降雨量數據(代號為RF_CS、RF_XS)。

表1 實驗數據集
由于本文研究的數據為時間序列,從而構建輸入集時應考慮滯后量,通過互相關函數分析決定各特征的具體滯后時長。從而輸入矩陣為:
X=[xi(t),xi(t-1),xi(t-2),…,xi(t-lagi)],i=1,…,5
(7)
其中lagi為第i個特征(包括3個水文監測站和2個氣象監測站數據)的滯后時長。去除因為引入滯后量而缺失的數據,此時輸入集為的矩陣,由于目的是進行未來3 h、6 h赤水站水位預測,因此輸出為當前時刻向后3 h、6 h的赤水站水位數據。
整個LASSO-MODWT模型的構建過程如圖1示。通過相關系數分析對各特征引入滯后量后3h預測原始輸入集的特征個數為221個,6h預測為229個。為了精簡輸入集,選擇出最適合作為輸入的特征,實驗中對元素輸入集基于LASSO回歸進行特征選擇。由于其引入L1正則項作為懲罰項,可以將多余特征的回歸系數壓縮為0,從而基于LASSO回歸的特征選擇是一種稀疏特征選擇方法。

圖1 模型構建流程
進行特征選擇前先對輸入集采用最小-最大值標準化進行標準化處理,將原始數據映射在[0,1]區間。標準化公式為:
(8)
其中,xi,norm為標準化后的數據值,Nmin和Nmax為縮放的最小值和最大值,本文中分別為0和1。xmin和xmax分別為當前數據集中x的最小值和最大值。將標準化后的數據集作為LASSO回歸模型的輸入進行特征評分,訓練LASSO回歸模型時利用網格搜索法對LASSO回歸的參數λ進行尋優搜索,然后利用最優參數對輸入數據進行LASSO回歸對特征進行評分,選擇對輸出影響大的特征。經過LASSO選擇后3 h預測的特征為49個,6 h預測為88個。可以看出兩種預測場景下都大幅減少了輸入特征的個數,進而降低了模型構建的復雜度。
為了進一步優化模型性能,實驗中在經過LASSO選擇得到特征的基礎上利用MODWT對特征進行分解,獲取特征各頻率成分,從而便于獲取其潛在的變化規律。為保證MODWT分解后能充分提取原始信號的特性,其最小分解層數為[10]:
L=int[log(N)]
(9)
其中L為MODWT要求的最小分解層數,N為數據集的長度。由于實驗中的有效輸入集為8678條,故MODWT的最小分解層數為:L=log(8678)=3.93,取整為L=4,本文取L=4和L=5兩種情況進行試驗。
盡管最大重疊離散小波變換作為一個多分辨率特征識別工具已經被證明具有諸多優勢,但是在建立基于MODWT的模型時面臨的一個挑戰是選擇合適的小波基函數,由于當前沒有一個明確的通用基函數選擇標準,也并沒有相關文獻說明選擇何種基函數能得到最好的模型效果,理論上不同應用場景適合不同的基函數。考慮到水文預測適合用不規則的小波基,本文采用Daubechies小波基,它廣泛應用于水文預測領域[11]。實驗中采用db2、db3和db4三種形式的小波基進行對比測試,尋找最適合用于赤水河水位預測的小波基。

圖2最大離散小波變換系數WL_CS db3 level4
圖2是采用db3形式的Daubechies小波基對WL_CS進行DMDWT得到的結果,從上到下的6張子圖分別為原始信號波形,平滑近似波形(A4)和四層DMDWT分解系數(d1,d2,d3,d4)。
為降低運算復雜度,只對由LASSO評分最重要的WL_CS lag0這一特征進行分解,將分解后得到的小波系數作為新特征加入輸入集(4層、5層分解分別為5維、6維系數),此時3 h預測特征為53個,6 h預測為92個。
由于沒有通用的用于評估水文預測模型性能的單一指標,本文通過納什效率系數NSE、均方根誤差RMSE和平均絕對誤差MAE 3種統計學指數對預測性能進行綜合評判[12~14]。
(1)納什效率系數ENS。
(10)
(2)均方根誤差RMSE。
(11)
(3)平均絕對誤差MAE。
(12)

實驗中,分別將基于相關系數得到的原始輸入集、經過LASSO選擇的輸入集和經過LASSO-MODWT得到的輸入集作為多元線性回歸模型的輸入用于預測赤水站未來3 h和6 h的水位數據,進而評估LASSO-MODWT特征選擇法的性能。表2是不同輸入集用于赤水站3 h和6 h水位預測的性能對比。從表2可以看出,對于兩種時間周期的預測,引入基于LASSO的選擇法后都能在大幅減少模型輸入參數的前提下提高預測準確度,使得3 h的預測的RMSE和ENS分別由基礎模型的0.108 m和0.982提升至0.103 m和0.984;而集成MODWT后預測精度進一步提高,未來3 h預測的RMSE降低為0.029 m,而ENS則提升為0.998。可以說明,基于LASSO-MODWT的特征選擇分解法可以在較少特征數量的前提下大幅提升赤水河中下游水位預測模型的預測精度,并且這種提升對于3 h和6 h兩種預測周期都較為顯著(圖3和圖4),也就是說,此種特征選擇分解方法具有較好的穩健性。

表2 不同輸入集3 h、6 h預測性能對比

圖3 不同輸入集赤水站3h水位預測對比

圖4 不同輸入集赤水站6h預測對比
圖3、圖4為不同輸入集對赤水站2016年8月期間3 h、6 h水位預測結果及真實值的對比,圖5、圖6為對應預測值與真實值散點圖。可以看出,經過LASSO-MODWT特征選擇分解后,相對于原始數據集的預測結果,LASSO-W-MLR的預測值更為接近真實值,模型性能更為穩定。進一步說明LASSO-MODWT法可以用于提升赤水河水位預測模型的精度和穩定性。

圖5 不同輸入集赤水站3h水位預測散點

圖6 不同輸入集赤水站6h水位預測散點
為了進一步研究不同小波基類型和分解層數對赤水河水位預測性能的影響,實驗中分別對db2、db3、db4三種小波和level4、level5兩種分解層數進行仿真,表3是采用不同小波基和分解層數進行MODWT后對赤水站未來3 h預測和6 h水位預測的性能結果。從表3可以看出,采用db2小波基進行5層小波分解在赤水河水位預測模型中能夠得到更優的預測性能。該結果進一步說明了不同應用場景適合采用不同的小波基,在實際建模過程中,應當結合具體需求進行論證嘗試,找到最合適的小波基和分解層數,從而提高模型準確度。

表3 不同小波基和分解層數3 h、6 h預測性能對比
本文針對赤水河水位預測的具體應用場景,提出了基于LASSO-MODWT的特征選擇和性能優化方法,并采用多元線性回歸模型用于測試性能。實驗表明,LASSO-MODWT方法能顯著提升赤水河水位預測模型的準確度和穩定性。對于3 h預測,RMSE由基礎模型的0.108 m降低至0.029 m,納什效率系數從0.982提升值0.998;對于6 h預測RMSE由基礎模型的0.194 m降低至0.071 m,納什效率系數從0。942提升值0.992。從而可以說明,LASSO-MODWT方法可以有效提升赤水河水位預測的性能。另外,本文針對MODWT的小波基和分解層數的選擇進行了對比驗證,實驗結果顯示在赤水河水位預測模型中,采用db2作為小波基,分解層數為5時能得到最優的預測效果,但是由于目前尚未具有明確統一的小波基選擇方案,針對具體應用場景需要進行論證嘗試,尋求最優選擇。
FeatureSelectionofWaterLevelForecastinChishuiRiverUsingLASSO-MODWTAlgorithm
Guan Jie1, Weng Ling2, Ren Qingfeng3
(1.SchoolofCommunicationandInformationEngineering,UniversityofElectronicScienceandTechnologyofChina,Chengdu,Sichuan, 611731,China; 2.GuiyangMeteorologicalBureau,Guiyang,Guizhou, 550000,China;3.ChishuiMeteorologicalBureau,Chishui,Guizhou, 564700,China)
Abstract: In this paper, a wavelet-hybrid multiple linear regression integrated with LASSO based input selection algorithm is proposed for forecasting 3-hour and 6-hour ahead water level in Chishui station, and it then compare to base line and LASSO-MLR for evaluate its statistical preciseness. To establish parsimonious and interpretable forecasting models, LASSO algorithm is applied to select the best data form the predictor matrix and it is integrated with the non-decimated maximum overlap discrete wavelet transform(MODWT) applied on the LASSO-selected features. The global predictor matrix, LASSO-selected features and LASSO-MODWT transferred variables are used as model inputs for multiple linear regression model to evaluate the performance of LASSO-MODWT algorithm. The experimental results show that the feature selection decomposition based on LASSO-MOMWT significantly improves the water level prediction performance of Chishui Station in the next 3h and 6h. The RMSE, MAE and NSE predicted by 3h are 0.029m, 0.011m and 0.998, respectively.
Keywords: water level forecast; feature selection; wavelet-hybrid; LASSO; MODWT