葛建坤,雷國相,陳皓銳,張寶忠,陳來寶,白美健,蘇 楠,于子慧
(1.華北水利水電大學水利學院,鄭州 450045;2.中國水利水電科學研究院流域水循環模擬與調控國家重點實驗室,北京 100048;3.國家節水灌溉北京工程技術研究中心,北京 100048;4.安徽省淠史杭灌區管理總局,六安 237005)
灌區渠道除接受上游水庫/渠道的供水外,還可能接受沿程的坡面匯流、平交河道的洪水匯入,在暴雨條件下,渠道上游來流疊加沿程的各種面狀(坡面洪水)和線狀匯流(平交河道匯流),可能會導致渠道水位過高,影響渠道的安全運行,灌區泄水閘能夠快速宣泄這部分洪水,確保汛期渠道安全。因此,如何合理的進行渠道泄水閘的決策是灌區管理者在汛期需要面對的問題。與自然流域洪水過程類似,渠道洪水的發生和推進也包括渠道沿程集水區的降雨產匯流過程和洪水在渠道中的演進過程;與其不同的是,渠道中節制閘、分水閘和泄水閘的人工調度會對洪水入渠后的推進過程有較大的影響,其邊界條件較自然流域更為復雜,這也給合理開展渠道防洪調度帶來了挑戰。
基于物理機制的明渠/河道泄水需在摸清灌區渠道來水匯入點、沿程匯流集水區、泄水點和分水點的空間分布和水力拓撲關系的基礎上,通過耦合產匯流模型、一維明渠水流運動和調度優化模型進行防洪調度決策優化。防洪調度是一個非線性復雜決策過程,這使得調度方案的優化決策難以實現[1-2]。基于物理機制的防洪調度優化方法主要分為線性規劃(linear programming,LP)、非線性規劃(non-linear programming,NLP)、動態規劃(dynamic programming,DP)、鵜鶘優化算法(pelican optimization algorithm,POA)和遺傳算法等。李其梁等[3]建立了基于線性規劃的兩湖河道聯合調度數學模型,可為汛期洪水資源配置提供決策依據。非線性規劃能夠處理目標函數不可分和非線性約束問題,能夠應用于更復雜的優化調度場景中,林瑜等[4]構建了基于馬斯京根模型的非線性規劃模擬河段渠道中的洪水演進過程,為汛期渠道斷面流量決策提供了可靠的方法。但LP 和NLP方法不能考慮單個泄水閘的狀態,因此不適合處理灌區渠道調度決策問題。ZHAO 等[5]將單調關系與動態規劃進行合并,提出了改進DP 的新算法,該算法可以作為防洪調度的有用工具測試不同的洪水情景并確定最優決策。LIU 等[6]利用POA 方法確定了考慮河道優化的汛期多目標最優調度規則。但DP 和POA 計算工作量大,泄水閘數量較多時,容易造成“維數災難”,需要一定的降維方法。AFAN 等[7]以尼羅河高阿斯旺大壩為研究對象,采用遺傳算法優化了河流流量的預測精度,確定了時間序列下預測洪水的有效輸入參數,研究結果可為其他類似地區的河道防洪調控提供參考。但遺傳算法編程較為復雜,且算法內包含的交叉率、變異率等參數的設定依然需要人工經驗確定。基于物理機制的防洪調度優化模型不僅在各環節的物理過程控制方程的求解和耦合方面較為復雜,而且涉及大量的模型參數,其實際應用過程中對數據資料的要求和模型使用者的專業要求較高。因此,如果能夠基于影響渠道泄水決策的主要影響因素獲得相對容易監測的數據,開展渠道防洪調度的決策,可以避免上述物理機制模型的缺點。
近年來,人工智能技術發展迅速,機器學習作為人工智能技術的核心分支,能夠學習經驗數據中輸入和輸出之間的復雜關系,快速提取高維數據特征和處理非線性數據,且具有良好的容錯性[8]。高瑋志等[9]利用機器學習解決了太湖流域多層次防洪調度方案的評價問題。張帆等[10]采用多種機器學習模型對洪水特征指標進行了評估,為防洪措施的制定提供了參考。盡管機器學習算法在先前研究中表現良好,但由于其特有的“黑箱”性質,無法解釋各變量對預測結果的貢獻程度。Shapley Additive exPlanations(SHAP)作為當前熱門的機器學習事后解釋工具,能夠檢測特征之間的交互作用,從而提供更加全面的特征重要性排序結果[11-12]。目前已用于環境監測、土地利用、信息科學等[11,13-14]重要領域,該方法能夠清楚量化機器學習算法中特征變量的全局重要性,可為防洪調度中關鍵因素的識別以及機器學習算法優化提供重要幫助。
目前,灌區渠道防洪調度決策依賴復雜物理機制的調度優化模型,決策者需要對各渠段在不同暴雨條件下的來洪過程、洪量和洪峰大小、渠道的承洪能力、泄洪效果等非常了解才能做出較為合理的調度決策,若了解不充分,則可能造成渠道水量過度下泄等問題,危害下游渠系建筑物的安全。鑒于此,為給灌區渠道防洪調度決策提供一種簡單高效的方法,本研究以安徽淠史杭灌區灌口集泄水閘為例,基于實測的閘上水位、歷史和預報降雨信息以及泄水調度流量數據,比較不同機器學習算法的預測精度,同時采用SHAP 法篩選特征變量組合,進一步優化算法精度。以期為灌區現代化管理提供技術支撐。
淠史杭灌區位于安徽省中西部和河南省東南部,是中國特大灌區之一。其中安徽部分由淠河、史河、杭埠河三大灌區組成(圖1)。灌區地貌包括山丘和平原兩大類型,對于途經山丘區的渠段,在遭遇暴雨時,渠道一側坡面的降雨產流會匯入渠道,引起渠道水位過高,從而引發渠道運行安全問題,該問題在南方丘陵灌區具有典型代表性。史河灌區位于淠史杭灌區西部,該灌區的局管渠道包括5 個泄水閘,渠道防汛調度以節制閘為界劃分為4 個調度單元,各調度單元來洪基本在單元內排除。灌口集調度單元進口為看花樓節制閘,出口為河套汀渡槽,該單元有2 片側向坡面來水,分別通過白嗒河和坡面散流進入渠道,單元內設置了灌口集泄水閘用于排除洪水。灌口集泄水閘單孔閘寬7 m,共5 孔,設計流量265 m3/s,閘上設計水位57.32 m。

圖1 淠史杭灌區示意圖Fig.1 Schematic diagram of irrigation area of Pi Shihang
灌區渠道泄洪調度期間,對于特定的泄水閘而言,其所在渠道的集水區面積、土壤質地、下墊面條件、集水區坡面/入渠河道的地形和坡度、坡面或者入渠河道的糙率、渠道斷面和坡度、渠道糙率等因素一般固定不變。灌區渠道在汛期關閉進水閘或分水閘時,渠道無上游來水,洪水完全來自單元流域內的降雨[15]。渠道水位是汛期灌區管理人員進行洪水調度時的首要關注指標,各泄水閘段的渠道水位不能超過警戒水位,防止漫頂[16]。通過咨詢灌區管理部門可知,對于灌口集調度單元而言,當啟動防洪調度時,單元進口閘(看花樓節制閘)關閉,即渠道上游來流始終為0,該單元沿渠也未受其他閘門影響(圖2)。因此,灌口集泄水閘的調度方式主要取決于過去的落地雨量、未來預報的雨量以及泄水閘前的實時水位及動態變化量。為盡可能全面考慮泄水閘調度的影響因素,本研究選取過去1、2、3、6、9 h 和未來1、3、6 h 累積降雨量、灌口集泄水閘閘上水位和閘上水位差作為特征變量,以灌口集泄水閘調度流量作為目標變量(表1),其中降雨量以集水片區內部及其附近的8個降雨站點平均值代表面雨量(白塔畈、龔店、薛販、萬山橋、小高廟、朱小堰、紅石嘴、梅山)。上述各類數據來源于安徽省水文局和淠史杭灌區管理總局。

表1 變量及說明Table 1 Variables and descriptions

圖2 灌口集泄水單元連接關系圖Fig.2 Guan Kouji drainage unit connection relationship diagram
為檢驗特征變量是否能解釋調度流量變化規律,對灌口集泄水閘調度流量Y進行分析。由圖3 可以看出,調度流量分布曲線在偏度及峰度上與正態分布曲線均有一定的相似度,采用柯爾莫哥洛夫-斯米爾諾夫檢驗(kolmogorov-smirnov,K-S 檢驗)得到變量Y及x1~x10的P值分別為0.225、0.140、0.131、0.133、0.121、0.075、0.130、0.122、0.135、0.232、0.208(P>0.05),均服從正態分布,參考文獻[17],將x1~x10全部用于算法預測及驗證。

圖3 灌口集泄水閘調度流量分布曲線Fig.3 Distribution curve of dispatching flow of Guan Kouji drainage gate
本研究所用方法分為預測方法和特征變量篩選方法兩大類,其中預測方法用來建立特征變量與調度流量之間的關系,特征變量篩選方法是在分析特征變量對調度流量預測結果的影響程度大小的基礎上,篩選變量組合。預測方法選取了線性回歸(linear regression,LR)、K 近鄰回歸(k-nearest neighbors regressor,KNR)、嶺回歸(ridge regression,RDR)、決策樹回歸(decision tree regression,DTR)4 種傳統回歸算法和支持向量回歸(support vector regression,SVR)、自適應提升回歸(adaptive boosting regression,ABR)、極度梯度提升回歸(extreme gradient boosting,regression,XGR)、隨機森林回歸(random forest regression,RFR)4 種集成學習算法進行比較。傳統回歸算法中LR 可判斷變量與目標因子之間線性相關程度的強弱[18]。KNR 適宜對連續時間的數據進行預測[19],符合本研究的數據類型。RDR 能夠處理自變量間多重共線性問題[20]。DTR 能夠表現數據間復雜的非線性關系,對缺失值不敏感且訓練速度較快,適合用于小規模數據集的回歸預測[21]。集成學習算法能夠串聯傳統機器學習算法中的多個基學習器,提高預測性能。本文采用的4 種集成學習算法可分為3 類,其中SVR 和RFR 分別屬于堆疊算法(stacking)和裝袋算法(bagging),ABR 和XGR 屬于提升算法(boosting)。Stacking 集成的高層模型使用線性回歸等基學習器進行組合輸出[22],bagging 使用同質弱學習器,其輸出投票或平均產生,最終獲得比基學習器更小的方差;boosting串聯各個基學習器調整樣本的損失函數或權重,通過疊加來減少總模型的預測偏差[23]。其中ABR 和XGR 在擬合殘差方式上有所不同。8 種機器學習算法的關鍵參數及說明見表2。

表2 算法參數及說明Table 2 Algorithm parameters and description
采用SHAP 法對特征變量進行篩選。SHAP 法能夠提供多特征交互影響下各個特征對于預測結果的貢獻值[11]。將x1~x10作為特征變量,Y作為目標變量,對8種機器學習算法預測精度進行比較并挑選出最優算法,再利用SHAP 法對特征變量進行篩選組合,確定最終的調度流量決策模型(圖4)。各方法及說明見表2。

圖4 研究技術路線Fig.4 Technology roadmap of this study
1)LR 算法
線性回歸算法用于確定兩個及多個變量之間定量關系[18],通用計算式為
2)KNR 算法
K近鄰回歸算法采用測量特征值之間距離的方法進行預測[19],樣本的回歸預測輸出值為
式中wv為樣本權重,S為訓練樣本數,yv為第v個樣本的輸出值。
3)RDR 算法
嶺回歸是一種專用于處理共線性數據的回歸方法[20],一般回歸分析的(矩陣)形式如下:
式中X為輸入變量矩陣,β為回歸系數矩陣,ε為誤差矩陣。
4)DTR 算法
在機器學習中,決策樹表示對象屬性與其值之間的映射[21]。將輸入空間劃分為M 個區域R1,R2,……,RM,選定的劃分區域相應輸出函數為
式中M為區域個數,Rm為第m個區域空間,j為區域中的輸入變量,ym為區域Rm的目標變量輸出值。
5)SVR 算法
支持向量機用于回歸問題時尋求二分法以最小化到超平面最遠樣本點的“距離”[24],遵循使用核技巧轉換數據的技術找到最佳輸出邊界。位于邊界得到內的點滿足:
式中w為權向量,a為輸入變量,? (a)為高維特征空間,c為偏置常數。
6)ABR 算法
ABR 采用迭代思想,分類輸出取決于這些多個分類器的組合效果[25]。構建的最終強分類器為
式中ht為基學習器,αt為每個基學習器的權重系數,T為基學習器個數,g為輸入變量。
7)XGR 算法
XGR 是一種基于CART(classification and regression tree)的Boosting 類集成學習模型[26],其目標函數為
8)RFR 算法
隨機森林回歸是一種基于決策樹的集成學習算法[27],包含層次上的的隨機性,進行回歸預測時,從所有的特征輸入值H中隨機選擇h個值構建每棵決策樹,從這h個值中去選擇優化每個分割節點時,從而降低相關性,提高預測能力。
9)SHAP 法
SHAP 是一種將傳統方法與博弈論和局部解釋聯系起來,根據預期表示一致性和局部準確性的特征歸因方法[11]。SHAP value 為樣本中特征的分配數值,滿足等式:
式中Yn為輸出的SHAP 值,yb為所有樣本目標變量的均值,f(xn,1) 為第n個樣本中第1 個特征變量對該樣本預測的貢獻值,f(xn,P) 以此類推。
將搜集到的180 組變量數據按照4:1 的比例分為訓練集與測試集,調用Python 3.9 進行算法預測與驗證。
1)為消除數據量綱對于研究效果的影響,模型數據采用Z-score 標準化方法,其計算式如下:
式中ZB表示標準化后的數值,Z表示原始數據,Z表示原始數據的平均數,σ 表示原始數據的標準差。
2)為評估算法預測精度,利用灌口集泄水閘調度流量預測值與實際值之間的均方根誤差(SRMSE)、平均絕對誤差(SMAE)、均方誤差(SMSE)和決定系數(R2)作為評價指標。其中SRMSE、SMAE和SMSE越接近0,表示模型偏差度越小;R2越接近1,表明預測值與實際值之間的吻合度越高。具體計算公式如下:
式中Rk為第k組數據的實際調度流量值;Pk為第k組數據的預測調度流量值;R為Rk的平均值;P為Pk的平均值;F為樣本個數。
為了驗證8 種機器學習算法在整個數據集上是否適用,本研究同時對訓練集和測試集進行預測,分析其SRMSE、SMAE、SMSE及R2指標并進行比較(表3)。

表3 基于8 種算法的調度流量預測評價Table 3 Prediction evaluation of dispatching flow based on 8 algorithms
由表3 可得,傳統回歸算法中DTR 訓練集及測試集誤差指標均為4 種算法中最優,LR 的訓練集SMSE較最大的KNR 僅降低了6.6%,其余指標均為4 種算法中最差。因此,LR 在傳統回歸算法中的預測精度最差。集成學習算法中SVR 訓練集及測試集SMAE較最大的ABR 分別降低了0.7%、5.3%,降幅不大,其余指標均為4 種算法中最差。因此,SVR 在4 種集成學習算法中的預測精度最差。對比SVR 和DTR,SVR 訓練集及測試集誤差指標均優于DTR。綜上,集成學習算法較傳統回歸算法預測精度更佳。集成學習算法間的預測精度也具有一定差異,RFR 訓練集SRMSE、SMAE、SMSE、R2分別為0.146 m3/s、0.094 m3/s、0.021 m3/s、0.976;測試集分別為0.306 m3/s、0.197 m3/s、0.093 m3/s、0.931,在集成學習算法中RFR 的預測精度最高。DTR 訓練集SRMSE、SMAE、SMSE、R2分別為0.476 m3/s、0.324 m3/s、0.227 m3/s、0.724;測試集分別為0.511 m3/s、0.381 m3/s、0.261 m3/s、0.808,相比DTR,RFR 的預測精度更高。
對比4 種集成學習算法,XGR 在訓練集及測試集誤差指標上均優于ABR,RFR 的訓練集SMAE與XGR 相差不大,其余指標均優于XGR,集成學習算法的預測精度排序為:RFR>XGR>ABR>SVR,3 類集成學習算法的預測精度由高到低依次為裝袋算法、提升算法、堆疊算法。綜上,隨機森林回歸(RFR)在8 種算法中的預測精度最優(訓練集SRMSE=0.146 m3/s、SMAE=0.094 m3/s、SMSE=0.021 m3/s、R2=0.976,測試集SRMSE=0.306 m3/s、SMAE=0.197 m3/s、SMSE=0.093 m3/s、R2=0.931)。
2.2.1 特征變量重要性分析
機器學習算法中,特征重要性是指特征變量對目標變量的影響程度,特征的選擇對機器學習算法預測精度有較大影響,數量過多和不足分別會產生過擬合、欠擬合的問題,模擬精度均無法達到最佳。為檢驗采用10 組變量進行隨機森林回歸算法預測是否出現過擬合現象,本研究對10 組變量進行重要性分析(表4),得到不同變量對于預測結果的影響權重,通過比較不同變量組合下隨機森林回歸算法預測誤差指標,挑選最佳變量組合進一步優化算法。

表4 SHAP 法特征重要性分析結果Table 4 Results of features importance analysis of SHAP method
由表4 得SHAP 法確定的變量組合特征重要性排序為:x9>x5>x8>x4>x3>x2>x6>x1>x10>x7,x9對預測結果的影響最大,占SHAP 值總和的34.6%。過去時段降雨量(x1~x5)SHAP 值總和為0.473,未來時段降雨量(x6~x8)SHAP 值總和為0.287,可見過去時段降雨對泄水調度決策的影響程度比未來降雨更大。
2.2.2 特征變量篩選
根據表4 建立10 種組合分析訓練集和測試集誤差指標及變化趨勢(表5)。由表5 可以看出,不同變量組合下,RFR 訓練集SMSE、SMAE、SRMSE及R2均優于測試集,依次去除特征重要性最小的因素,誤差指標SRMSE、SMAE、SMSE呈現出先減小后增大的趨勢,R2呈現出先增大后減小的趨勢。可見,當把x1~x10作為輸入變量時出現了過擬合現象,變量組合x4+x8+x5+x9訓練集及測試集指標均為10 種組合最優,由SHAP 法確定以x4+x5+x8+x9作為輸入變量時,隨機森林回歸(RFR)算法的預測效果最佳(訓練集SRMSE=0.126 m3/s、SMAE=0.080 m3/s、SMSE=0.016 m3/s、R2=0.982;測試集SRMSE=0.263 m3/s、SMAE=0.164 m3/s、SMSE=0.069 m3/s、R2=0.950)。其訓練集及測試集R2較采用所有特征變量預測分別提高了0.6%、2.0%;SRMSE、SMAE、SMSE分別降低了13.7%、14.9%、23.8%、14.1%、16.3%、25.8%;可見變量選擇對預測精度的影響較為顯著。

表5 基于SHAP 法和RFR 的10 種組合訓練集及測試集評價指標Table 5 Evaluation metrics for 10 combined training sets and test sets based on SHAP method and RFR
本研究選擇的10 個特征變量可歸類為水位和降雨2種類型。LONG 等[28]指出,水位波動對三峽大壩的日調節流量影響較大;JANE 等[29]也提出,水位流量關系是分析洪水成因,進行風險評估的重要內容;紀亞星等[30]認為不同降雨重現期對理想區域的洪峰流量削減率不同;崔春光等[31]將中尺度數值模式的預報降雨信息輸入新安江模型,結果表明預見期內的降水量直接影響洪水流量預報的精度,以上研究均表明水位和降雨是影響流量的重要因素。由表4 可得,在特征變量重要性排列中第一位為x9,其原因為閘上水位是影響灌口集泄水閘調度流量的直接因素,閘前水位高,其泄水流量必然趨向增大。降雨是誘發洪水的驅動因素和激發條件[32],本研究中不同時段降雨量對泄水調度流量的影響不同,這與魯洋等[33-34]研究一致。表4 中過去時段降雨對泄水調度決策的影響程度較未來降雨更大的原因是落地雨除去損失后的凈雨為產流過程,未來降雨形成的徑流過程需凈雨通過坡面和溝道產生,降雨先后經歷該2 個過程的變化,使徑流的相關性弱于產流[35]。
從表3 看出,集成學習算法誤差指標明顯優于傳統機器學習算法,這是因為傳統機器學習算法中各類基學習器在不同數據源上的學習效果不同,單一基學習器對于樣本的學習誤差可能較大。集成學習能夠訓練多個基學習器模型,得到一個較好的集成模型,從而提高整個模型的泛化能力[36],由于基學習器的種類、訓練模式以及輸出方法不同,集成學習算法的預測結果也不盡相同。由表3 得到3 類集成學習算法中裝袋算法預測精度最高的原因是:特征變量和目標變量分布趨勢較為相似,裝袋算法對于訓練模型差距不大的樣本,能夠通過投票或平均化最大程度還原目標值。趙敬濤等[23]采用3 類集成學習算法對企業自律性進行評估,得到預測精度由高到低依次為:提升算法、裝袋算法、堆疊算法,與本研究有所不同,這是因為:企業自律性評價數據集同時存在離散類和連續類特征,裝袋算法的各個基學習器的輸出只作一個簡單的投票或平均,其學習效果有相當大的局限性[37]。而提升算法中梯度提升決策樹(gradient boosting decision tree,GBDT)的每個分類器都會在上一輪訓練基礎上不斷降低偏差,對于多特征數據集學習效果更佳。同時,趙敬濤等得到XGR 預測精度優于ABR,與本研究結果一致,這是因為:ABR 通過擬合殘差逐漸減少殘差,而XGR 基于GBDT 的每次計算都能減少殘差,XGR 較ABR 可更大程度上減少誤差。
本研究對比8 種機器學習算法預測評價指標,隨機森林算法預測精度高于其他算法的原因可能是:1)現有的隨機森林算法不需要考慮一般回歸問題所面臨的多元共線性問題,在部分數據缺失或數據量相對較小的情況下仍能保持一定的精度[38];2)隨機森林算法具有一定的抗噪聲能力;3)時間、降雨、水位及流量間的數據維度相差較大,隨機森林算法無需做特征選擇,對數據集的適應能力強。HASAN 等[39]以沿海地區為例,研究得到隨機森林算法能夠準確預估洪水敏感性,為防洪策略制定提供了可靠思路;高瑋志等[40]基于KNN 和隨機森林算法構建流域、區域、城鎮多層次調度方案綜合評價模型,為防洪調度方案的優選提供科學參考。以上研究結果均證實了隨機森林算法在防洪調度決策上的可行性。
機器學習算法模擬精度受數據集特征選擇的影響[41]。STEPHEN 等[42]認為合理的特征選擇可以消除數據中的噪聲,提高模型性能。本研究采用SHAP 法對所選10 組特征變量進行重要性排序,并分為10 種組合進行預測對比,結果表明,采用x4+x5+x8+x9作為輸入變量時,隨機森林回歸算法預測精度最佳。同時,選用x4+x5+x8+x9相比于選用全部變量也降低了數據收集成本和難度。綜合2010—2020 年歷史數據,過去6 h 降雨量、過去9 h降雨量、未來6 h 降雨量、灌口集泄水閘閘上水位是影響灌口集泄水閘調度流量的主要因素。
本研究基于機器學習構建的泄水調度決策模型,屬于數據驅動型的黑箱模型,與相關的產匯流—洪水演進—泄水調度耦合性機理模型在本質上有較大區別,兩者各有其優缺點,機理模型雖然能夠得到諸如入渠洪水流量過程、渠道及洪水位演進等中間要素的動態變化,但其需要的水文水動力方程耦合計算過程較為復雜;機器學習雖無法得到相關水文演進過程,但其主要優點在于能夠利用降雨和水位等相對易獲取的監測和預報數據,快速地獲取泄水閘的調度決策方案,避免了耦合機理模型所需要的多源數據搜集和預前處理。
本研究基于安徽淠史杭灌區灌口集泄水閘調度流量及閘上水位和降雨數據,采用4 種傳統機器學習回歸算法(線性回歸(linear regression,LR)、K 近鄰回歸(knearest neighbors regressor,KNR)、嶺回歸(ridge regression,RDR)、決策樹回歸(decision tree regression,DTR))和4 種集成學習類算法(支持向量回歸(support vector regression,SVR)、自適應提升回歸(adaptive boosting regression,ABR)、極度梯度提升回歸(extreme gradient boosting regression,XGR)、隨機森林回歸(random forest regression,RFR))進行預測對比,并通過SHAP 法進行特征重要性分析,得到結論如下:
1)集成學習算法預測評價指標優于傳統回歸算法,8 種機器學習算法中RFR 的預測精度最高(訓練集均方根誤差、平均絕對誤差、均方誤差及決定系數分別為0.146 m3/s、0.094 m3/s、0.021 m3/s、0.976,測試集分別為0.306 m3/s、0.197 m3/s、0.093 m3/s、0.931)。
2)采用Shapley Additive exPlanations(SHAP)法確定的特征變量重要性排序表明灌口集泄水閘閘上水位對于泄水閘調度流量的預測結果影響最大,占特征重要性值總和的34.6%。
3)以過去6 h 降雨量、過去9 h 降雨量、未來6 h降雨量、灌口集泄水閘閘上水位為輸入變量的隨機森林回歸算法預測灌口集泄水閘調度流量效果最佳,模型誤差指標為(訓練集均方根誤差、平均絕對誤差、均方誤差及決定系數分別為0.126 m3/s、0.080 m3/s、0.016 m3/s、0.982;測試集分別為0.263 m3/s、0.164 m3/s、0.069 m3/s、0.950)。
本研究的不足之處在于采用SHAP 法和隨機森林算法構建的調度流量預測模型是針對灌區渠道特定閘門的決策模型,在考慮因素時候只選取了不同時期的降雨和水位。因此,若要將其推廣至更大的下墊面區域,后續研究應將更多的變動影響因素(如流域下墊面面積、河道斷面糙率、渠道斷面坡度等)納入考慮。