于紅波
(遼寧省營口水文局,遼寧 營口 115000)
汛期高洪水期間,測流斷面受到洪水沖刷影響,斷面形態發生較大程度的變化,影響高洪水期間測流斷面的流量精度。當前,許多隨機統計學方法被廣泛用于流域洪水預報研究中[1-5],但是在測流斷面形態預測中的研究還較少。近些年來,有學者將隨機森林算法用于黃河吳堡站的測流斷面形態預測中,研究結果表明吳堡站流量在3000m3/s以下時該方式是對傳統流量測驗方式的一種有力補充[6]。北方地區河流斷面在汛期沖刷也較為嚴重,流量測驗精度影響也較大,為此本文引入改進的隨機森林算法,該算法相比于傳統算法,節點平衡分類得到有效增強,算法更為優化[7,10],以北方某典型水文測流斷面為實例,對該測流斷面的形態進行預測,基于預測的斷面形態,對流量測驗結果進行調整,從而提高測流斷面流量的測驗誤差。
改進的隨機森林算法以Gini指數來劃分每棵樹的劃分屬性,其Gini指數劃分方程為:
(1)
式中,Gini指數—各因子屬性的信息熵;t—劃分后的節點數;p—樣本數占節點數目的比例;k—類別數。
改進的隨機森林算法采用信息增益的方法對各因子的指數進行計算,計算方程為:
(2)
式中,Gain—指數增益計算值;Gin(parent)—給定節點的Gini指數;n—總節點指數;nt—分類節點總數。
在此基礎上,對比每一個節點的求和項,計算方程為:

(3)
式中,Δ—節點指數求和項。
將式(1)代入到式(3)進行計算得到:

(4)
式(4)中變量含義同上。改進的隨機森林算法采用數量比來代表每個節點的樣本量,計算方程為:
(5)
式中,Ctk—左側節點單元分類個數;Ck—右側節點單元分類個數;λ—調節參數;qr(k|t)—數量比值。
在數量比值計算的基礎上,對其所以節點進行平衡計算,計算方程為:
(6)
式中,qrp(k|t)—t節點及類別k所在樣本的節點內比值;qr(k=0|t)、qr(k=1|t)—節點的值。
本文以遼寧中部某水文站為研究工程實例,該水文站水位測驗年份為1935—1945年,1947年—至今;流量測驗年份為1935—1945年,1947年—至今。測驗河段順直長度約1000m,主流靠右岸,高、中、低水都一股流,高水位在40.00m時,河寬360m,兩岸為大堤控制,左岸跑灘可達150m,河床為細砂。該站水位流量關系為連時序繩套曲線。漲沖落淤,斷面沖淤變化平穩,主要受流速因素影響。在受水庫單獨來水影響時,水位、流量呈梯形變化。
本文以該水文站1953—2013年流量大于1500m3/s的1654次實測大斷面作為分析的數據集,使用較為集中的1435條實測大斷面數據作為模型的訓練樣本,構建改進的隨機森林模型,其他實測大斷面數據作為模型測試應用的數據集,主要用于模型的檢驗和精度評價。訓練和測試樣本主要采用隨機分配的方式進行劃定。
采用逐步篩選方法對模型的預測因子進行選取,考慮斷面形態主要受到河道水位、斷面流速以及河流寬度3個因子的影響,因此選取這3個參數作為模型的預測因子,建立斷面面積與這3個因子的回歸模型,對測流斷面形態進行預測。本文以初始斷面平均流速作為預測初始因子,以測流橫斷面的垂向水深作為其主要的斷面形態預測對象,各編號的參數選取回歸方程結果見表1。

表1 1#測流斷面參數篩選結果

表2 2#測流斷面參數篩選結果
從表1和表2中可看出,對同一組測深垂線下,各參數組合的回歸系數和均方差變化不相同,從回歸系數和均方差分析結果可以看出,2個斷面下左、右岸起點距、垂線平均流速、水位、最大流速的參數組合回歸系數以及均方差均最大,敏感程度最高,因此可選擇此參數組合進行斷面形態的預測。
在模型進行測流斷面預測前,需要對模型的收斂度進行分析,分析的主要成果見表3—4。

表3 1#測流斷面模型不確定性分析

表4 2#測流斷面模型不確定性分析
從表3—4可看出,2個斷面模型在95%置信區間的最終值均在0.4以上,而最大95%置信區間的不確定度在0.5135~0.6243之間,均方誤差最低值為0.5148,可見2個斷面下,改進的隨機森林算法下模型的不確定度可以滿足95%的置信區間范圍。模型的收斂度較高。可以用來進行區域測流斷面形態的預測。
結合改進的隨機森林算法對2個斷面的形態進行預測,并與實測斷面進行對比分析,對比分析結果如圖所示1。

圖1 斷面模擬成果圖
從圖1中可看出,采用改進的隨機森林算法模擬的測流斷面形態和實測斷面形態的吻合度較高,在高水部分,1#斷面的模擬吻合度要高于2#斷面,低水期間,2個斷面形態預測的吻合度均較高,可見,改進的隨機森林算法在斷面形態模擬具有較好的適用性。
為定量分析不同方法下斷面形態預測精度和對整編流量精度的影響,結合水文站實測17場洪水數據,分析改進方法和傳統方法下的斷面形態預測精度及整編流量影響比例,分析結果見表5—6。
從表5中可看出,改進的隨機森林算法相比于傳統算法,其斷面面積模擬值相對誤差和絕對誤差都有所降低,其中相對誤差減少的比例為3.4%~13.5%。斷面形態的誤差的有效降低,也使得各整編流量誤差有所減少,從表6中可看出,改進隨機森林算法下,各洪水整編流量的相對誤差降低幅度約為10%。這只要是因為綜合考慮每場洪水測流斷面形態的誤差后,可以有效提高場次洪水的整編流量精度。

表5 斷面形態預測精度分析結果

表6 斷面形態預測下整編流量精度分析結果
(1)采用改進的隨機森林算法對測流斷面形態進行預測,從而調整測流流量,該種方式是對傳統水文測驗方式的一種有效補充,在實際測流中可以借鑒使用。
(2)高水期間,改進的隨機森林算法斷面誤差精度較低,在以后的實際使用中還需要對模型進行近一步的優化改進。