蘇 仁,旦木仁加甫
(1.新疆巴音郭楞水文勘測局,新疆 庫爾勒 841000;2.新疆水文局,新疆 烏魯木齊 830000)
每年年初,政府水行政主管部門要求提供河流汛期(4—9月)來水定性預報成果,由于新疆河流汛期來水集中度高(如黃水溝汛期來水占年水量的77%)、變幅大、隨機性強,加之水文站網密度又稀少,導致預報精度不高。本文采用K-均值聚類分析和逐步回歸周期分析技術,用黃水溝水文站歷年汛期逐月流量建立預報模型,對建模期外的次年汛期逐月流量進行定性預報,確保有效提高預報精度。
K-均值聚類分析技術常用于樣本數據的聚類分型,該技術主要特點是對大樣本資料指定聚類數并實現快速聚類,可由SPSS統計軟件實現聚類分型:按指定的聚類數和距離最近原則對樣本數據進行初始聚類分型,再進行迭代計算,直到達到聚類終止條件時的分型即為最終聚類成果。把各樣本數據聚類分型值按時間順序排列,即為用于定性預報的類型值序列。
用逐步回歸周期分析技術進行定性預報:對統計年限為n的類型值序列Y(t)(t為時間),取m為n/2的整數,k=2、3、…、m+1,采用周期均值疊加法得到m個周期(長度為不同k),把每個周期的振幅值排列為m個長度為n的序列;然后用逐步回歸法對Y(t)與m個周期序列進行回歸分析,通過最終引進和剔除雙重檢驗的各周期序列就是Y(t)不同長度k的周期。預報模型為:
Y(t)=A+∑Ai×Xi(t)+ξ(t)
(1)
式中,i—周期總數;A、Ai—常數項和回歸系數;Xi(t)—Y(t)通過統計檢驗的不同長度k的周期;ξ(t)—噪聲項。
將通過統計檢驗的各周期振幅外延值代入(1)式,便計得相應的類隸屬定性預報值。
對黃水溝水文站1955—2019年汛期逐月流量過程進行K-均值聚類分析:根據表1所建的SPSS數據文件,依次單擊菜單“分析→分類→K-均值聚類分析”,在彈出的K-均值聚類分析對話框中把逐月流量和相應年份分別選入變量和個案標記依據列表框,選擇“迭代與分類”方法,設置“聚類數”為2;在迭代對話框中,設置迭代聚類上限為20,迭代聚類終止條件(即收斂標準)為0.01;在保存、統計量對話框中分別選用“聚類成員”、“每個個案的聚類信息”,其余均選用默認選項。最后通過4次迭代達到了聚類終止條件。

表1 黃水溝水文站汛期(4—9月)逐月流量過程
SPSS輸出的統計分析結果如下。
(1)初始聚類中心
SPSS系統自動指定的2個初始類中心點見表2,其代表性不是最好,需要通過迭代過程尋找更好的類中心點來代替初始類中心點。

表2 初始聚類中心
(2)迭代歷史記錄
2個類中心每次迭代時的變化記錄見表3,第4次迭代后2個類中心點變化均接近或小于指定的收斂準則(0.01),達到聚類結果的要求,聚類分析結束。

表3 迭代歷史記錄
(3)K-均值聚類分析的類成員
黃水溝水文站汛期(4—9月)逐月流量過程聚類成果見表4,分1、2兩類,Y(t)列是類型值序列。

表4 黃水溝水文站汛期(4—9月)逐月流量過程聚類成果
(4)最終聚類中心
2個類的最終聚類中心見表5,可見,第1類各指標數值相對來講較高,第2類較低。
由于黃水溝水文站汛期(4—9月)水量占年水量比例高達77%,集中度高,所以汛期水量與年水量的豐枯性是相對一致或同步的,由表5可見,類1、2多年平均年徑流量分別是4.718×108m3和2.603×108m3,與黃水溝水文站多年平均年徑流量2.993×108m3相比,類1年徑流量顯著偏豐,類2則顯著偏枯,所以可以明確:類1汛期(4—9月)逐月流量過程呈現正常偏豐的特點,類2則呈現正常偏枯的特點。

表5 最終聚類中心
(5)類成員樣本數
表6顯示2個類的類成員樣本數情況,其中,第1類有12個汛期(4—9月)流量過程樣本,第2類有53個。

表6 每個聚類中的樣本數
用逐步回歸周期分析技術從表4類型值序列Y(t)中計得6個周期,見表7,其中X1(t)、X2(t)、X3(t)、X4(t)、X5(t)、X6(t)分別是長度為29、21、17、13、30、18年的第一、二、三、四、五、六周期序列(樣本容量n均為65),表內數值即為相應振幅。Y(t)具體預報模型為:

表7 逐步回歸周期分析及擬合計算成果表
Y′(t)=A+∑Ai×Xi(t)
(2)
式中,Y′(t)是Y(t)的擬合值,i=1、2、…、6時,模型常數項和回歸系數依序為:A=-3.2232,A1=0.5720,A2=0.5392,A3=0.4310,A4=0.5908,A5=0.3243,A6=0.3181。
F檢驗:n=65、信度α=0.001時,F=43.06>F(0.001)=4.40,通過相應信度的F檢驗,說明模型回歸系數Ai為0的假設不成立,有統計學意義。
表7中W(t)是黃水溝水文站1955—2019年類型值序列Y(t)與相應擬合值Y′(t)之間的相對誤差,其中Y′(t)由(2)式計得;若|W(t)|≤20%為合格,由表7可見,在65年擬合檢驗期內,僅1996、2007、2019年不合格,其它年份均合格,合格率高達95.4%,說明擬合的非常好,式(1)中ξ(t)已很平穩,計得的6個周期是有效的。
對Y(t)序列,取t為2020年時,對應6個周期的外延振幅依次是2、1.67、2、1.8、2和1.67,代入預報模型(2)式得Y′(2020)=1.92,與類型值1相差很大,而與類型值2十分接近,表明黃水溝水文站2020年汛期(4—9月)逐月流量過程大概率地屬于類型值序列中的第2類,即呈現正常偏枯特點的可能性較大。表8是2020年汛期逐月流量實況與類隸屬的判斷,可見,2020年各月平均流量與類1、2流量均值相比,僅4月與類1相近,其余5個月與類2相近,表明呈現正常偏枯特點的定性預報總體正確。

表8 2020年汛期(4—9月)逐月流量實況與類隸屬的判斷 單位:m3/s
(1)僅用黃水溝水文站本站歷年汛期逐月流量過程分型與建模,并對次年汛期來水類隸屬進行定性預報,既不受河流汛期來水集中度高、變幅大、隨機性強的影響,又規避了水文站網稀少現狀的制約。
(2)類型值預報模型通過了信度為0.001的F檢驗,說明有統計學意義。
(3)|W(t)|≤20%為合格時,在65年擬合檢驗期內,合格率高達95.4%,擬合很好,表明計得的6個周期是有效的。
(4)從2020年汛期逐月流量實況與類隸屬的判斷來看,僅4月定性預報不合格,其余5個月均合格,表明定性預報總體正確,本文所述聚類分型與類型值預報的技術適用于長期水文定性預報。