陳望琴 姚 文
(1、長江下游水文水資源勘測局,江蘇 南京210011 2、南京理工大學計算機科學與工程學院,江蘇 南京210000)
數據挖掘技術的分析方法主要包括分類,估計,預測,關聯,聚類等。本文主要基于大通水文站的實際數據,使用數據挖掘技術的分類、估計和預測方法,對大通水文站的降水變化進行分類,估計,并對其變化規律進行總結,預測。
本文共使用61 年的實測降水數據作為分析樣本集。通過數據預處理,取年最小雨量值789.5mm,年最大雨量值2074.9mm,步長100mm,將年降水量看成一個特征。繪制出矩形分布直方圖和累積頻率圖。結果如圖1 所示:


2.1.1 降水量的年代變化
根據大通站20 世紀的50、60、70、80、90 和21 世紀00 年代的平均降水量,以1950~2010 年多年平均降水量為參考,得出大通站不同年代年降水量的豐、枯變化情況,具體如表2 所示。
2.1.2 降水量的特征值統計
根據大通站1950-2010 年實測降水資料,使用數據挖掘分析方法,易知該區域最大年降水2074.9mm(1999 年),是平均降水量的1.48 倍;年最小降水量是789.5mm(1978 年),為平均降水量的0.56 倍, 最大年降水量比最小年降水量多1285.4mm,極值比為2.63。
2.1.3 變差系數
通過數據過濾,找到多年平均降水量和多年汛期與非汛期、季節、月份的值,具體如表2 所示。非汛期(11-12 月、1-4 月)的Cv=0.18 與多年總平均降水量的Cv=0.21 相接近,在季節上夏季與秋季的相差最小,整體與非汛期(11-12 月、1-4 月)相差最大。挖掘出有價值的信息如下:月份上的降水量值變動情況>季節的降水量變化情況>汛期的變化情況。
2.1.4 降水量的豐、平、枯頻次
對年降水量總體樣本按某一范圍降水量在61 年中出現的頻率劃分,將年降水量的豐、枯程度劃分為5 種年型。(1)平水年、偏枯水年出現的頻次最多占比26.2%;(2)偏豐水年占比24.6%;(3)豐水年占比11.5%;(4)枯水年占比11.5%;(5)豐水年、枯水年出現的頻次相同(表3)。
2.1.5 連豐、連枯期分析
(1)連豐2 年出現3 次是(1951-1952 年、1969-1970 年、2009-2010 年);
(2)連豐3 年出現1 次(1989-1991 年);
(3)連枯2 年出現3 次是(1958-1959 年、1997-1998 年、2000-2001 年);
(4)連枯3 年出現2 次是(1966-1968 年、2006-2008 年)。
再從以上數據中挖掘出有效信息即:連豐年出現的次數比連枯年出現的次數少。
使用挖掘算法,可以發現大通站檢測區域一年中降水主要集中在汛期(5-10 月),多年汛期平均降水量為872.3mm,占全年降水量的62.0%;多年非汛期平均降水量為534.3mm,僅占全年降水量的38.0%(見圖2)。

表1 大通站各年代平均降水量對比表

表2 大通站多年各時期的變差系數值

表3 大通站降水豐、平、枯頻次分析統計表

四季降水量的年內分配如圖3 所示。

各月多年平均降水量及所占全年多年平均降水量的比例如圖4 所示。
對數據的分析結果如下: 大通站年內各月分配呈偏胖單峰型,主峰居中。6 月份降水量最多,其次是7 月、5 月、4 月、8 月、3月、9 月,最少的是12 月。汛期中的5-7 月與其它各月之間相差較大,這可能是長江流域干流在5-7 月容易發生洪水或特大洪水的主要成因之一。
差積曲線法是分析一個地區的降水量豐、平、枯變化周期的方法。即根據每年的降雨量跟多年平均降雨量分別求每年的模比系數,再求其差值并逐漸依次累加繪成差積曲線[2]。
使用數據挖掘方法分析后,得出結論如下:豐水段共18 年,占總年數的29.5%,平水段14 年,占總年數的23.0%,枯水段共29 年,占總年數的47.5%,這與實際出現的平水段16 年(26.2%)比較接近,與枯水段23 年(37.7%),與豐水段22 年(36.1%)相差較大。這是因為在1992-1999 年之間豐枯水段出現趨勢不明顯造成的差距。同時從圖5 中還可以看出,該地區一個完整的降水量豐、平、枯變化周期約在1965-1991 年(27 年),豐、枯變化周期約在1950-1968 年(19 年)和1979-1998 年(20 年)。
本文使用Kendall 秩相關系數檢驗來判斷時間序列趨勢。對該方法簡單說明如下:對時間序列X1,X2,···Xn(n 為樣本數),所有對偶觀測值(xi,xj,j>i)中xi<xj出現的個數為P。給定顯著水平α,其檢驗臨界值為序列趨勢不顯著;統計量稱為Kendall 秩次相關系數,當增加時,統計量收斂于標準化正態分布,給定顯著水平,其檢驗臨界值為U1-α/2。當|U|<U1-α/2,序列趨勢不顯著;當|U|>U1-α/2,序列趨勢顯著;且U>0,序列呈上升趨勢,U<0,序列呈下降趨勢[3]。


圖5 大通站年降水量模比系數差積曲線
取顯著水平α=0.05,查表得U1-α/2=1.96。利用檢驗統計量公式,計算不同時段的年降水量的秩次相關系數,沒有月份年降水量通過了Kendall 秩次相關檢驗,說明年降水量上升下降趨勢不顯著;夏季、冬季、1 月、2 月、3 月、8 月、11 月秩次相關系數為正,說明這幾個時段年降水量變化呈上升趨勢且趨勢不顯著;其余時段的年降水量Kendall 秩次相關系數均為負,說明這些時段的年降水量呈下降趨勢,且下降趨勢不顯著。
根據以上數據分析的結論,認為在大通站檢測區域多年年降水量與汛期(5-10 月)降水量變化趨勢呈緩慢下降趨勢。
本文借助數據挖掘技術及其數據分析方法,分析了大通水文站檢測區域61 年的降水情況相關數據,總結如下:
5.1 驗證了大通站觀測區域的降水量雨型為P-Ⅲ型分布,符合一般水文變量服從負偏的P-Ⅲ型分布的規律。
5.2 大通站年降水量年際變化較大,多年降水量的變化<多年汛期降水量的變化<多年季節降水量的變化<多年月降水量的變化。
5.3 大通站多年年內的降水量變化也較大。汛期與非汛期降水量各占全年降水量的62.0%和38.0%,各時期降水量分配極不均勻,汛期容易發生局部暴雨,給當地造成特大洪水,給上、下游造成洪澇災害。
5.4 大通站降水豐、枯期變化頻繁。多年降水量豐水年與枯水年出現的頻次接近, 但連豐年出現的次數比連枯年出現的次數少,降水量一個完整的豐平枯變化周期約27 年,豐枯變化周期約19 年,這些結論可為長江中下游經濟建設涉水項目提供參考。
5.5 通過(Kendall)秩次相關檢驗(顯著水平α=0.05),說明年降水量上升下降趨勢不顯著。這此降水規律為長江大保護、長江中下游防洪抗旱、水資源規劃等提供了科學依據。