胡友兵 劉開磊 呂燕翔
(1.淮河水利委員會水文局(信息中心) 蚌埠 233001 2.山西省大同市水文水資源勘測分局大同 037000)
福特法則在水文徑流序列分析中的探索
胡友兵1劉開磊1呂燕翔2
(1.淮河水利委員會水文局(信息中心) 蚌埠 233001 2.山西省大同市水文水資源勘測分局大同 037000)
將統計學中本福特法則應用于水文徑流序列分析,通過淮河干流息縣、王家壩、魯臺子和蚌埠站研究表明:水文徑流序列首位數字出現的概率值與本福特法則計算值相近,流域上游本福特法則適用性要大于流域下游。研究成果可用于指導水文徑流資料分析工作,具有實用價值及參考意義。
本福特法則 水文徑流序列 “三性”分析
流域水文資料質量分析是水文資料整編中的一項基礎工作,水文資料分析是指對資料的可靠性、代表性和一致性進行檢查論證,以使水文資料精度達到水文情報預報及各類建設和規劃的使用要求,即通俗說的“三性”分析。
傳統上“三性”分析偏重于對水文序列統計參數的特征分析,如序列均值穩定性、Cv值變化、頻次分析等。一般來說,在沒有大擾動源的情景下(如降雨、水庫泄流等)流域水文過程一般較為平穩,其數值較小。當發生強降雨或上游水庫泄流較大時,將出現漲水過程,呈現“起漲—快速上升—峰值—緩慢下降—平穩”的變化趨勢。從時程上來看高值出現的跨度低于低值,即數字首位低值出現的概率大于高值。這種現象稱為本福特定律或本福特法則?;谏鲜稣J識,本文將本福特法則引入水文資料徑流序列分析中,從上游至中游依次選取淮河干流四個重要控制站作為典型斷面進行檢驗分析,為水文數據質量分析探索一條新的思路。
本福特法則是指在一組直接獲得、未經人工修改的N進位制數據中,首位數字出現的的概率可以近似用以下公式描述:

式中:i為整數且 i=1~N-1;p(i)為一組數字中首位數字為i的概率。如不加特殊說明,后文內容所提到的均為N=10(即十進制)的情況,首位數字(1~9)出現的概率如圖1所示。
本福特法則認為在一組隨機發生的數字當中,各個數字的首位存在一定規律,越小的數字出現的幾率越高。對于一組平均增長的數據,由最初的數字N增長到另一個數字N+1起首的數的時間,必然比N+1起首的數增長到N+2,需要更多時間,所以出現率更高。從時程上來看,低位數字維持的時間跨度要大于高位數字。對于一段較長的徑流序列,其穩定的低徑流值出現的頻率要明顯大于漲水高徑流值,符合本福特法則描述的變化特性。

圖1 本福特法則示意圖

圖2 試驗斷面及徑流記錄數量分布圖
選擇淮河洪澤湖以上流域作為試驗流域,從上游開始依次選擇息縣、王家壩、魯臺子、吳家渡四個水文站作為代表站,以各站流量觀測數據為分析對象,采用本福特法則分析數據分布規律。此外,為對比說明本福特法則的應用效果,以線性插值后的數據作為對照組進行試驗。所選資料的起止年限均為1997~2006年,統計各站觀測資料中不為空且大于1的記錄。各水文站位置及徑流資料的系列長度圖如圖2所示。
為能夠展示本福特法則在分析不同類型數據時的使用效果,該研究將同一站點的一類數據中首位數字出現的統計概率與本福特法則計算概率值繪制在同一張圖上(如圖3所示),并以RMSE(均方根誤差)指標評價兩類概率值之間差異大小。因為所選四個水文站點均為河道水文站,徑流序列較為平穩、延續,因此在流量插補時可以選擇采用簡單的線性插值方法。水文站流量的直接觀測記錄簡稱為實測流量,為直接從數據庫中提取的原始數據,默認不存在人為修改行為;線性插補后的流量序列簡稱為線插流量。
從圖3中可以發現,流域上游息縣、王家壩斷面實測和線插流量序列與本福特法則概率曲線擬合較好,且實測流量擬合度要大于線插流量。流域中游魯臺子和吳家渡斷面擬合程度稍差。在吳家渡斷面出現了首位數字2概率大于1的現象,這是由于吳家渡站枯季多年平均流量在200以上,即該站穩定的低徑流值首位數字2出現的概率要大于1。

圖3 試驗斷面徑流序列本福特法則概率計算分布圖
通過比較上圖中各站點原始與線插流量數據可知,線插后的數據偏離本福特法則的頻率分布曲線更為明顯,人為修改的痕跡可以很明顯得反映在首位數字的頻率分布情況中。從上游王家壩至吳家渡站,資料序列逐步變短,所需插值的數據越來越多,人為修改痕跡也變得更重,反映在首位數字的頻率分布曲線上,就是線插后數據的頻率曲線偏離本福特法則頻率曲線越來越嚴重,這印證了本福特法則對人為修改行為的敏感性。
另一方面,比較各站原始流量數據的首位數字頻率分布可知,上游至中游各站偏離本福特法則的幅度越來越大。雖然所分析數據均為原始數據,不存在人為修改的情況,但是也存在顯著的人類活動影響流量觀測值:(1)上、中游行蓄洪調度、水庫調蓄行為,大致將各站流量量級限定在可控范圍內;(2)從上游至中游各站基流量在實測流量中的占比越來越大。因此,各站實測流量首位數字所服從的頻率分布,依照從上游至中游的順序呈現著越來越嚴重的偏離現象。
總體上來看,無論實測流量還是線插流量序列,其首位數字出現的概率值均與本福特法則計算值相近。未經人工插補處理的實測流量序列,與本福特法則計算值近似程度更高。進一步來說,流域上游本福特法則適用性要大于流域下游。
本福特法則認為長時間序列中首位數字低值出現的概率要大于高值,且隨著數字的增大概率下降趨于平緩,這種現象反映了自然界中事物總是趨于一種低的能量狀態。水文徑流序列雖然變化復雜,漲落影響因子多樣,但對其長序列首位數字頻率統計發現,其變化仍然符合本福特法則。呈現流域上游較下游、實測序列較線插序列規律更為明顯的現象。
基于該研究的結果,淮河流域從上游到下游各站數據受人為因素干預影響越來越明顯,這也是與淮河中游洪水控制較多的實際情況相匹配的,進一步印證了本福特法則對流量數據質量分析中的適用性及敏感性。該研究成果對于相關的水文數據合理性分析工作,具有實用價值及參考意義■