劉可新,胡宇豐,李 匡,劉 鵬,梁犁麗
(1.中國水利水電科學研究院 北京中水科水電科技開發有限公司,北京 100038;2.河南黃河水文勘測設計院,河南 鄭州 450000)
P-Ⅲ型分布廣泛應用于我國水文頻率計算中[1],在推求設計暴雨、設計洪水等方面發揮著重要作用。水文過程受氣候、地形和下墊面條件等因素影響,存在諸多不確定性規律[2],如頻率計算時往往存在線型選擇、參數估計的不確定性等。近些年來,國內外學者圍繞水文不確定性進行了大量研究工作[3-6],并取得了較好的效果,其中基于貝葉斯理論的研究最具代表性,早在1975年,Wood等[7]就應用貝葉斯理論對統計參數不確定性做了分析,近年來,圍繞貝葉斯理論在水文方面的應用,我國學者也取得了大量研究成果,劉攀等[8]將貝葉斯理論應用于水文頻率的線型選擇,結果表明線型的后驗概率越大則擬合越好;梁忠民等[9]應用貝葉斯理論進行參數估計,并介紹了貝葉斯理論在水文不確定性方面的研究進展[10]。諸多學者研究表明,貝葉斯理論應用于水文不確定性分析具有較好的效果[11-14],貝葉斯理論體系較完備,應用于頻率計算參數不確定性分析效果較好,貝葉斯理論與經典統計學理論有所不同,其特點是認為不確定性既來自于參數的隨機性,也來自于樣本的隨機性,應用貝葉斯理論分析參數不確定性需對其先驗分布做出假設,這將產生較大的主觀性。為盡量避免主觀性,本文將應用經典統計學理論分析P-Ⅲ型分布參數的不確定性,經典統計學理論認為分布參數應看作常數處理,是確定性的,通常所說的參數不確定性可理解為參數估計量的不確定性,這種不確定性往往是由于以有限的、離散的且存在不確定性的樣本去近似總體分布特征(如均值)而產生的,具體又可表述為兩方面,一是樣本總是有限的、離散的,而總體是無限的、連續的,以有限描述無限、離散描述連續必然存在一些不確定性;二是樣本本身存在不確定性,如洪水過程受復雜條件影響而產生不確定性。
鑒于貝葉斯理論分析參數不確定性存在主觀因素,本文從經典統計學理論出發,提出基于抽樣分布理論的P-Ⅲ型分布均值的不確定性分析方法,在總體分布的離勢系數和偏態系數已知情況下,應用經典統計學理論分析均值的不確定性。首先推導樣本均值的分布函數,而后構造輔助隨機變量并推導其分布函數,最后應用輔助隨機變量分析總體均值的不確定性。
我國水文系列頻率分析普遍采用P-Ⅲ型分布,為更好分析其參數不確定性,提出了基于抽樣分布理論的P-Ⅲ型分布均值的不確定性分析方法,該方法是指當隨機變量服從P-Ⅲ型分布時,采用抽樣分布理論分析其總體均值的不確定性,重點是研究總體均值的置信區間,分析該置信區間與樣本均值、離勢系數和偏態系數的關系,主要包括以下推導過程和實現步驟。首先闡述抽樣分布的概念,推導P-Ⅲ型分布樣本均值的分布函數,然后構造輔助隨機變量,該隨機變量自身含有總體均值,但分布函數與總體均值無關,最后應用輔助隨機變量,結合上、下概率分位點得到總體均值的置信區間。
2.1 P-Ⅲ型分布樣本均值分布P-Ⅲ型分布的樣本均值是指服從P-Ⅲ型分布的隨機變量樣本均值,簡稱為P-Ⅲ型分布的樣本均值。樣本均值的分布屬于抽樣分布的范疇,所謂抽樣分布是指在總體分布已知的情況下,由樣本系列經連續函數構造而成的各統計量的分布,如樣本均值的分布、樣本方差的分布等[15]。我國水文系列大都服從P-Ⅲ型分布,本文將基于該分布推導樣本均值的概率密度函數。P-Ⅲ型分布的概率密度函數如下式:
式中,a0、α 、 β 分別為P-Ⅲ型分布的位置、形狀和尺度參數。
為便于推導,引入特征函數概念,設隨機變量X的概率密度函數為f (x) ,則有:

式(2)為隨機變量X的特征函數,其中t為實數,i為虛數單位。
由以上定義,對應于P-Ⅲ型分布的特征函數為:

特征函數具有以下性質:
(1)性質1。分布函數與特征函數是一一對應關系;
(2)性質2。設X,Y為兩隨機變量,且Y=cX+d(c、d為實常數),則Y的特征函數為:

(3)性質3。設X,Y為二相互獨立的隨機變量,且Z=X+Y,則:

根據以上性質推導樣本均值的特征函數。設隨機變量X 服從P-Ⅲ型分布,特征函數如式(3),X1,X2,…,Xn為總體的樣本,則它們均相互獨立,樣本均值為根據性質2 和性質3有的特征函數為:

比較式(6)與式(3)的形式,根據特征函數的性質1 可知仍然服從P-Ⅲ型分布,令α′=nα , β′=nβ ,則其概率密度函數為:



2.2 輔助隨機變量及μ 的不確定性分析令稱為輔助隨機變量,其分布函數為FY( y ),則有:

令Y的概率密度函數為fY( y ),則有:

整理得:

由式(11)可知,Y 服從P-Ⅲ型分布,且概率密度僅與X 的CV和CS有關,與μ 無關,其均值、離勢系數和偏態系數分別為:
當X 的CV和CS為已知時,可利用Y 的分布函數分析X 均值( μ )的不確定性,包括μ 的置信區間、 μ 處于某一有限區間的概率、 μ 大于或小于某特定值的概率等問題,其中獲得μ 的置信區間是水文上經常關心的問題,因此本文對μ 的置信區間做如下推導。
給定置信度1-a,則有:


具體步驟如下:
(1)獲取水文系列總體X的離勢系數CV和偏態系數CS,可移用已有參數或通過矩法、極大似然法等方法估算之;計算樣本均值;
(4)對應于置信度1-a的μ 的置信區間如式(13)所示。
μ 的不確定性分析包括但不限于獲取置信區間,置信區間是本文關注的重點,它可進一步應用于對設計值的不確定性分析,轉步驟(5)。
2.3 μ 的置信區間與參數的關系μ 的置信區間與樣本均值、總體的離勢系數和偏態系數有關,下面在理論上對其做定性分析。
式(13)可化簡為:

上猶江屬江西省贛江水系章江的一條支流,發源于湖南省汝城縣和江西省崇義縣、上猶縣至南康縣的三江口匯入章江,全長200 km。干流上修建有上猶江水庫,壩址以上控制面積為2750 km2,上猶江水庫流域屬于亞熱帶濕潤季風氣候,冬夏季風盛行,冬季盛行極地大陸性氣團,氣候干冷而少雨雪;夏季盛行來自熱帶的海洋氣流,氣候濕潤而多雨,多年平均降水量為1675.5 mm,分配極不均勻,4—9 月占全年70.3%,暴雨雖一年四季都會出現,但主要出現在春夏兩季,暴雨出現的機率占全年的80%以上,而冬季(12、1、2月)暴雨日數僅占全年的1%,多年平均流量為79.5 m3/s。
本文將該方法應用于上猶江流域,分別采用矩法和適線法以1997—2016年20年的水文資料推求洪峰系列的樣本均值、離勢系數和偏態系數,并將樣本的離勢系數和偏態系數近似代替總體的離勢系數和偏態系數,給定置信度為90%,計算洪峰系列均值的置信區間,并推求對應于上述置信區間的十年一遇、百年一遇和千年一遇的設計洪峰。方法參數及設計洪峰結果如表1和表2。

表1 洪峰系列統計參數

表2 不同頻率設計洪峰

圖1 適線法結果

表3 輔助隨機變量Y的分布參數及上下概率分位點

表4 90%置信度洪峰均值及設計洪峰置信區間
以樣本離勢系數和偏態系數作為總體離勢系數和偏態系數,計算隨機變量Y的分布參數,并計算置信度為90%的上下概率分位點如表3。按式(13)得到洪峰均值的置信區間,進而計算各頻率下的洪峰流量及置信區間如表4。
以上結果顯示新方法應用于總體均值和設計值的不確定性分析是可行的,從表4結果看,90%置信度下,矩法和適線法的區間估計結果略有不同,矩法洪峰均值的置信區間為[1180,1724],其區間寬度略小于適線法[1172,1738];洪峰設計值的區間估計也有所差異,各頻率下矩法的結果整體偏小于適線法,但仍具有較大的重合部分,千年一遇、百年一遇和十年一遇區間重合率(重合部分/總區間寬度)分別為0.876、0.882和0.907,表明兩種方法的分析結果具有一定的一致性,且一致性隨預見期的減小而增大。
雖然矩法和適線法的分析結果具有一定的一致性,但其差異也較顯著,主要是離勢系數和偏態系數的估計值不同所致,下面通過實例分析離勢系數和偏態系數與總體均值置信區間的關系。
表1中,適線法的樣本均值取計算結果1420 m3/s;離勢系數經調整后取0.54較合適;根據上猶江流域的水文特點,偏態系數一般取離勢系數的3.5倍[16]為1.89,適線結果如圖1。
取適線法的相關參數,僅對總體離勢系數做調整,總體均值的置信區間如表5,其寬度變化趨勢如圖2。

表5 不同離勢系數對應總體均值的置信區間

圖2 離勢系數與總體均值置信區間的關系

表6 不同偏態系數對應總體均值的置信區間
表5結果顯示,離勢系數對總體均值的置信區間具有較大影響,不同的離勢系數對應的區間寬度具有較大差異。圖2顯示,當其他條件一定時,總體均值的置信區間下限隨離勢系數的增大而減小,上限則恰好相反,因此,正如圖中所示置信區間寬度將隨離勢系數的增大而增大,且較小的置信區間包含于較大者之中,這與2.3節理論分析結果是一致的。
同理可進一步分析偏態系數的影響,結果如表6和圖3。
綜上,離勢系數與偏態系數對總體均值不確定性的分析結果具有一定影響,但其程度及影響效果不同,離勢系數的影響效果較為顯著,且隨著離勢系數增大置信區間寬度也增大;而偏態系數恰好相反,其影響遠不如離勢系數顯著,且影響效果也與離勢系數相反,表現為隨偏態系數的增大,置信區間寬度略有減小。

圖3 偏態系數與總體均值置信區間的關系
4.1 結論本文首先闡述了對分布參數不確定性的理解,認為通常所說的參數不確定性可表述為參數估計量的不確定性,進而提出了基于抽樣分布理論的P-Ⅲ型分布均值的不確定性分析方法,在分析過程中首先應用抽樣分布理論,推導了P-Ⅲ型分布樣本均值的分布函數,構造了輔助隨機變量并推導了其分布,最終在總體離勢系數、偏態系數已知情況下推導了均值的置信區間并應用于上猶江流域。經理論推導與實際應用,得到以下幾點結論:(1)P-Ⅲ型分布的樣本均值服從P-Ⅲ型分布,如果總體分布的均值、離均系數、偏態系數為μ 、CV、CS,則樣本均值的均值、離均系數、偏態系數為(2)如果水文系列X服從P-Ⅲ型分布(參數為μ,CV,CS),則輔助隨機變量服從參數為的P-Ⅲ型分布,可見其分布參數僅與CV和CS有關,而與μ 無關;(3)P-Ⅲ型分布已知總體的離均系數、偏態系數時,應用抽樣分布理論可分析總體均值的置信區間,并且可避免主觀因素影響;(4)實際流域應用效果表明應用新方法分析設計洪峰的不確定性是可行的,其分析結果受總體離勢系數的影響較大,而受偏態系數影響較小。
4.2 展望本文提出的新方法可分析P-Ⅲ型分布均值的不確定性,但前提是總體的離勢系數和偏態系數已知,該條件較為苛刻,今后將進一步加強理論研究,以期放寬應用條件,主要有以下幾點展望:(1)該方法無需先驗分布假設,很大程度上避免了主觀因素影響,在今后研究中應把放寬應用條件作為重點,并通過理論推導逐步擴展到對CV和CS的不確定性分析;(2)t分布和χ2分布是由正態分布衍生而來,可用以輔助正態分布均值和方差的區間估計,參考上述關系,有望推導相應于P-Ⅲ型分布的衍生分布,在不附加任何條件的情況下,用以分析P-Ⅲ型分布各參數的不確定性。