何曉申,田茂再
(1.蘭州財經大學統計學院,蘭州730020;2.中國人民大學a.應用統計科學研究中心;b.統計學院,北京100872)
二項—Gumbel復合極值分布的參數估計
何曉申1,田茂再2a,2b
(1.蘭州財經大學統計學院,蘭州730020;2.中國人民大學a.應用統計科學研究中心;b.統計學院,北京100872)
在金融風險評估、事故預測、保險索賠等領域的研究中,極值理論已發展成為一種重要的統計學方法。Gumbel分布是一種常用的極值分布函數,并逐漸成為了對于隨機變量極端變異性建模的重要工具。文章將二項分布與Gumbel分布函數復合,提出了一種新的復合極值分布函數即二項-Gumbel分布。重點介紹了極值理論以及二項分布與Gumbel分布復合函數,運用極大似然估計(MLE)對二項-Gumbel復合分布的各種參數進行估計,并通過計算機模擬得KS檢驗統計量的臨界值。
二項-Gumbel分布;極大似然法;Monte Carlo模擬;KS檢驗
極值事件指一種在特定時間和地區內發生的罕見事件。該事件發生的概率較小,然而,一旦發生將會對人類生產、生活造成了很大的影響。為了盡可能減小極值事件給人類生產生活帶來的損失,人們提出了極值理論。極值理論是處理概率分布中值相離極大情況的理論,常被用來分析概率罕見的事件,它最早是由提出Gumbel分布函數的統計學家Emil Julius Gumbel闡述。極值理論旨在通過對極端事件的統計分析,從而對極端事件進行風險大小評估[1]。隨著近年來極值理論的不斷發展,為進一步研究極值問題,人們提出了復合極值分布的概念。
1922 年,統計學家von Bortkiewicz L第一次提出了有關極值的問題[2],同時,文中給出了正態分布總體樣本的最大值分布函數;Frechet M[3]在1927年提出了來自不同分布的最大值可以有相同漸進分布的理論,但前提是有某種共同性質的最大值;統計學家Gumbel[4]在1958年發表的著作奠定了現代極值理論的基礎,Gumbel分布是觀測值中最大值的概率分布,是極值分布中的第Ⅰ類分布。Gumbel分布逐步發展成為一種有關隨機變量極端變異性的重要建模工具。1968年,Feller[5]第一次提出了復合極值分布的概念問題。史道濟[6]在2006年介紹了實用極值統計方法。2012年,張香云和程維虎[7]對二項-廣義Pareto復合極值分布進行了統計推斷。彭維[8]在2015年對幾何-Gumbel復合極值分布進行了參數估計。
本文運用極值理論構建二項分布和Gumbel分布的復合極值分布類型,對文中所建立的模型運用極大似然法進行復合極值的參數估計,并利用計算機進行Monte Carlo模擬和計算KS檢驗統計量的臨界值。
設S(x)和T(x)分別是隨機變量ξ、η的分布函數。本文記ξi為ξ的第i次獨立觀測值。又設隨機變量N的取值范圍為非負整數,且與ξ、η相互獨立。


(1)當p0=0,明顯有;


于N、ξ隨機變量的不同分布,復合分布又具有幾種不同的具體形式。隨機變量N服從Poisson、幾何和二項分布等,ξ可以服從Weibull分布和Gumbel分布等。本文將N和ξ不同分布形式兩兩結合,可以得到六種不同的復合分布形式。本文重點討論的是二項分布和Gumbel分布的復合分布情況。N服從參數為(m,p)的二項分布,其中,m是正整數,p是常數且0<p<1,ξ服從極值I型分布即Gumbel分布,記通常記為其中,μ和σ是位置和尺度參數。為了問題的分析方便,本文假設Q(x)服從Gumbel分布。由此可得二項-Gumbel復合極值分布函數:

在復合極值參數估計中傳統的做法往往是使用矩估計法,因為矩估計方法較為簡單。但是,矩估計往往只涉及到總體的一些數字特征,并未用到總體的分布。因此,矩估計量實際上只能集中總體信息的一部分并不是全部信息,往往在體現總體分布特征上表現不佳。本文僅使用極大似然法(MLE)進行參數的估計。
設Xi(i=1,…,n)是服從二項-Gumbel復合極值分布的獨立同分布樣本。二項-Gumbel復合分布函數如下:

又

求得二項--Gumbel分布的密度函數為:

對數似然函數

統計學家Kolmogorov-Smirnov[10]在1933年提出的檢驗方法如下:


隨機變量X服從二項-Gumbel復合極值分布:

取樣本容量N=100,m=2,p=0.1,0.5,0.8,μ=1,σ=0.5為位置、刻度參數。給定樣本容量N=50,100,500,進行Monte Carlo模擬。本文是根據極大似然法估計參數的偏差、標準差以及均方誤差的大小來評價估計效果。其中,估計參數的均方誤差越小,說明估計效果越佳。
標準差

偏差:

均方誤差:

根據條件產生隨機數,按照二項-Gumbel復合極值分布參數極大似然估計進行參數估計,模擬運行3000次,即J=3000。表1至表3分別為p=0.1,0.5,0.8時的模擬結果。

表1 二項-Gumbel復合分布(μ=1,σ=0.5,p=0.1)

表2 二項-Gumbel復合分布(μ=1,σ=0.5,p=0.5)
樣本容量N=50增加到N=1000的過程中,極大似然估計結果參數的均方誤差、偏差和標準差都隨之減小。其中,當位置參數μ與刻度參數σ固定,p=0.5時,極大似然法對于樣本容量的變化估計結果表現最為穩定。

表3 二項-Gumbel復合分布(μ=1,σ=0.5,p=0.8)
KS檢驗過程中,需要比較KS檢驗統計量Dn與D0的大小,其中,D0是顯著性水平α下的臨界值。本文通過Monte Carlo模擬方法,得出二項-Gumbel復合極值分布的臨界值表。以樣本容量N=10,50,100,200,m=2,p=0.2,位置、刻度參數分別為μ=1和σ=0.1,進行1000次模擬。模擬結果見表4。

表4 二項-Gumbel分布的KS檢驗臨界值表
本文取樣本容量N=100,m=2,p=0.2,位置、刻度參數為μ=1,σ=0.1,可以得到參數估計分別是μ?=1.02315,σ?=0.12271,統計量Dn=0.87408均小于表4中N=100時在顯著性水平α=0.01,0.05,0.1,0.25下的臨界值D0,即該樣本服從二項-Gumbel復合分布。
本文介紹了極值理論以及二項分布與Gumbel分布復合函數,運用極大似然估計(MLE)對二項-Gumbel復合分布的各種參數進行估計,并通過計算機模擬得KS檢驗統計量的臨界值。模擬結果顯示:樣本容量N=50增加到N=1000的過程中,極大似然估計結果參數的均方誤差、偏差和標準差都隨之減小。其中,當位置參數μ與刻度參數σ固定,p=0.5時,極大似然法對于樣本容量的變化估計結果表現最為穩定。
[1]陳立文,王元明,劉金霞.極值分布在建設項目自然風險預測中的應用[J].自然災害學報,2009,18(1).
[2]Von Bortkiewicz L.Variationsbreite and Mittlerer Fehler[J].Sitzungsber.Berli.Math.Ges,1922,(21).
[3]Frehet M.Sur La Loi de Probabilite de 1'Ecart Maximum.Ann.Soc. Polon.Math.Cracovie,1927,(6).
[4]Gumbel E J.Statistics of Extremes[M].New York:Columbia University Press,1958.
[5]Feller W.An Introduction to Probability Theory and Its Applications [M].New York:John Willey,1968.
[6]史道濟.實用極值統計方法[M].天津:天津科學技術出版社,2006.
[7]張香云,程維虎.二項-廣義Pareto復合極值分布模型的統計推斷[J].應用數學學報,2012,35(3).
[8]彭維,呂曉星,劉祿勤.二項-Gumbel復合極值分布的參數估計[J].統計與決策,2015,(9).
[9]Liu T F,Ma F S,Prediction of Extreme Wave Heights and Wind Velocities[J].Journal of the Waterway Port Coastal and Ocean Division. ASCE,1980.
[10]楊振海,程維虎,高軍艦.擬合優度檢驗[M].北京:科學出版社, 2011.
(責任編輯/亦民)
Parameter Estimation of Binomial-Gumbel Compound Extreme Value Distribution
He Xiaoshen1,Tian Maozai2a,2b
(1.School of Statistics,Lanzhou University of Finance and Economics,Lanzhou 730020,China;a.Research Center for Applied Statistics;b.School of Statistics;2.Renmin University of China,Beijing 100872,China)
Extreme value theory has evolved into an important statistical method in the research fields such as the financial risk assessment,the prediction of the accident in communication and the estimation of insurance claims and so on.Gumbel distribution is a commonly-used extreme value distribution function,and it has gradually become an important tool for modeling extreme variability of random variables.This paper proposes a new compound extreme value distribution,which is based on the binomial distribution and the Gumbel distribution,namely the Binomial-Gumbel distribution.The paper emphatically introduces the extreme value theory,the binomial distribution and Gumbel distribution compound function,and uses the maximum likelihood estimation(MLE)to estimate the parameters.Finally the critical value of Kolmogorov-Smirnov(KS)test statistic is obtained through computer simulation.
binomial-Gumbel distribution;maximum likelihood method;Monte Carlo simulation;KS test
O21
A
1002-6487(2017)11-0017-03
何曉申(1990—),男,山東菏澤人,碩士研究生,研究方向:數理統計。田茂再(1969—),男,北京人,博士,教授,研究方向:非參數估計。