高怡寧
(中南財經政法大學 統計與數學學院,武漢430073)
死亡率預測在社會生活、政策制定、風險管理等的各個方面有著不容小覷的重要性。對死亡率模型的研究可以一直追溯到18世紀。當時,死亡率模型局限于有關單一年齡因素對死亡率影響的研究,沒有考慮未來死亡率預測的不確定性,也不適用于時間趨勢的外推。隨著數學模型的發展,美國學者Lee(1992)提出了Lee-Carter模型,用一簡潔的模型形式將年齡因素,時間因素包括進死亡率模型中。后來,又有一些學者對Lee-Carter模型進行了改進或是提出了其他更為復雜的死亡率預測模型,但絕大多數因為其復雜性沒有得到廣泛的運用。本文立足于經典的Lee-Carter模型,在現有研究成果的基礎上,提出了考慮每個時間、年齡組內部死亡率差異的Lee-Carter模型改進。
在經典的Lee-Carter模型中,死亡年份為t,死亡年齡為x的人群組的中心死亡率mx,t服從以下函數形式:

其中,αx,βx,κt均為待估計參數:αx代表年齡對中心死亡率的影響,κt代表死亡率隨時間走勢的變化,βx代表年齡對時間因素的敏感度。εx,t是服從N(0,σ2)的獨立同分布的隨機變量。為了克服參數估計上的困難,Brouhns(2002)提出的死亡人數Dx,t服從泊松分布的假設得到了后續研究的廣泛運用。在泊松分布的假設下,模型的形式為:

其中,Ex,t為暴露人口數。
然而,泊松分布的假設下的模型限制了死亡人數的均值與方差相等,并假定每個時間、年齡組內部死亡率相等。事實上,每個死亡年、年齡組內部的死亡率因地區,教育等因素差異而不同,實際中每組的死亡人數方差很可能大于模型的假定。由此,經典的Lee-Carter模型帶來的偏大離差將導致模型假設的不準確和預測的不精確。
因此,本文將每個分年齡、分時間組內的死亡人口Dx,t分成Nx個相等大小的不同類別組Dx,t(i),并假設每個年齡,時間組內的任意兩個類別組相互獨立,得到第i個類別組的死亡人口分布形式如下:

式中,Zx(i)描述了第i個年齡組內類間死亡率水平的差異現象,假設其均值為1,代表該年齡組的死亡率平均水平。由此易知,Zx(i)>1代表該類的人口死亡率高于該組的平均水平;而1>Zx(i)>0則表示該類的人口死亡率低于該組的平均水平。進一步的,本文選擇廣泛用于描述偏大離差現象的Gamma分布來描述Zx(i)的分布,設其均值為1,方差為ιx,則可以推得在t年死亡的x歲的人口組內,第i類的死亡人口數服從如下分布:

上述兩個死亡率模型的參數估計均可以通過極大似然法估計。由于模型中非線性參數的存在,需要編程通過參數迭代的方法估計參數值。在本文中,所有參數根據Newton迭代公式進行迭代求解。
本文采用《中國人口統計與就業年鑒》(原名《中國人口統計年鑒》)中1993~2009年分年齡分性別的死亡人口,年暴露人口和死亡率數據。其中,1995年的數據缺失,2000年的數據從《中國2000年人口普查資料》中獲得。為了研究中國死亡率數據是否存在隊列效應,本文年齡段間隔為1歲,并將90歲以上的年齡化為一組。
1993年年鑒中沒有直接給出死亡人口數,本文以其分組死亡率計算得到。1996年的年鑒中沒有85歲及以上的年齡的人口信息,本文按相鄰年的比例進行了估算。
本文運用了R軟件編程估計參數。在這個過程中,對模型中的待估計參數設隨機初始值,進行多次迭代后,使得似然函數(3)的最后兩次迭代差值控制在10-8以內,得到分性別的死亡率模型參數的估計值。為了得到唯一的參數估計值和使兩個模型具有可比性,借鑒相關研究,筆者對參數進行如下限制:Σtκt=0,Σxβx=1。
得到兩個模型的參數估計情況如下(在下文中,稱泊松分布下的Lee-Carter模型為模型(1),負二項分布下的lee-Carter模型為模型(2)):

圖1 模型參數估計值比較
從圖1中可以看到,兩個模型下得到的參數的估計值在趨勢上差異不大。女性αx值持續小于男性,說明在各個年齡組中,女性的死亡率均值均小于男性。從βx值來看,兩組性別都表現出了低年齡段值較高的現象,而βx值越高,表明該年齡段死亡率對死亡率隨時間變化的敏感度越大。并且,女性的死亡率隨時間變化的敏感度小于男性。另外,從κt值可以明顯看到死亡率隨時間下降的趨勢。
但是,單從參數估計值上無法判斷模型的優劣之分。由于加入了更多的參數,模型二對死亡人口的擬合效果理應優于模型一。為了更客觀的判斷所建模型的價值,本文運用BIC準則對兩個模型進行判斷比較。BIC的值越大,模型的整體效果就越好。總結兩個模型的情況如表1:
從表1中BIC的值可以看到,女性的兩個模型的BIC值均大于男性,說明對女性所建的死亡率預測模型優于男性。而假設死亡人數服從負二項分布的模型的BIC值又大于泊松假設下模型的BIC值,說明改進后的模型對死亡率數據的擬合效果更好。

表1 模型比較
為了直觀判斷模型的擬合效果,進一步按下式計算標準殘差:

做出改進后模型的標準殘差圖(由左到右分別為標準殘差按死亡年,死亡年齡以及出生年排列)如圖2:
由圖2中可知,模型估計得到的殘差序列對于時間平穩且幾近為白噪聲序列(其LB檢驗的p值分別為0.03418和0.1185)。說明建模中已經充分提取了參數信息。同時,為了判斷中國人口死亡現象是否具有隊列效應,作出標準殘差序列對應人口出生年的序列圖(右圖)。從殘差圖上可見,殘差對于出生年分布均勻,沒有明顯周期因素。考慮到在模型設計中包括隊列效應對模型的估計造成的困難和由此帶來的參數間的交互效應,本文認為在對中國人口建模時可以忽略男女性的死亡現象的隊列效應。
通過對κt建立ARIMA模型可以得到未來的κt值,從而對死亡率進行預測。通過觀察κt序列的自相關圖和偏相關圖,初步判斷模型類別,結合ARIMA模型擬合殘差以及參數的顯著性檢驗,最終確定女性的κt序列為ARIMA(0,1,0)模型,而男性為ARIMA(1,1,1)模型。模型的估計結果為:

其中,括號中的值為參數t檢驗的p值,隨機項εt為白噪聲序列。運用上述兩個模型,即可預測出未來時間的κt值,與αx,βx的參數估計值一起代入式(1),即可得到考慮了每個年齡、時間組內部死亡率差異的該組的死亡率均值的預測值。在圖3中,本文做出了模型對部分年齡人口死亡率的擬合圖,并按κt的預測序列給出了未來一段時間這些年齡的人口死亡率預測值。

圖3 代表性年齡死亡率擬合及預測(放大1000倍)
從圖3中可以看到,對于不同的年齡組,模型對于低年齡段的死亡率擬合優于高年齡段:在圖中,模型對于0歲,60歲的死亡率擬合效果很好。實際上,在這兩個年齡段中間的年齡組也能得到很好的擬合。但是另一方面,由于80歲以上的人口的死亡率波動較大且不穩定,模型對于這些高年齡段的擬合效果一般。另外,從模型對于2010~2015年分性別死亡率的預測上來看,死亡率穩步下降,符合實際。
眾所周知,死亡率的高低不僅與死亡年齡,時間有關,死亡人口的受教育水平,貧富水平和生活質量都使得死亡率呈現出極大的差異。而廣為運用的Lee-Carter模型雖然模型形式簡潔,但其對每個年齡、時間組內部死亡率相同的限制卻不可避免地造成了模型的設定偏差。
本文在經典Lee-Carter模型的基礎上將各個時間,年齡組內的死亡率個體差異考慮入模型的構建中,推導出死亡人口服從一負二項分布的Lee-Carter模型擴展形式。并用中國1993年至2009年分性別分年齡的人口資料對模型進行了量化分析。結果表明,根據模型的BIC值,死亡人口服從負二項分布假設的模型優于泊松分布假設下的模型。并且,無論是在哪種死亡人口分布的假設下,對女性人口建模的效果均優于對男性人口建模。從改進后模型擬合的結果來看,標準殘差對年齡,人口死亡年,人口出生年均獨立。
特別地,按人口出生年排列的殘差圖分布均勻,這顯示表明中國人口死亡現象沒有呈現隊列效應的特征。中國人口死亡的這一現象免去了建模時添加出生年效應項的困難。最后,本文通過運用所建模型,對模型中時間因子建ARIMA模型,預測出未來6年內中國分性別分年齡的死亡率數據。預測表明在未來一段時間內,若沒有特殊因素影響,各個年齡人口的死亡率不斷下降。
從模型的擬合效果來說,改進后的Lee-Carter模型對低年齡段的擬合效果較優。而由于高年齡段的死亡率的高度波動性,本文模型對其擬合效果欠佳。鑒于高齡人口的死亡率預測在養老金制度的安排,企事業單位的個人退休計劃中起著重要的作用,有必要單獨為高年齡段建立死亡率模型以得到準確的死亡率預測結果。由于篇幅所限,本文不再涉及這方面內容。另外,完整的死亡率預測應給出預測值的置信區間。在這個方面,一些學者提出了用bootstrap模擬的方法,也有一些學者提出了Monte Carlo的模擬方法,這些方法都可以后續用到模型的完善中來,使得模型更加完備。
[1]王曉軍,黃順林.中國人口死亡率隨機預測模型的比較與選擇[J].人口與經濟,2011,(1).
[2]祝偉,陳秉正.中國城市人口死亡率的預測[J].數理統計與管理,2009,(4).
[3]LI,Johnny Siu-Hang,HARDY,Mary,TAN,Ken Seng.Uncertainty in Mortality Forecasting:An Extension to the Classical Lee Carter Ap?proach[J].ASTIN Bulletin,2009,(1).
[4]Lee R.D,Carter L.R.Modeling and Forecasting US Mortality[J].Jour?nal of the American Statistical Association,1992,(87).
[5]Andrew J.G.Cairns,David Blake,Kevin Dowd,Guy D.Coughlan,Da?vid Epstein,Alen Ong,Igor Balevich.A Quantitative Comparison of Stochastic Mortality Models Using Data from England and Wales and the United States[Z].Discussion Paper PI-0701,2007.
[6]Renshaw A.E,Haberman S.A Cohort-Based Extension to the Lee-Carter Model for Mortality Reduction Factors[J].Insurance:Mathematics and Economics,2006,(38).