封鐵英,羅天恒
(西安交通大學a.公共政策與管理學院;b.社會保障統計與精算研究中心,西安 710049)
生育率是度量一個國家或地區時期生育水平最常用的可靠指標[1]。1992年以來,中國生育率的變化具有時間和空間維度上的壓縮性特征,經歷了從生育率水平由高到低的快速轉變,且實施了無區域差別的生育干預政策。隨著計劃生育政策效應逐步顯現,育齡婦女生育率長期穩定保持在更替水平2.1以下。根據第六次人口普查的數據,2010年中國婦女的總和生育率僅為1.19,十年內人口年平均增長率僅為0.57%,比1990~2000年年均1.07%的增長率下降了0.5個百分點。由于負增長慣性作用的影響,持續的低生育水平極有可能使中國陷入“低生育率陷阱”[2]。當總和生育率一旦降到1.5以下時,將引發低生育率的自我強化機制,從而進一步降低生育率,使生育率提高變得更加困難[3]。為了有效規避由此引發的一系列社會風險,不斷深化對人口變動規律的客觀認識、正確制定人口發展戰略規劃,選取較為準確的生育率數據、科學的評估和預測方法,準確預測人口生育率至關重要。
本文依據2010年第六次人口普查數據和歷年的抽樣調查數據,針對總和生育率的隨機性特征,綜合應用三隨機預測方法[4],以誤差項白噪聲假設和異方差假設為基礎,基于ARIMA-GARCH模型對生育率進行誤差外推,估計其未來值與預測區間,并進一步驗證其有效性。
生育率序列具有強隨機波動性,分析其隨機過程的特性,是模型選擇和有效擬合的重要基礎。假設生育率是以時間為標號的一組隨機序列Z(ω,t),其中ω屬于年齡組構成的集合,t屬于時間集。對于特定的年齡組ω,Z(ω,t)是時間t的函數,稱之為樣本函數或實現。對生育率所有可能實現的全體稱為隨機過程。
定義(1):設{Z(t),t≥0}為隨機過程,若對任意常數 τ、正 整 數 n 和 t1,t2...,tn∈T 、t1+τ,t2+τ...tn+τ∈T ,(Z(t1),Z(t2),...,Z(tn))與 (Z(t1+ τ),Z(t2+τ),...,Z(tn+ τ))具 有相同的聯合分布,則稱該隨機過程{Z(t),t≥0}為嚴平穩過程,也稱狹義平穩過程.
定義(2):對隨機過程{Z(t),t≥0},如果{Z(t),t≥0}是二階矩過程,對任意 t∈T,mZ(t)=EZ(t)=常數 ,對任意ω,t∈T ,RZ(ω,t)=E[Z(ω)Z(t)]=RZ(ω-t),則稱該過程{Z(t),t≥0}為寬平穩過程,簡稱平穩過程。
顯然,廣義平穩過程不一定是嚴平穩過程,反之,嚴平穩過程只有當其二階矩存在時方為廣義平穩過程,但對于一個正態過程而言,二者是相同的[5]。在時間序列中,獨立的隨機序列通常是不存在或沒有意義。生育率序列不是簡單的獨立同分布過程,很難給出其分布函數,其不確定性相對于金融數據更弱且趨勢穩定,因此生育率隨機過程分析通常使用弱意義下的平穩性——寬平穩。
分析平穩時間序列一般應用ARMA模型,而對于非平穩的隨機過程,則需要建立一種齊次非平穩時間序列模型——自回歸求和移動平均模型(ARIMA)。經過適當的差分,齊次非平穩時間序列可轉化為平穩的時間序列,即為ARIMA過程。不考慮季節性因素的ARIMA(p,d,q)模型的基本形式是:

其中,平穩自回歸AR算子φp(B)=1-φ1B-...-φpBp和可逆的移動平均MA算子θq(B)=1-θ1B-θqBq沒有公因子,序列{μt}是服從同方差的高斯白噪聲分布。參數θ0對于d=0和d>0具有不同的作用。當d=0時,過程是平穩的,可知 θ0與過程的均值有關,即 θ0=α(1-φ1-...-φp)。當d>0時,θ0被稱為確定性趨勢項,除非需要,θ0常??珊雎圆挥?。由公式(1)得到的齊次非平穩時間序列模型即為ARIMA模型[6]。
ARIMA模型化過程的主要包括了模型識別、參數估計、診斷檢驗和模型預測四個步驟。根據樣本的自相函數(ACF)和偏自相關函數(PACF)判斷拖尾和截尾階數,識別出若干可能模型,如 AR(p)、MA(q)、ARI(p,d)、IMA(d,q)或ARIMA(p,d,q)。為了比較模型的擬合效果,根據BIC法則和實踐經驗對模型進行診斷檢驗,BIC的值越小、平穩的R2越大,表明模型擬合效果越好,最終可從多個可能模型甄選出擬合效果最優模型,從而實現時間序列的模型化和預測。
GARCH(p,q)模型的一般形式為:

時間序列的GARCH(p,q)建模,首先進行GARCH(即異方差)效應檢驗,平穩序列的條件方差為常數值時,即不存在異方差效應時,不必建立GARCH模型;當存在異方差效應時,需建立GARCH模型并估計模型參數,最小二乘法最為常用,對于聯合分布形式已知的時間序列,極大似然估計法更為精確;最后根據AIC準則,確定模型階數并進行模型預測。由此可避免異方差效應對時間序列建模的沖擊,并延長時間序列模型的預測長度。
由于經濟、社會、文化、政策及生物學規律、自然災害等多重因素的影響,生育率序列具有極強的不確定性。僅僅假設生育率隨機過程平穩的模型擬合可能是不合適的,應當根據其隨機特性篩選最優模型。ARIMA-GARCH模型正是基于誤差項分布的同方差和異方差分布的不同假設,在隨機過程分析的基礎上,按平穩序列建模方法構建生育率的ARIMA(p,d,q)模型并檢驗序列的異方差效應,以決定是否建立 GARCH(p,q)模型對 ARIMA(p,d,q)的預測誤差項進一步建模,最終實現生育率的有效隨機預測。
(1)生育率隨機過程分析
根據序列圖初步判定生育率原始序列的趨勢性、波動性和季節性特征,而后通過原始序列的統計指標(均值、中位數、偏度、峰度等)確定該隨機過程的分布狀態,最后在樣本自相關函數(ACF)及偏自相關函數(PACF)的截尾和拖尾特性的基礎上判斷序列屬于平穩或非平穩過程。
(2)平穩序列轉化與ARIMA建模
對于存在明顯趨勢和強隨機波動性的序列,應考慮通過適度差分將非平穩序列轉化為平穩序列,在殘差序列{μt}服從同方差分布假定下,應用ARIMA模型對隨機過程建模。大量實踐經驗證明,生育率隨機過程的ARIMA模型構建應當同時考慮變量自回歸部分(AR(p))和殘差移動平均(MA(q))部分,建立 ARIMA(p,d,q)模型擬合生育率隨機過程的效果可能較好。
(3)異方差效應檢驗與GARCH建模
為了控制生育率預測模型殘差項可能存在的相關性,需要檢驗殘差項的異方差效應并建立GARCH模型,GARCH模型的建立,有效解決了ARIMA模型對誤差項異方差性的忽視,降低由此引發的重要細節信息損失,從而能夠更準確地反應生育率的隨機變動趨勢并提高預測的置信度。在ARIMA(p,d,q)模型計算出殘差序列后,構建殘差平方序列,并計算平方序列的自相關函數(ACF)和偏自相關函數(PACF),以檢驗殘差平方和是否遵循自回歸(AR)模型形式,從而得出是否存在異方差效應的結論。如果異方差效應是存在的,則應該建立誤差項的GARCH模型;如果異方差效應不存在或是在可以接受的范圍內,則沒必要建立GARCH模型。過度模型化的結果可能導致計算復雜性,對預測準確性的改善微乎其微,因此建立殘差項的GARCH模型應當是審慎的。
根據2010年全國第六次人口普查和歷年人口統計年鑒相關數據,本文選取1949~2010年總和生育率數據作為樣本集,基于ARIMA-GARCH模型建立生育率隨機預測模型,以SPSS 20.0及EVIEWS 6.0為平臺,實現總和生育率的隨機預測并檢驗模型的預測效果。
由原始序列圖(見圖1)分析可知,1949~1988年,中國總和生育率的不規則變動明顯,出現急劇降低和快速增長的短期變動以及小幅度不規則的中長期變動,1988年之后,生育率緩慢平穩降低,表明受自然災害、計劃生育政策、社會文化變遷等因素的影響,中國生育率總體呈現顯著下降趨勢并存在較強隨機波動性(見圖1)。在觀測原始序列的基礎上,為了準確描述總和生育率的隨機波動特征,進一步分析其統計特征:偏度(Skewness)為0.4015,存在明顯的右偏趨勢,而均值(Mean)為2.3876,序列不服從正態分布;峰度(Kurtosis)為1.8347,低于正態分布的峰度值3,“尖峰”特征不明顯。顯然,對于非正態分布的總和生育率原始序列,滿足“厚尾”特征,但“尖峰”特征不明顯。因此,對中國總和生育率序列,初步假定生育率數據是平穩時間序列,或者經過適當差分將非平穩時間序列轉變成平穩時間序列,建立生育率的ARIMA模型。GARCH建模時則應首先檢驗是否存在異方差效應,從序列的峰值和偏度值來看,初步認為異方差在可以接受的范圍內,是否需要建立GARCH建模應當進一步檢驗。

圖1 1949~2010年中國總和生育率序列

圖2 1949~2010年中國總和生育率頻數圖與統計特征
生育率ARIMA模型構建過程中,首先將原始數據進行對數變換,以弱化其隨機波動影響。對數變換后的生育率序列具有向下趨勢,因此考慮將變換后的序列進行一階差分,使其平穩化。應用ADF單位根檢驗一階差分后序列的平穩性,檢驗統計量為-6.4554,其P值比顯著性水平α為0.05的序列趨于平穩(見表1),表明原始序列的一階差分是合適和必要的。一階平穩的生育率序列的AR(p)和MA(q)階數可通過自相關函數(ACF)和偏自相關函數(PACF)識別。由檢驗結果(見圖3)可知,ACF在滯后1期,PACF在在滯后2期出現較大衰減。因此,生育率序列的 ARIMA(p,d,q) 模 型 可 以 考 慮 ARI(2,1)、IMA(1,1)或ARIMA(2,1,1)模型,根據多個模型檢驗結果(見表2)對比分析可知,ARIMA(2,1,1)模型的 R2最大(0.149)且BIC值最小(-2.181),表明ARIMA(2,1,1)模型對于總和生育率序列的擬合效果優于ARI(2,1)、IMA(1,1)模型。

表1 總和生育率序列一階差分后的ADF單位根檢驗

圖3 一階差分后總和生育率序列的ACF和PACF檢驗
由圖4可知,ARIMA(2,1,1)模型殘差序列{μt}分布不平穩,具有較強的隨機性,未出現在某一段時間內集中分布的“集群”現象,異方差效應的直觀顯示不明顯。為進一步檢驗殘差的異方差性,計算殘差平方,可以看出平方后的殘差序列平穩,僅于1962年前后出現較大值,其他時間段內序列在0~0.1的范圍內小幅波動。序列的ACF和PACF檢驗結果(見表3)表明,自相關系數和偏自相關系數均顯著為0,且p值均大于0.05,對總和生育率殘差異方差假設未通過檢驗,可見總和生育率的異方差效應是不顯著的,不需要再通過GARCH對模型殘差進一步建模。

表2 總和生育率ARIMA(p,1,q)模型檢驗結果
對于異方差效應不顯著的中國總和生育率序列的隨機預測,僅需應用ARIMA(2,1,1)模型。經過適當差分實現序列的平穩化,考慮自回歸部分AR(p)和移動平均部分MA(q)更符合總和生育率的現實狀況。

圖4 ARIMA(2,1,1)模型殘差和殘差平方分布

表3 ARIMA(2,1,1)模型殘差平方和的ACF和PACF檢驗
本文以第六次全國人口普查(2010年)的總和生育率數據為基礎,預測中國未來30年的生育率及其變動趨勢(見圖5):在90%的估計區間內,2010~2040年生育率將從1.8左右緩慢下降并持續保持低于1.5的超低生育率水平。在未采取有效的生育率干預情況下,長期的低生育率將會成為一個不可避免的現實,隨之出現的“生育陷阱”有可能會成為困擾中國人口正常增長的障礙。與假定生育政策維持現狀不變、完全取消、適度放松管制的三種政策環境下的場景預測[7]或高、中、低方案的確定性預測不同,ARIMA-GARCH模型完全根據歷史數據的變動規律預測未來趨勢,無主觀干涉,可得到估計值的置信區間,預測結果更為科學、可信。與朱勤[8]對2000~2010年分年齡生育率模擬推算相類似,本文生育率預測采用縱向的時間序列數據,建立生育率的模擬和仿真模型,區別在于對總和生育率的分析是否是基于隊列生育率。由于分年齡的生育率數據缺失,以及累積的分年齡生育率模型誤差[9],年齡別生育率模擬預測期間短,直接運用總和生育率數據進行生育率隨機預測更為有效。

圖5 1949~2010年中國總和生育率歷史數據、估計值與估計區間
針對傳統確定性預測方法的固有缺陷和生育率的隨機波動特征,本文提出基于隨機理論和時間序列分析的生育率隨機預測ARIMA-GARCH建模與仿真方法。以中國總和生育率為例,通過對生育率序列隨機過程分析,辨識序列的平穩特性和不規則變動程度,為模型擬合和參數選擇提供支持;根據生育率時間序列屬性,構建自回歸求和移動平均(ARIMA)模型,將原始數據函數化;對于生育率時間序列的自相關性和異方差效應,構建廣義自回歸條件異方差(GARCH)模型對其進行檢驗并建模,有效延長了ARIMA模型的預測長度并提高預測精度。相對于其他生育率隨機預測方法,本文基于歷史數據隨機特性構建的ARIMA-GARCH模型能夠準確地反映時間序列的動態變化過程,避免原始序列重要的細節信息損失,為生育率預測提供了一種新的視角和途徑。
基于ARIMA(2,1,1)-GARCH隨機預測模型的生育率估計結果表明:在90%的置信區間內,未來30年,中國婦女的總和生育率從2010年的1.19下降到2040年的(0.4787~0.9997)的區間內?;谘芯拷Y論,本文提出應對中國生育率持續走低的對策建議:
(1)警惕“低生育陷阱”,防止“超低生育率”
中國的生育率從1990年之后開始低于2.1的人口更替水平并持續降低,到2040年左右,生育率水平極有可能達到1.0以下的“超低生育率”[10]。20世紀60年代中期,西北歐部分國家的總和生育率在降到更替水平之后持續下滑,由此導致人口負增長。根據低生育率陷阱理論,小于1.5的總和生育率存在“自我強化機制”,導致生育率難以重新提高。生育率水平下降帶來的后果可能是嚴重的,尤其是在“人口紅利”后期,以勞動密集型模式為主的經濟發展與生育率降低、勞動者素質上升的社會現實相脫節,導致了我國“民工荒”與大學生“就業難”并存的矛盾現象[11]。中國應當對生育率的持續降低保持高度警惕,采取有效措施來緩解生育水平的下滑風險。
(2)適時調整生育政策,逐步釋放人口增長空間
2013年11月15日,十八屆三中全會的《中共中央關于全面深化改革若干重大問題的決定》提到“堅持計劃生育的基本國策,啟動實施一方是獨生子女的夫婦可生育兩個孩子的政策”。單獨二胎政策是對計劃生育政策的適度調整,釋放出了生育政策改革的積極信號。根據聯合國2012年度發表的生育率預測,中國同韓國、日本、歐美等國家和地區婦女平均生育低于更替水平并將繼續下降。有學者指出,即使是沒有獨生子女政策,中國的生育率也僅在2.0左右。生育率轉變有其自然的規律,同為中華文化圈的韓國,在經歷生育率下滑到1.7時提出鼓勵生育,但是生育率仍然持續下降。對中國而言,2010年人口普查時生育率水平僅為1.19,人口數量的減少伴隨著“人口紅利”的消失、結構老齡化嚴重、出生性別比偏高等現實問題同步出現,調整生育政策勢在必行,應通過建立生育成本補償機制等多項、全方位配套措施,逐步釋放人口增長空間,促進人口、資源、環境的可持續協調發展。
[1]高爽,陳衛.論內在總和生育率[J].人口與經濟,2013,(1).
[2]石人炳.低生育率陷阱:是事實還是神話[J].人口研究,2010,34(2).
[3]Lutz W,Skirbekk V,Testa M R.The Low-Fertility Trap Hypothesis:Forces That May Lead To Further Postponement and Fewer Births in Europe[J].Vienna Yearbook of Population Research,2006,(4).
[4]Hyndman R J,Booth H.Stochastic Population Forecasts Using Functional Data Models for Mortality,Fertility and Migration[J].International Journal of Forecasting,2008,24(3).
[5]李錦華,陳水生.非高斯隨機過程模擬與預測的研究進展[J].華東交通大學學報,2011,28(6).
[6]魏武雄,易丹輝,劉超等譯.時間序列分析:單變量和多變量方法[M].北京:中國人民大學出版社,2009.
[7]王煥清.不同計劃生育政策下的我國人口預測研究[J].統計與決策,2013,(5).
[8]朱勤.2000~2010年中國生育水平推算——基于“六普”數據的初步研究[J].中國人口科學,2012,(4).
[9]郭志剛.再論隊列平均子女數不能作為當前總和生育率的估計[J].中國人口科學,2008,(5).
[10]馬小紅.“雙獨政策”影響下北京市人口生育水平變動分析[J].人口研究,2004,(1).
[11]翟振武,趙夢晗.生育率下降與經濟發展模式轉型[J].人口與經濟,2013,(1).