王征征 張衛鋼 孫道斌 張 鑫 王培丞
(1.長安大學信息工程學院 西安 710064)(2.西安網是科技發展有限公司 西安 710065)
當前,隨著社會經濟的不斷發展,人民生活水平和國民總體受教育程度的不斷提高,人口自然發展規律已經和以前的人口自然發展規律發生了很大的變化[1]。由于人在社會中生活,所以,就會受到社會各類因素的影響,比如經濟的變化,國家政策的變化,接受教育程度的變化,生活環境的變化等[2~3]。然而傳統的出生人口預測算法中較為準確的分年齡組生育率算法只考慮了育齡婦女總人數、分年齡組,生育率、總生育率等因素。導致近年來的預測結果和實際結果存在較大偏差[4]。分年齡組生育率計算公式為[5]

其中Yt+1表示t+1 年的總出生人口數,xb表示年齡為x歲的婦女的生育率,xt表示為t年年齡為x歲的婦女總數,xd表示年齡為x歲的婦女的死亡率。
依據近年來《中國人口和就業統計年鑒》中的相關人口數據,本文利用式(1)計算了近8 年預測出生人口數,并制作了實際出生人口數以及誤差值表,如表1 所示(其中年鑒的全國抽樣比為0.83‰)。
可見,預測值和實際值呈現出較大的誤差而且預測結果不穩定,其平均誤差率為7.7625%。2016年之所以誤差很小是因為當年實施全面二孩政策,有生育二孩意愿的家庭進行集中生育[6~8]。2017年其誤差值達到了2473 人,按全國抽樣比0.83‰計算,其誤差值達到了將近298 萬人。因此,分年齡組生育率算法已經越來越不適用于當今的出生人口情況。其主要原因就是一些過去被忽略的客觀因素對出生人口的影響越來越大[9]。故必須將這些客觀因素考慮進來才能較為準確地預測未來出生人口數,進而掌握未來人口發展趨勢[10]。
根據以上分析可知,不斷增大的誤差主要由客觀因素引起。因此,本文提出一種優化算法的主要思想是,將傳統的預測算法所預測的出生人口數量作為自變量X0,將客觀因素中的生育政策、人均GDP、社會總撫養比、國民受教育分別作為自變量X4、X5、X6、X7。將實際出生數量作為因變變量Y0,進而通過相關算法分析得到自變量和因變量之間的確切關系。
本文從《中國人口和就業統計年鑒》和《中國統計年鑒》提取了2010-2017 年各年的人均GDP(美元)、總撫養比、受教育程度(其中受教育程度是按照歷年六歲及六歲以上人口中大專及大專以上學歷的人數所占的百分比進行計算)的值。由以上統計維度可知,其他客觀因素都有確定的數值作為支撐,所以,要進行綜合分析就必須對生育政策進行數字化處理。本文的數字化處理主要按照2010-2017 年我國生育政策所經歷的三個階段[11],一孩政策---單獨二孩政策---全面二孩政策。因我國在制定一孩政策的時候允許農村戶口夫婦在頭胎是女孩的情況下允許其再生育一胎,故在對一孩政策進行數字化時要考慮此政策。
本文對一孩政策數字化結果定義為:該年頭胎為男孩且為農村戶口的人數占全國人數的百分比,加上2 倍的該年頭胎為女孩且為農村戶口的人數占全國人數的百分比,再加上該年城市戶口人數占全國人數的百分比。
本文對一孩政策的數字化結果定義為:假設當年執行一孩政策的數字化處理結果,加上該年符合單獨二孩政策的人口數占全國總人口的百分比。
由于全面二孩的放開,就不需要考慮第一胎為女孩且是農村戶口的育齡婦女的情況,所以本文將全面二孩政策下的數字化結果定義為2。
眾所周知,維持人口正常更替需要的總和生育率為2.1而不是理想中的2.0。其中多余的0.1是用來抵消疾病天災人禍等突發情況[12~13]。因此為了更好地反映實際生育情況,本文對每種生育政策數字化結果再加上0.1。
結合以上分析和計算進而得到2010-2017 年近8年的自變量和因變量數據如表2所示。

表2 歷年自變量和因變量數據變化表
本文利用SPSS 軟件對各個自變量和因變量、自變量和自變量做相關性分析,計算出增廣相關矩陣如表3所示。

表3 計算得出的相關系數矩陣
根據**代表兩個變量之間顯著性非常強,*代表具有顯著性可知自變量和因變量都有很強的相關性。因此,可以對其做多元線性回歸處理,其輸出結果如表4、表5、表6所示。

表4 模型匯總

表5 方差分析b

表6 系數a
由模型匯總可知,自變量一共可以解釋因變量百分之99.6 的變化,由方差分析b可知Sig 小于0.05。表明回歸方程是有用的。即就是說自變量整體上對因變量是可以進行線性擬合的。由系數a可知,回歸系數的顯著性檢驗最小的Sig 值是0.218,其已經遠遠大于0.05。由此可知自變量單獨對因變量均無顯著性影響。因此不能單純地用多元線性回歸方程進行回歸擬合[14~15]。
由相關系數矩陣可知,自變量和自變量之間也具有較強的相關性。即就是說自變量之間有某種隱形的關聯。因此接下來本文運用因子分析法對自變量和自變量進行公因子分析,輸出結果如表7所示。

表7 解釋的總方差
根據解釋的總方差可知,最后獲取的公因子有一個記為F0 ,其中F0 方差的累計貢獻率為83.599。因此,這個公因子可以代替其它所有的自變量,并且能夠體現出自變量包含的絕大部分信息。然后運用主成分分析法解得因子載荷矩陣如表8所示。

表8 成分矩陣a和成分得分系數矩陣
由成分矩陣a可得,所選出來的公因子F0 和自變量都有很強的相關性,其成分最小的為0.796,且大部分都在0.9以上。再根據成分得分系數矩陣可得因子和自變量的關系如下:

接下來利用公因子F0 對Y0 做線性回歸,分析結果如表9、表10、表11所示。

表9 模型匯總

表10 方差分析b

表11 系數a
由模型匯總自變量一共可以解釋因變量91.8%的變化,因此得到的多元線性方程組具有較高的顯著性。由方差分析b可得F0 的值為79.587其所對應的Sig 值為0.00,Sig 值小于0.05。表明回歸方程是有用的。即就是說自變量整體上對因變是可以進行線性擬合的。由系數a可知,回歸系數的顯著性檢驗的Sig值是都是0.00。表明這個方程是合理的。進而得到自變量和因變量之間的關系為

結合式(2),可得

通過結合優化后的算法可得2010-2017 年預測值的出生人口數和實際出生人口數以及差值如表12所示。

表12 優化后預測出生人口數和實際出生人口數據表
由表13可知,平均誤差率為1.9125%。其中誤差最大值為351 發生在2016 年,誤差最小值為52發生在2015 年。而2010-2014 年都較為穩定。2015 和2016 之所以誤差波動比較大,是因為2013年11 月和2015 年10 月國家分別實施了單獨二孩和全面二孩政策。而2010-2014 年國家政策基本一致,其誤差值趨于較平穩狀態。因此,可以預見,假設在長時間內我國全面二孩政策不變的條件下,2017 年以后運用新的預測算法,其預測誤差值將趨于較穩定狀態。由此說明本文提出的優化算法更為準確,且其精確度由優化前的平均7.7625%提高到優化后的平均1.9125%,提高了5.85%。
本文通過引入經濟水平、文化程度、總撫養比等客觀因素對常用的分年齡組生育率算法進行了優化,優化結果表明,精度得到了極大的提高,優化后的平均精度達到了1.9125%。由于我國是個人口大國,從而導致優化后的結果仍會引起幾萬的人口誤差。因此下一步的工作應當是考慮更多的影響因素,進一步對算法進行優化。