基于模糊線性回歸分析的我國人口估計

2011-10-24 06:35:00寇業富孫曉靜

統計與決策 2011年4期

關鍵詞：分析質量模型

寇業富，孫曉靜

（中央財經大學a.中國精算研究院;b.保險學院,北京 100081）

基于模糊線性回歸分析的我國人口估計

寇業富a，孫曉靜b

（中央財經大學a.中國精算研究院;b.保險學院,北京 100081）

由于人口的瞞報、漏報和錯報等問題，每一年度的數據并不是一個確切數，而是一個基于一定把握程度（隸屬度）基礎上的數，是一個典型的模糊數。文章運用模糊線性回歸分析對我國的人口變化進行估計，得到了一簇為以傳統的計量回歸分析數據為中心值的模糊回歸模型曲線。其結果對于預測問題和我國的人口預測與估計具有較好的借鑒意義和應用價值。

人口估計；模糊數學；線性回歸分析

0 前言

人口統計的數據質量一般包括總量數據的質量和結構數據的質量。我國2000年人口普查表明，我國人口統計的數據質量呈下降態勢，人口漏報達到1.81%（張為民，2008）。總量數據的質量和結構數據的質量之間相互影響。比如某一年齡段人口數據的漏報或重報，可能影響總量數據的質量、性別和年齡數據的錯報等；總量數據的失真則必然影響到結構數據的質量。總量和結構數據的質量對于人口統計而言都非常重要，都是進行決策和科學研究的基礎。本文擬主要研究我國人口總量的數據，并運用數學模型進行我國人口數據統計質量的動態量化分析。

1 模糊線性回歸分析

1.1 模糊回歸模型的建立

為了解決帶有模糊信息的動態預測問題，在線性回歸技術的基礎上，提出了模糊回歸預測技術（丁世飛、程述漢、蘇本堂，2000）。和其他回歸技術一樣，模糊回歸的目的是決定一個因變量和一組獨立變量之間的函數關系。如（吳沖、潘啟樹、李漢玲，2000）提出了模糊系數為對稱三角模糊數的模糊線性回歸預測模型。本文從輸入、輸出變量都是模糊數的觀念出發，給出模糊線性回歸模型。為方便計，假設輸入、輸出變量為對稱三角模糊數。

在模糊線性回歸中，由于其自變量或因變量或二者都不是一個確切的實數，而是一個區間或一個模糊數，所以模糊回歸在很多方面比傳統的線性回歸更為復雜。

與線性回歸類似，我們假設因變量是若干自變量的線性組合。在我國人口數量預測中，設立雙變量模糊回歸模型：

在此模糊回歸模型中，擾動項并未被作為一個隨機變量引入線性關系中，而是被包含在輸入、輸出變量中。在傳統的最小二乘回歸中，用隨機殘差項解釋因變量和自變量之間的不精確關系。將模糊集引入回歸分析則使我們可以處理因變量和自變量都是或者其中之一為模糊數的不精確關系。我們可以對觀察數據進行模糊分析和處理，然后與統計中的最小二乘回歸分析類似，找出模型中回歸系數的模糊最小二乘估計，也就是用模糊數代替隨機變量，找出變量之間的不確定關系。在式（1）中，Y軒、X軒的隸屬函數分別表示如下：

本文首先對輸入、輸出數據進行模糊化，使對應的模糊輸出為對稱三角模糊數Y軒=(y,u)，對應的模糊輸入X軒為對稱三角模糊數X軒=(x,v)。因為Y軒和X軒為對稱三角模糊數，故模型的確定在于參數y、u和x、v的確定。

1.2 FLS(Fuzzy Least Square,模糊最小二乘)方法

李竹渝、張成（2008）研究了模糊數據的回歸模型分析，其用到模糊最小二乘方法（Fuzzy Least Square，FLS)。FLS方法的基本思想是通過回歸系數的選取，使得所有模糊因變量與因變量觀測值之間的模糊距離最小，一般用平方和計算。與經典的回歸分析中模型擬合效果評價的OLS(Ordinary Least Square)準則類似，借鑒（吳今培，2002）的方法，給出FLS方法的擬合原則如下。

從而可以定義模糊距離平方和的距離為：

通過求式（3）的最小值，即可以得到模型（1）中回歸系數的FLS估計。

2 基于模糊線性回歸分析的人口總量估計

根據2007年國家統計年鑒，得到從1990年到2006年各年度人口數據如表1。

由表1可以看到，從1990年到2006年人口總量的自然增長率比較平穩，沒有比較明顯的折點和尖點。

2.1 數據的預處理

為了利用雙變量模糊回歸模型，首先自變量（年度）和因變量（人口）數據進行模糊化處理。

在此進行模糊化處理的原因主要有兩點：①人口的統計并不一定是在年度末或者年度末進行，無論從統計時間上還是從統計數量上，都應該是一個模糊數；②由于各種原因，現實中人口的瞞報、漏報和錯報比較嚴重，有必要對人口數量等進行模糊化處理。即通過文獻[9]的方法對于人口數據觀測值進行模糊三角化處理。

另外，為了體現年度之間的關系，被解釋變量取作（Y-1989）。

處理后的對稱三角模糊數值如表2。

2.2 基于模糊對稱三角數的計量回歸分析

根據表1和表2的數據，構造模糊雙變量回歸模型：

（1）利用FLS方法得到模糊回歸估計模型（其中自變量取年度的序列號（年度—1989））：

表1

表2

表3

（2）由式（4）得到模糊樣本觀測數據中心和廣度的回歸模型分別為：

從式（5）可以看出，人口總量的模糊三角數的中心值是年度模糊三角模糊數的中心值的線性函數，人口總量的模糊三角數的廣度也是年度模糊三角模糊數的廣度的線性函數。

根據式（5）的計算結果，得到基于模糊回歸分析的人口估計（圖1）。其中兩條虛線分別代表人口總量的上下限；中心實線為樣本數據觀測中心值的模糊回歸曲線，中心實線類似于線性回歸曲線。越靠近中心線，隸屬度越高，其出現的可能性就越大。

2.3 估計結果

本文引用模糊回歸模型估計人口數量，一定程度上彌補了樣本數據的缺少、粗糙等問題，為數據的分析和估計提供了一個新的方法，其主要特點有：

一是從理論上講，傳統的計量回歸分析是用隨機殘差項解釋因變量和自變量之間的不精確關系；模糊回歸分析通過把因變量和自變量設定為模糊隨機變量，解釋它們之間的模糊關系。

二是從計算過程上看，傳統的計量回歸分析主要是利用如最小二乘法、極大似然法等，評估觀測值和預測值的擬合程度，確定估計系數值；模糊回歸分析通過基于兩個集合之間的貼近程度估計系數值，并把模糊系數的廣度作為一個因素，參與到估計系數值的計算當中去；

三是從計算結果看,傳統的計量回歸分析得到的是一個系數為實數的函數形式，并通過給出系數的置信區間，反映對于估計系數值的把握程度以及回歸方程的顯著性。模糊回歸分析分別得到兩個函數關系式：一是關于樣本觀測數據中心值的函數關系式；一是關于樣本觀測數據廣度的函數關系式。基于兩個集合之間的貼近程度估計系數值，反映了對于樣本觀測數據與擬合數據貼近程度的把握程度；

四是在估計傳統的計量回歸分析的預測值時，預測值是一個基于置信度的對稱區間；模糊回歸分析中，是直接根據系數的模糊假設表達式，得到基于隸屬度的預測區間，并不一定滿足對稱性，并且也取決于模糊系數的表達式；模糊回歸分析得到是一個動態的結果，人們可以根據客觀情況或主觀意愿，選擇隸屬度（把握程度），從而得到不同的預測值。

圖1

3 結論

人口估計的總量數據是研究經濟問題等不可或缺的指標，本文的結果將對經濟決策和相關科學研究提供幫助。

一是本文運用模糊數學的概念和研究方法為研究人口統計的數據質量問題提供了一個新的思路。例如張為民（2008）指出，我國人口普查數據質量呈下降態勢。因此研究人口統計的數據質量問題是一個迫切且具有現實意義的內容。在2000年人口普查中，推斷普查0～9歲人口漏報多達3014萬（張為民、崔紅艷，2004）。這些都必將嚴重影響我國經濟決策水平和經濟發展目標的確定。

根據本文的結果，在2000年人口總量的絕對區間為[64948.59，185021.2]（萬人），即以 100%的把握程度（即以 0%的錯誤率）說明2000年度人口總量的統計數據在64948.59萬人到185021.2萬人之間；如果考慮到100%的把握程度是沒有實際應用價值的，因此如果控制在1%的錯誤率（即以99%的把握程度）下，人口總量的實際數據包含在區間為[124354.64，125585.26]（萬人）內。而2000年人口普查公報的漏報率為1.81%（張為民，2008），遠大于1% 。

這個結果反映了運用模糊回歸分析模型的優越性：即只要把解釋變量和被解釋變量的中心數與廣度分別進行回歸后，就可以得到人口統計的結果，并且非常簡單的得到在百分之幾的錯誤率下，人口總量的取值范圍。

二是實現了人口統計數據總量的動態化分析。例如在在1%的失誤率下，2000年人口總量的取值區間為[124354.64，125585.26]（萬人）；如果假設有 2%的失誤率，則2000年人口總量的取值區間為 [123754.18，126585.62]（萬人）；如果假設有5%的失誤率，則2000年人口總量的取值區間為[121984.72，127985.08]（萬人）；……。

即失誤率越大，人口總量的取值區間就越大，實現了人口數據總量的動態化處理。這樣即為我們在處理復雜問題時根據實際情況選取不同的區間值提供了依據，并且具有很好的可操作性。

三是有利于判斷數據變化范圍及趨勢。胡英（2009）指出，對于社會經濟方面的數據，點估計數據并非完全適應。在模糊線性回歸分析中，分別就中心數和廣度進行模糊回歸估計，其估計值是三角模糊數，比較充分的考慮了統計過程中的漏報、錯報、重報等現象，給出了人口數據的上下限變化范圍，有利于判斷人口及相應的變化趨勢。

四是在引入模糊回歸分析模型研究人口規模與變化趨勢后，完善了根據人口基準數據推算調查數據的方法，比指數平滑法等相關研究方法更具有可操作性。

[1]張為民.對我國人口統計數據質量的幾點認識[J].人口研究，2008,(9).

[2]丁世飛，程述漢，蘇本堂.多元模糊回歸預測模型及其應用[J].模糊回歸預測模型及其應用，2000,(9).

[3]李竹渝，張成.模糊數據的回歸模型結構分析 [J].統計研究，2008,(8).

[4]吳今培.模糊時間序列建模及應用[J].系統工程，2002，20（4）.

[5]張為民，崔紅艷.對2000年人口普查數據準確性的估計[D].中國2000年人口普查國際研討會論文集，中國統計出版社，2004.

[6]寇業富，李曉林.壽險公司業務結構的相似性分析及其聚類研究[J].中央財經大學學報，2009,（2）.

[7]寇業富.可數Fuzzy基數的運算法則[J].系統工程理論與實踐，2003,(9).

[9]韓立巖.應用模糊數學[M].北京：首都經貿大學出版社，2004.

[10]胡英.2000～2008年中國城鎮、鄉村經濟活動人口數量估計[J].中國人口科學，2009,(12).

F126

1002－6487（2011）04－0025-03

教育部重點研究基地資助項目（2009JJD790053）；中央財經大學“211”工程第三期資助項目

（責任編輯/亦民）