康建偉
(河南工業大學電氣工程學院,河南 鄭州 450001)
基于灰色模型的農民工資性收入預測
康建偉
(河南工業大學電氣工程學院,河南 鄭州 450001)
運用灰色系統理論及方法,通過對河南省近年農民工工資性收入數據序列采取不同長度序列的方法進行逐一新陳代謝,分別建立GM(1,1)模型,在matlab環境下利用建立的模型進行預測,將預測值與實際值進行誤差比較,通過比較不同長度序列的誤差平均值,選取誤差平均值最小的序列長度值,并以2011年和2012年為例進行實證分析。
GM(1,1)模型;工資性收入;農民工;灰色系統
改革開放以來,農民工資性收入已經成為農民收入的新生源泉和增收的主要動力,并且工資性收入在農民總收入中的比重呈逐年增加的趨勢。一般來說,一個地區的經濟越發達,工業化程度越高,城鄉收入差距越大,農村的工業化程度越高,當地農民的工資性收入就越高,因此,為把握某一個地區的農民工工資性收入的未來發展趨勢,有必要對其進行預測。
由于農民工工資性收入受多種因素的制約,有的因素是確定的,有的因素是不確定的。而建立在灰色系統理論上的灰色預測就是針對信息不完全系統,通過對原始數據進行生成處理,建立灰色預測模型,從而實現系統發展預測的一種方法,因此,可以將農民工工資性收入作為一個灰色系統,采用灰色預測的方法來預測。
GM(1,1)模型是灰色模型中最常用的一種,建模過程表述如下,首先,通過對原始隨機時間序列X(0)進行一次累加生成一個新序列X(1);其次,將序列X(1)用一個一階線性微分方程的解來逼近;然后,根據微分方程的解即可對序列X(1)的數據進行擬合;最后,對序列X(1)的擬合值進行一次累減即可求得序列X(0)的擬合值,實現對原始隨機序列的預測。
GM(1,1)模型的計算過程如下。假定一個原始隨機時間序列X(0),其一次累加生成序列X(1),其中,,k=1,2,…,n。


用最小二乘法求得

其中,

通過微分方程解可以得到X(1)序列的擬合序列,通過一次累減得到的擬合序列,其中,

在灰色系統的發展過程中,新因素會進入,影響系統的發展進程并可能呈加強的趨勢,同時,舊因素會減弱,減弱甚至不影響系統的發展,因此,在實際的灰色建模過程中,實際的原始數據不一定全部用來建模,同時,不同長度的原始序列建模后所得的模型也不一定相同,因而模型的預測值也會不同,所以,為了提高模型的預測精度,需要對原始數據進行篩選。
一個模型預測的準確度越高,其預測值與實際值之間的誤差就會越小,因此,可以用預測值與實際值之差與實際值的比值(稱為相對誤差)來衡量模型的準確程度,進而可用某一定長序列所有相對誤差的平均值來表示該定長序列所建立模型的準確程度,平均相對誤差越小,該定長序列所建立模型的準確度越高。
例如,當長度定為3時,取初始數列X中的x(1)x(2)x(3),3個數據作為一個原始序列,建立GM(1,1)模型,預測該序列的下一個擬合值,并與初始序列X中的x(4)相比較得到一個相對誤差;通過逐一新陳代謝,將x(4)加入同時將x(1)移除x(1),x(2),x(3)序列,構成一個新的長度仍為3的原始數列x(4),x(3),x(2),通過建模可以得到該序列的下一個擬合值,并與初始序列X中的x(5)相比較得到一個相對誤差;依次類推,直到原始數列為,通過建模得到該序列的下一擬合值,并與初始序列X中的x(n)相比較得到一個相對誤差,通過相對誤差組求取算術平均值得到長度為3時的平均相對誤差。
同理,可以得到序列長度為i時的平均相對誤差△i,通過比較不同長度的平均相對誤差,選擇平均相對誤差最小的序列長度對初始數列X進行預測。
3.12011年工資性收入預測
選取2011年之前某一段時間的工資性收入數據作為原始數據序列。比如,以河南省2000~2010年農民工工資性收入為選取對象,具體數據見表1所示(數據來源于河南統計網分年度年鑒)。

表1 河南省2000~2010年農民工工資性收入
首先,對河南省2000~2010年農民工工資性收入進行數據篩選,選取序列長度為3~10時,在matlab環境下,分別計算定長序列的平均相對誤差,結果如表2所示。

表2 不同長度序列的平均相對誤差
從表2可以看出,平均相對誤差較小者為序列長度為10時,平均誤差為0.1%。也就是說,用2000~2009年的收入作為原始數據對2010年的收入進行預測時,模型的準確度較高,誤差不高于0.1%。
因此,根據逐一新陳代謝方法,可以利用2001~2010年的收入作為原始數據進行建模,對2011年的工資性收入做出預測,得到的預測值為2279。
通過對比2011年河南省農民工工資性收入,發現利用2001~2010年的收入作為原始數據建立的模型相對于利用2000~2009年的收入作為原始數據建立的模型精度要高,根據表3中的平均誤差,與實際值的誤差應不高于0.1%,但是實際誤差為9.7%,遠高于0.1%,主要原因在于2011年工資標準提高拉動了工資性收入快速增長,而利用2001~2010年的收入作為原始數據建立的模型中顯然不能考慮這方面的因素。(河南省調查總隊統計顯示,2011年河南省農民工工資性收入為2524元;2011年部分區縣農民工打零工的日工資比去年同期增加10~30元,建筑大工、小工日薪均比去年增加了20~30元。)
3.22012年工資性收入預測
利用2000~2011年農民工工資性收入作為原始數據序列,選取序列長度為3~11時,在matlab環境下,分別計算定長序列的平均相對誤差,結果如表3所示。

表3 不同長度序列的平均相對誤差
從表3可以看出,平均相對誤差較小者為序列長度為10時,模型的準確度較高,誤差為4.89%。也就是說,用2002~2011年的收入作為原始數據對2012年的收入進行預測時,準確度較高,誤差為4.89%。
現以這組數據作為原始數據,建立GM(1,1)模型,對2012年的工資性收入做出預測,得到預測值為2845,因此,2012年河南省農民工工資性收入預測值為2845元,考慮到4.89%的誤差,2012年的收入范圍應在2712元~2991元之間。而根據河南省統計年鑒顯示,2012年農民工資性收入為2989元,在預測范圍之內。
在灰色系統的發展過程中,由于影響因素的不斷更新,新因素的影響不斷加強,老因素的影響不斷減弱,因此,在灰色建模過程中,實際的原始數據不一定全部用來建模,同時,不同長度的原始序列建模后所得模型的預測值也會不同,為了提高模型的預測精度,通過比較不同長度序列預測的相對誤差值來選擇原始數據序列的長度。
通過對河南省歷年農民工工資性收入的原始數據序列采取不等長度序列的方法進行新陳代謝,分別建立GM(1,1)模型,在matlab環境下利用該模型進行預測,將預測值與實際值進行誤差比較,通過比較不同長度序列的相對誤差平均值,選取相對誤差平均值最小的序列長度值。
通過比較2011年及2012年的預測值及實際值可以發現,在大幅度提高農民工工資標準的2011年,預測偏差較大,主要在于以前年份影響工資收入的因素中不含有這個因素;而在2012年,預測偏差較小,說明改進后模型的適用性。
[1] 楊云善.農民工資性收入變動趨勢分析[J].河南社會科學, 2011,19(1):211-213.
[2] 肖云,李先福.基于優化的灰色GM模型的滑坡預測[J].武漢工程大學學報,2012,34(1):31-35.
[3] 李工農.經濟預測與決策及 matlab實現[M].北京:清華大學出版社,2007.
The forecasting of income of wage of migrant worker based on gray model
In the paper, based on gray system theory and method, the data of income of wage of migrant worker of Henan province in recent years is used for setting up GM(1,1) model by the different sequence length. The model is simulated by matlab and used for forecasting of income of wage of migrant worker, the sequence length that the average ratio of the difference between the forecast value and the actual value and the actual value is smallest is selected. The model is verified by the forecast data and actual data of 2011 and 2012.
GM(1,1) model; income of wage;migrant worker;gray system
O14
A
1008-1151(2015)04-0135-02
2015-03-13
康建偉(1979-),男,河南商丘人,河南工業大學電氣工程學院講師,研究方向為電氣工程、建模與分析。