陳江麗
基于均值化主成分分析的城鎮居民消費性支出應用研究
陳江麗
(滇西科技師范學院信息科學與技術系,云南臨滄677000)
均值化主成分分析是在傳統主成分分析法的基礎上,采用均值化方法對數據進行預處理的一種改進方法。利用均值化主成分分析法對全國各地區城鎮居民的人均消費支出情況進行分析,并使用Matlab平臺進行仿真,最終提取出反映消費支出的主成分,為下一步的研究工作提供必要的決策支持。
均值化;主成分分析;城鎮居民;人均消費性支出;指標體系
主成分分析(PCA)是一種線性降維技術,它可以將原來的變量重新組合成一組新的相互無關的綜合變量,即主成分,并從中提取出幾個較少的主成分,但卻能反映原始變量的大部分信息。這種處理方式能簡化數據結構,盡可能多地反映原始評價因子的信息,其有利于抓住事物的主要矛盾,使問題得到簡化。
主成分分析的功能有:降低指標的維數、去除指標之間的相關性和解釋樣本信息。其中,主成分分析主要應用于研究變量相關性的問題。
傳統的主成分分析從協方差矩陣出發求解主成分,而協方差矩陣易受指標的量綱和數量級的影響。因此,一般對原始數據進行標準化處理[1]。標準化處理會使協方差矩陣變成相關系數矩陣,由于原始指標中主要包含兩部分信息:由方差大小反映的各指標的變異程度信息和由相關系數矩陣來體現的各指標間相互影響信息。利用傳統主成分分析法對數據進行標準化處理,會使各指標的方差變為1,只去除了各指標變異程度上的差異,卻不能準確反映原始數據所包含的全部信息[2-4]。標準化數據處理方法雖然消除了量綱和數量級的差異,但也去除了各指標變異程度上的差異,造成了信息的丟失[5]。因此,必須對原始數據的標準化處理方法進行改進。本文利用均值化方法改進傳統主成分分析方法。
通過在傳統主成分分析方法的數據預處理環節采用均值化方法對原始數據進行處理,進一步提高分析結果的準確性。若存在n個樣本組成的樣本集X,每個樣本有p個指標,則第i個樣本Xi=(Xi1,Xi2,…,Xip),i=1,2,…,n。對Xi樣本進行均值化的方法如下:
將原始樣本數據Xi與各指標的均值的比值作為新的樣本數據zi。則均值化后的第i個樣本的第j個指標的數值zij由公式(1)計算得出:

于是均值化后的第j個指標的均值

因此,均值化數據預處理方法即滿足了標準化處理的要求,又充分考慮了各指標間的差異,全面反映了數據的全部信息,能有效地解決標準化處理方法存在的弊端。
近年來,隨著國家經濟和社會的飛速發展,人民生活水平的不斷提高,城鎮居民的消費水平也在日益增長,消費結構發生了顯著變化。居民的消費增長直接關系到整個國民經濟增長的速度和質量,然而影響居民消費增長的因素主要體現在:城鎮居民的平均消費支出水平、各類消費在消費總支出中所占的比重和消費結構的變化等方面。其中,消費結構的研究對擴大內需、搞活社會主義市場經濟、制定產業政策、促進國民經濟的發展都有著極其重要的影響[6]。
由于國內各地區的經濟發展不平衡,居民的消費水平和消費性支出也存在著很大的差異。因此,對我國各地區城鎮居民人均消費性支出的各項指標進行統計分析,綜合出全面反映居民消費情況的主要因素,簡化其它的次要因素,為進一步研究城鎮居民的消費性支出水平和消費結構的差異提供主要的參考證據。
2.1 建立城鎮居民人均消費性支出指標體系
分析和研究城鎮居民消費性支出水平,必須構建合理的指標體系。構建指標體系必須遵循全面性、整合性、代表性和可操作原則。遵循上述原則,本文建立的城鎮居民人均消費型支出指標體系如表1所示。該體系中包含八項反映城鎮居民消費結構和消費水平的指征,能全面反映居民的消費情況,都是日常生活中比較有代表性的消費行為。另外,結合該指標體系,可以將2012年地區城鎮居民人均生活消費支出(來源于《中國統計年鑒2012》)數據作為研究樣本,數據來源真實并具有權威性。

表1 城鎮居民人均消費性支出指標體系
2.2 利用均值化主成分分析法對城鎮居民的消費支出情況進行matlab仿真并分析
2.2.1 對均值化后的樣本數據作主成分分析
在Matlab平臺中,對均值化后的各地區城鎮居民人均消費支出樣本數據,利用princomp函數進行主成分分析,輸出主成分表達式的系數矩陣Coeff、主成分得分數據Score、樣本相關系數矩陣的特征值向量latent。利用這些運行結果,可以作進一步的分析和研究。
根據樣本相關系數矩陣的特征值latent,通過計算特征值和所有特征值總和的比值得出各主成分的貢獻率Explained。

通過出前2個主成分的累積貢獻率已達到了83.3391%,后面6個主成分的貢獻率非常小。因此,只需選取前兩個主成分作為代表,并作進一步地分析。
結合主成分表達式的系數矩陣Coeff,寫出前2個主成分的表達式如下:

2.2.2 第一主成分分析
從第一主成分y1的表達式可以看出,每個指標變量都有相近的正載荷,說明每個指標對第一主成分的影響基本相當。因此,將均值化后各地區的各消費指標數據匯總求和計算出消費總支出,并按第一主成分的得分數據Score由低到高進行排序,結果如圖1所示。可以看出,每個地區的消費總支出和第一主成分得分數據都基本成正比。因此,第一主成分反映的是城鎮居民人均消費支出的綜合水平,可將第一主成分作為綜合消費支出成分。
2.2.3 第二主成分分析

圖1 各地區消費總支出及第一主成分的得分數據
從第二主成分的表達式可以看出,指標(衣著)和(醫療保?。┯兄械瘸潭鹊恼d荷,指標(食品)和(交通和通信)有中等程度的負載荷,說明反映的是衣著和醫療保健的消費總支出、食品和交通通信消費總支出兩個方面的對比。因此,計算出均值化后各地區兩個方面消費總支出之差,并按第二主成分的得分數據Score由低到高進行排序,結果如圖2所示。兩個方面消費支出之差與第二主成分得分基本成正比,通過比較發現,從地區所處的地理位置可以看出,南方地區如上海、廣東、福建、海南等在食品和交通通信方面的消費支出比較大,而北方地區如遼寧、黑龍江、吉林和內蒙古等在衣著和醫療方面的消費支出比較大。主要原因跟南北方的氣候差異有關,北方地區天氣寒冷,居民的消費傾向于購買衣著和支付醫療保健費用。而南方氣候溫和,適宜外出活動,居民的消費則傾向于食品和交通通信方面。因此,第二主成分可作為傾向消費支出成分。
2.2.4 分析結果檢驗
為了分析只提取前兩個主成分而丟掉后面的主成分會造成的信息損失,可調用pcares函數,由主成分得分數據Score重建樣本觀測數據,計算相對誤差均方根E。

從結果可以看出,當使用前兩個主成分重建觀測矩陣時,相對誤差的值都有所下降,隨著主成分個數增多,相對誤差穩步下降,當使用全部主成分時,相對誤差為0,表示沒有信息損失。

圖2 兩個方面消費支出之差及第二主成分的得分數據

圖3 各地區兩個主成分得分散點圖
2.3 綜合分析
為了全面反映地區間兩個主成分的得分情況,作出如圖3中所示的兩個主成分得分散點圖。從圖3中可以看出,總消費較高的地區如上海、北京、廣東和浙江等,第一主成分得分較高;總消費較低的地區如西藏、貴州、江西等,第一主成分得分較低,說明第一主成分反映了綜合消費水平的高低。另外,北方地區第二主成分的得分較高,中部地區次之,南方地區得分較低,則說明第二主成分是由地域差異造成的消費傾向成分。
另外,根據圖3中反映的各地區兩個主成分得分情況,可以按居民人均消費支出情況將全國31個省、市、自治區和直轄市劃分為3類:第一類為上海、北京、廣東;第二類為西藏、貴州;其余地區為第三類。
利用均值化主成分分析法對城鎮居民人均消費支出情況進行分析,能提高結果的準確性,提取出全面反映消費支出情況的主成分,對進一步研究影響消費的因素提供科學和全面的參考依據,為研究對策和經濟政策的制定提供決策支持。
[1]紀榮芳.主成分分析法中數據預處理方法的改進[J].山東科技大學學報(自然科學版).2007(12):95-98.
[2]李竹逸,徐琤.數據預處理在基于主成分分析質量管理中的作用[J].商業文化(下半月),2012(2):175.
[3]王亞雄,李建英.主成分分析法在多元質量控制中的應用[J].工業工程與管理,2005,10(3):121-125.
[4]何曉群.現在統計分析方法與應用[M].北京:中國人民大學出版社,1998.
[5]唐懿芳,鐘達夫.主成分分析方法對數據進行預處理[J].廣西師范大學學報(哲學社會科學版),2002(S1):223-225.
[6]孫彩虹.我國城鎮居民消費結構變動的因子分析[J].重慶工商大學學報(西部論壇),2007(1):103-105.
Research on theApplication of Urban Residents'Consumptive Expenditure Based on Equalization of Principal ComponentAnalysis
CHEN Jiang-li
(IT Department,Dianxi Science and Technology Normal University,Lincang,Yunnan 677000,China)
Equalization of principal component analysis based on the traditional principal component analysis method is an improved method using equalization of data preprocessing.In this paper,the per capita consumptive expenditure of urban residents in different regions of China is analyzed by equalization of principal component analysis method,and use Matlab to simulate.Finally the main components of consumptive expenditure are extracted and provide necessary decision support for future research.
equalization;principal component analysis;urban residents;the per capita consumptive expenditure; index system
F126.1
A
1673-1891(2016)01-0074-03
10.16104/j.issn.1673-1891.2016.01.020
2015-12-05
云南省教育廳科學研究基金(2013C037);滇西科技師范學院自然科學、基礎應用研究基金項目(LCSZL2013009)。
陳江麗(1984—),女,云南大理人,講師,碩士,研究方向:數據倉庫和數據挖掘。