李慧菁
[摘要]該篇文章就是運用探索性數據分析的方法定量地分析消費對于經濟增長的拉動作用。本文分別運用三組耐抗線法和最小二乘法對它們的樣本點進行回歸擬合。在最小二乘法的求解過程中運用了4種判斷異常點的方法,其中包括將原始殘差進行3種尺度下的殘差轉換以及對每個樣本杠桿率的計算,綜合以上4種殘差分析后找出異常點,將去掉異常點后的數據再次進行最小二乘法的求解,得到擬合直線,最終分別求出兩種方法下的均方誤差并進行模型優劣的比較。
[關鍵詞]最小二乘法;三組耐抗線;異常點;最終消費支出;生產總值
[中圖分類號]F832[文獻標識碼]A[文章編號]1005-6432(2014)21-0118-03
1數據來源
為了定量地研究消費與經濟增長的關系,筆者選擇了被公認為衡量國家經濟狀況最佳指標的生產總值以及被認為衡量消費需求最佳指標的最終消費支出。選取的樣本為2011年中國31省的各地區最終消費支出與其對應的生產總值。相關數據來源于統計局發行的《2012年國家統計年鑒》,31省的生產總值在“統計年鑒”中“國民經濟核算”下的“地區生產總值和指數”中,對應的最終消費支出在“國民經濟核算”下的“各地區最終消費支出及構成(2011年)”中。
2三組耐抗線分析
對于數據(x,y),首先把x的值按升序排序使得x1≤…≤xi≤…xn。然后將(xi,yi)平均分為左、中、右三組,使得每組的個數盡可能相等。在三個組中我們分別求出x和y的中位數,分別得到三個組的總括點(xL,yL),(xM,yM)以及(xR,yR)。組內總括點使得擬合線具有耐抗性。為了更好地擬合數據,我們以斜率b0和中心值xm來進行擬合:
=a*0+b0(x-xM)(式1)
a*0=13{[yL-b0(xL-xM)]+yM+[yR-b0(xR-xM)]}(式2)
計算各點的初始殘差:
ri=yi-[a*0+b0(x-xM)](式3)
用(xi,ri)代替(xi,yi),重復擬合過程,得到斜率與水平的調整值δ1,γ1。調整后的斜率和水平值為b0+δ1,a*0+γ1,新殘差為
r(1)i=r(0)i-{y1-[]a*0+b0(xi-xM)]}(式4)
繼續不斷地進行迭代過程,直到斜率的調整值不超過b0的絕對值的001%,得到最后的水平a和斜率b。[3]
將2011年31省的31個截面數據運用該方法計算得出該擬合直線為
=19483+29184(x-82679)=29184x-4646(式5)
三組耐抗性方法下各地區生產總值與最終消費支出的散點圖和擬合直線見圖1、圖2所示。
圖1三組耐抗線下擬合直線
圖2最小二乘法下擬合直線
3最小二乘法分析
31模型初步求解
=a+bx(式6)
該方法即為了使得(-yi)2平方和最小,由此可求得
b=(xi-)(yi-)(xi-)2(式7)
a=-b(式8)
由MATLAB可求得回歸方程為:
=22280x-3951193(式9)
最小二乘法下各地區生產總值與最終消費支出的散點圖和擬合直線見圖2所示。
32異常點分析
321殘差圖
r=yi-i(式10)
將各省的最終消費與其殘差畫圖分析,見圖3、圖4。
圖3原始殘差圖
圖4杠桿率圖
由此圖可看到有一個點明顯超出4000的范圍,而另三個點也略超出4000,則可判定有異常值的存在。嚴重超出4000的樣本為第15個,即山東,略超出4000的有1、9、19號城市,即北京、上海、廣東。
322杠桿率圖
hij=1n+(xi-)(xj-)秐k=1(xk-)2(式11)
杠桿率用h表示。hii即表示如果給yi一個改變量Δyi,hiiΔyi就是它在i中造成的改變。因此,在最小二乘法中,yi的任何改變,都會對i有成正比的影響。這也是非耐抗性的集中體現。對于hij有這樣的規律:它們在1n到1之間,且和必須等于模型中的參數的個數。
在本實例分析,即各地區GDP與各地區最終消費支出的探索性分析中,由于此模型為一元線性回歸模型,只有兩個參數,截距與斜率,又共有31個樣本數據,因此這31個殘差的平均杠桿率為2/31,即00645。而從圖中可以看出有3個殘差的杠桿率遠遠大于其平均杠桿率,找出這三個異常數據點。在MATLAB中可以找到這三個異常值,分別為第10、15、19個省份出現了異常點,即江蘇、山東、廣東三省。
33標準化殘差圖
第i個殘差的方差為:
var(ri)=σ2(1-hii)(式12)
則調整方差為:
rai=ri1-hii(式13)
估計σ2為
σ2=1n-2秐i=1ri2(式14)
則第i個標準化殘差為
rsi=ris1-hii(式15)
圖5標準化殘差圖
圖6除以四分展布后的殘差圖
從圖5可以看出,由于標準化后的殘差消除了異方差,且服從正態分布,則其標準化殘差的絕對值超過Zα2(196)的概率為5%,而由圖可看出有2個值明顯超出了2,又從MATLAB中可找到超過196的異常值分別為9、15、19號城市,即上海、山東、廣東三地,但其中上海的標準化殘差為-19723,其絕對值僅僅略大于196。
34除以四分展布后的殘差圖
rdF=(r-XM)(XU-XL)(式16)
其中,XM為X,即最終消費支出的中位數,XU為X的上四分位數,XL為X的下四分位數。用四分展布定義離群值截斷點時,定義的是離上、下四分位數超過32dF的值,對應此處的殘差即為超過正負2的點即為離群截斷點,如圖6所示。或直接畫出殘差的箱線圖也可一目了然地發現離群點,如圖7、圖8所示。而通過MATLAB可求出僅僅第15號城市,即山東為離群截斷點。
圖7殘差的箱線圖
圖8改進后的散點圖和擬合直線
綜上對于異常點的分析,包括了進行三種尺度劃分的殘差分析,以及對杠桿率的計算可看出第15號城市在4種異常點判斷時均被列入其中,而19號城市在三種分析中均被視為殘差。9號城市雖然出現了兩次,但每次都是剛剛超出標準而被選為異常點,其余的1號與10號也僅僅出現了一次,綜合以上分析,筆者認為應將15號與19號城市剔除,以避免異常值對于回歸擬合的影響。
35模型優化
根據以上分析,將15號與19號城市剔除,再次進行最小二乘法,得到如下擬合直線。擬合圖形如圖8所示。
=22734x-7337587(式17)
36優化效果評價
直接用最小二乘法擬合直線與通過分析異常點而將其剔除的改進后的最小二乘法進行的直線擬合的效果可用均方誤差來比較優劣。
MSE=秐i=1e2in(式18)
首先計算優化后的最小二乘法算得的均方誤差為37216×106,然后計算最初的直接最小二乘法得來的均方誤差為51240×106。由此明顯看出去掉兩個離群點后的擬合偏誤要小得多,模型的優化是有效的。
4三組耐抗線與最小二乘法的比較
將原始樣本數據所進行的三組耐抗線計算與最小二乘法計算所得到的殘差畫在一張圖中,得到圖8。其中綠色的圈代表運用最小二乘法得到的殘差,紅色的圈表示運用三組耐抗線進行擬合后得到的殘差。用肉眼觀察我們發現運用三組耐抗線時有距離均值非常遠的點,而最小二乘法得到的殘差離中心基本都不遠。由此可以看出三組耐抗線本身具有的耐抗性,它不因個別的偏離較大的點而劇烈變動自己的擬合參數值,因此即便有離異很大的點,它會將離群點對它的影響降到很小,因此在殘差圖上就可能出現某些離群點距離擬合直線上對應點的距離很大的情況了。而最小二乘法就基本上不會出現此種情況,因為它要使得殘差平方和最小,因而考慮到了所有的數,包括異常點,而對于離群值越大的點來說,最小二乘法的擬合效果便越不好,因為它為了使得殘差平方和最小,有可能犧牲掉其他的較好的擬合效果,而為了使得這個離群的殘差平方小而越靠近此離群點。因此對于異常值較大或較多的情況下,三組耐抗線的方法一定比最小二乘法的方法可靠。但在此實例中,由于僅有兩個離群點,并且兩個離群點離群的程度都很小,因此由三組耐抗線算得的均方誤差為21752×107,而最小二乘法算出的均方誤差僅為51240×106(見圖9)。
圖9原始數據下三組耐抗線與
最小二乘法殘差的比較
5結論
根據以上三組耐抗線、最小二乘法、剔除異常值的最小二乘法三種方法所進行的殘差的比較,得到的MSE(均方誤差)中最小的為剔除異常值的最小二乘法。因此此實例的最終擬合直線為=22734x-7337587,并且擬合的優度較高。由此可以看出,消費這輛拉動經濟增長的馬車對于經濟的發展確實是有非常穩定的影響的。由此來說,《中共中央關于制定國民經濟和社會發展第十二個五年規劃的建議》中對于促進消費擬定的三條建議對經濟的促進是很有積極作用的。
參考文獻:
[1]許光建幣隕罨改革和擴大內需為抓手努力保持經濟穩定增長——當前我國宏觀經濟形勢和政策分析[EB/OL](2013-09-09)県ttp://www眂nki眓et/kcms/detail/111010盕201309091203010県tml,last visited at 2013-09-09.
[2]謝偉東,洪文峰蔽夜當前經濟條件下如何擴大國內消費需求[J]苯鶉誥濟,2010(9):23-24.
[3]劉俊卿,楊軍,強德厚毖芯科溫變化趨勢的新方法——三組耐抗線[J]備珊燈象,2007(5):79-82.