孫嘉聰 王飛 沈丹



【摘要】主成分回歸是在確保丟失的有用信息最少的情況下,將多數原始變量轉化成幾個少數綜合變量的一種降維回歸方法.主成分回歸能夠很好地解決當樣本數據存在一定程度的重復性并且在高維的空間中做分析時比較復雜的問題.它是一次對回歸自變量重新選擇的過程.
【關鍵詞】主成分回歸;主成分分析;特征值;貢獻率
一、主成分回歸的含義
主成分回歸是根據降維的思想通過線性變換,將樣本中的多個指標組合成少數幾個相互獨立的并且能充分反映總體信息的指標,在不丟掉重要信息的條件下避開了變量間的共線性問題,進而分析.
二、主成分回歸的基本步驟
首先利用主成分分析得到自變量的主成分矩陣和各個主成分累計方差的百分比;其次根據累計方差的百分比大于百分之八十的原則,得到新的回歸方程,再從得到的新的主成分回歸方程中選出最佳標準化主成分回歸方程;最后對最佳標準化方程中新的自變量、因變量做最小二乘估計轉換成一般線性回歸方程.
三、相關定義
樣本數據標準化后,其相關陣的特征值為λ1≥λ2≥…≥λp≥0,φ1,φ2,…,φp為對應的單位正交特征向量,Var(Ri)=λi,i=1,…,p且Var(R1)≥Var(R2)≥…≥Var(Rp).
貢獻率:λl∑pi=1λi為主成分Zl的貢獻率.
累計貢獻率:∑qk=1λk∑mi=1λi為主成分Z1,Z2,…,Zq(q 均方誤差:MSE()=E(-θ)T(-θ)=E‖-θ‖2,其中為θ的一個估計. 四、實際應用 對全國28個省市自治區經濟發展基本情況八項指標做主成分分析,數據如下: 求R的特征值及各特征值的貢獻率 如圖1所示前三個特征值累計貢獻率已達89.5%,則前3個主成分基本包含了全部指標具有的信息,所以我們取前三個特征值,并計算出相應的特征向量. α1=(0.4706410.4567080.424712-0.31944 0.3127290.2508020.240481-0.26267)T α2=(0.1079950.2585120.2875360.400931 -0.404310.498801-0.488680.167392)T α3=(0.192410.1098190.192410.397525 0.24505-0.247770.3321790.723351)T 即前三個主成分分別為: F1=0.470641X1+0.456708X2+0.424712X3-0.31944X4+0.312729X5+0.250802X6+0.240481X7-0.26267X8 F2=0.107995X1+0.258512X2+0.287536X3+0.400931X4-0.40431X5+0.498801X6-0.48868X7+0.167392X8 F3=0.19241X1+0.109819X2+0.19241X3+0.397525X4+0.24505X5-0.24777X6+0.332179X7+0.723351X8 從第一個主成分表達式中可得知,前三項指標的系數比較大,起主要作用;我們可以把第一個主成分看成是前三項指標(GDP、居民消費水平、固定資本投資)反映經濟發展狀況的綜合指標. 從第二個主成分表達式中可得知,第四、五、六、七項指標系數比較大,且第六、七項指標的影響尤其大,則將其看成四、五、六、七項(職工平均工資、貨物周轉量、居民消費價格指數和商品零售價值指數)的綜合指標. 從第三個主成分表達式中可得知,第八項的指數影響最大,遠超過對其他指標的影響,則可單獨看成是工業總產值的影響. 由以上分析可知,主成分回歸的主要目的是要提取隱藏在矩陣X中的相關信息,然后用于預測變量Y的值.這種做法可以保證讓我們只使用那些獨立變量,從而達到改善預測模型質量的目的.由于主成分之間的互不相關的性質,因此它們攜帶的最初變量的信息是沒有重復的,起到相互補充的作用.主成分回歸在解決實際問題上是非常重要的. 【參考文獻】 [1]王松桂.主成分的最優性與廣義主成分估計類[J].應用概率統計,1985(01):27-34. [2]童恒慶.線性回歸模型及計算[M].安徽教育出版社,1987. [3]王松桂等.主成分的最優性質[J].科學通報,1984(08):449. [4]楊維權.多元統計分析[M].北京:高等教育出版社,1989.