胡駿


【摘要】近年來,伴隨著我國糧食自給率的逐年走低,糧食安全問題常常被提及。糧食的供求平衡不僅與農產品大宗商品市場價格穩定息息相關,更重要的是起著維護這回穩定的作用。而糧食種植面積是是影響糧食供給的最重要因素之一,也是農業供給側改革的主攻方向,因此,對糧食種植面積的研究有著相當重要的理論和現實意義。
【關鍵詞】糧食播種面積 主成分分析 主成分回歸
影響糧食種植面積的因素有很多,包含但不限于以下因素:糧食單位面積產量、農業與非農業收入差距、糧食進口價格、糧食生產中農資的投入量、人均糧食擁有量、農業人口數量和比重、農產品市場價和最低收購價。這些因素既相互獨立又存在著千絲萬縷的內在聯系。用普通的多元回歸分析方法直接對糧食播種面積和相關因素進行OLS回歸會存在嚴重的多重共線性問題,模型的有效性和解釋能力較弱。為避免以上情況,本文采用主成分分析法,先從多種因素中找出影響糧食種植面積的主成分,再利用主成分對糧食種植面積進行回歸分析,并對主成分回歸模型進行綜合檢驗,評價模型的優劣。與傳統的多元線性回歸方法相比,主成分分析法可以有效地將高維自變量數據矩陣通過降維的方式變成低維的主成分矩陣,加快運算速度,也有益于降低模型的多重共線性。
一、主成分分析法
主成分分析法通過尋找多維數據中的共同影響成分,以這些主成分對響應變量進行分析,達到數據降維,簡化計算的目的。
在實際問題中,一般總體的協方差矩陣或相關矩陣是未知的,需要通過樣本來估計。
設X(k)=(xk1,xk2,...,xkp)T(k=1,2,...,n)為來自總體X的樣本,記樣本數據矩陣為
X=x■ x■…x■x■ x■…x■┆ ┆ ┆x■ x■…x■=X■■X■■┆X■■=X■,X■,...,X■
其中X■■表示樣本數據矩陣的各行,Xj表示樣本數據矩陣的各列。所以,樣本的方差矩陣S為
S=■■(X■-■)(X■-■)■=S■■
樣本的相關矩陣R為
R=■Σ■■X*■X*■T=r■■,
其中
X*■=■,■,...,■,
設λ1≥λ2≥...≥λp≥0為樣本協方差陣S的特征值,a1,a2,...,ap為相應的單位特征向量,且彼此正交,則第i個主成分zi=aTix,i=1,2,...,p其中x=(x1,x2,...,xp)T.令
z=(z1,z2,...,zp)T=(a1,a2,...,ap)Tx=QTx.
構造樣本主成分,令
z(k)=QTx(k).
因此樣本主成分為
n=n■ n■…n■n■ n■…n■┆ ┆ ┆n■ n■…n■=z■■z■■┆z■■=z■■Qz■■Q┆z■■Q=XQ
其中z■■表示樣本主成分的各行,Zj表示樣本主成分的各列.
對于樣本主成分有如下性質:
第一:var(Zj)=λj,j=1,2,...,p
第二:var(Zi,Zj)=0,i,j=1,2,...,p,i≠j
在實際應用中,常常將樣本數據中心化,所以
Z=z■ z■…z■z■ z■…z■┆ ┆ ┆z■ z■…z■=z■■z■■┆z■■=(X■-■)■Q(X■-■)■Q ┆(X■-■)■Q
二、模型的建立求解
根據影響糧食種植面積的因素選擇變量進行主成分分析。主成分分析要求變量的個數小于每個變量的維數。因能找到的數據量有限,故經過分析權衡,選擇谷物產量、COBT的小麥主力合約的連續價格、城鄉收入差距、有效灌溉面積、人均糧食占有量、小麥進口量、谷物生產價格指數、農業人口數量這8個變量進行主成分分析。
在進行主成分分析之前,為了將不同數據之間數量級的差異和量綱的差異消除,本文對數據采取了歸一化處理,使所有的變量范圍都位于(0,1)之間。之后采用主成分分析法,利用統計軟件R語言進行主成分分析,得到的結果如下
表一 主成分分析表
■
■
根據上表結果可知,前三個主成分的累積方差貢獻率達到了97%,其中第一主成分的方差貢獻率為71.7%,第二主成分的方差貢獻率為16.6%,第三主成分的方差貢獻率為8.8%;前三個主成分包含了這8個變量的絕大部分信息。因此可以用這三個主成分來作為自變量與糧食種植面積進行回歸。因沒有找到全國糧食種植面積,所以采用全國糧食播種面積來代替。
用這三個主成分對糧食種植面積進行回歸得到的結果如下:
表二 主成分回歸表
■
上表展示了三個主成分對糧食播種面積進行回歸分析的結果。三個主成分的t檢驗結果顯示,除第一主成分之外,第二和第三主成分的系數均沒有通過檢驗,碎石圖也通過最直觀的方式展示了以下結論:三個主成分中第一個主成分對原始變量的解釋程度明顯大于第二主成分和第三主成分之和。回歸方程通過了F檢驗。表明主成分自變量矩陣可以解釋因變量矩陣。因此,主成分回歸方程為:
y=0.57527+-0.39865z1+ε
三、結論
本文通過主成分分析法從影響糧食種植面積的多個變量中找出主成分,之后利用得到的主成分主成分對糧食種植面積進行回歸分析,并對主成分回歸模型進行綜合檢驗,評價模型的優劣。由實證結果可知,影響糧食種植面積的的最重要因素是第一主成分,即糧食播種面積與谷物產量、城鄉收入差距、有效灌溉面積、人均糧食占有量、農業人口數量這些影響有關。與傳統的多元線性回歸方法相比,主成分分析法可以有效地將高維自變量數據矩陣變成低維的主成分矩陣,簡化運算。也有益于降低模型的多從共線性和自相關性。
參考文獻
[1]薛毅.統計建模與R軟件[M].清華大學出版社,2007.
[2]李靖華,郭耀煌.主成分分析用于多指標評價的方法研究——主成分評價[J].管理工程學報,2002,16(1):39-43.