呂莉莉,劉春紅
(天津財經大學統計系,天津 300222)
我國農業耕地有限、農業人口數量非常多、農業綜合生產力不高、農村經濟社會相對發展落后,結合我國農業的實際情況,通過選取糧食產量作為產出變量,糧食作物播種面積,農用機械總動力,化肥施用量,有效澆灌面積,成災面積以及農業勞動力等6個指標作為投入變量,以研究分析這些因素對糧食產量的影響程度。基于計量經濟學的理論我們得出一個比較理想的模型并且基于此模型我們對糧食產量的數據質量問題給出一系列的解釋。
生產函數這一名詞是由美國數學家CharlesCobb和經濟學家PaulDauglas提出的,他們用歷史統計資料研究二十世紀初美國的資本投入和勞動投入對產量的影響時,得出的一種生產函數,是分析投入和產出之經濟數量關系的常用的一種生產函數。模型如下:
Y=AKαLβ其中A為常數項,代表一定的技術水平。A,B分別為資本投入和勞動投入的生產彈性。
影響糧食產量的因素非常多,本文選取了糧食作物播種面積,農用機械總動力,化肥施用量,有效澆灌面積,成災面積以及農業勞動力作為解釋變量。我國的糧食產量為被解釋變量。
模型使用1990~2010年的時間序列數據(數據來自于《中國統計年鑒》)。糧食產量的C—D模型如下

其中Y為糧食產量,A為常數項,S代表糧食作物播種面積,K代表農用機械總動力,H代表化肥施用量,G代表有效澆灌面積,Z代表成災面積,L代表農業勞動力,α1,α2,α3,α4,α5,α6表示的是糧食作物播種面積,農用機械總動力,化肥施用量,有效澆灌面積,成災面積以及農業勞動力的產出彈性。
我們把上式(1)式兩邊取對數得到如下形式的多元線性回歸方程:

我們利用統計軟件求解該模型如下所示:

由于F0.05(6,14)=2.85<91.13924所以總體回歸方程是顯著的。在α=0.05的情況下 t0.025(14)=2.15多個參數未通過t檢驗因此存在嚴重的多重共線性,這一點可以通過各解釋變量的相關系數表得到(見表1所示)。

表1 相關分析結果
由于此模型存在多重共線性因此我們采用逐步回歸法進行改進,最終我們的到如下的的模型:

t值分別為(-6.155),(15.321),(21.828),(-5.618)R2=0.972,Rˉ2=0.967 DW=1.742 dl=1.03 du=1.67 t值均顯著,通過懷特檢驗我們也知道此模型不存在異方差,并且1.67<DW<4-1.67,所以此模型也不存在序列相關性。
綜上所述,我們得到的模型lnY=-6.918+1.352lnS+0.339lnH-0.079lnZ是一個比較合理的模型。
從此模型中我們可以看出糧食產量主要受制于糧食作物播種面積,化肥施用量,成災面積,并且糧食作物播種面積的產出彈性最大,說明播種面積仍然是糧食產量制約性最強的因素,因此我們要積極保證播種面積,擴大播種面積是提高糧食產量的有效途徑。化肥施用量的產出彈性排第二位,說明我國就糧食產量而言,化肥的使用對糧食仍有重要的作用,但過度使用化肥也會對土壤的有機結構造成影響,不利于農業的可持續發展。成災面積也是影響糧食的一個重要方面,我國是一個自然災害發生比較頻繁的國家,生態環境非常差,其中荒漠化面積占國土面積的27.3%,所以必須采取一些措施,例如加大財政投入、進行大江大河治理、退耕還林、農田水利建設,以此來提高抗災能力。
統計診斷是20世紀70年代中期發展起來的一門統計的分支學科,因為任何統計模型都只能是對客觀現象復雜變化過程的一次近似描述,不可避免地要包含著某些假設,甚至模型本身也是一種假定。所以,在研究實際問題時,常面臨這樣的問題:收集到的客觀現象的數據準確性如何,錯誤數據對模型的估計影響有多大。模型統計診斷就是針對這些問題而發展起來的。通過統計診斷,可以找出嚴重偏離既定模型的數據點,也就是所謂的異常值點,強影響點,高杠桿點。
在上述具有經濟意義的模型下,通過計算模型的統計診斷量,分析各個樣本點對模型的影響,找出所謂的異常點,從而認為這些數據是數據質量的可疑點。因此我們可以使用如下統計量:學生化殘差,馬氏距離,Cook距離,杠桿值來進行分析。
(2)Cook統計量。
該統計量用于檢驗強影響點,度量對參數β的影響的基本的統計量。Cook提出以Cook距離來衡量某一個數據點是否是強影響點,理論依據是:對于模型,在參數空間Rp中,真實參數β與其估計值之間存在一定的關系,形成以為中心的橢球,落在橢球以外的β點的概率很小,可以考慮通過刪除所考察的數據點i前后的兩者的差異來衡量影響,其中表示刪除數據點i后對原始模型進行估計得到的參數估計值。Cook距離定義如下

其中,s2表示通過整個樣本對模型進行估計得到的隨機誤差項的方差估計值。Cook距離的大小反映了刪除某個數據點后,模型殘差發生的變化量。
(3)另一個度量數據點影響的中心點杠桿值,反映某一個數據點對模型擬合的影響,用hi表示第i個數據點的杠桿值,通常比較hi與臨界值h(h=2*k/n),如果前者比較大,判定第i個數據點為強影響點,其中k為解釋變量的個數,n為樣本量。同樣地,馬氏距離也是度量強影響點的一個有效統計量。
⑴基于上述(3)模型使用SPSS軟件我們可以得到學生化殘差的折線圖如圖1所示。
圖1表明,1995~2010年間的學生化殘差基本都在0值附近上下波動,但是可以看出2008年、2001年,2006年、2000年、2010年的絕對值都超過了1,因此我們可以認為這些數據點為異常點。
(2)通過軟件我們得到如下的馬氏距離圖。
從圖2中我們可以看出馬氏距離的值大部分都在2~3之間波動,波動性比較大的點有1990年、2004年、2003年、2010年、1991年分別為 7.60、7.46、7.36、4.72、3.002由此可見,異常點主要集中在這四年。
(3)利用軟件得到Cook距離的折線圖。
圖3顯示,1995~2010年的Cook距離均在0.1以下小幅度波動,2000年升高到了0.1024接著2001年又有小幅度的升高上升到0.13,然后又逐漸回落,到了2003年、2004年驟然升高,升高到0.134,隨后幾年有小幅度的波動,直到2008年上升到了0.17,到了2009年回落了,然而2010年又升高到0.16。因此我們可以認為2008年、2010年、2004年、2001年、2000年較有可能稱為異常點。
(4)最后我們得到杠桿值的折線圖如圖4所示。
圖4表明杠桿值大部分都在0.3以下,杠桿指從 1990年 的0.3800111下降到1991的0.150103214,隨后的幾年變化比較平穩。直到2003年杠桿值超出了臨界值(為0.286)達到了0.3678,2004年又有了小幅度的升高達到0.373,從此之后杠桿值變化較平穩,均未超出臨界值。因此我們有理由認為1990年、2004年以及2003年的值為異常值。

圖1 學生化殘差折線圖

圖2 馬氏距離圖

圖3 Cook距離的折線圖

圖4 杠桿值折線圖
我們把通過學生化殘差、馬氏距離、Cook距離、杠桿值得出的異常值和強影響點整理如表2所示。

表2 異常值及強影響點整理表
從表2中我們可以看出,2004年,2010年分別出現了3次;2003年、2008年、2001年、2000年、1990年分別出現了兩次,1992年和2006年分別出現了1次。
因此我們可以把這些點都歸到可疑點數據類,通過查找有關的這些可疑樣本點的資料,記錄對其進行的復查,同時還要對這些年份的宏觀經濟環境、發生的重大事件等進行分析,最后才能下結論評估可疑樣本數據的質量。
(1)所建立的計量模型的形式及解釋變量的選取沒有趨勢模擬評價法那么隨意,遵循一定的經濟理論,借助與考察相關的經濟指標的數據來研究考察指標的數據質量是該方法的一個特點。
(2)本文主張選取較少的解釋變量進行分析。因為在解釋變量較少的情況下,既可以通過控制解釋變量的數據質量有效控制評估的效果,同時也可以將模型簡化。
(3)在模型建立后,通過診斷統計量,診斷出偏離模型的樣本點,認為在由模型所建立的空間系統中,各個指標的位置由解釋變量和被解釋變量的值確定。如果發生的偏離也就是說解釋變量與被解釋變量明顯的不符時,在假設解釋變量的數據可靠地前提下,懷疑觀測指標的數據質量。與趨勢模擬評估法不同的是運用診斷統計量可以對各個樣本點同時進行評估。
[1]尹成杰.關于我國糧食生產波動的思考及建議[J].農業經濟問題,2003,(10).
[2]熊華,譚麗燕,王爭艷.南寧市糧食生產影響因素分析[J].華中農業大學學報(社會科學版),2006,(6).
[3]肖國安,王文濤.糧食產量的波動及其平抑[J].湖南科科技大學學報,2006,(1).
[4]KuehYY.Weather Cycle Sand Agricultural Instability in China[J].Journal of Agricultural Economics,1986,37(1).
[5]張軍等.中國省際物質資本存量估算:1952~2000[J].經濟研究,2004,(10).
[6]王小魯.關于中國經濟增長率的幾點討論[J].經濟學(季刊),2002,(1).
[7]許憲春.中外經濟學家對中國經濟增長率的評論[J].財貿經濟,2003,(2).
[8]陳曉玲,李國平.我國地區經濟收斂的空間面板數據模型分析[J].經濟科學,2006,(5).
[9]李金昌.論什么是統計數據質量[J].統計與決策,1998,(9).