姜 磊
(浙江財經大學 經濟學院,浙江 杭州 310018)
自從Paelinck和Klassen[1](1979)首先提出“Spatial Econometrics”(空間計量經濟學)的術語以來,經過近40年的發展,空間計量經濟學逐漸融入計量經濟學領域,成為國際上認可的定量研究經濟變量之間關系的模型方法。除此之外,空間計量經濟學也大量地應用于自然地理學、人文地理學、經濟地理學、區域科學、政治學、社會學等領域。將空間交互效應的概念引入到這些學科領域,成為這些學科領域研究的新視角。
進入2000年以來,應龍根[2](2005)和林光平等[3](2005)學者將空間計量經濟學引入到國內,應用中國的數據對中國問題進行實證分析。由此,空間計量經濟學正式開始進入到國內的學術界。隨后,引起了很多學者的興趣,涌現出一大批應用空間計量模型對國內的各種經濟社會問題展開的實證分析。其中,吳玉鳴[4](2004)首次在博士論文中廣泛地應用空間計量模型,為空間計量經濟學在國內的推廣做出了很大貢獻。隨后,王立平[5](2005)、李志剛[6](2007)、顧佳峰[7](2007)、周建[8](2008)、柯善咨[9](2009)、張學良[10](2010)等學者也利用空間計量模型對國內的問題開展實證分析。可以說,空間計量經濟學的廣泛應用,成為繼新經濟地理學之后推動區域科學復興的一股新力量(胡安俊和孫久文,2010)[11]。
然而,就目前的研究范式來看,大多數國內的研究在空間計量模型的選擇和應用上,既有創新之處,例如將空間計量模型應用于各種學科領域,然而,在空間計量模型選擇上又有局限性,對空間計量模型的認識稍顯片面。為了更好地推廣和普及空間計量經濟學在國內學術界的應用,同時也為了疏解空間計量經濟學在應用上的一些認識不足。本文主要討論3個問題:第一,空間計量模型之間的相互聯系;第二,拉格朗日乘子檢驗的無效性和局限性;第三,空間計量經濟學模型選擇的新思維。
在介紹空間計量模型之前,首先要引入空間效應的概念??臻g效應包括空間依賴性和空間異質性,其中,空間依賴性是本文關注的重點??臻g依賴性的理論基礎是地理學第一定律。具體來說,空間距離相近的事物具有相似性。這種相似性可以通過空間交互作用得以加強。在社會經濟現象中,空間范圍內相近的空間單元的某種屬性值具有相似性被稱為空間自相關現象,可以用來描述空間依賴性??臻g依賴性體現出了空間交互作用,換言之,空間單元之間存在相互影響的現象。
在介紹計量模型中如何考慮空間交互效應之前,首先引入傳統的、不包含空間因素的OLS回歸模型,模型為y=Xβ+ε。其中,y表示因變量;X表示自變量,β為待估計的參數;ε表示隨機干擾項??梢钥闯觯琌LS模型包含3個最基本的組成部分:因變量、自變量和干擾項。相應地,空間交互效應在模型中也分別表現在這3個組成部分。一般來說,空間計量模型與傳統計量模型最大的區別在于納入了空間結構。其中,空間權重矩陣W就是描述空間單元在空間中的組織形式。因此,這3個組成部分的3種空間交互效應可以在模型中分別表示為:Wy、WX、Wε。其中,Wy表示鄰近空間單元因變量對本空間單元因變量的影響,被稱之為內生空間交互效應;WX表示鄰近空間單元的外生變量對本空間單元因變量的影響,被稱之為外生空間交互效應;Wε表示的是干擾項中的空間依賴性。這三種空間交互效應包含在計量模型中,形成不同的空間計量模型設定形式。之所以考慮這3種空間交互效應是因為OLS回歸后的殘差可能存在空間依賴性。在傳統的OLS模型中,殘差需要滿足高斯—馬爾科夫定理。但是,卻忽略了殘差之間可能存在的空間依賴性,如果沒有剔除空間依賴性,那么有可能導致有偏且不一致的估計量。
本文主要考慮3種空間權重矩陣:第一,基于地理鄰近性的Queen空間權重矩陣(以后簡稱為Queen)。如果2個空間單元在邊界上有共同的點或者邊,則認為這兩個空間單元相鄰;第二,基于距離的空間權重矩陣,計算空間單元兩兩之間的距離,然后設置門檻值,在門檻值之內的空間單元被認為有空間交互作用(以后簡稱為Distance);第三,K個最近鄰居的空間權重矩陣,其中K表示鄰居的個數,本文K分別選取3到8(以后簡稱為K3-K8)。前兩種為對稱矩陣,后一種為非對稱矩陣。
一般來說,目前學術界常見的空間計量模型有七種。首先介紹包含因變量空間交互效應的空間計量模型——空間滯后模型(Spatial Lag Model or Spatial Autoregressive Model, SLM or SAR)。由于模型中考慮了因變量的空間滯后項,因而可以很好地描述空間單元因變量的空間交互作用。
另一種常見的空間計量模型為空間誤差模型(Spatial Error Model, SEM),與空間滯后模型不同的是,空間誤差模型是由2個公式組成的聯立方程,特點是包含了隨機干擾項的空間滯后項。
盡管空間滯后模型包含了因變量空間滯后項可以剔除干擾項中的空間依賴性,但是空間滯后模型的殘差項依然可能存在空間依賴性。因此,一個更為一般的空間計量模型可以構造出來(Elhorst, 2014)[12],這個模型也被稱之為SAC模型(LeSage and Pace, 2009)[13]。SAC模型涵蓋了空間滯后模型和空間誤差模型的所有特征。
同樣,自變量也可能存在空間交互效應。因此,WX項也可以考慮在模型中,從而形成了自變量空間滯后模型(Spatial Lag of X Model, SLX)。
由于自變量的空間交互效應在實證中普遍存在,那么對于空間滯后模型來說,在考慮了因變量的空間交互效應時,也應該考慮自變量的空間交互作用。這是因為自變量空間滯后項如果在統計上不顯著,那么完全不會影響到模型的估計。相反,如果忽略了自變量的空間滯后項,那么可能有遺漏變量的風險(Elhorst, 2014; LeSage and Pace)[12-13]。這種包含了外生解釋變量空間滯后項的模型稱之為空間杜賓模型(Spatial Durbin Model, SDM)。
同樣道理,空間誤差模型也可以考慮自變量的空間交互效應,從而產生了另一種空間計量模型:空間杜賓誤差模型(Spatial Durbin Error Model, SDEM)。
順著這個思路,如果在一個模型中同時考慮3種空間交互效應的話,即包含Wy、WX、Wε,那么就形成了一個最為一般的空間計量模型:一般嵌套空間模型(General Nesting Spatial Model, GNS)(Elhorst, 2014)[12]。這7種空間計量模型的具體形式參見圖1。
上述介紹了OLS模型和7種空間計量模型,這8種模型之間存在著相互聯系(Elhorst, 2014; Vega and Elhorst, 2015)[12, 14],可以歸屬為同一個模型類別(Family),如圖1所示。

圖1 空間計量模型之間的聯系
圖1最左邊的為一般嵌套空間模型,通過對一般嵌套空間模型施加約束條件就可以得到右邊的各個空間計量模型。其中,空間杜賓模型可以簡化為空間滯后模型或空間誤差模型。
由于這8個模型之間是相互聯系的,那么,這就產生了一個問題。在實證分析中,究竟是從最左邊的一般嵌套空間模型開始分析,還是從最右邊的OLS模型開始分析?如果研究的思路是從左到右,則被稱為從一般到特殊方法;反之,如果研究的思路是從右到左,則被稱之為從特殊到一般方法。在實證分析研究中,兩種方法都是可行的。Florax等(2003)[15]建議從經典線性回歸模型作為研究的出發點,然后對模型進行擴展。具體來說,從最簡單的OLS模型中添加空間滯后項要比從一般到特殊的方法好得多。Elhorst(2010)[16]也非常贊同Florax等(2003)[15]的研究思路。另一方面,從圖1來看,也可以從最復雜的一般嵌套空間模型作為分析的開始,這是因為一般嵌套空間模型包含了所有三種空間交互效應。如果空間交互效應在模型中不顯著,那么可以簡化為其他的空間計量模型。
1. 拉格朗日乘子檢驗判斷模型
空間計量模型除了在模型中可以定量地描述空間交互效應之外,更重要的作用是剔除隨機干擾項中的空間依賴性。在經典的OLS高斯-馬爾可夫定理中,模型回歸估計后的殘差被認為在空間上是呈現隨機分布的,并沒有考慮到空間依賴性因素。在對模型進行OLS估計時,如果殘差中存在空間依賴性,那么會導致不一致且無效的估計量。因此,檢驗殘差是否存在空間依賴性是空間計量模型分析的重要步驟(歐變玲等,2010)[17]。因此,大多數實證分析以OLS模型作為研究的出發點。
空間滯后模型和空間誤差模型由于分別考慮到了因變量的空間滯后項和干擾項的空間滯后項,所以在大多數情況下可以剔除殘差中的空間依賴性。為了甄別殘差中是否存在空間依賴性,Moran(1950)[18]提出的Moran’s I方法,這種方法簡單易行,但是缺點是無法指明選擇何種模型。由于存在這2種空間計量模型,為了判斷選擇,Burridge(1980)[19]和Anselin(1988)[20]基于OLS模型中的殘差項構造出了拉格朗日乘子檢驗(Lagrange multiplier test,LM)用于選擇合適的空間計量模型。具體來說是通過LM-Error和LM-Lag統計量來判斷選擇空間滯后模型還是空間誤差模型。實證分析中,在很多情況下LM-Error和LM-Lag統計量同時高度顯著,在選擇空間計量模型時又出現了選擇判斷上的困難,為了解決這個問題,Anselin(1996)[21]又提出了穩健性的拉格朗日乘子檢驗(Robust Lagrange multiplier test,Robust-LM)用于進一步判斷究竟空間滯后模型和空間誤差模型哪一個是更適合的模型。具體來說,如果Robust LM-Error統計量顯著,那么應該選擇空間誤差模型,如果Robust LM-Lag統計量顯著,那么就應該選擇空間滯后模型。但是,LM檢驗的缺點是只能判斷模型應該添加因變量的空間滯后項還是應該添加干擾項的空間滯后項。
2. 空間杜賓模型作為分析的起點
作為空間杜賓模型的倡導者,LeSage和Pace(2009)[13]認為空間杜賓模型應該成為研究的起點。這是因為在模型設定中如果忽略因變量的空間滯后項Wy和自變量的空間項WX,可能會造成模型遺漏偏誤的問題(Greene, 2011)[22]。相反的是,如果只是忽略了空間自相關誤差項Wε,也只是造成了一些效率的損失而已。換言之,估計量仍然具有一致性,但是不再具備有效性。進一步來說,如果數據生成過程即便是其他空間計量模型(除一般嵌套空間模型外),那么選擇空間杜賓模型也不會得到有偏的估計。但是,如果選用一般空間模型作為分析的起點,假若數據生成過程是空間杜賓模型或者空間杜賓誤差模型,那么一般空間模型就有遺漏變量的危險。同理,選用空間杜賓誤差模型,如果數據生成過程是空間滯后模型、一般空間模型或者空間杜賓模型,那么空間杜賓誤差模型也有遺漏變量的危險。
除此之外,選用空間杜賓模型還有一個好處。如果數據生成過程是空間誤差模型,那么空間杜賓模型也不會產生錯誤的標準誤和t統計量。這是因為空間誤差模型是空間杜賓模型的一個特例。從圖1也可以看出,空間杜賓模型在一些條件下可以簡化為空間滯后模型或者空間誤差模型。換言之,空間滯后模型和空間誤差模型是空間杜賓模型的2個特例。
之所以沒有選擇一般空間模型和一般嵌套空間模型作為分析的起點,是因為這2種模型在實證分析中極為罕見(Elhorst, 2010)[16],并且在理論解釋方面仍然存在一定的問題。換言之,這2種空間計量模型僅僅是作為理論存在的模型。
由于不存在普適意義的空間權重矩陣,并且不同的空間權重矩陣也會導致不同的空間計量模型結果(孫洋,2009)[23]。因此,大多數空間計量學者在研究空間計量問題時通常給出一個具體案例。這是因為脫離了實證研究來討論空間權重矩陣和空間計量模型沒有任何意義。具體來說,對于傳統的截面數據來說,樣本之間是相互獨立的,任何排序或者組織形式并不會影響模型的估計結果。然而,對于空間樣本數據來說,空間單元在空間上有明顯的特定組織結構形式。并且在這種空間結構中,空間單元的某個屬性值往往具備一定的相似性,換言之,空間依賴性。也就是說,空間樣本數據往往不是相互獨立的。此外,空間單元的組織形式也是需要具體問題具體分析,并不存在統一的空間組織形式,或者歸納出公認的空間組織形式的規律。基于上述理由,為了討論上述LM檢驗的有效性問題以及空間計量模型選擇的問題,本文也給出了一個典型的案例——中國150個城市空氣質量指數的社會經濟影響因素分析。
中國環境問題日益凸顯,尤其是空氣污染問題最為突出。近些年,中國飽受長時間、大范圍霧霾問題的困擾。并且,經常發生在一些經濟發達地區,如京津冀、長三角以及珠三角城市群??諝馕廴締栴}引發了公眾強烈的反應。為了監測和治理日益惡化的空氣質量問題,中國環境保護部發布了《環境空氣質量標準》作為新的環境監測標準(中國生態環境部,2012)[24],其中提出了空氣質量指數(Air Quality Index, AQI)作為新的空氣質量評價體系。AQI為一個無量綱指標,數值越大,表示空氣質量越差,空氣污染越嚴重。AQI提出之后被民眾廣泛接受,同時也受到了學術界的認可和廣泛關注,針對AQI問題開展了諸多研究(高慶先等,2015;藺雪芹和王岱,2016)[25-26]。
由于數據可獲得性受限,本文參考已有的實證研究結果,選取了地區人均生產總值(GDP)、外商直接投資(FDI)、第三產業(Third)、人口密度(Density)、細顆粒物(PM2.5)、和民用汽車保有量(Cars)6個AQI的影響因素。AQI和PM2.5濃度數據為2014年的截面數據,來源于中國環境監測總站。2014年中國在190個城市設立了環境監測站,這其中包括地級市和縣級市。本文剔除了縣級市,并且由于受限于其他數據的可獲得性,最終的樣本為150個城市。模型中的FDI數據、地區人均生產總值、第三產業、人口密度、民用汽車保有量來源于《中國統計年鑒(2015)》《中國城市統計年鑒(2015)》和《統計公報(2014)》。
1. Moran’s I檢驗結果
由于空氣污染在空間范圍內具有明顯的擴散效應,因此,城市間的AQI具備明顯的空間集聚現象。與大多數經濟社會問題不同的是,空氣污染的集聚擴散是一個純自然的空間交互過程,因而可以判斷出城市AQI具備明顯的空間自相關現象。在建立空間計量模型之前,首先可以利用Moran’s I指數來進行驗證。本文選擇Queen空間權重矩陣對150個城市的AQI年平均值進行Moran’s I檢驗,檢驗結果發現Moran’s I值為0.639,表現為顯著的正向空間自相關。本文還采用了不同的空間權重矩陣進行Moran’s I檢驗,結果顯示均在1%顯著性水平下拒絕了“空間隨機分布”的原假設,表明了150個城市的AQI存在明顯的空間交互效應。
2. 有關空間自相關的討論
在很多實證分析中,對因變量進行Moran’s I檢驗是十分常見的。需要說明的是,空間單元上的某種屬性在空間上表現出空間自相關現象,有可能是空間交互作用的結果,也有可能是由于統計誤差造成的(Anselin, 1988)[27]。前者可以看作是真實的數據生成過程,但是后者是造成虛假空間依賴性的一個重要來源。
由于空氣污染存在擴散現象,故此城市間AQI表現出強烈的正向空間自相關。但是,對于大多數社會經濟問題來說,這種空間交互作用解釋起來通常是模糊的,這是因為有時候在理論上很難解釋為什么相鄰的空間單元的某種屬性值會表現出相似性現象。對于自然地理學來說,地理學第一定律在既定的空間維度和時間尺度上是適用的,但是對于社會經濟學來說,人類行為充斥著不確定性和偶然性,并不能用地理學第一定律來進行描述(Barnes, 2004)[28]。如果用地理學第一定律來進行解釋,或者簡單地描述空間交互效應促使空間集聚現象的形成,很顯然是具有爭議性的。例如,對于社會經濟的一些強外生變量來說,也有可能存在空間集聚現象。例如,中國大陸31個省份的身份證號碼開頭兩位代碼明顯具有強外生的性質,如果對其進行空間自相關檢驗,可以發現存在十分顯著的空間集聚現象。這個現象除了人為的設定因素之外,不存在任何的空間交互影響。由此可見,對因變量進行空間自相關檢驗在某些情況下是沒有必要的(姜磊,2014)[29]。更進一步來說,空間自相關檢驗是探索性空間數據分析的一個組成部分,對于社會經濟研究來說并不能作為判斷存在空間依賴性的唯一依據,更重要的標準應該是理論基礎。理論基礎應該成為模型選擇的重要依據(姜磊,2014)[29]。
在社會經濟空間計量實證分析研究中,空間分析應用已經非常普遍(趙永和王巖松,2011)[30]。通常的做法是先進行空間自相關分析,然后進行空間計量建模。這借鑒的是地理學中的空間分析流程,即先是“數據驅動”分析,然后是“模型驅動”分析(Anselin, 1989)[31]。所謂的“數據驅動”就是讓數據自己說話(Gould, 1981)[32],對于社會經濟學者來說通常采用的是空間自相關分析。“模型驅動”就是根據理論假設建立合理的空間計量模型。概括來說,目前的空間計量研究也秉承著3類基本的空間分析類別:即空間數據統計分析、基于地圖的分析和地理模型和數學(計量)模型(李德仁等,2006)[33]。對于社會經濟學者來說,唯一欠缺的可能就是基于地圖的分析。誠然,空間數據分析有很多優點,但是探索性的空間數據分析過程也不應該成為模型選擇的唯一判斷標準。
1. LM檢驗結果分析
分析完中國150個城市AQI的空間自相關分析之后,對其影響因素進行分析。城市之間的AQI存在很明顯的空間溢出效應,無論是統計檢驗結果還是實際情況,在分析AQI影響因素時應該納入空間因素,即考慮AQI的空間滯后項。也就是說,空間滯后模型應當是合適的空間計量模型形式。然而,為了穩健性以及檢驗判斷,本文采用OLS進行回歸,然后采用LM檢驗用于校驗上述判斷是否正確。OLS回歸結果如表1所示。

表1 OLS模型估計結果
注:圓括號內為標準誤差;***、**和*分別表示1%,5%和10%顯著性水平.
表1第2列的OLS模型(1)包含了全部6個變量,由回歸結果可知,LnGDP、LnGDP2和LnCar變量高度不顯著。LnCar變量不顯著的原因跟數據選取有關。剔除了LnCar變量后,回歸結果見OLS模型(2)。LnGDP和LnGDP2變量依然不顯著,說明不存在倒U曲線。進一步地剔除LnGDP2變量,回歸結果見第4列。由OLS模型(3)估計結果可知,所有變量均顯著。從擬合優度R2來看,模型擬合程度很好。
OLS模型假設150的城市的AQI觀察值在空間上是獨立的,這顯然違反了地理學第一定律。各個城市之間的AQI并非隨機分布。盡管模型應該指向空間滯后模型,但是本文依然給出了5種不同空間權重矩陣情況下的LM檢驗結果,如表2所示。

表2 LM檢驗結果
注:方括號內為概率值;K4、K6和K8的結果類似,故此未列.
表2左邊為OLS模型(3)的LM檢驗結果,右邊為OLS模型(4)的LM檢驗結果。對于OLS模型(3)來說,當選擇Queen空間權重矩陣時,LM-lag和Robust LM-lag統計量均遠遠沒有通過10%顯著性水平的檢驗,但是LM-error和Robust LM-error統計量高度顯著,說明在Queen空間權重矩陣情況下,LM檢驗結果指向了空間誤差模型,而非空間滯后模型。這與選用Queen空間權重矩陣計算出的Moran’s I結果完全相悖。由此可見,即使因變量的Moran’s I表現為正的空間自相關,納入模型的因變量空間滯后項Wy也可能在統計上不顯著。當然,這與空間權重矩陣的選取以及自變量密切相關。
但是,基于距離和K(3-8)個最近鄰居的空間權重矩陣的LM檢驗結果顯示4個統計量均高度顯著,表明空間滯后模型和空間誤差模型均可。這顯示,LM檢驗因選擇不同的空間權重矩陣而得出了不同的結論。同時,也說明了不能完全依照LM檢驗結果來選擇模型。LM統計量是根據OLS模型回歸后的殘差進行構造,通過這4個統計量的構造方式也可以得知,LM檢驗與所選的空間權重矩陣密切相關。另外,LM檢驗結果也與自變量密切相關,自變量會影響到回歸后的殘差,這對LM檢驗結果同樣會產生影響。如果在模型中添加一個高度顯著的自變量,很顯然會極大地影響到回歸后的殘差,從而影響LM統計量。對于本例來說,PM2.5變量高度顯著,如果只在模型中考慮PM2.5變量,那么LM檢驗的結果幾乎沒有任何變化。事實上,4個LM統計量都顯著的情況經常發生在空間面板模型的LM檢驗上。Elhorst(2014)[34]就指出應該考慮空間杜賓模型。穩健性的拉格朗日乘子檢驗的高度顯著是因為顯著的空間滯后效應,對于實證分析來說,如果存在高度顯著的空間滯后系數,那么這種檢驗方法就不再有效(Anselin, 1996; 張進峰和方穎,2011)[21, 35]。
2. 空間權重矩陣的討論
空間權重矩陣是近似地模擬地理鄰近性、空間結構和空間關系的一種數量方法,也是空間數據分析和空間計量經濟學最重要的核心元素。但遺憾的是,至今仍沒有經濟學理論、區域科學理論和計量經濟學統計檢驗的方法來判斷空間權重矩陣的設定問題(Jiang and Folmer, 2014)[36]。并且,空間權重矩陣的設定也并非具有普適性,因此,針對每一個具體的實證案例應該進行具體問題具體分析??梢哉f,空間權重矩陣是空間計量經濟學和空間數據分析中最強的假設條件。很多學者都認為空間計量經濟學最大的一個缺點就是空間權重矩陣無法判定,只能預先設定(Elhorst, 2010; Anselin, 1988; Leenders, 2002)[16,27,37]。
如何提出一個具有普適意義選取空間權重矩陣的方法,一直以來都是很多空間計量學者努力的方向(Kelejian and Robinson, 1995; Griffith, 1995; Tiefelsdorf and Griffith, 1999; Getis and Aldstadt, 2010)[38-41]。孫洋(2009)[42]提出了利用非嵌套的方法來判斷空間權重矩陣的優劣,這種方法固然可以針對不同空間權重矩陣的選擇有一個統計上的判斷,但是也僅僅是停留在統計意義上,很難用理論去解釋為什么檢驗結果所選取的空間權重矩陣優于其他。此外,這個檢驗還存在另一個問題,就是只能檢驗針對所選取的空間權重矩陣來進行判斷,而沒有提出一種如何構造最優空間權重矩陣的方法。更為重要的是,空間權重矩陣的判斷不具有普適意義,對于不同的空間結構問題,最優的空間權重矩陣選取的方法也有可能是不同的。另外,地理空間尺度也是影響空間結構的重要因素,可變面元問題(Modifiable Areal Unit Problem,MAUP)也是社會經濟學者在空間數據分析和空間計量建模所忽略的問題,會影響到空間分析和空間建模的結果(Openshaw and Taylor, 1979; 楊振山和蔡建明,2010; Arbia and Petrarca, 2011; 陳江平等,2011;齊麗麗和柏延臣,2012)[43-48]。
在實證分析中,有一些學者通常的做法是選取多個不同種類的空間權重矩陣來判斷空間計量經濟學模型是否對空間權重矩陣敏感,該方法可以看作是敏感性檢驗在空間計量經濟學模型中的一種應用。這種做法的好處是提供了一個至少看起來似乎可以解釋的方法。當然,這是在模型對不同種類的空間權重矩陣確實不敏感的情況下可以使用。但是,如果不同的空間權重矩陣導致不同的回歸的結果時,尤其是估計的參數因為不同的空間權重矩陣而得出相反的結果時,問題就變得異常復雜。這是由于因為無法判斷哪個空間權重矩陣的優劣,進而導致無法判斷選擇何種空間權重矩陣下的空間計量經濟學模型。并且,更為重要的是,在通常情況下解釋這種差異有時候是極為困難的。例如,很難解釋基于地理鄰近性的空間權重矩陣優于基于距離的空間權重矩陣。因此,針對每一個具體的實證案例應該進行具體問題具體分體??臻g權重的選取可以嚴重地影響到LM檢驗結果,同樣也會影響到空間計量模型的估計結果。換言之,LM統計量雖然在某種程度上可以判定空間權重矩陣的適合性,但是產生錯誤的概率也是較大的(孫洋,2009)[42]。
另一方面,由于空間權重矩陣和自變量均可以影響LM檢驗結果和空間計量模型的估計結果,因此在遇到空間計量模型設定問題時,可以嘗試更換新的空間權重矩陣以及添加新的解釋變量(Anselin, 1988)[27]。
1. 以空間滯后模型為起點的選擇流程
國內很多空間計量文獻均基于LM檢驗結果判斷空間計量模型,然而LM檢驗確實存在局限性,并且,LM檢驗主要針對空間滯后模型和空間誤差模型的選擇有效(陶長琪和楊海文,2014)[49]。此外,由于LM檢驗受到很多因素的制約,空間計量模型的選擇不只是依賴于拉格朗日乘子檢驗的結果,還應該結合研究的實際情況和理論基礎(姜磊,2016)[29]。因此,LM檢驗結果同理論相結合,可以作為空間計量模型設定的基本前提。對于本例來說,空間滯后模型應該是非常合適的空間計量模型。本文沒有使用推薦的空間杜賓模型作為初始空間計量模型,這是因為自變量的空間滯后項在模型中添加仍然需要穩健的理論基礎。
然而,對于本例來說,如果選擇Queen空間權重矩陣會發現空間滯后模型的空間自回歸系數并不顯著,換言之,應該選擇空間誤差模型。出現這個與事實相?,F象的原因是模型設定的問題。解決這個問題的方法有2個,Anselin(1988)[27]建議選擇其他的空間權重矩陣或(和)在模型中添加自變量,直到空間計量模型合理為止。對于大多數研究來說,更換空間權重矩陣相對比較容易,然而由于數據受限的原因,添加解釋變量往往極為困難。針對這個問題,本文提出了以空間滯后模型作為起始模型新的空間計量模型決策流程,如圖2所示。
圖2顯示分析的起點模型為空間滯后模型,如果選擇更換空間權重矩陣,那么增加自變量或者使用原來的自變量都可以得到合理的新空間滯后模型;如果選擇更換空間權重矩陣,那么通過增加自變量也可以得到合理的新空間滯后模型。

圖2 以SAR模型為起點的空間計量模型決策流程
對于某些研究來說,當增加解釋變量極為困難時,可以選擇是否考慮在模型中添加原有自變量的空間滯后項WX。如果選擇不添加自變量空間滯后項,那么可以通過添加誤差項空間滯后項Wε來剔除干擾項中的空間依賴性。另一方面,也可以通過添加自變量空間滯后項剔除干擾項中的一部分空間依賴性,在很多情況下,這種方式都是有效的。并且,添加自變量空間滯后項也有很多好處,例如,解決了模型遺漏偏誤問題。此外,還可以明確地從干擾項中提出一些可能存在的外生影響因素的空間交互效應。如果這些外生變量的空間滯后項在統計上顯著,且具備理論基礎時,那么可以認為外生影響因素的空間交互效應對因變量產生了影響。但是,當選擇空間杜賓模型仍然無法消除干擾項中的空間依賴性時,可以繼續考慮添加誤差項空間滯后項Wε來剔除干擾項中的空間依賴性,從而考慮一般嵌套空間模型。盡管一般嵌套空間模型包含了所有的空間交互效應,但會使得估計出這些空間交互效應變得復雜。更大的問題在于模型的解釋方面,這是由于很難區分一般嵌套空間模型的內生的空間交互效應和外生的空間交互效應(Elhorst, 2010)[16]。
2. 空間計量模型實證分析結果
接下來給出各個空間計量模型回歸的估計結果,如表3所示。

表3 FAR、SAR、SAC和SDM模型估計結果
注:圓括號內為t統計量;***、**和*分別表示1%,5%和10%顯著性水平;FAR的R2為負值,由于空間計量模型中的R2與傳統計量的定義不同,故此這里的R2不具有比較意義.
表3第2列首先給出了一階自回歸模型(First-order Autoregressive Model, FAR)的估計結果。一階自回歸模型只包含因變量的空間滯后項。由估計結果可知,空間自回歸系數ρ高度顯著,說明AQI存在明顯的空間交互作用。但是對其殘差進行Moran’s I檢驗發現,仍然存在很顯著的空間自相關現象(Moran’s I = 0.134)。
第3列展示了空間滯后模型的估計結果,與LM檢驗結果一致,空間自回歸系數ρ不顯著。并且,殘差的Moran’s I指數高達0.558,存在強烈的空間自相關現象。說明如果選擇Queen空間權重矩陣,即便是采用空間滯后模型,也不會消除殘差中的空間依賴性。這個結果與LM檢驗是完全一致的。由此可見,空間權重矩陣不僅會影響到LM檢驗的結果,也會影響到空間計量模型的估計結果(Florax and Rey, 1995)[50]。
第4列中一般空間模型的估計結果顯示空間自回歸系數ρ不顯著,但是空間自相關系數λ顯著,說明干擾項中存在空間依賴性。由于空間自回歸系數ρ不顯著,因此一般空間模型在Queen空間權重矩陣設定下可以退化為空間誤差模型。然而,一般空間模型殘差的Moran’s I得分僅僅為-0.074,顯示出殘差完全不存在空間依賴性,而是在空間上呈現隨機分布。說明通過添加干擾項空間滯后項可以完全剔除模型殘差中的空間依賴性。換言之,如果選擇空間誤差模型也可以達到這個目的。這也與之前的LM檢驗結果是一致的,即如果選擇Queen空間權重矩陣,那么應該選擇空間誤差模型。
通過添加自變量空間滯后項也同樣可以剔除干擾項中的部分空間依賴性,由第5列空間杜賓模型的估計結果可知,空間自回歸系數ρ十分顯著。模型殘差的Moran’s I指數仍然比較顯著,但是,得分僅僅為0.122,相比較空間滯后模型殘差的Moran’s I (0.558)來說有了明顯下降,換言之,通過添加自變量空間滯后項可以從干擾項中剔除了大部分的空間依賴性。進一步地來說,如果模型設定合適,有可能通過這種方式完全剔除干擾項中的空間依賴性。
由于干擾項中仍然可能存在空間依賴性,故此可以得到一般嵌套空間模型,如第6列所示??臻g自回歸系數ρ顯著,但卻為負數,與基本理論不符,盡管空間自相關系數λ高度顯著,也不能稱為一個合理的空間計量模型。此外,模型殘差的Moran’s I指數也不顯著。
由圖2可知,也可以通過更換空間權重來實現新的空間滯后模型。本文選擇了K個最近鄰居的空間權重矩陣。之所以沒有選擇基于距離的空間權重矩陣,是因為門檻值的設定具有強烈的主觀性,并且沒有推廣的意義。然而,K個最近鄰居的空間權重矩陣可以反映出最近幾個空間單元對本單元的影響,而且在解釋方面非常直觀簡潔。從K3、K5和K7空間權重矩陣的空間滯后模型估計結果來看,隨著鄰居數量的增多,空間自回歸系數ρ逐漸增大。這也說明了,當選擇鄰居數過多時,有可能造成空間交互效應的夸大。但是,這只是針對本例而言,這是因為城市AQI具有強烈的空間自相關現象。對于其他案例而言,并非適用。通過Queen和K個最近鄰居空間權重的空間滯后模型可以看出,不同的空間權重矩陣也會導致不同的空間計量模型結果。
上述給出了空間滯后模型在實證分析中如何調整模型,實際上,上述各種模型仍然也沒有脫離空間滯后模型的基本框架。因此,在估計方法上采用極大似然估計方法對空間計量模型進行估計。然而,在進行極大似然估計時,涉及到一個含參數的高階行列式,并且其解析解很難表達,特別是在樣本量龐大的時候,因此,通常需要一些特定的技術方法來進行處理(Barry and Pace, 1999)[51]。
針對上述問題,LeSage和Pace(2007)[52]基于Chiu等(1996)[53]在協方差建模中采用的矩陣指數方法提出了矩陣指數空間設定(Matrix Exponential Spatial Specification, MESS)模型,并且證明了MESS模型估計量在理論上的簡潔性和計算上的高效性。這是因為MESS模型的矩陣指數的協方差矩陣總是正定的,從而消除了在參數估計中檢驗要求正定的限制。并且,矩陣指數的逆矩陣也具有簡單的數學形式,在理論上和數值計算上皆具備優勢,能夠靈活地滿足空間計量建模的要求。MESS模型不僅具有很好的估計性質,更為重要的是還具備理論優勢。MESS模型采用指數衰減來代替傳統上的幾何衰減,通過設置參數來控制鄰近空間單元的數量以及空間溢出作用的衰減程度。MESS模型如公式(1)所示:
Sy=Xβ+ε
(1)
式(1)中,S表示為一個n×n階的正定矩陣,S矩陣與之前的空間權重矩陣W的含義是一致的。如果令S=(In-ρW),In表示單位矩陣,那么,MESS模型可以轉化為傳統的空間滯后模型。接下來給出矩陣指數的形式,如公式(2)所示:
(2)
式(2)中,α表示一個實數參數,W為空間權重矩陣。由公式(2)可以看出,S考慮的是高階鄰近關系影響的指數衰減效應,而并非傳統上的幾何方式的衰減效應。表4給出了MESS模型的估計結果。

表4 MESS模型估計結果
注:圓括號內為t統計量; ***、**和*分別表示1%,5%和10%顯著性水平.
表4第2列顯示出了Queen空間權重矩陣MESS模型的估計結果,α的估計系數為-0.001,通過公式ρ=1-eα可以換算出ρ=0.001,這與空間滯后模型(表3第3列)估計的結果是一致的。從上述MESS模型結果來看,選擇基于Queen鄰近性的空間權重矩陣后折算出的空間自回歸系數ρ與空間滯后模型的基本一致。
然而,在這種模型設定下,只是考慮到了空間單元的鄰近性原則,并沒有考慮到指數衰減效應,換言之,沒有考慮到鄰近空間單元之外的空間單元的影響。雖然可以通過構造高階鄰近性空間權重矩陣來解決這種問題的,但是仍然存在一個較強的假設:在行標準化的設定下,二階鄰近空間單元對本空間單元影響的強度只是與鄰居的個數m有關,而與距離無關。以上海為例來說,上海的一階鄰近城市有蘇州和嘉興,蘇州的一階鄰近城市有無錫和湖州,嘉興的一階鄰近城市有湖州和杭州,剔除重復冗余的空間單元湖州后,那么上海的二階鄰居城市為無錫、湖州和杭州。在行標準化的設置下,無錫、湖州和杭州對上海影響的權重分別為1/3,蘇州和嘉興對上海的影響權重分別為1/2,由此可見,如果高階鄰居數量較少的情況下,那么分配的權重就會變高,從而夸大了高階鄰居城市的影響。
基于這個思想,可以通過構造基于反距離的空間權重矩陣,使得距離越遠的城市影響的權重越小。但是,在這種設定下,如果在構造空間權重矩陣時考慮到所有的空間單元,那么每個空間單元都可以與其他所有的空間單元建立起聯系。這就存在一個很強的假設:距離即使是很遠的城市,也會產生影響,這顯然有悖于現實。因此,對于基于距離的空間權重矩陣,可以設置門檻值,即大于門檻值的認為彼此有影響,小于門檻值的被認為沒有影響。很顯然,這種門檻值的設置帶有強烈的主觀色彩,因此在大多數實證分析中,會列出基于不同門檻值的回歸結果,通過統計量來判斷模型的優劣。然而,這種方式得出的結論依然存在過強的主觀性。并且在理論上很難解釋最優空間計量模型所選取的門檻值。
綜上考慮,在本例研究中,城市AQI的影響作用很顯然隨著距離發生衰減,因此,本文重新考慮了一個更具有彈性的空間權重矩陣,如公式(3)所示。
(3)
式(3)中,φ表示衰減參數,取值范圍在0到1之間;m表示最近鄰居空間權重矩陣Ni的可變數量,下標i指的是對于第i個最近鄰居包含非0元素的權重矩陣(LeSageandPace, 2009)[13]。φi表示第i個個體鄰居矩陣施加的相對效應,換言之,MESS模型中的S在構造和使用中依賴于衰減參數φ和鄰居數m。
本文基于指數衰減效應估計了AQI影響因素的MESS模型,估計結果如表4所示?;谥笖邓p效應的MESS模型涉及到2個重要參數的設定,一個是衰減參數φ,另一個是最大的鄰居數m。通過多次模擬發現,MESS模型估計結果對鄰居數選擇的大小并不敏感。例如,選擇3個鄰居和選擇8個鄰居,模型之間的差異極小,然而MESS模型對衰減參數φ的選擇十分敏感。表4分別給出了φ=0.3,m=8、φ=0.4,m=7和φ=0.5,m=8三種典型設定的情況,可以發現,當φ=0.5,m=8時,模型的擬合優度最高,對數似然值最大,空間自回歸系數也最大。這是因為,當衰減參數φ設置的越小,影響作用隨著鄰近階數的增加而迅速衰減,例如,當φ=0.3時,第4階鄰近的影響力只有0.0081,而當φ=0.5時,第4階鄰近的影響力為0.0625,第8階鄰近的影響力為0.0039。通過多次模擬比較發現,當φ=0.5,m=8時模型最佳,并且從MESS模型估計的結果來看(α=-0.152,折算后的ρ=0.141),與基于3個最近鄰居空間權重矩陣空間滯后模型的估計結果很接近(ρ=0.143)(表3第7列)。MESS模型不僅在矩陣求解方面相對于空間滯后模型來說更為便捷,而且在理論解釋方面也明顯優于基于鄰近性空間權重矩陣的空間滯后模型,這是因為不僅考慮到了地理鄰近性,還考慮到了衰減效應。
在空間計量模型實證分析中,很多研究根據拉格朗日乘子檢驗作為判斷模型的基礎。然而,拉格朗日乘子檢驗統計量的構造與空間權重矩陣以及自變量密切相關。更換空間權重矩陣以及增減自變量均會導致拉格朗日乘子檢驗結果發生重大變化。尤其是當增減具有強解釋能力的自變量時,會引起拉格朗日乘子檢驗結果明顯改變。因此,在實證分析中,僅僅依賴于拉格朗日乘子檢驗結果作為空間計量模型判斷的標準并不準確,應該結合實際情況依據理論基礎來選擇合適的空間計量模型。
本文利用2014年中國150個城市的樣本數據,采用空間滯后模型作為起始模型研究中國城市空氣質量指數的社會經濟影響因素。并且提出了新的空間計量模型選擇流程。對于不能增加自變量的實證分析來說,選擇增加自變量空間滯后項,或者考慮添加干擾項空間滯后項均可以剔除殘差中的空間依賴性,也可以在模型中囊括這2種空間交互作用,但是一般嵌套空間模型在實證分析中極少應用,并且很難區分內生和外生的空間交互作用。
本文還提出了矩陣指數空間設定模型可以取代應用廣泛的空間計量模型。這是因為矩陣指數空間設定模型在模型解釋力方面要優于空間滯后模型,并且對于本案例來說,城市間空氣污染呈現出空間衰減效應。換言之,對于研究空氣污染問題來說,矩陣指數空間設定模型設定了衰減指數和最大鄰居數,模型在解釋方面不僅優于空間滯后模型,也優于高階地理鄰近性空間權重矩陣的空間滯后模型。對于研究具有明顯空間依賴性的環境污染問題來說,矩陣指數空間設定模型具有較為廣泛的應用意義。此外,人均地區生產總值、PM2.5濃度和第三產業與空氣質量指數呈現正相關關系,而FDI和人口密度與空氣質量指數呈現負相關關系。