胡江
(徐州工程學院數學與物理科學學院,江蘇 徐州 221008)
基于距離檢驗的江蘇省城市商品房價格回歸模型分析
胡江
(徐州工程學院數學與物理科學學院,江蘇 徐州 221008)
隨著我國經濟的不斷發展,我國城市商品房的建設的腳步也不斷加快,商品房價格也幾經起伏,因此,房價也成了現如今人們關注的焦點。江蘇作為經濟大省,其商品房價格有著更突出的代表性。本文通過2002年到2013年的江蘇省城市商品房銷售面積、江蘇省人均GDP、城市居民消費價格指數這三個主要因素對江蘇省城市商品房平均銷售價格變動的影響來分析研究江蘇省城市商品房的價格模型。我們運用線性回歸模型和非線性回歸模型對相關數據進行實際模擬,再運用擬合效果可視化,并運用了Pena距離和Cook距離這兩種距離分析法來判斷模型的擬合效果,然后將這兩個模型進行比較,最后得出了非線性模型對于該數據的擬合效果較為理想。
城市商品房;回歸分析;商品房價格指數;異常值檢驗;距離判別
在以往的回歸分析中,通常采用的是顯著性檢驗、擬合效果圖等來檢驗模型的有效性,本文在以上方法的基礎上更進一步地引進了Pena距離和Cook距離這兩種距離檢驗。通過這兩種距離的定量計算,我們不但可以判斷出離群點,還可以判斷是否為強影響點,從而在檢驗模型的擬合性上得到了更好的效果。
對商品房價格影響的因素很多,根據主成分分析,我們只選取了三個重要指標:商品房銷售面積:X1,人均GDP:X2,城市居民消費價格指數:X3。
對2002年到2013年江蘇省城市商品房價格的相關數據整理如表1。其中商品房本年銷售價格:Y。
(一)商品房價格預測分析的線性回歸模型假設
因為對因變量的影響因素超過了一個,要確定它們之間的關系十分困難,所以借由已有的關于城市商品價格的研究分析,我們假定因變量商品房銷售價格和商品房銷售面積、人均GDP和城市居民消費價格指數這三個變量滿足線性回歸模型:

上式中因變量是yi,自變量是為隨機誤差。
1.回歸分析檢驗
利用R軟件對樣本數據進行回歸分析,從輸出的結果我們可以建立回歸方程:y=-3845+0.11x1+0.08x2+ 4.74x3,并得出變量x1,x2,x3的t統計量的估計值分別是1.794、7.319、1.058。從解釋變量的方面來判斷顯著性:從對應的P值我們可以看出,解釋變量在顯著性水平0.05下很明顯不為0,通過顯著性檢驗。我們進一步看出剩余方差估計值σ^2=280.22,從方程擬合度方面來觀察:根據擬合優度和修正的擬合優度,尤其是修正的擬合優度= 0.9752,可以看出方程擬合程度比較理想。對方程進行顯著性檢驗,其F統計量的P值0.0000002589遠遠小于0.05,從顯著性水平看出線性模型擬合的效果比較理想。但進一步地運用R軟件將樣本數據進行圖形展示,發現有三處突兀點,得出的擬合效果圖并不理想。
2.Pena距離及Cook距離的分析檢驗
為了進一步確定模型的擬合效果,我們引入Pena距離和Cook距離這兩個檢驗異常點的統計量。我們根據已有的線性回歸模型的Pena距離的計算公式對各個點Pena距離進行詳細計算。計算出各點的Pena距離如下表2。運用R軟件計算出個點的Cook距離如下表3所示。
經過以上的研究分析,我們可以看出該模型的擬合具有三個明顯的異常值點,占樣本比重25%,擬合效果并不太理想。這三個異常點分別代表的2008年、2011年、2013年的樣本數據。我們查詢資料可以發現:2008年中國人口結構出現拐點,國際經濟危機出現。2011年房產企業品牌化使得房產業績增長,市場份額提高。行業集中度進一步提高,土地出讓總量提高。2013年政府加快推進商品房市場化的進程,相關部門對房地產的關注持續加強,政府房地產市場調控力度加大。這些因素嚴重影響了房價的三個因素,進而影響了房價。
由以上實際與理論相結合的分析,我們可以看出線性模型的擬合不是十分理想,以往的線性回歸檢驗效果不明顯。我們再進一步地進行模型假設,從而尋找更加適合的模型來預測商品房價格。
(二)商品房價格預測分析的非線性模型假設
我們假定所列出的影響江蘇省城市商品房價格的相關因素的數據滿足非線性回歸模型,那么它可以表達成

1.回歸分析檢驗
將樣本數據導入R軟件。根據假設我們運用R軟件對樣本數據進行回歸分析。并對運行結果按照解釋變量、擬合優度和方程整體優度三個方面進行詳細的研究判斷,從而確定非線性模型的表達式。根據輸出結果,我們可以建立如下的回歸模型:


表2 線性模型下各點的Pena距離

表3 線性模型下各點的Cook距離
2.Pena距離及Cook距離的分析檢驗
為了能夠更加準確地判斷該模型的擬合效果,我們進一步計算Pena距離和Cook距離這兩個檢驗異常點的統計量。根據已有的非線性模型下的Pena距離的公式,我們計算出各點的Pena距離如下表4。

表4 非線性回歸模型下的Pena距離
用R軟件根據上述非線性回歸模型計算出各點的Cook距離如下表5。

表5 非線性回歸模型下的Cook距離
從上面表3-12的Pena距離的結果中,我們可以很明顯地看出第12號點數值存在明顯異常。然而從表3-13中我們很難明顯發現異常值,經過認真比較后我們發現,12號點是高杠桿異常點,而對于高杠桿異常點Pena距離比Cook距離檢驗效果更好,符合理論結果。因此,我們斷定12號點是異常點,但我們從Pena距離值看出,它對模型的偏離程度并不大,屬于弱異常點。
由以上分析我們發現:在線性模型的回歸分析中,各分析成分大都與模型吻合;但從擬合效果圖來看,有3處突兀較顯著;進一步運用Pena和Cook距離進行量化判斷,則出現了三個點嚴重脫離模型曲線,占整體數據的25%,擬合效果大打折扣。
從非線性回歸模型的回歸分析出的結果,可以看出模型中各個相關指標都十分正常,擬合的效果圖也大體符合模型規律,運用Pena距離和Cook距離對該模型就行異常值量化檢驗。結果發現,只有第12號點存在些許異常,偏差也并不太明顯,模型與數據點基本都吻合。因此,我們認為商品房價格預測的模型如下:

這一模型能夠更為準確地描述商品房價格走向。
[1]韋博成,林金官,解鋒昌.統計診斷[M].北京:高等教育出版社,2009.
[2]胡江.基于Pena距離的幾種回歸模型的影響分析[D].東南大學,2012.
[3]王新洲.非線性模型參數估計理論與應用[M].武漢:武漢大學出版社,2002.
G718.5
A
1673-0046(2016)7-0010-02