劉智祿 王慧麗
(西安財經大學 統計學院,陜西 西安 710100)
城市房價的波動影響著城市居民的生活,西安市作為西部重要的經濟中心城市,從2016年開始,房價開始迅速上漲,特別是2017年以來,隨著城市落戶新政的實施,再次將房價問題推向高潮,引起了人們的廣泛關注。因此,對房價影響因素的研究,并對未來房價的變動趨勢進行預測,對于調控房地產市場有一定的借鑒意義。
在已有的研究中,學者們從不同角度分析了房價的主要影響因素。趙麗麗、焦繼文從供給和需求兩個方面選取房價影響因素指標,應用灰色關聯度分析,得出各影響因素的相對重要程度。[1]74-75邱啟榮、于婷運用主成分分析法對影響房價指標進行重新組合生成新的綜合指標。[2]24-26楊中宣、楊洋洋從需求因素、供給因素和外界因素3個維度選取影響因素指標。[3]33-36在分析方法的選擇上,大多數學者采用主成分分析、逐步回歸等方法,不僅對數據的依賴程度很高,還伴有一定主觀因素的影響,在變量確定后,建立的回歸模型大都采用一般的統計模型。武秀麗、張鋒采用時間序列分析法,對廣州市房價數據建立預測模型。[4]5631-5635鐘麗燕、高淑蘭利用逐步回歸法建立多元線性回歸模型。[5]94-96還有學者應用灰色理論建立灰色系統模型進行預測。[6]22-24侯普光、喬澤群建立時間序列模型進行房價的分析預測研究。[7]20-23傳統回歸模型使用最小二乘估計法來估計模型的系數,但是當變量之間出現多重共線性時,會出現過擬合現象,使得模型的精度受到影響,甚至出現不合理的結論。
為了改善變量的選擇方法,提高模型的擬合精度,本文采用Adaptive- Lasso 變量選擇方法確定房價的主要影響因素,并將BP神經網絡與灰色預測相結合,建立房價的組合預測模型,實現變量選擇與參數估計同時進行,并對所建模型進行驗證及對未來房價進行預測。
多元線性回歸通常是利用逐步回歸法確定模型的解釋變量,但是,在研究一些復雜的經濟問題時,如果影響因素過多,利用逐步回歸等子集選擇的方法就會顯得繁瑣,所以,利用傳統的變量選擇方法就不夠實用。正則化的方法則可以在傳統最小二乘法的基礎上進行改進,加入約束條件,依次防止系數取值過大,在減少變量的同時,處理線性模型中的過度擬合問題,其中,Lasso就兼備選擇和收縮的功能,是一種將參數估計與變量選擇同時進行的正則化方法。
假設所考慮的被解釋變量為y,解釋變量為xj,則在Lasso方法中,模型中變量xj的系數估計式定義見(1)式:
(1)
Lasso方法可以解決線性模型中的最小二乘法和變量選擇時逐步回歸出現的局部最優估計問題,但其自身也存在一定的局限性。從(1)式中可以看出,Lasso對所有的變量施加了相同的懲罰,因此,對非零參數估計的懲罰也相應變大,導致參數估計的偏差較大。為此,可以將該方法進行適當的改進,采取改進的Lasso方法進行變量選擇,并給不同的參數系數賦予不同的權重,這樣就可以解決上述問題,具體定義見(2)式:
(2)
灰色系統理論是我國著名學者鄧聚龍教授于1982年提出的。該理論的研究對象為“部分信息已知,部分信息未知”的不確定性系統,通過對部分已知信息的生成、開發并實現對現實世界的確切描述和認識。[8]43-47
設變量X(0)={X(0)(i),i=1,2,…,n}為一非負單調原始數據序列,首先對X(0)進行一次累加,得到序列:X(1)={X(1)(k),k=1,2,…,n}。
下面對X(1)建立一階線性微分方程,見(3)式:
(3)
即GM(1,1)模型。
求解微分方程,得到預測模型,見(4)式:
(4)

(5)
對所建立的模型進行檢驗,相應的后驗查檢驗模型精度表如表1所示。

表1 后驗查檢驗模型精度表
人工神經網絡是在現代神經科學的基礎上提出和發展起來的,其工作方法是模仿人腦,旨在反映人腦結構及功能的一種抽象數學模型,即首先以一定的學習準則進行學習,然后才能進行判斷評價等工作。[9]187-191有關的理論和方法已經發展成一門介于物理學、數學、計算機科學和神經生物學之間的交叉學科。BP神經網絡是其中的一種網絡模型,又稱為反向傳播神經網絡,是一種多層次反饋型網絡,通過對樣本數據的訓練,不斷去修正網絡模型中權值和閾值,從而使誤差函數沿負梯度方向下降,來逼近期望的輸出。[10]96-99該模型具有運算速度快,問題求解效率高、自學能力強、適應面寬等優點,多用于函數逼近、模型識別分類、數據壓縮和時間序列預測等。三層BP神經網絡模型見圖1。

圖1 三層BP神經網絡模型
圖1模型選用S型傳遞函數f(x)=1/(1+e-x),定義反傳誤差函數見(6)式:
(6)
(6)式中,Ti為期望輸出,Oi為網絡的計算輸出,通過不斷調節網絡權值和閾值使誤差函數E達到極小。
由于灰色預測模型對小數據量數據具有很好的預測性,神經網絡對歷史數據信息能充分提取,從而預測和模擬的精度高,本文結合兩者的優點,構建組合模型,以提高模型的預測精度和解釋性。
下面利用Adaptive-Lasso方法建立選擇變量模型來篩選變量,進而根據上述GM(1,1)模型對篩選出來的變量分別建立灰色預測模型進行預測,得到變量在 2018年、2019年的預測值;然后對歷史變量數據建立BP神經網絡預測模型,把通過灰色預測模型得到的預測值代入訓練好的模型中,從而得到充分考慮歷史信息的2018年—2020年西安市房價的預測值。組合模型的流程圖如圖2所示。

圖2 組合模型流程圖
本文借鑒袁芳的觀點[11]477-478,綜合考慮房地產行業的特點,選取以下13個影響因素(數據均來自《西安統計年鑒》):
X1:西安市生產總值GDP;
X2:財政收入;
X3:城鎮居民人均可支配收入;
X4:居民消費價格指數;
X5:城鎮居民家庭的恩格爾系數;
X6:城鎮居民人口;
X7:人口密度;
X8:房地產開發投資額;
X9:住宅竣工面積;
X10:住宅銷售面積;
X11:住宅銷售額;
X12:住宅出租面積;
X13:建筑業總產值;
Y:西安市住宅價格。
相關系數用來描述變量之間的相關關系,初步判斷因變量與解釋變量之間是否具有線性相關性。本文利用R語言實現變量間的相關性分析,表2給出了上述各變量間的Person相關系數矩陣。
通過相關系數檢驗結果,可以看出居民消費價格指數、住宅出租面積兩個變量與西安市的住宅價格線性關系不顯著,其余的變量中,除了居民的恩格爾系數與住宅價格呈高度的負相關關系外,其它的變量均與住宅價格呈現高度的正相關關系。

表2 變量Pearson相關系數矩陣
通過R語言中的相關算法,編制程序實現Adaptive-Lasso方法的變量選擇,變量選擇系數見表3。

表3 變量選擇系數
R-squared:0.999
由表3可以看出,居民消費價格指數(X4)、人口密度(X7)、房地產開發投資額(X8)、住宅竣工面積(X9)、住宅銷售額(X11)、住宅出租面積(X12)、建筑業總產值(X13),這些因素的系數為0,即在模型的建立過程中這幾個變量被剔除了。
居民的消費價格指數(X4)、住宅出租面積(X12)與住宅價格(Y)的相關性太小;房地產開發投資額與建筑業總產值存在明顯的共線性;人口密度、住宅竣工面積、住宅銷售額也存在共線性;因此在使用Adaptive-Lasso 方法構建模型時,這些變量被剔除。通過以上的Adaptive-Lasso方法得到房價的預測模型為見(7)式:
Y=0.740 10X1-1.913 41X2+0.036 30X3+
112.132 98X5-4.484 81X6+2.390 71X10-1 630.717
(7)
2.4.1 灰色預測模型
基于西安市2001—2017年的房價數據,建立單一灰色GM(1,1)預測模型,并利用R語言軟件實現GM(1,1)模型的預測值與房價真實值的比較曲線,如圖3所示。

圖3 GM(1,1)預測結果對比
圖3說明利用GM(1,1)模型預測的房價走勢和真實值的走勢大致一致,但也存在一定的誤差。
2.4.2 灰色預測與神經網絡的組合預測模型
通過Adaptive-Lasso方法進行變量選擇之后,對選擇的變量構建灰色預測與BP神經網絡的組合模型。將西安市生產總值GDP(X1)、財政收入(X2)、城鎮居民人均可支配收入(X3)、城鎮居民家庭的恩格爾系數(X5)、城鎮居民人口(X6)、住宅銷售面積(X10),這些經濟指標2018年和2019年的預測數值通過R語言建立灰色預測模型進行計算,灰色預測模型相關因素精度見表4。

表4 灰色預測模型相關因素精度
由于BP神經網絡對歷史樣本數據模擬具有較好的精度,因而將上述變量的預測值代入建立的BP神經網絡預測模型,由此可得西安市2018—2020年的房價預測值,真實值與預測值的比較結果如圖4所示。

圖4 組合模型預測結果對比
由圖4可知,組合模型預測的房價走勢基本和真實值走勢相同,可見,該模型的預測效果較理想。
2.4.3 模型對比
通過對單一灰色預測模型與組合模型的預測結果比較,得出模型的預測結果對比情況。見表5。
GM(1,1)模型的預測值、組合模型的預測值以及真實值的對比曲線如圖5所示,相應的模型的預測誤差對比如圖6所示。

表5 模型的預測結果對比情況

圖5 模型預測結果對比

圖6 GM(1,1)模型與組合模型的預測誤差對比
由單一灰色預測模型與組合模型的預測結果可以看出,西安市房價處于上升趨勢,尤其是近幾年的上升幅度較大。根據圖6模型預測誤差對比情況可知,利用GM(1,1)灰色預測模型預測的房價與真實值的誤差大于利用灰色預測和BP神經網絡組合模型預測的誤差,判斷組合模型的預測效果比較好。
另外,灰色預測模型僅僅基于房價歷史數據進行預測,而組合模型將與房價影響程度較大的因素充分考慮在模型中,通過這些變量來預測房價的走勢,更具有解釋性和理解性。
基于西安市2001—2017年影響房價的經濟指標歷史數據,首先建立了Adaptive- Lasso變量選擇模型,確定西安市生產總值GDP、財政收入、城鎮居民人均可支配收入、城鎮居民家庭的恩格爾系數、城鎮居民人口和住宅銷售面積等六項因素是影響西安市住宅價格的主要因素。在此基礎上,對選擇的變量構建了灰色預測GM(1,1)與BP神經網絡的組合模型,從而對未來的房價進行預測,通過對比發現預測的房價與真實值比較吻合,同時,該組合預測模型與單一使用灰色預測模型來預測房價相比,能夠充分考慮歷史數據,將影響因素指標也考慮在模型中,具有較好的解釋性和可理解性。