金廣朔
(濟寧市第一中學,山東濟寧,272000)
近年來,隨著城市經濟的高速增長,城鎮人口逐年遞增,城市土地資源日益稀缺,從而導致中國房價飛速增長,大量投資者從中攫利,同時無數人也成為了“房奴”。由于房價與國計民生休戚相關,房價預測無論在經濟學、數學還是計算機學中都成了一個熱門同時也非常困難的問題,因為其涉及了太多的隨機影響因素,而且影響因素非常多元,無法通過簡單的統計學模型進行預測。目前為止,學界對于房價預測有了多種方法,如多元線性回歸模型、灰色理論預測模型、馬爾科夫預測模型、遺傳算法和神經網絡等等模型,但均未能取得一個較為理想的結果。目前影響房價預測準確性的一個重要原因是房價數據維度太高,并且沒有一個比較合適的降維方法,因此模型的復雜度隨著維度的增加而上升,但是精度卻隨之而下降。因此建立一個行之有效的房價歸因模型迫在眉睫。
國內外學者在這方面已經開展了許多研究,如付益松和張明以南昌市青山湖區為研究對象,基于結構方程模型,建立起房價影響因素模型[1],賈德錚和張恩陽基于房屋特征模型,對二手房房價影響因素進行了回歸分析[2],湯文彬通過相關理論,對歷史數據進行深入分析,構建了房價影響因素模型,并運用面板回歸模型和面板脈沖響應函數進行了實證分析[3],但在房價歸因的研究中,仍然存在著一些不足,如黃厚霞和侯莉穎指出目前對我國房價的研究不系統且在研究中存在著如研究很少涉及微觀因素、較少有定量的分析研究等的局限[4],肖磊則指出研究中尚存的諸如數據收集困難、使用的是截面數據等的缺陷[5],所以,對于這方面的分析研究,仍有待完善和改進。
本文基于多種方法建立了多個房價歸因模型,其一,運用假設檢驗方法,利用其對單一數據分析的優勢,對各個因素進行逐個分析,建立起歸因模型;其二,運用機器學習方法,將簡單清洗過的數據在對精度影響不大的前提下選取一小部分投入神經網絡中進行訓練,初步建立起歸因模型,隨后進行測試并給定閾值,提取出主要影響因素;其三,基于結構方程模型,利用其具有可同時處理多個因變量的特點對各影響因素進行多元分析,從而建立歸因模型;最后,筆者用直角坐標系的坐標軸分別引入房價及其對應影響因素的數值,直觀地求出各影響因素的影響率,再給定閾值,建立起房價歸因模型,從而更簡潔地提取出影響房價的主要因素,這也是本文的創新之處。
在總體的分布函數完全未知或只知其形式、但不知其參數的情況下,為了推斷總體的某些未知特性,提出某些關于總體的假設。我們要根據樣本對所提出的假設做出接收還是拒絕的決策,假設檢驗是做出這一決策的過程。
我們的思路是,對于房價Y和影響因子A、B、C、D等等,分別提出類似這樣的假設:有95%的把握認為A與Y的變化有關,再使用假設檢驗相關的驗證方法:首先找到檢驗統計量,然后根據不同的檢驗方法(X檢驗、t檢驗、F檢驗等)得到置信區間,最后看檢驗統計量是否落在置信區間中,如果落入,則認為假設成立。使用這種方法對于各個因素進行假設檢驗之后,即可得知哪些因素對于房價有著比較大的影響。
這種方法有著比較大的缺陷,因為一次只能檢驗一個因素的影響,很容易忽略很多有用的信息,而且這種檢驗方法精度較低,效率也不高。
2.2.1 神經網絡模型
人工神經網絡是從信息處理角度對人腦神經元網絡進行抽象的一種運算模型,是由大量的節點之間相互聯接構成的。一個神經網絡由若干層組成,第一層是輸入層,第二層是輸出層,中間的是隱藏層,隱藏層可以有多層。最近十多年來,對于神經網絡的研究工作不斷深入,在很多領域成功地解決了許多實際問題,表現出了良好的智能特性。作為機器學習的一種方式,神經網絡具有自學習、聯想存儲、高速尋找優化解的特點和優越性,因此,本研究基于神經網絡,建立了機器學習模型,用以提取影響房價的主要因素。

圖1
2.2.2 神經網絡歸因將房價及其影響因素的原始高維數據進行簡單的數據清洗后投入機器學習模型,如果數據繁多,訓練時間較長,可以在對準確度影響不大的前提下,只將一小部分數據投入模型中進行訓練,比較各數據的輸入和輸出,然后根據經驗確定一個閾值,從而根據閾值提取出影響力較大的因素,建立起一個房價歸因模型。
2.3.1 模型構成
可直接觀測的因素為觀測變量,無法直接觀測的因素為潛變量,可以用觀測變量解釋,構建基于結構方程的房價歸因模型,明確對房價具有重要影響的因素,并對其影響程度作定量分析。
2.3.2 信度分析
利用α系數法對觀測變量進行信度分析,α系數取值越接近1說明內部一致性越好。

2.3.3 效度檢驗
用SPSS對數據進行驗證性因子分析,以檢驗觀測變量對潛變量的影響程度,即所選的觀測變量能否準確有效地解釋潛變量。
2.3.4 驗證性因子分析
我們可以運用驗證性因子分析對所有變量進行區分效度的檢驗,為避免潛變量不被模型所識別,將只有一個因子的變量隨機分為三個部分,使用AMOS17.0軟件來檢驗各測量模型的擬合指數,從而檢驗所有變量的區分效度。
2.3.5 假設驗證
匯總得到各影響因素對房價的影響程度,用標準化路徑系數表示,即通過路徑分析將各因素的影響系數標準化。
2.4.1 數據預處理
其一,利用維規約降低數據維度,其二,去除冗余數據,準備多個特征子集,訓練后選擇效果最好的,其三,利用規范化,將房價及其影響因素的數據擬合為正態分布,方便曲線圖合并后的比較。
2.4.2 建系比較
建立直角坐標系,將房價數據代入y軸,將各個影響因素數據代入x軸作出曲線圖,將各個曲線圖合并在一張圖中進行比較,通過房價與因素的比值即曲線的斜率比較出各因素影響率的大小,確立一個閾值,影響率在閾值以上的因素為影響房價的主要因素,建立起房價歸因模型,從而直觀簡潔地得出影響房價的主要因素。
房價預測作為當今時代的熱門話題之一,在很多領域被分析研究,筆者認為,房價預測的根源應當在于對房價影響因素的分析,因此,本文基于假設檢驗、機器學習、結構方程以及筆者建系比較的創新性想法建立了四種房價歸因模型,以期為以后的房價預測和歸因研究提供有價值的借鑒和參考。
優點總結:其一,基于假設檢驗建立的房價歸因模型,對單一因素影響的分析具有顯著效果;其二,基于機器學習建立的房價歸因模型,可以將輸入和輸出數據之間的關系較為準確地建立起來,并可以同時對多組數據進行分析;其三,基于結構方程建立的房價歸因模型,適合于多元性分析,并可應用于對無法直接測得數據的因素的分析;其四,基于筆者建系比較想法建立的房價歸因模型,可以較為直觀地比較出各因素影響程度的大小,同時結構簡單,過程簡潔。
本研究仍存在一些不足和缺陷,就此筆者提出改進的方向。第一,數據收集上仍有困難,許多細節數據難以查找,且樣本容量過小。筆者認為,以后的研究中收集的數據要盡量廣泛、細致且準確,這樣才有利于建立精度更高的房價歸因模型,達到更好的房價預測效果。第二,機器學習模型中仍然只是投入少量數據進行訓練,筆者認為如果在條件允許的情況下,仍可以將大批量數據投入訓練,這樣有助于對模型精度的進一步提高。最后,筆者的創新想法雖然可行,但對于數據預處理的要求較高且不能準確表示出各影響因素與房價的關系,在精度上仍有待提高。