陸曉炘
(廣西師范大學,桂林 541000)
廣州作為超一線城市擁有大量的外來定居人口,買房成為了許多人關心的事情。二手樓價影響因素錯綜復雜,吸引了不少學者對其進行研究,溫海珍等通過HPM 得出杭州市房價的主要影響因素是建筑面積、樓齡等9 個因素。文獻[1-2]從影響樓價的微觀因素入手,得出事實上教育和娛樂的便利程度也是人們買房時不得不考慮的因素的結論;哈巍等探究了學區房的溢價問題,表明附近的學校數量對樓價有一定的影響;繆格等得出了地鐵、商圈、教育都是武漢二手房價格的影響因素的結論。
隨著二手樓價研究的發展,其影響因素包括宏觀、微觀加起來有很多,這時普通的回歸方法很容易造成過擬合,使得分析效果不佳,此外,由于真模型不一定為線性,所以需要考慮更一般的模型。神經網絡是機器學習中用于對函數進行估計和近似計算的模型,不局限于線性模型,在樓價預測上有較好的估計效果。文獻[6-8]的研究對樓價建立BP 神經網絡預測模型,所建模型均為適用于維度不高情形的全連接神經網絡,但并沒有對樓價的影響因素作詳細分析。高鳳偉等建立神經網絡模型并使用擾動法識別各影響因素的重要程度,但由于該方法計算復雜且無法提供可靠的參數變化,不適用于高維稀疏問題;Glorot等表明稀疏神經網絡通??梢愿纳艱NN 的訓練和預測性能;FENG等提出在輸入權重上擬合一個帶有Lasso 懲罰的神經網絡,表明了稀疏輸入神經網絡優于現有的非參數高維估計方法;YE 等提出了利用懲罰神經網絡逼近復雜系統的方法,并通過測量解釋變量對響應變量方差的解釋效用來選擇解釋變量,證明了該方法在樣本容量趨于無窮大時,能夠以概率1選擇相關變量并排除不相關變量;MA 等將變換后的正則化器應用于網絡權值矩陣空間,提出了一種有效的隨機近端梯度算法求解新模型,并證實了該方法的有效性; SUN 等提出用頻率方法學習稀疏DNN,并在貝葉斯框架下證明其后驗一致性,變量選擇一致性和漸近最優泛化。
稀疏神經網絡是有效用于解決模型過參數化的方法,因此,本文以廣州市二手樓價為例,結合爬蟲和高德地圖API 獲取包括微觀因素與宏觀因素的二手樓信息,對數據進行預處理后建立稀疏神經網絡,并對所獲取的因素作變量選擇,分析廣州市二手樓價的主要影響因素。
神經網絡模型包含輸入層、隱藏層、輸出層3部分,假設模型為U層神經網絡,輸入層為變量矩陣=(,,…,X),第1 層的神經元個數為,則個樣本通過激活函數進入第一層神經元的函數如下:



從第層神經網絡輸出矩陣的計算中不難發現,第層神經網絡的輸出矩陣是由第- 1層神經網絡的輸出矩陣迭代而來,既第層神經網絡的輸出矩陣的計算表達式可以改寫為=( ),其中為神經網絡第層的激活函數,使用激活函數是為了加入非線性因素,使得模型可以近似到非線性函數,全神經網絡的運行算式表達為:

(,,)為最終的輸出層。
神經網絡的反向傳播是通過計算總誤差達到權重更新的過程,常用的優化算法是梯度降法。均方誤差是用于度量估計值與真實值之間差異程度的指標。
在高維情況下,響應變量通常滿足稀疏性假設,本文選用加正則化均方誤差函數作為神經網絡反向傳播的損失函數,通過懲罰權重的方式達到變量選擇效果。

本文從房天下網站(https://gz.esf.fang.com/)爬取廣州市二手樓數據樣本共15854個,每個樣本數據有14 條信息,同時考慮到宏觀因素的影響,本文通過連接高德地圖API 來獲取房屋周邊信息變量共6個,所獲取的變量如表1所示。

表1 變量

大量的數據中容易出現數據缺失的情況,本文采用平均值填補缺失的方式對物業費,綠化率,容積率中的缺失數據進行填補,用數據剔除的方式對其余缺失數據進行處理,最后剩下15796個有用的樣本。
對二手房屋的價格進行描述分析后,從圖1可看出廣州市二手樓價呈偏態分布,所以本文在建立神經網絡前先對樓價變量進行對數化,所得結果如圖2所示呈正態分布。

圖1 二手樓價分布圖

圖2 對數化后二手樓價分布圖
將數據打亂后按8.7∶0.7∶0.6 的比例把數據分為訓練集、驗證集和測試集,建立20-5-1 神經網絡模型,選用relu 函數() = max(0,)作為第一個隱藏層的激活函數,tanh 函數作為輸出層的激活函數,反向傳播使用梯度下降法進行100 次迭代,分別對參數為= 0.01,=0.005,= 0.002,= 0.001,= 0 的神經網路進行20 次建模,在= 0.001 的情況下,計算剔除概率大于90%的變量個數,所得預測誤差情況與變量剔除情況如表2所示。

表2 不同正則化參數下預測效果對比
從表2的平均均方誤差和均方誤差極差可以看出,正則化參數為0.002 時模型估計效果與穩定性最好,而且對于本文例子而言,= 0.002的稀疏神經網絡模型與普通神經網絡模型相比有在剔除冗余變量的同時能降低預測誤差的優點,所以最終建立= 0.002 的稀疏神經網絡并對數據進行50 次建模,對每一次第一層網絡的權重絕對值求和,權重和∑| |≤0.001 的變量則為不入選變量,其中10 次建模剔除變量情況如表3所示。

表3 其中10次剔除變量的下標
其中最近地鐵距離,1500 米內三甲醫院數量,500 米內市場、便利店數量,房間數,客廳數,衛生間數,樓齡,物業費,綠化率的剔除概率均大于90%,面積,裝修風格的剔除概率均大于80%,最后認為500 米內地鐵數量,1000 米內中小學數量,1000米內商場數量,所屬地區,朝向,樓層,有無電梯,容積率,建筑類型為影響廣州市二手樓價的主要影響因素,面積,裝修風格為影響廣州市二手樓價的次要影響因素,其中500 米內地鐵數量,1000 米內中小學數量,朝向,有無電梯的權重絕對值和以10 倍數量大于其余變量,可以認為這4個變量為影響廣州市二手樓價的最主要因素。
從稀疏神經網絡變量選擇的結果可看出,交通便利、教育便利、購物便利是許多人買二手房時的主要考慮因素,也側面說明了學區房導致樓價泡沫并非無稽之談。房屋朝向和有無電梯則直接影響買家的入住體驗,買家在這方面的強調符合現代人尤其是年輕人一切效率至上又注重養生的特點。其中面積不再成為廣州市二手樓價的主要影響因素,反而二手樓房附近的交通情況、學校數量、商業發展情況、所屬區更能反映樓價高低,這點說明了二手樓房所在區域的發展對當地樓價的影響之大。
本文利用二手樓房網絡數據,對廣州市二手樓價建立稀疏神經網絡模型,在給定閾值的情況下得出500 米內地鐵數量,1000 米內中小學數量,朝向,有無電梯為廣州市二手樓價的最主要影響因素,結論符合時代特點。其中所屬區域發展情況對二手樓價的影響比房屋面積大這點值得引起我們的思考,亦可以從中得到一些啟發,比如可以引入不同區域的人均GDP作為變量代表該區域的經濟發展狀態,引入不同區域10年內是否有政府發展項目作為變量代表該區域房屋的升值空間,這樣把更多宏觀因素考慮在內,可以得出更具地域特點的分析結果。