(四川大學經濟學院 四川 成都 610000)
本文首先通過爬取鏈家網租賃房房源信息,然后利用python、R等對數據進行處理,進一步分析成都市房源整體狀況、對影響房價的可能因素進行描述統計分析,最后選擇BP神經網絡對租賃房價格進行建模和預測。
本文通過八爪魚爬蟲軟件爬取鏈家網租賃源信息,所要抓取的變量有城市、房源標題、房源上架時間、鏈家編號、價格、租賃方式、房型、樓層、面積、朝向、地鐵、小區、位置、經度、緯度、房源照片、房源介紹、當前時間、頁面網址共19個特征,最終去除重復后有2892條數據。
分析成都租賃房的整體特點,本文采用數據集中的經緯度對應每一個房源的地理位置,然后在成都市地圖中進行標記(使用Rstudio軟件)。可以看出,在爬取的這2892條房源信息中,絕大部分的房源分布在成都市三環以內,除了北三環等地區,基本上在三環以內都有租賃房房源。其次房源較多的區域有高新區、天府新區、雙流區、溫江區、郫都區、新都區、青白江區和龍泉驛區等,另外其他區域也有少量房源。
本文節選部分變量對租賃房房源進行描述統計分析。
從不同房型來看,2室1廳1衛、1室1廳1衛、1室0廳1衛等房型有較多的房源,可以看出一方面可能因為開發商在小戶型住房的開發上占多數;另一方面也可能因為小戶型的房子很好出租,適合才從事工作的人員作為過渡房使用。

圖2 不同房型的分布
觀察不同朝向的占比餅狀圖,可以看到朝南、朝東南、朝東的房子比例分別為36.5%、32.8%、15.6%,根據中國人的傳統居住習慣也可以看出,大部分的居民會選擇朝南或東的房子。

圖3 不同朝向的分布
下面主要分析房價的影響因素,這可以進一步為下一節進行神經網絡預測做準備。因為有的住房租賃是單租有的是整租,導致用原始價格不能很好地反映住房的可比價格,因此本文選擇使用月度單位面積價格來度量房價的大小以及用月度單位面積價格來進行預測。為進一步觀察不同劃分情況下的價格分布的差異,以下節選所在不同行政區位、距離地鐵站距離兩個影響租賃房價格的因素進行分析。
行政區位的不同對月度單位面積平均價格有很大的影響,可以看到在成都不同的區域,房價是明顯不同的。高新區和錦江區的租賃價格最高,這和目前的房價水平保持一致;其次是成華、金牛和天府區;而都江堰、彭州和青白江等區域的租賃價格相對較低,這是因為距離成都中心城區較遠的原因。

圖4 不同行政區域下月度單位面積價格比較
通過觀察地鐵距離與月度單位面積價格散點圖可以看出,1000米左右的距離相對地鐵站來說距離都是比較近的,單從散點圖來看還不能觀察出距離對價格的影響。因此繪制數據的趨勢線可以看出,趨勢線略微往右下方傾斜,距離地鐵站越近的租賃房價格越高,可能交通便利度確實會價格造成一定的影響。

圖5 與地鐵站距離不同下月度單位面積價格比較
本文將全部數據劃分為70%訓練集和30%的測試集(參考其他文獻的通用做法)。使用隨機數生成的原則,隨機選取70%的數據作為訓練集,30%的數據作為測試集。
不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標準化處理,以解決數據指標之間的可比性。
本文選擇建立BP神經網絡,選擇建立三層網絡結構。第一層的神經元個數為10,激勵函數選擇Relu函數;第二層的神經元個數為5,激勵函數選擇Relu函數;第三層的神經元個數為1,激勵函數選擇Linear函數。迭代次數100次,每次用來梯度下降的批處理數據大小為100,最終通過運行可以繪制出訓練值與測試值的損失圖像。在經過迭代100次過后誤差基本趨于一致。

圖6 迭代次數與預測誤差
使用30%的測試集數據進行測試,最終繪制其中100個租賃房預測價格與實際價格的比較圖形,可以看出預測價格較好地擬合了真實價格。

圖7 其中100個房源真實值與預測值比較
本文主要運用爬蟲軟件獲取網站租賃房房源信息的數據分析,先從描述統計的角度進行了成都租賃房的整體分布觀察以及對重要變量進行了分別統計;其次結合數據分別觀察不同變量下租賃房月度單位面積價格是否有差異,最后運用BP神經網絡建立了房價預測模型,最終的預測效果較為理想,具有一定的實踐價值。但是本文存在諸多不足之處,首先數據的抓取上受限于網站頁碼的限制,可以改進代碼進行更大規模數據的抓取。其次由于沒有考慮時間因素,房價會隨時間變化,因此在以后研究中應將此考慮進去。