【摘 要】 住房是保障民生安定的根本條件之一。相較于新房房價的飆升與波動,二手房的價格更具規律性,對于民眾更加經濟適用。因此,研究二手房價格的影響因素,對于社會住房經濟鏈的形態與穩定有重要意義。本文收集昆明二手房價格及面積、朝向、樓層、裝修、區域、建筑、產權、結構、物業費、廳室和衛生間數等變量,對其進行嶺回歸分析,結果表明,昆明二手房價格與房屋面積、朝向、樓層等有更加密切的關系
【關鍵詞】 二手房 嶺回歸 價格
1 引言
隨著社會和經濟的發展,人們對住房的需求更大、要求更高。新樓盤的影響因素復雜,價格居高或持續波動,此時,二手房相對來說成為了不錯的備用選擇。
二手房有自己獨特的優勢。二手樓盤的小區或周邊配套多數比新房成熟,往往生活便利、交通方便;物權法頒布后,表明二手房和新房在產權使用年限并無較大區別,所以在使用權上無本質差異;最重要的是,相對于新房,二手房的價格更加實惠,減輕了民眾的購房壓力,可以有更多自主選擇的可能。因此研究二手房價格的主要影響因素有較大的現實意義,可以為民眾選擇,宏觀調控提供一定的依據。
2 數據來源及數據處理
本文的數據來自房源網站-房天下,首先使用python軟件,以網絡爬蟲的方式獲取,經過清洗整合,得到了房天下網站的964組2017年9月昆明二手房信息,其中包括價格(price)及面積(area)、朝向(orientations)、樓層(floor)、裝修(decoration)、區域(district)、建筑(district)、產權(rights)、結構(structure)、物業費(property costs)、廳室(bedroom)和衛生間數(toilet)等12個變量。其中面積、物業費是定量變量,其余朝向、樓層等10個變量是分類型的定性變量。
將964組數據按0.5的概率劃分成訓練集和測試集,用訓練集來擬合嶺回歸模型,用cew來得出前者模型的預測誤差。
3 基于嶺回歸的實驗分析
3.1嶺回歸
當設計陣存在復共線關系時,最小二乘回歸的性質就會不夠理想,前人提出有偏估計嶺估計,并定義為
嶺回歸,是一種專用于共線性數據分析的有偏估計回歸方法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價,對最小二乘法進行改良,獲得回歸系數更為符合實際、更可靠的回歸方法。
首先,使用R軟件在上章分好的訓練集上擬合嶺回歸,再使用10折交叉驗證找到使預測誤差最小的最優的參數lambda。
3.2交叉驗證
10折交叉驗證即將原始數據分成10組(一般均分),將每個子集數據分別做一次測試集,其余的9組子集數據作為訓練集,這樣總共可擬合10個模型,用10個模型最終測試集的預測準確率的平均數作為此10折交叉驗證的回歸性能指標??梢杂行У谋苊膺^學習以及欠學習狀態的發生,最后得到的結果也比較具有說服性。10折交叉驗證得到的均方誤差,見下圖:
3.3 測試誤差
接下來,本節使用上文通過訓練集擬合的模型以及通過交叉驗證得到的最優參數在測試集上擬合變量,來得到預測誤差,誤差約為為37.77。
3.4 回歸系數
本節使用最優lambda擬合全集以得到對昆明二手房價格有顯著影響的變量,以及這些變量的回歸系數,詳見表1。
由上表可見,最終得到的回歸系數顯示,面積的系數為正但很小,說明房屋面積雖對二手房價有一定影響,但較小。朝向中東北、東南、東西、西、西北的都有較大的回歸系數且為負值,則會說明這些朝向和昆明二手房價格呈負向相關;而朝向為南或南北布局的系數較大且為正數,說明朝南、南北布局對房價有正向影響。高樓層的回歸系數也較大,但為負數,說明高樓層對昆明二手房價的影響顯著并且是負方向的。
4 結論
本文通過通過嶺估計來擬合昆明二手房的價格和面積、朝向、樓層、裝修、區域、建筑、產權、結構、物業費、廳室和衛生間數等其他因素的回歸模型,找到了對昆明二手房價格有明顯影響的因素。綜上得到的結果可以總結并作如下解釋:
面積大小對二手房的單價影響不明顯??赡苡捎谌藗兏晳T傳統南北朝向的房屋、偏愛朝南向陽的居室,所以朝向為南、南北的二手房房價更高。可能由于人們更習慣傳統平樓,故樓層越高,二手房價格越低。關于其他裝修、區域、建筑、產權、結構、物業費、廳室和衛生間數這些因素,在本研究中未發現對昆明二手房的價格有明顯影響。
【參考文獻】
[1] 王松桂. 線性模型引論[M]. 科學出版社, 2004.:78-186.
[2] Shao, J. (1993). Linear model selection by cross-validation. Journal of the American statistical Association 88, 486-494.
作者簡介:姓名:白婧毓,性別:女,出生年月:199205,民族:漢,學歷:在讀碩士,學校:云南財經大學,學校郵編:650221,研究方向:數據挖掘。