999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學習的武漢二手房估價模型研究

2019-09-10 01:16:05姚沖閉鑫業
商訊·公司金融 2019年10期

姚沖 閉鑫業

摘要:本文通過集成學習方法對武漢市二手房的數據進行分析和研究。本文構建了三種二手房房價估值模型:一、決策樹集成的隨機森林模型:二、通過AdaBoost,采用多層感知器神經網絡構建了神經網絡集成模型;三、用XGBoost方法建模,并對三種模型進行分析對比,結果顯示使用AdaBoost算法建立的模型更準確。

關鍵詞:武漢二手房:集成學習:隨機森林:XCBoost

隨著全國二手房關注度的提高,與二手房交易相關的抵押等交易越來越豐富,而買賣前的二手房估價是非常重要的環節?,F有運用數理模型進行房價預估的研究中較為常見的是采用最小二乘法擬合多元線性回歸法。這種方法在建模的中一般要求誤差項要符合零均值并且獨立同分布的設想。此外,這些方法通常用t檢驗來檢測回歸系數的顯著性,用F檢驗來檢測模型整體水平的顯著性。但是如果數據不能夠滿足正態性條件,t檢驗與F檢驗的方法相對不滿足正態分布的數據來說沒有多大意義。在對相對復雜的數據進行建模時,簡單的線性回歸算法會有欠擬合和模型解釋能力較低的問題。為了避免以上評估方法的限制,尋找到更好的評估方法,本文使用集成學習的方法,用隨機森林、AdaBoost、XGBoost三種方法進行建模,分別得到隨機森林、AdaBoost、XGBoost三個模型,用測試集數據進行測試,再進行調參,用MAE(平均絕對誤差)評估模型的適用程度。

一、數據探索

(一)數據來源

1.原始數據

本次報告所采用的數據源來自“鏈家網”中的武漢二手房相關數據f如圖l所示 2.數據清洗 如圖l所示,數據不僅結構混亂,且含有缺失值,不匹配的記錄。首先,刪去不匹配的、缺失值內容太多的記錄:其次,利用Python將混合字段拆分成獨立的字段;最后,利用替換功能,將特殊字符、單位去掉變為數值型數據,并將變量的數據統一化處理。經過處理后,研究的變量為武漢二手房每平方米的價格,影響因素包括武漢二手房的建房年份、面積、樓層位置、樓層總高度、臥室數量、所在區域、裝修情況、戶型結構、產權年限、是否配備電梯等因素。

(二)描述性分析

1.武漢市二手房房價分布

根據上述處理過的數據,利用Pvthon繪圖工具包mat-plotlib和seahorn分析工具可得出二手房單位價格大多處于10000 - 30000元之間,且集中在50平方米至150平方米區間內,分布帶有輕微的有偏性,但大致服從正態分布,高價位和低價位的二手房數都相對較少,且最高不超過5萬/平方米。

二手房相對于新的商品住宅來說,樓房建造時間對價格影響較大,武漢市二手房建造年份主要是在2000年左右,相對較新:而2000年之前的老房子掛牌銷售的較少。

2.武漢市二手房房價影響因素分析

對二手房房價影響的因素有很多,如樓房是否有電梯,房子所在區域,樓層結構,產權年限以及裝修程度等因素。

首先,影響價格因素最大的是區域。武漢市在售的二手房在洪山區、武昌區、江岸區等區域的房價較高,而蔡甸、新洲地區房價相對較低。

其次,武漢市在售的二手房中影響次要原由樓層結構,裝修程度等。在售房中,主要樓層結構有平層、復式、錯層、躍層,其中復式價格相對較高,而平層是購房較多的購房結構。產權年限對價格的影響也比較大,一般選擇70年產權比較符合大多數人的情況。裝修方式對房價的影響也比較顯著,其中精裝的武漢二手房房價相對較高,其余裝修方式對應的房價依次按照簡裝、毛坯的順序遞減。

最后,電梯對二手房價格有較明顯的影響,有電梯的二手房房價集中偏高于20000元每平方米,而沒有電梯的二手房房價則明顯低于有電梯的。

綜上所述,最受關注的武漢二手房,其每平方米的價格大概是20000元左右,面積普遍都在50平方米至200平方米之間,高樓層,樓型為板樓,建筑時問在2000年以后。并且,處于武昌、江漢區等繁華地區、裝修方式為精裝、樓型為板塔結合、社區有電梯的二手房房價相對較高。

二、武漢市二手房建模及評估

(一)建模流程

1.建模思路

經過數據清洗后,將清洗后的數據分為訓練集、測試集,分別為變量訓練集X_train、變量測試集X test、因變量訓練集y_train、因變量測試集y_test,分別得到以隨機森林、AdaBoost、XGBoost為算法的模型,進行調參,選取最好的結果,對這三個模型進行比較,選中較好的模型作為預測模型。

2.基礎算法與集成算法

本文對數據進行集成算法訓練前也對基礎算法進行訓練,有線性回歸、邏輯回歸、決策樹回歸等,對其進行建模,得到的MAE遠大于集成學習的評估,對此基礎算法對于該數據的二手房估價并不是很準確,因此選擇了集成學習算法進行構建估價模型。

(二)隨機森林

利用Python軟件中的sklearn庫的隨機森林算法,通過調節算法中的超參數,讓模型達到最好的擬合效果。其中,需要調節的主要參數。

n_estimators是指隨機森林算法中決策樹的數量,默認值為10,經過不斷調試,n_estimators= 250時,MAE達到較好的效果。

n_johs= -1為計算機使用最大核數,只影響計算時間,不影響計算結果。

random_state為隨機種子,這里的參數值為666,為了方便對比,不會因為訓練集所選的數據不一樣影響結果。

max_samplessplit=4,所需的最少樣本數量作為分割內部節點,經調試,等于4時效果最好。

max_depth= 45,樹的最大深度,防止過擬合,該超參數力45時效果最好。

經過調節這些參數后計算出MAE= 2563.3151。

f三)AdaBoost

同樣的在Python中的sklearn中使用AdaBoost算法,其調整的參數類似與隨機森林,因為兩種算法都是以決策樹為基礎,參數意義基本相同。需要調節的主要參數。

maxdepth= 15,樹的深度,防止過擬合,在此算法中,該超參數為15時效果最好。

maxsamples_split=4,參數意義同隨機森林。

random_state= 666,參數意義同隨機森林。

n_estimators參數意義同隨機森林,默認值為10,經過不斷調試,n estimators= 480時,MAE達到較好的效果。

最后輸出的MAE= 2524.6871。

(四)XC.Boost

在Python中,使用XCBoost建模,其主要超參數。

min_child_weight是最小葉子節點樣本的權重和。xc-Boost是這個參數是最小樣本權重的和,而CBM是最小樣本和,這個參數用于避免過擬合。min_childweight=6時MAE達到較好的效果。

gamma是算法在節點分裂的時候,當分裂后損失函數的值下降了,才能分裂這個節點。Gamma指出節點分裂所用最小損失函數下降值。這個參數越大,算法相對保守。Gamma=0.1,效果最好。

colsample_bylevel用來控制決策樹的每級的每次分裂,對列數特征的采樣的占比,colsample_bylevel=0.9時效果較好。

lamhda權重的L2正則化項(Ridge regression類似)。參數是用來控制XCBoost的正則化部分,防止過擬合,lamhda=l時效果較好。

最后輸出MAE= 2861.4871。

(五)模型評估

在使用集成學習算法構建成的模型,使用隨機森林建立起的模型進行估價,將會存在2563元左右的誤差,使用AdaBoost算法建立的模型,對該二手房數據的擬合更高,得到更好的估價模型。

經過調試三個模型,AdaBoost的模型效果比隨機森林和XCBoost更好,相對于武漢市二手房均價20000元/平方米的價格,AdaBoost的模型預測誤差MAE在2500元左右,是均價的12.6%左右,該模型可以對武漢市二手房做大致的估價(如表2所示)。

三、結果與展望

(一)分析總結

本文通過對從鏈家網獲取的2985條武漢市二手房交易數據進行探索、集成學習的方式建立估價模型,得到以下結論。

第一,從變量來看,房子的區域、大小、建造年份對價格影響比較大。武昌、江漢等區域二手房房價相對較高,江夏、蔡甸等區域則相反:房價每平方米的價格大概是20000元左右,面積普遍都在200平方米以下,位于高樓層,樓型為板樓,社區有電梯、建筑時問在2000年以后等特點。

第二,對于二手房價格估價模型,集成學習優勢高于單個算法建立的模型,在隨機森林、AdaBoost、XCBoost這三個模型中,AdaBoost擬合效果最好,能更好地對二手房進行估價。

第三,在房地產估價中,人T-智能以及機器學習的介入,可以幫助該行業迅速發展。當二手房中介建立估價模型時,應當使用大量二手房交易數據,信息越詳細通過機器學習訓練出來的模型,才能更準確地對房價進行估算。

(二)研究的不足與展望

本文不足主要在數據獲取方面,首先,因為計算機性能、軟件、二手房網站信息不全等方面的影響,收集到的數據較少,缺失較大,信息不詳細,用于建模的數據噪音較大,以至于影響最后結果。其次,沒有在文本挖掘方面提取其他信息,比如是否靠近地鐵,是否是學區房等因素。最后,二手房市場的價格容易受政策的干預,應該進一步考慮到政策的影響。

參考文獻:

[1]吳姍撕.基于BP神經網絡的南京市房價預測[J].市場周刊.2016.

[2]袁秀芳,鄭伯川,焦偉超.基于SVR的上海市商品房價格預測『J].西華師范大學,2016.

[3]霍妹宇,王春萍,史朝陽.基于聚類分析技術的昆明二手房源價格分析[J].中國集體經濟,2016.

[4]王智超.基于數據挖掘的房價預測分析[J].四川大學.2017.

[5]劉冰,金躍強,王書營.南京市二手房房價影響因素的多元線性回歸分析[J].南京工業技術學院,2017.

主站蜘蛛池模板: 中国国产高清免费AV片| 多人乱p欧美在线观看| 自拍偷拍欧美| 久久久久亚洲av成人网人人软件| 亚洲欧美极品| 国产日本视频91| 女人爽到高潮免费视频大全| 亚洲全网成人资源在线观看| 精品国产免费观看一区| 97se综合| 国产一区二区视频在线| 99视频只有精品| 国产成人综合久久精品下载| 免费在线国产一区二区三区精品| 亚洲无码91视频| 2021亚洲精品不卡a| 日本不卡免费高清视频| 欧美福利在线| 一区二区三区成人| 91精品视频播放| 亚洲无码高清视频在线观看| 制服丝袜一区二区三区在线| 在线播放91| 国产交换配偶在线视频| 欧美激情网址| 中文字幕 日韩 欧美| 伊在人亚洲香蕉精品播放| 四虎精品国产AV二区| 美女被操91视频| 国产超碰在线观看| 国产日韩精品欧美一区喷| 亚洲久悠悠色悠在线播放| 午夜日b视频| 日本三级欧美三级| 成年网址网站在线观看| h网站在线播放| 91丝袜乱伦| 久久网欧美| 97青草最新免费精品视频| 91福利国产成人精品导航| 婷婷六月在线| 国产幂在线无码精品| 久久semm亚洲国产| 激情综合婷婷丁香五月尤物| 国产美女在线免费观看| 伊人网址在线| 91精品亚洲| 日本成人福利视频| 久久亚洲天堂| 一级香蕉人体视频| 久久综合色视频| 99视频在线看| 国产人成在线观看| 人妻无码中文字幕第一区| 婷婷丁香色| 日本欧美视频在线观看| 久久精品中文字幕少妇| 国产精品短篇二区| 亚洲二区视频| 精品99在线观看| 亚瑟天堂久久一区二区影院| 亚洲VA中文字幕| 久久久久人妻一区精品色奶水| 亚洲精品高清视频| 亚洲无码精彩视频在线观看| 国产玖玖视频| 亚洲国产精品无码AV| 久久亚洲日本不卡一区二区| 99精品免费在线| 九色视频在线免费观看| 日本免费高清一区| 91精品国产自产在线老师啪l| 国产免费好大好硬视频| 国产自在自线午夜精品视频| 国产激情影院| 亚洲水蜜桃久久综合网站| 国产性猛交XXXX免费看| 成人国产精品2021| 欧美色图久久| 亚洲第一区欧美国产综合| 天堂av高清一区二区三区| 日韩在线成年视频人网站观看|