999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost算法的房價預測模型

2021-07-07 16:39:06王冬雪郭秀娟
北方建筑 2021年3期
關鍵詞:模型

王冬雪,郭秀娟

(吉林建筑大學電氣與計算機學院,吉林 長春 130118)

0 引言

近年來,人們對房價的關注一直居高不下。由于城市化的加劇,對房屋租賃和購房的需求也持續增加,而房價問題不僅關系到人民生活水平,更是與國民經濟發展息息相關。因此,對房價進行預測不僅對人們買賣房屋具有參考意義,而且對于政府進行房價調控也有積極作用[1]。因而確定一種可以精準反映房價走勢的算法具有重要意義。

本文通過使用XGBoost算法來預測房價。通過對數據分析、預處理及基于XGBoost模型來構建房價預測模型。影響房價的因素多且復雜,如房屋面積、房屋地理位置、房屋戶型等,本文僅選取對于房價影響較大的79個特征對房價預測模型進行評估,并選擇RMSLE算法作為預測房價的評估算法。

1 數據預處理

在實際情況下,由于環境復雜等因素,我們獲取的數據往往是存在缺失和異常的,因此,在建模前要對數據進行預處理。

1.1 數據集來源

該數據采集來源于Kaggle 2016年競賽項目,分為訓練數據和測試數據。其中訓練數據中有1 460個樣本,每個樣本中含有80個特征,測試數據中包含1 459個樣本,每個樣本中有79個特征。

1.2 缺失值處理

對于數據的缺失問題,要考慮2個重要因素:缺失數據的情況是否普遍,丟失的數據是規律的還是隨機的。數據的缺失可能意味著樣本量的減少,這可能對我們接下來的分析和建模產生阻礙。因此,對缺失值的處理是必需的。對于不同的數據缺失機制,處理的方法也是不同的,常用方法分為數據填充和刪除樣本兩大類[2]。對缺失值的統計如圖1所示。本文所使用的數據缺失值不能確定是否是隨機的,例如缺失比例最高的游泳池質量,可能是由于很多房子里并沒有游泳池。因此根據缺失值的統計結果,本文通過刪除缺失比例較高的變量及帶有缺失值的樣本對缺失值進行處理。

圖1 缺失數據統計圖

1.3 樣本因自變量相關分析

本文所使用的數據集雖然給出了80個自變量,但是有些因素對房價的影響非常小,如果不進行篩選可能會影響結果的準確性[3]。因此,進一步篩選后,得出對房價最具影響的特征依次為:整體質量(整體材料和裝修)、居住面積(地面以上)、車庫容量、車庫面積、地下室總面積、一樓面積、高檔全浴室、客房總數(不含浴室)、建成年份。其相關矩陣熱力圖如圖2所示。

圖2 相關矩陣熱力圖

1.4 數據標準化處理

如圖3所示,房屋的價格已經偏離了正態分布。因此,對于非正態分布,本文采用Box-Cox變換,使數據變得更“正常”。

圖3 原始數據分布

Box-Cox變換的一般形式為:

式中y(λ)為經Box-Cox變換后的響應變量,y為原始連續因變量,λ為變換參數。以上變換要求原始變量取值為正[4]。圖4為經Box-Cox變換后分布。

圖4 變換后數據分布

2 XGBoost模型

XGBoost又稱極端梯度上升,它是大規模并行Boosted Tree,是Gradient Boosting Machine的擴展,在相同的環境和條件下,XGBoost比同類算法快10倍以上[5]。XGBoost還可以通過分布式運算,進一步提高訓練速度[6]。

2.1 基本模型

XGBoost是由k個基模型組成的加法運算式:

其中ft為k個基模型,為第i個樣本的預測值。

其中n為樣本數量。

模型的偏差和方差共同決定了該模型的預測精度,模型的偏差具體表現為損失函數,模型越簡單則其方差越小,所以目標函數由模型的損失函數loss與抑制模型復雜度的正則項Ω組成,所以目標函數可表示為:

其中Ω為模型的正則項。

以第t步的模型為例,模型對第i個樣本xi的預測為:

而根據泰勒公式,可以把上述目標函數寫為:

其中gi為損失函數的一階導,hi為損失函數的二階導。

將決策樹定義為ft(x)=wq(x),x為某一樣本,q(x)代表該樣本所在的葉子結點,而wq則代表葉子結點取值w,所以wq(x)代表每個樣本的取值w(即預測值),則目標函數的正則項可以定義為[7]:

其中λ和γ是XGBoost定義的,其值可設定,值越大,表示越希望獲得結構簡單的樹,T為葉子數。

而其中葉子結點j對應的權值可表示為:

所以目標函數可簡化為:

記IL,IR分別是數據集的左右結點,其中I=IL∪IR,則分裂后增益為:

XGBoost在構建樹的節點時,為每個節點添加了一個缺省方向,當樣本缺失對應特征時,就會被歸類到缺省方向上。如果樣本存在特征缺失的情況,則只需分配到左右節點而無需遍歷,故算法所需遍歷的樣本量大大減少。稀疏感知算法比basic算法速度快了超過50倍[9-10]。

2.2 模型評價

本文采用均方根對數誤差(RMSLE)來作為模型評價的標準。其公式如下:

對訓練集訓練100次后的RMSLE為0.041 646 875 398 8,如圖5所示。XGBoost能更好地適應不平衡的數據集,同時也更不容易過擬合,泛化能力較好,應用范圍廣泛,因此該模型基本可以實現對房價的精準預測。對于該預測模型,可應用到以下場景。

圖5 預測結果圖

1)鏈家、安居客等二手房的交易。該模型更加有利于買賣雙方看清房價接下來的走勢,及時把握住期望成交價格。

2)房產投資的應用。近年來,從《新中產白皮書》中可以看到,新中產人群,除去自住房,投資性房地產占比是最多的。因此,該模型對于投資者有一定的指導性作用。

3 結論

房價預測問題本質上來說就是典型的回歸問題。本文基于XGBoost算法進行房價預測,首先對數據進行缺失值處理、相關分析及標準化處理等一系列預處理,然后使用XGBoost算法對數據集進行建模和訓練,最終實現對房價的精準預測。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 四虎精品免费久久| 久久www视频| 国产福利微拍精品一区二区| 国产日韩欧美在线视频免费观看| 久久精品66| 欧美区在线播放| 日本免费精品| 99视频全部免费| 成人毛片在线播放| 国语少妇高潮| 青青青国产视频手机| 美美女高清毛片视频免费观看| a欧美在线| 免费观看亚洲人成网站| 久久情精品国产品免费| 国产精品九九视频| 日韩免费无码人妻系列| 午夜a视频| 天天婬欲婬香婬色婬视频播放| 毛片手机在线看| 好吊色国产欧美日韩免费观看| 国产不卡网| 亚洲精品国产日韩无码AV永久免费网 | 日韩免费毛片| 99热这里只有精品久久免费| 极品性荡少妇一区二区色欲| 亚洲美女一区二区三区| 性色在线视频精品| 亚洲无码高清一区| 玖玖精品在线| 在线观看无码av五月花| 成年免费在线观看| 久久综合伊人 六十路| 精品91视频| 亚洲日本一本dvd高清| 四虎影视8848永久精品| 午夜无码一区二区三区在线app| 国产欧美日韩综合在线第一| 久99久热只有精品国产15| 婷婷六月综合| 亚洲日本中文综合在线| 国产乱子伦无码精品小说 | 超碰免费91| 综合亚洲色图| 免费国产好深啊好涨好硬视频| 色综合中文综合网| 97色婷婷成人综合在线观看| 欧美啪啪一区| 国产av无码日韩av无码网站| 国产浮力第一页永久地址| 亚洲二区视频| 日韩亚洲综合在线| 高清国产在线| 国产福利在线免费| 2021最新国产精品网站| 亚洲欧美日韩色图| 久久精品视频一| 狼友av永久网站免费观看| 波多野结衣中文字幕久久| 国产人前露出系列视频| 精品伊人久久久久7777人| 欧美亚洲欧美区| 国产18在线| 国产亚洲一区二区三区在线| 亚洲综合久久成人AV| 中文字幕第4页| 欧美精品v| 国产美女精品一区二区| 亚洲精品欧美日本中文字幕| 亚洲国产成人精品青青草原| 精品撒尿视频一区二区三区| 国产成人精品男人的天堂下载| 久热这里只有精品6| 一级福利视频| 天天干天天色综合网| 精品视频免费在线| vvvv98国产成人综合青青| 久久国产精品麻豆系列| 99久久人妻精品免费二区| 亚洲欧美不卡视频| 天堂成人av| 蜜芽国产尤物av尤物在线看|