999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于隨機森林和Light GBM 的房產(chǎn)估價模型?

2024-04-17 07:29:02馮梓豪劉從軍
計算機與數(shù)字工程 2024年1期
關(guān)鍵詞:特征模型

馮梓豪 劉從軍,2

(1.江蘇科技大學(xué)計算機學(xué)院 鎮(zhèn)江 212000)(2.江蘇科大匯峰科技有限公司 鎮(zhèn)江 212000)

1 引言

隨著房地產(chǎn)市場化和市場經(jīng)濟(jì)體制的發(fā)展,房產(chǎn)評估需求迅速增加,近年來國內(nèi)外有大量學(xué)者對房地產(chǎn)評估問題展開了研究,例如:楊燦通過Light GBM 模型對二手房進(jìn)行評估[15]。Lu等提出了一種基于Lasso和梯度提升回歸的組合模型用于評估房價[19]。陳敏等建立了一種神經(jīng)網(wǎng)絡(luò)分級模型來對二手房價進(jìn)行評估[7]。楊磊以特征價格為理論基礎(chǔ)構(gòu)建了二手房價格評估模型,在其中應(yīng)用了地理信息技術(shù)系統(tǒng)技術(shù)實現(xiàn)了房產(chǎn)估價[13]。但上述方法在特征選擇和運行效率方面還存在改進(jìn)的空間。

本文的主要工作如下:基于學(xué)者Butler提出的房地產(chǎn)價格理論,提出時間特征作為房產(chǎn)價格評估的特征。通過隨機森林算法對特征重要性進(jìn)行排序,剔除對預(yù)測值影響較小的特征,再通過網(wǎng)格搜索對模型進(jìn)行優(yōu)化,最后使用訓(xùn)練好的模型對房產(chǎn)價值進(jìn)行預(yù)測。

2 模型建立

2.1 隨機森林特征選擇算法

隨機森林算法是在傳統(tǒng)決策樹算法的基礎(chǔ)應(yīng)用統(tǒng)計學(xué)采樣原理上構(gòu)建的一種聚合算法,常用于回歸問題和分類問題。隨機森林具有高精度的特性,并且具有良好的魯棒性。它通過結(jié)合多個決策樹來構(gòu)建模型,每個決策樹的建立都是基于獨立抽取的樣本。在分裂節(jié)點時,它依賴于不純度指標(biāo)和袋外數(shù)據(jù)錯誤率來做出決策。

傳統(tǒng)的隨機森林重要特征性度量方法是對每一個特征隨即置換并由隨機森林對特征置換后生成新的袋外數(shù)據(jù)進(jìn)行測試,當(dāng)特征的重要程度越高,隨機森林的預(yù)測誤差率的變化就會越大,現(xiàn)假設(shè)隨機森林中的決策樹目為Ttree,原始數(shù)據(jù)集由N個特征,單特征Xi(i=1,2,3…,N)的基于OOB 誤差分析的特征重要性度量如下:

1)計算第i棵決策樹相應(yīng)的袋外數(shù)據(jù)的錯誤樣本數(shù)ErrrorOOBi。

3)重復(fù)1)、2)步驟得到所有的錯誤樣本以及隨機調(diào)整順序后的錯誤樣本。

4)計算所有決策樹特征簇Xji置換前后OOB分類誤差率的平均變化量:

2.2 Light GBM模型

Light GBM 是由微軟DMTK 團(tuán)隊開源發(fā)布的,是一個輕量級的GB框架,基于決策樹的學(xué)習(xí)算法,支持分布式。其算法流程如下:

1)初始化n 課決策樹,每個訓(xùn)練樣例的權(quán)重為1/n。

2)訓(xùn)練弱分類器f(X)。

3)設(shè)置該弱分類器的話語權(quán)β。

4)更新權(quán)重。

5)得到最終分類器,表達(dá)式如下:

Light GBM 模型使用了直方圖做差加速和Leaf-wise 生長策略,降低了模型的運算速度和內(nèi)存消耗,直方圖算法示意圖如圖1,Leaf-wise 生長策略如圖2所示。

圖1 直方圖算法示意圖

圖2 Leaf-wise生長策略

2.3 RF_lightGBM模型

基于Light GBM 的高效率和高準(zhǔn)確率以及低內(nèi)存消耗,選擇以Light GBM 建立房產(chǎn)價格預(yù)測模型,同時以混淆矩陣計算特征的準(zhǔn)確度、精度等指標(biāo)檢驗隨機森林選擇的特征是否有效,然后將經(jīng)過特征選擇之后的數(shù)據(jù)輸入Light GBM 算法進(jìn)行學(xué)習(xí),采用網(wǎng)格搜索優(yōu)化尋參過程,通過網(wǎng)格搜索得到模型的超參數(shù),Python 提供的scikit-learn 庫可幫助找到最合適的超參數(shù)。模型如圖3所示。

圖3 RF_Light預(yù)測模型流程圖

3 特征選擇與超參數(shù)調(diào)整

3.1 特征選擇

特征價格理論是房地產(chǎn)評估領(lǐng)域的重要理論之一,由Ridker 首次引入。該理論認(rèn)為,房地產(chǎn)作為一種商品,其價格不僅僅取決于其地理位置、建筑質(zhì)量等單一因素,而是所有特征屬性的效用之和。這些特征屬性包括房屋的面積、房齡、裝修程度、周邊設(shè)施等等。每一個特征屬性都會對房地產(chǎn)的總效用產(chǎn)生影響,從而影響其價格。學(xué)者Butler將影響房地產(chǎn)價格的因素進(jìn)行了整合分類,提出了三類適用的特征變量,包括區(qū)位特征,結(jié)構(gòu)特征以及鄰里環(huán)境。根據(jù)Butler 的理論,房產(chǎn)價格可以描述為P=f(L,S,N)。

該方程在特征價格理論公式的基礎(chǔ)上將變量分為三類,分別是L-區(qū)域特征,S-結(jié)構(gòu)特征,N-鄰里環(huán)境。

本文在Butler提出的價格理論上,提出假如T-時間特征,則房產(chǎn)價格可描述為P=f(L,S,N,T)。

本文共設(shè)定35 個量化指標(biāo),其中區(qū)域特征如表1所示。

表1 區(qū)域特征表

鄰里環(huán)境如表2所示。

表2 鄰里環(huán)境表

結(jié)構(gòu)特征如表3所示。

表3 結(jié)構(gòu)特征表

時間特征如表4所示。

表4 時間特征表

將上述特征使用隨機森林進(jìn)行重要度進(jìn)行排序,得出的排序后的特征如圖4所示。

圖4 排序后特征

3.2 Light GBM超參數(shù)調(diào)整

模型的超參數(shù)是通過網(wǎng)格搜索和五折交叉驗證得到的,本文使用Python 庫scikit-learn 中的GridSearchCV 方法來搜索最優(yōu)超參數(shù)。優(yōu)化了增強迭代次數(shù)、梯度增強算法的步長、最大樹深、一棵樹中最大葉子數(shù)、葉子中最小樣本數(shù)、葉子中最小Hessian和。具體參數(shù)如表5所示。

表5 Ligh GBM超參數(shù)表

4 實驗結(jié)果

為保證模型的普適性和在真實場景中的準(zhǔn)確性,本次實驗使用的數(shù)據(jù)為公開的房產(chǎn)數(shù)據(jù)集。

將數(shù)據(jù)進(jìn)行數(shù)據(jù)清理后,共得到63725 條數(shù)據(jù),將其按照70%為訓(xùn)練數(shù)據(jù),30%為測試數(shù)據(jù)進(jìn)行劃分。

使用RF_LightGBM 模型對準(zhǔn)備好的數(shù)據(jù)進(jìn)行了預(yù)測,得到了預(yù)測價格和實際價格的平均值為2566.7 元,平均相對誤差為4.28%。測試集中的大部分誤差在0%~15%之間,占比為98.72%。具體的相對誤差分布情況如表6所示。

表6 相對誤差分布情況表

表7 隨機森林超參數(shù)表

表8 XGBoost超參數(shù)表

本文比較了RF_LightGBM 模型的房產(chǎn)價值評估模型與目前研究或行業(yè)中常用的評估方法。本文選取了兩種方法進(jìn)行比較,分別是隨機森林模型和XGBoost模型,并給出了這兩種模型的參數(shù)設(shè)定。

為了合理地評價模型的綜合性能,本文以平均絕對誤差(MALE)和隊數(shù)均方根差(RMSLE)作為模型的評價指標(biāo)。MALE 能更好地反映觀測值誤差的實際情況,而RMSLE 則是用來衡量觀測值和真實值之間的偏差,其計算公式如下:

其中pi表示實際的房價,而pi表示模型預(yù)測的房價。各模型對比結(jié)果如表9所示。

表9 模型結(jié)果比對表

三種預(yù)測模型得出的平均房價(元/m2)得出的柱狀圖如圖5所示。

圖5 預(yù)測房屋均價比較圖

從表9 可以看出RF_LightGBM 模型性能明顯優(yōu)于隨機森林,XGBoost 等深度學(xué)習(xí)模型。從圖5可以看出RF_LightGBM 模型預(yù)測的房屋均價相對于隨機森林和XGBoost 模型更加貼近真實數(shù)據(jù),且存在偏差較小。

5 結(jié)語

隨著信息技術(shù)的飛速發(fā)展,大數(shù)據(jù)、人工智能等技術(shù)為企業(yè)和社會帶來了前所有的機遇,本文在傳統(tǒng)的預(yù)測模型上,提出了RF_LightGBM 模型,使用隨機森林對特征進(jìn)行選取和重要度排序,將預(yù)測過后的特征數(shù)據(jù)使用Light GBM 模型進(jìn)行預(yù)測。實驗表明,所提模型準(zhǔn)確率優(yōu)于隨機森林,XGBoost等學(xué)習(xí)模型,房產(chǎn)評估結(jié)果也更加貼近實際值。

在未來的工作中,結(jié)合我國基本國情與政策,通過人文因素,經(jīng)濟(jì)環(huán)境因素等進(jìn)一步提取和細(xì)化對房產(chǎn)產(chǎn)生影響的因子,提高評估結(jié)果的精度和模型的普適性。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 99热这里都是国产精品| 99青青青精品视频在线| 久久久久亚洲精品成人网| 国产白浆在线| 国产成人亚洲毛片| 日韩欧美中文亚洲高清在线| 日韩在线中文| 国产精品13页| 国产精品久久久久鬼色| 在线观看亚洲精品福利片| 99久久99视频| 国产成人免费视频精品一区二区| h视频在线观看网站| 伦精品一区二区三区视频| 亚洲天堂福利视频| 亚洲成a人片| 欧美不卡视频一区发布| 亚洲bt欧美bt精品| 欧美日韩一区二区在线播放| 久久一级电影| 无码国产偷倩在线播放老年人| 无码国内精品人妻少妇蜜桃视频| 国产成人亚洲无码淙合青草| av午夜福利一片免费看| 亚洲无码熟妇人妻AV在线| 亚洲国产无码有码| 91精品国产无线乱码在线| 一区二区三区四区在线| 亚洲视频一区在线| 国产91精选在线观看| 久久中文电影| 伊人天堂网| 色欲色欲久久综合网| 国产嫩草在线观看| 国产高清在线丝袜精品一区| 四虎影视库国产精品一区| 成人在线综合| 毛片在线播放a| 中文无码精品a∨在线观看| 四虎成人免费毛片| 日本亚洲最大的色成网站www| 99无码中文字幕视频| 日韩色图在线观看| 亚洲AⅤ无码日韩AV无码网站| 色爽网免费视频| 伊人色在线视频| 亚洲黄网视频| 国产午夜无码片在线观看网站 | 伦伦影院精品一区| 久久窝窝国产精品午夜看片| 1769国产精品视频免费观看| 白浆免费视频国产精品视频| 97成人在线视频| 国内自拍久第一页| 国产三级视频网站| 91在线播放免费不卡无毒| 情侣午夜国产在线一区无码| 午夜国产小视频| 露脸一二三区国语对白| 欧美激情福利| 亚洲欧美人成人让影院| 色哟哟国产精品一区二区| www.99在线观看| 亚洲人成日本在线观看| 欧美色99| 欧洲av毛片| 狠狠做深爱婷婷久久一区| 国产福利拍拍拍| 国产欧美在线观看视频| 国产麻豆精品在线观看| 激情爆乳一区二区| 日韩一区二区在线电影| 欧美区一区| 四虎永久在线精品影院| 国产亚洲欧美在线视频| 国产伦片中文免费观看| 国产亚洲欧美日韩在线观看一区二区| 国产又大又粗又猛又爽的视频| 亚洲日韩在线满18点击进入| 亚洲日本中文字幕乱码中文| 欧美成人免费午夜全| 一级毛片免费的|