999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RNN的房地產(chǎn)估價回歸模型

2021-06-24 07:24:44謝志偉
微型電腦應用 2021年6期
關(guān)鍵詞:模型

謝志偉

(東莞職業(yè)技術(shù)學院 計算機工程系, 廣東 東莞 523808)

0 引言

對大多數(shù)人來說,住房一直是最大的開支之一。買房是一個高度參與的決定。消費者對房產(chǎn)價值的判斷和對房產(chǎn)未來價值的估計,會影響他們的購買決策和預算分配[1]。此外,房地產(chǎn)價格是反映經(jīng)濟活動的重要因素之一。因此,對土地價格的準確預測,可以幫助政府或企業(yè)在未來的財政年度內(nèi)做出操縱財務狀況的關(guān)鍵決策。從這個角度看,房地產(chǎn)價格的測算過程與人們的生活和國民經(jīng)濟息息相關(guān)[2]。

自動估價模型(AVM)是在分析房地產(chǎn)的區(qū)位、周圍條件和特性的基礎(chǔ)上,對房地產(chǎn)市場價值進行評估的數(shù)學程序[3]。房地產(chǎn)行業(yè)的一些企業(yè)提供了易于訪問的AVM Web應用程序來估計房產(chǎn)價格,主要是基于套索回歸(LASSO)和支持向量回歸(SVR)[4-5]。但這些方法沒有更多考慮房屋本身的屬性,如房間數(shù)量、房屋大小和房屋的裝修情況等。所以為了更加準確地評估房產(chǎn)價格,在此基于遞歸神經(jīng)網(wǎng)絡(RNN)和房屋自身屬性,提出了一種新的房地產(chǎn)價格評估方法。同時,Boosting樹模型作為數(shù)據(jù)分析競爭中一種很有前途的機器學習方法[6-7]。因此,在本研究中,為了使結(jié)果更加準確,通過RNN網(wǎng)絡模型與Boosting樹的一種變體,XGBoost模型相結(jié)合,對房價進行預測。

1 基于LSTM和XGBoost的模型

在本節(jié)中,簡要介紹所提出模型的主要組成部分。首先,介紹RNN中的長期短期記憶(LSTM)的基本體系結(jié)構(gòu),然后介紹了XGBoost模型。

1.1 長期短期記憶

在自然語言處理(NLP)中,整個句子被定義為順序數(shù)據(jù),每個詞都基于對先前詞的理解。當人工神經(jīng)網(wǎng)絡執(zhí)行自然語言處理時,它需要一種結(jié)構(gòu)來根據(jù)句子的上下文來推理下一個單詞,該結(jié)構(gòu)將先前的輸出作為推論的輸入進行組合。遞歸神經(jīng)網(wǎng)絡(RNN)是用于處理順序數(shù)據(jù)的一系列神經(jīng)網(wǎng)絡[8-9]。

RNN結(jié)構(gòu)示意圖如圖1所示。

圖1 RNN結(jié)構(gòu)示意圖

圖1說明了簡單RNN的結(jié)構(gòu)。{O(1),…,O(T)}是給定輸入序列{x(1),…,x(T)}和隱藏單元的神經(jīng)網(wǎng)絡的隱藏層{h(1),…,h(T)}。來自輸入單元的單向信息流到達隱藏單元,而來自隱藏單元的另一單向信息流到達輸出單元。h(t)是基于當前輸入層的輸出和先前隱藏層h(t-1)的狀態(tài)來計算的,估算方法如式(1)。

h(t)=f(Ux(t)+Wh(t-1))

(1)

式中,f表示非線性激活函數(shù),如tan或ReLU,具有共享參數(shù)U,W。O(t)是步驟t的輸出,它取決于當前神經(jīng)元的激活函數(shù),如式(2)。

O(t)=σ(Vh(t))

(2)

式中,σ表示輸出層的激活函數(shù)。

從理論上講,RNN可以從句子開始處理上下文,這樣可以更準確地預測句子結(jié)尾的單詞。然而,序列長度越長,隱藏層就越多,這就產(chǎn)生了消失梯度問題,從而阻礙了RNN的優(yōu)化[8]。

LSTM是解決這個問題的架構(gòu)[10],每個LSTM將整個神經(jīng)網(wǎng)絡分割成多個單元{C(1),…,C(T)},如圖2所示。

圖2 LSTM的結(jié)構(gòu)

每個單元包含輸入門、遺忘門和輸出門,其能夠在正向傳播階段存儲錯誤。遺忘門將誤差從單元中刪除,以求解消失梯度。

Wf、Wc和Wo分別是輸入門、遺忘門和輸出門的對應參數(shù)。輸入門將電流輸入和先前的輸出結(jié)合起來,在神經(jīng)元中使用激活函數(shù)σ和偏置bf。然后,tan為單元值創(chuàng)建新的候選值,并分別用偏差bi和bc與先前的更新決策值進行比較,如式(3)—式(5)。

ft=σ(Wf[h(t-1),x(t)]+bf)

(3)

(4)

ot=σ(Wc[h(t-1),x(t)]+bo)*tan(ct+ft)

(5)

1.2 XGBoost原理

XGBoost是Boost算法的一種,是基于gradientboosting框架實現(xiàn)的[11-12]。它是一個分布式梯度的優(yōu)化增強庫,由很多分類回歸樹組成。由于XGBoost可以進行多線程計算,所以它具有運算速度快、體積小的特點[13-14]。XGBoost算法核心是為了擬合前一次迭代中實際值和預測值的差,所以在每次迭代的過程中都會增加一棵樹,從而讓預測值不斷接近真實值。然后每棵樹的總得分就是該樣本的得分。XGBoost的預測值計算如式(6)。

fg∈F,r∈n

(6)

(7)

(8)

式中,P表示損失系數(shù);C表示損失因子;V表示分裂的節(jié)點數(shù)。在XGBoost中判斷節(jié)點是否進行分裂的方法是通過分裂后的左右節(jié)點的分數(shù)減去未分裂的節(jié)點分數(shù)。由于XGBoost中利用正則化因子來限制樹的增長,所以當收益小于正則化因子時,節(jié)點分裂則停止。整個XGBoost的流程如圖3所示。

圖3 XGBoost預測流程圖

2 模型建立

一般來說,圖像包含的有價值的信息不能簡單地寫下來,例如,屬性的質(zhì)量或狀態(tài)是什么?它看起來如何?這些顏色是否很好地融合并增強了房屋的外觀和感覺?所以在此,希望有一個圖像評估模型可以給定一個圖像作為輸入,自動分配一個評分,可以模仿人類來觀察和欣賞其價值,并從不同的圖像中評估房屋屬性。

2.1 數(shù)據(jù)預處理

由于相關(guān)房屋照片的尺寸大小不一,所以在進行特征提取之前,需要對圖片數(shù)據(jù)進行預處理。首先先要將圖片尺寸統(tǒng)一,在此,LSTM網(wǎng)絡的輸入尺寸是244×244像素的圖像。同時,由于提出的LSTM網(wǎng)絡需要對房屋多個屬性進行評分,因此,在此將輸入的圖像切割成122×122像素的4個小圖像。

由4個小圖像構(gòu)成整個大的輸入圖像,如圖4所示。

圖4 LSTM輸入圖像示例

同時,由于房屋圖片存在通過調(diào)亮光線進行美化的情況,因此,為了使得整個模型對房屋的評估更加準確,所以對于美化過的房屋圖片需要進行反美化處理。為了確定圖像是否經(jīng)過光線增強處理,首先需要統(tǒng)計同一房屋其他區(qū)域的圖片及相似房源的圖片的光線強度。因此,將原RGB圖像轉(zhuǎn)為YCbCr圖像,然后計算每一幅圖像的光亮值,對參考圖像的光亮值進行平均處理,確定閾值。如果高于閾值則說明該幅圖像經(jīng)過美化處理,需要調(diào)低光亮,如圖5所示。

該圖顯示了去美化前后圖像對比。

2.2 特征的選擇和提取

盡管網(wǎng)上的房產(chǎn)圖片可以對一棟房子進行整體評價,但卻不能捕捉到一些特征,如窗戶、門、鏡子、屋角等。文獻[15]指出,從房地產(chǎn)圖像中提取視覺特征與正常屬性有顯著關(guān)系,可以提高房價估計的準確性。因此,利用RNN神經(jīng)網(wǎng)絡中的LSTM網(wǎng)絡進行圖像的特征提取和視覺特征學習。

輸入層是對應的視頻幀特征向量,在輸入層上層是正向的LSTM層,由一系列的LSTM單元構(gòu)成。再將全部時刻的LSTM輸出進行加權(quán)平均操作后的結(jié)果作為上層的表示。最后通過softmax層,進行全連接的操作。

數(shù)據(jù)集中有太多用于建模的變量,選擇這些功能有兩個原因。一是特征集過大會使算法速度變慢;二是當變量的個數(shù)明顯高于最優(yōu)值時,會導致機器學習的不精確性。因此,根據(jù)真實性和相關(guān)性來選擇最佳特征是至關(guān)重要的。Boruta是一種基于隨機森林的特征選擇方法,并應用于我們的實驗中進行特征提取。在特征選擇之后,只有部分特征被用來構(gòu)建模型。特征選擇的結(jié)果包括有樓房單元號、屋頂類型、房間數(shù)、附加設(shè)施和地址等一系列與房產(chǎn)有關(guān)的因素。

每個特征的相關(guān)屬性都有不同數(shù)量的圖像,其中有些屬性有5個圖像,有些屬性有大約35個圖像。通過對現(xiàn)有的數(shù)據(jù)進行統(tǒng)計,大部分記錄都有10到30幅房產(chǎn)圖片。對于構(gòu)建此模塊,將刪除少于10個圖像或多于30個圖像的屬性記錄。受文獻[16]發(fā)表的神經(jīng)圖像評估的啟發(fā),屬性平均質(zhì)量評分可以定義為式(9)。

(9)

式中,M表示每個屬性的圖像總數(shù),對于這個實驗,M被設(shè)置為5≤M≤30,因為大多數(shù)屬性都在這個范圍內(nèi);S表示1到10的評分等級,所以S的范圍為S∈[1,10];N表示總分列數(shù),通過大樣本分析,N設(shè)置為10,這意味著它有10列評分;P表示每個評分的響應百分比。

2.3 價格預測

這一部分說明了房價預測模型的具體流程,該模型結(jié)合了一些用于房價預測的特征。混合模型包括在數(shù)據(jù)集上預先訓練的LSTM模型,具有softmax功能,用于評估房產(chǎn)圖像,并給出總體房屋評分;激活校正線性單位(ReLU)以分析表格數(shù)據(jù)集/數(shù)字特征;另一個具有ReLU激活功能的LSTM模型用于從屬性圖像中提取視覺特征,作為屬性評估的附加屬性;用XGBoost預測房地產(chǎn)價格。

3 實驗與評估

3.1 實驗環(huán)境與數(shù)據(jù)

本文的實驗環(huán)境是基于一臺聯(lián)想ThinkPad筆記本電腦,其處理器為英特爾I7處理器,顯卡為英偉達Quadro T2 000,內(nèi)存大小為16GB,系統(tǒng)為windows 10 64位系統(tǒng)。

在整個實驗中,數(shù)據(jù)都是來自于Data Nerds的數(shù)據(jù)庫。收集的數(shù)據(jù)來自美國最大城市之一的伊利諾伊州的芝加哥市,以及美國房產(chǎn)的多重上市服務系統(tǒng)中的圖片數(shù)據(jù)。本節(jié)介紹如何與SVR和LASSO回歸相比,對數(shù)據(jù)進行預處理和評估所提出的模型。整個數(shù)據(jù)集隨機分成抽取80%的數(shù)據(jù)作為訓練集,剩下20%的數(shù)據(jù)作為測試集。

3.2 數(shù)據(jù)集預處理

美國房價指數(shù)(Housing Price Index,HPI)數(shù)據(jù)集由聯(lián)邦政府提供。整個數(shù)據(jù)集包含1979年至2019年美國所有地級市的所有HPI。在這個實驗中,我們提取了芝加哥郵政編碼級別的60個HPI系列。

原始數(shù)據(jù)集包含許多變量,如房屋質(zhì)量,房產(chǎn)地理信息。它還包含了房價隨時間變化的交易記錄。在這里,只選擇了2017年內(nèi),并通過HPI將2018年和2019年的價格轉(zhuǎn)換為該實驗的真實數(shù)據(jù)。在全市范圍內(nèi)篩掉了價格極高或極低的房子,篩選數(shù)據(jù)的摘要如表1所示。

表1 芝加哥的平均價格和標準價格偏差

為了訓練和驗證提出的模型并防止過度擬合,采用了5倍交叉驗證技術(shù)。該算法將完整的數(shù)據(jù)隨機分成五個子集。一個唯一的子集作為測試的驗證數(shù)據(jù),其余四個子集用于每個驗證過程中的訓練。經(jīng)過5倍交叉驗證,我們可以得到每套房子的預測價格。

3.3 訓練方法

模型訓練過程,如圖6所示。

圖6 模型訓練過程

首先,預處理后的過濾數(shù)據(jù)包含1979年至2017年的房屋和其屬性,如前所述。其次,采用多個LSTMs分別對每個郵政編碼級別的HPIs,以及房屋自身照片進行評分和預測。它是一個具有4個激活ReLu神經(jīng)元的單隱層LSTM,窗口大小是3,這意味著預測HPI是由前3個HPI預測的。同時,XGBoost模型有義務根據(jù)房產(chǎn)屬性預測2017年的房價。最后,利用預測的2017年的結(jié)果對2018年和2019年的房價進行評估。

3.4 評估模型和實驗結(jié)果

模型對于不同房屋的評分結(jié)果如圖7所示。

由圖7可知,兩個房屋的評分均顯示在臥室圖片中,可以看到(a)圖的評分高于(b)圖,這與實際結(jié)果也是相同的。

(a) 未處理的圖像及其均衡化直方圖

(b) 反增強后的圖像及其直方圖

(b) B房屋臥室圖

(a) A房屋臥室圖

在整個評估過程中,所采用的評價指標為平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)。兩個度量的定義,如式(12)、式(13)。

(12)

(13)

式中,turei表示真實值;predi表示預測值。

在此使用相同的訓練和測試集來評估所有的模型。所有不同模型的回歸結(jié)果如表2所示。

表2 結(jié)果比較

結(jié)果表明,提出的方法,相對于LASSO回歸,誤差減小了近15%,相對于SVR回歸,誤差減小了10%,所以該模型比其他兩個模型具有更好的性能。

4 總結(jié)

本文提出了一種用于房地產(chǎn)估價的集成學習回歸模型。該模型能夠綜合考慮房屋質(zhì)量、區(qū)位和市場價格走勢。實驗結(jié)果表明了所提出方法是有效的,也為深度學習方法與統(tǒng)計學習算法的集成提供了一種新的途徑。這也說明了深度學習在房地產(chǎn)領(lǐng)域具有廣闊的未來。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成人一区二区| 久久香蕉国产线看观看精品蕉| 国产成人精品视频一区二区电影| 亚洲无码91视频| 亚洲A∨无码精品午夜在线观看| 免费看一级毛片波多结衣| 色悠久久久久久久综合网伊人| 亚洲高清在线天堂精品| 国产精品xxx| 久久国产V一级毛多内射| 自拍亚洲欧美精品| 国产精品一区在线麻豆| 19国产精品麻豆免费观看| 一边摸一边做爽的视频17国产| 国产成人做受免费视频 | 欧美色综合久久| 2020国产精品视频| a毛片在线播放| 亚洲视频a| 伊人久久婷婷五月综合97色| 美女无遮挡免费视频网站| 精品伊人久久久香线蕉 | 亚洲浓毛av| 国产精品99一区不卡| 在线日韩一区二区| 久久鸭综合久久国产| 欧美成人免费午夜全| 91 九色视频丝袜| 国产成人1024精品下载| 91视频首页| 亚洲精品视频免费| 视频二区亚洲精品| 98精品全国免费观看视频| 国内精品久久久久久久久久影视 | 精品免费在线视频| 国产成人a毛片在线| 青青青国产视频手机| 伊大人香蕉久久网欧美| 欧美一级在线看| 99久久国产综合精品女同| 亚洲男人的天堂视频| 国产人人射| 久爱午夜精品免费视频| 丰满少妇αⅴ无码区| 亚洲一级毛片免费看| 亚洲视频免费在线看| 国产在线视频欧美亚综合| 欧美综合成人| 欧类av怡春院| 欧美国产日产一区二区| 欧美成人免费午夜全| 亚洲中文字幕久久无码精品A| 欧美成人免费午夜全| 色婷婷综合在线| 国产精品嫩草影院视频| 亚洲黄色成人| 久久久久国产精品嫩草影院| 中文字幕永久在线看| 亚洲欧美日韩高清综合678| 激情影院内射美女| 欧美色香蕉| 老司国产精品视频| www.亚洲天堂| 国产成人狂喷潮在线观看2345| 亚洲第一国产综合| 亚洲男人的天堂网| 国产三区二区| 亚洲最猛黑人xxxx黑人猛交| 欧洲极品无码一区二区三区| 一区二区三区毛片无码| 亚洲成年人片| 国产99在线观看| 操操操综合网| 97人妻精品专区久久久久| 亚洲成人免费看| 激情亚洲天堂| 久久青草免费91观看| 婷婷五月在线视频| 日韩视频免费| 国产中文一区a级毛片视频| 91外围女在线观看| 国产精品极品美女自在线看免费一区二区|