趙云柯



摘 ?要:最近十幾年里普通民眾對房價(jià)的漲跌始終保持著很高的關(guān)注度,而這一關(guān)注度或許可以通過百度搜索指數(shù)得到量化。
而另一個面向,我們相信房地產(chǎn)銷售額的波動會與多數(shù)民眾某些經(jīng)濟(jì)行為的特性發(fā)生關(guān)聯(lián)。這或許可以通過電影排片場次得到側(cè)面的體現(xiàn)。
基于上述思考,我們希望利用神經(jīng)網(wǎng)絡(luò),通過以某一周“上海房價(jià)”的百度搜索指數(shù)、上海電影排片場次和上海房地產(chǎn)平均單位面積銷售價(jià)格為自變量建立模型,來擬合計(jì)算得出該周上海房地產(chǎn)銷售額。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);機(jī)器學(xué)習(xí);多元回歸;房地產(chǎn)
一、具體問題及分析
1)收集并整理從2016年到2019年每周“上海房價(jià)”百度搜索指數(shù)、每周上海電影排片場次、每周上海房地產(chǎn)單位面積平均售價(jià),每周上海房地產(chǎn)銷售額的數(shù)據(jù),并制作樣本與測試集。
2)搭建并使用1)中的數(shù)據(jù)訓(xùn)練基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,利用均方差損失函數(shù)和梯度下降法擬合求解回歸模型。
3)在2)所得出的回歸模型當(dāng)中,解釋結(jié)果模型的各自變量對上海房地產(chǎn)銷售額的影響,解釋其在現(xiàn)實(shí)生活中的含義并進(jìn)行相關(guān)探討。
二、模型的假設(shè)
本文所要研究的是百度搜索指數(shù)、電影排片場次及平均銷售價(jià)格對于房地產(chǎn)銷售總額的影響。對于本文所考慮的問題,基礎(chǔ)的線性回歸問題不足以擬合出貼合度較好的函數(shù),因此我們將線性關(guān)系轉(zhuǎn)為高次的函數(shù)。考慮到三個自變量之間關(guān)聯(lián)度并不高,我們將模型定義為:
對應(yīng)索引i,即:
同線性回歸問題一致,我們采用平方誤差函數(shù)作為損失函數(shù),小批量隨機(jī)梯度下降法作為優(yōu)化算法。可以得出索引i的損失函數(shù)為:
因此同線性回歸問題,一次迭代中的平均損失函數(shù)為:
即:
顯然,每次迭代對于參數(shù)調(diào)整的優(yōu)化方法為:
對于超參數(shù)的設(shè)置,我將迭代次數(shù)定為100000次,初始學(xué)習(xí)率定為0.1。隨著迭代的進(jìn)行,我使用了類似于離散下降的方式來動態(tài)調(diào)整學(xué)習(xí)率:當(dāng)該次迭代損失函數(shù)優(yōu)于上次時,學(xué)習(xí)率增長上次的5%;當(dāng)該次迭代損失函數(shù)劣于上次時,學(xué)習(xí)率減少上次的50%,且保證學(xué)習(xí)率的波動范圍一直處在0.01與0.8之間。如此設(shè)置,既保證了迭代的效率,使得模型能夠在有限次內(nèi)高效地得出較優(yōu)解,也確保了準(zhǔn)確度,使得函數(shù)不會波動過于動蕩。
將所有數(shù)據(jù)進(jìn)行整合后,我們令2016年1月4日到1月10日為第1周,將第1周至第200周的數(shù)據(jù)作為樣本,其余數(shù)據(jù)作為測試集。
三、模型擬合結(jié)果
我們設(shè)百度搜索指數(shù)為x1,電影排片場次為x2,單位面積平均售價(jià)為x3。通過python編程,可知w參數(shù)對應(yīng)不同自變量不同次項(xiàng)分別為:
四、回歸模型擬合結(jié)果分析
機(jī)器學(xué)習(xí)所得到的回歸模型平均損失函數(shù)值為0.000476。相比之下,沒有經(jīng)歷過任何優(yōu)化的初始模型損失函數(shù)值約為0.001,可以發(fā)現(xiàn)精確度得到了顯著的提升。對于樣本而言,我們的模型剔除了樣本中的極端值,預(yù)測結(jié)果的平均值與樣本因變量接近,而方差比樣本更小,相較于樣本更為平滑連貫,兩者的比對圖形如下圖1:
其中橫軸為周數(shù),縱軸為上海每周房地產(chǎn)總銷售額除以10,000后的商。藍(lán)色為實(shí)際值的函數(shù),黃色為預(yù)測值的函數(shù)。藍(lán)色幾個異常的極低點(diǎn),都是發(fā)生在春節(jié)期間。由于在春節(jié)放假期間幾乎不會有任何房屋交易,所以在這一非經(jīng)濟(jì)和關(guān)注度條件的影響下,藍(lán)色曲線的值會異常的低。社會文化因素也導(dǎo)致藍(lán)色實(shí)際值出現(xiàn)了個別因變量極高的數(shù)據(jù),這些都無法被我們基于經(jīng)濟(jì)水平和大眾關(guān)注的模型預(yù)測出來。但依然,我們可以看出兩者的趨勢大致吻合,總體來說依舊具有一定的適用性。
而對于測試集所計(jì)算出的預(yù)測值與實(shí)際值,即使測試集中包含了2020年春節(jié)時期的數(shù)據(jù),具有顯著社會文化因素的影響,但兩者差距在5%顯著性對應(yīng)的z分?jǐn)?shù)1.64個標(biāo)準(zhǔn)差之內(nèi)的占比依舊超過了80%。可以看出,即使對于在樣本時間段之外的測試集,我們的模型依舊擁有客觀的正確率。
五、結(jié)論與展望
本文針對百度搜索指數(shù)、電影排片場次及平均銷售價(jià)格對于房地產(chǎn)銷售總額的影響,提出了基于神經(jīng)網(wǎng)絡(luò)利用機(jī)器學(xué)習(xí)對各參數(shù)進(jìn)行高次函數(shù)建模擬合的方法,并通過對百度搜索指數(shù)、電影排片場次、平均銷售價(jià)格與房地產(chǎn)銷售總額建立函數(shù)關(guān)系進(jìn)行了應(yīng)用,為未來利用不同自變量對因變量的預(yù)測提供了指導(dǎo)。本文獲得的主要結(jié)論如下:
(1)基于單層神經(jīng)網(wǎng)絡(luò),采用平方誤差函數(shù)作為損失函數(shù),小批量隨機(jī)梯度下降法作為優(yōu)化算法,近似離散下降的方式動態(tài)調(diào)整學(xué)習(xí)率,進(jìn)而建立了以百度搜索指數(shù)、電影排片場次及平均銷售價(jià)格為自變量,房地產(chǎn)銷售總額為因變量的5次函數(shù)。所建模型適用于與處理后單位相同,且位于上海的數(shù)據(jù)。
(2)以房地產(chǎn)銷售總額為對象,基于神經(jīng)網(wǎng)絡(luò)實(shí)踐了機(jī)器學(xué)習(xí)模型在互相之間關(guān)系較淺的多特征擬合問題的應(yīng)用。本文所建模型的預(yù)測值與實(shí)際值雖然有一定的誤差,但函數(shù)更為平緩,有利于對于樣本時期之外的數(shù)據(jù)進(jìn)行預(yù)測。同時小批量隨機(jī)梯度下降法與動態(tài)調(diào)整學(xué)習(xí)率的使用使得模型效率較高,100000次迭代在普通的家用筆記本電腦上可以在約30分鐘內(nèi)完成。
當(dāng)然,本文的模型由于僅僅考慮了經(jīng)濟(jì)水平與大眾購買意愿這兩個因素,在實(shí)際使用時出于社會文化因素等原因的影響會出現(xiàn)一定的偏差。若要完全了解并構(gòu)建出能夠精準(zhǔn)預(yù)測房地產(chǎn)銷售額的多特征模型,我們?nèi)孕柙谖磥硗度氪罅康墓ぷ鳎紤]更多的因素,并展開更深入的研究。
參考文獻(xiàn)
[1] ?基于MATLAB的房價(jià)預(yù)測與調(diào)控模型研究[J]. 成鴻飛,王江鵬,余琴.科協(xié)論壇(下半月). 2010(06)
[2] ?基于BP神經(jīng)網(wǎng)絡(luò)的房價(jià)預(yù)測[D]. 崔慶都.西南石油大學(xué) 2011
[3] ?動手學(xué)深度學(xué)習(xí)[M]. 阿斯頓·張.人民郵電出版社.2019