999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM-XGBoost 二維組合模型的GDP 增速預測

2021-04-23 05:50:28周石鵬
軟件導刊 2021年4期
關(guān)鍵詞:模型

朱 青,周石鵬

(上海理工大學管理學院,上海 200093)

0 引言

改革開放以來,中國是同期世界上經(jīng)濟發(fā)展最快的國家,經(jīng)濟實現(xiàn)了持續(xù)高速增長,成為世界第二大經(jīng)濟體。隨著科學技術(shù)的發(fā)展,探索使用大數(shù)據(jù)和機器學習的方法改進宏觀經(jīng)濟結(jié)構(gòu)和趨勢成為研究熱點,包括對國民經(jīng)濟GDP(Gross Domestic Product,GDP)預測問題的研究。本文通過對經(jīng)濟因素的綜合考量,選用GDP 增速作為經(jīng)濟發(fā)展趨勢的重要評價指標。

GDP 增速反映經(jīng)濟發(fā)展趨勢,與人民生活水平息息相關(guān)。根據(jù)中國國家統(tǒng)計局數(shù)據(jù),中國經(jīng)濟經(jīng)過多年的高速增長后,2015 年GDP 增速為6.9%,2016-2018 年增速分別為6.7%、6.8%和6.6%。2019 年GDP 增速為6.1%,是近年來最大的一次經(jīng)濟增速下降。因此,精準預測GDP 增速對宏觀經(jīng)濟目標的可行性和有效性分析具有重要影響。

1 相關(guān)研究

國內(nèi)外對宏觀變量的預測方法包括兩大類:利用模型預測和主觀判斷性預測。模型預測主要是時間序列方法和機器學習方法[1-3]。李娜等[4]利用ARIMA 模型對國民經(jīng)濟GDP 進行預測研究,表明了ARIMA 模型在GDP 預測方面的優(yōu)良性;Wang&Shang[5]、Wang 等[6]將改進SVM 模型應用于股票預測,表明改進SVM 模型在預測方面的有效性。對經(jīng)濟進行主觀預測的如美國聯(lián)邦儲備委員會,在確定貨幣政策之前,研究人員對美國經(jīng)濟走勢提供主觀預測,被稱為綠皮書預測。

隨著計算機技術(shù)的發(fā)展,機器學習算法和組合模型越來越多地應用于預測分析。王曉飛等[7]將時間序列模型和神經(jīng)網(wǎng)絡模型進行組合以預測PM2.5。傳統(tǒng)時間序列方法,其缺點是要求時序數(shù)據(jù)穩(wěn)定,并對復雜的非線性系統(tǒng)擬合能力較差,且容易發(fā)生多重共線性,預測精度不夠準確。目前,GDP 增速預測模型主要是單一的時間序列模型,本文從兩個方面對GDP 增速預測模型進行改進。一是基礎模型選取,運用機器學習模型進行GDP 增速預測。機器學習算法包括隨機森林(Random Forest,RF)[8]、支持向量機(Support Vector Machine,SVM)[9-10]、神經(jīng)網(wǎng)絡和集成算法[11-13]等。機器學習模型能夠模擬非線性可分數(shù)據(jù),計算效率和準確率更高。機器學習問題求解流程如圖1 所示,模型訓練過程如圖2 所示。選取機器學習3 個經(jīng)典模型作為基礎模型進行建模研究:①回歸模型:Ridge 回歸;②集成算法:XGBoost 模型;③神經(jīng)網(wǎng)路:LSTM 網(wǎng)絡。二是增加預測模型維度,提高預測精度。本文使用二維組合模型對GDP 增速進行預測,通過誤差倒數(shù)法計算權(quán)重,對獨立模型進行加權(quán)組合,對誤差較小的模型賦予較大權(quán)重,從而可以得到誤差更小的預測值。實驗結(jié)果表明,本文提出的LSTM-XGBoost 二維組合模型的預測精度均高于單一模型預測精度。

Fig.1 Process of machine learning problem solving圖1 機器學習問題求解流程

Fig.2 Model training process圖2 模型訓練過程

2 嶺回歸預測模型構(gòu)建

嶺回歸(Ridge Regression)是Hoerl 等[14]提出的一種改進的最小二乘估計方法。從數(shù)學形式上看,嶺回歸是在最小二乘估計的基礎上,向離差平方和增加一個L2 范數(shù)。

多元線性回歸模型可表示為:

其中,y 為因變量,X為自變量(或者為多變量矩陣形式),β為回歸系數(shù),ε為誤差。

參數(shù)β的最小二乘估計是:

當X不是列滿置,XT X的行列式又接近于0,即XT X接近于奇異,此時在計算(XT X)-1時會出錯。嶺回歸就是在矩陣XT X上加一個I,從而使得矩陣非奇異,進而能對I求逆。此時,回歸系數(shù)β的計算公式將變成:

其中,λ是用戶定義的數(shù)值。λ越大,消除共線性影響效果越好,但擬合精度越低;λ越小,擬合精度越高,消除共線性影響越差[15]。

3 XGBoost 回歸預測模型構(gòu)建

XGBoost(eXtreme Gradient Boosting)算法是基于回歸樹的提升算法[16],其基礎樹結(jié)構(gòu)為分類回歸樹[17](Classification and Regression Tree,CART)。XGBoost 算法已在眾多預測領(lǐng)域取得了較好效果[18-21],其模型參數(shù)值如表1 所示。

以下給出回歸樹數(shù)學定義和XGBoost 模型數(shù)學推導,如無特別聲明,均引自參考文獻[16]。

對于給定的n個樣本,m個特征的數(shù)據(jù)集D={(xi,yi)},其中|D|=n,xi∈?m,yi∈?。樹集成模型通過k個加性函數(shù)預測輸出。

?={f(x)=wq(x)} 是 回 歸 樹 空 間,其 中q:?m→T∣,w∈?T是將數(shù)據(jù)映射到葉子結(jié)點的函數(shù),T為樹葉子節(jié)點的標簽集,fk(xi)是第k棵CART 樹的預測輸出。

損失函數(shù)? 如式(5)所示。

其中:

第t次迭代的損失函數(shù)如式(7)所示。

接下來,找到一個ft能最小化目標函數(shù)。XGBoost 的思想是將上述目標函數(shù)進行二階泰勒展開,移除高階無窮小項,得出的目標函數(shù)為:

其中,gi、hi分別為損失函數(shù)在t-1 次迭代的預測值處的一次和二次偏導。

由于在第t輪時,t-1 輪的結(jié)果已知,在第t次迭代中得到更精簡的目標函數(shù)。

定義好分裂候選集合Ij={i∣q(xi)=j},進一步改進目標函數(shù)。

Table 1 Parameter values of XGBoost model表1 XGBoost 模型參數(shù)值

4 LSTM 網(wǎng)絡預測模型構(gòu)建

4.1 神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡一般由輸入層、隱藏層和輸出層組成。圖3表示一個3 層神經(jīng)網(wǎng)絡模型。從左至右,第一層為輸入層,輸入向量為[x1,x2,x3];第二層為帶有4 個節(jié)點的隱藏層;第三層為輸出層,輸出向量為[y1,y2]。

4.2 LSTM 網(wǎng)絡預測模型

LSTM(Long Short Term Memory,LSTM)是RNN 的一種改進網(wǎng)絡。如圖4 所示,LSTM 的單元結(jié)構(gòu)由4 部分組成,分別是輸入門(input gate)、輸出門(output gate)、記憶單元(memory cell)和遺忘門(forget gate)。LSTM 網(wǎng)絡模型參數(shù)值如表2 所示。

Fig.3 Neural network model圖3 神經(jīng)網(wǎng)絡模型

Fig.4 LSTM unit structure圖4 LSTM 單元結(jié)構(gòu)

Table 2 Parameter values of LSTM network model表2 LSTM 網(wǎng)絡模型參數(shù)值

LSTM 各過程具體運算如下:

其中,式(16)中ft為遺忘門輸出,表示保留多少信息(1代表完全保留,0 代表完全舍棄),σ表示sigmoid 函數(shù),Wf是遺忘門的權(quán)重矩陣,[ht-1,xt]表示將兩個向量拼接成一個更長的向量,bf是遺忘門的偏置項。式(17)中,Wi是輸入門的權(quán)重矩陣,bi是輸入門的偏置項。式(18)和(19)中,Wc記憶單元權(quán)重矩陣,bc是記憶單元偏置項。表示當前輸入的單元狀態(tài),Ct表示當前時刻的單元狀態(tài),Ct-1表示上一次的單元狀態(tài)。式(20)中,Wo為輸出門權(quán)重矩陣,bo為輸出門偏置項,Ot為輸出門輸出。式(21)中,ht為輸出門輸出結(jié)果。

Adam 算法[22]如下:

Require:步長?;

Require:矩估計的指數(shù)衰減速率,ρ1和ρ2在區(qū)間[0,1)內(nèi);

Require:用于數(shù)值穩(wěn)定的小常數(shù)δ;

Require:初始參數(shù)θ;

初始化一階和二階矩變量s=0,r=0;

初始化時間步長t=0;

while 沒有達到停止準則do

5 二維組合預測模型構(gòu)建

通過誤差倒數(shù)法對模型進行加權(quán)組合,計算公式為:

其中,wk是權(quán)值參數(shù),fi是組合模型對樣本i的預測結(jié)果,fki是第k個模型的預測值。ε1是模型1 的預測誤差,ε2是模型2 的預測誤差。從式(22)—式(24)可以看出,對誤差大的模型會賦予較小的權(quán)重系數(shù),從而使組合模型誤差更小,達到提升預測精度的效果[23]。

6 實驗結(jié)果與分析

6.1 實驗數(shù)據(jù)

數(shù)據(jù)來源:國家統(tǒng)計局、快易理財網(wǎng)。本文采用1980-2018 年時間段6 個宏觀變量共39 條數(shù)據(jù)。1 個因變量:GDP 增速(%)。5 個自變量:外匯儲備(億美元)、人口增長率(%)、M2/GDP(%)、財政收入(億元)和貨物進出口總額(億元)。

數(shù)據(jù)特點:

(1)數(shù)據(jù)間具有時序關(guān)系。利用過去的信息預測未來經(jīng)濟情況。

(2)數(shù)據(jù)樣本較少。從改革開放以來,國家有完整明確的經(jīng)濟數(shù)據(jù)年份并不多。

(3)數(shù)據(jù)樣本值變化大。中國的經(jīng)濟發(fā)展具有階段性特征,20 世紀八九十年代經(jīng)濟快速發(fā)展,但生產(chǎn)技術(shù)不高;改革開放階段,中國經(jīng)濟高速發(fā)展;經(jīng)過30 多年的增長期后,中國經(jīng)濟進入平穩(wěn)發(fā)展階段。

Fig.5 Distribution of GDP growth圖5 GDP 增速分布

Fig.6 Data distribution圖6 數(shù)據(jù)分布

數(shù)據(jù)標準化:

其中,μ表示均值,σ表示標準差。本文對數(shù)據(jù)進行標準化處理,經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,方差為1 的正態(tài)分布。本文先對數(shù)據(jù)進行標準化處理,再將標準化后的數(shù)據(jù)用于模型訓練和預測,需將預測結(jié)果進行反標準化后,才能與實際數(shù)據(jù)作比較。

6.2 實驗環(huán)境

本實驗所使用開發(fā)語言為Python 語言3.7 版本。實驗中使用Python 提供的科學計算庫,主要包括Numpy、Pandas、Matplotlib、Sklean 等。本文所使用的開發(fā)環(huán)境為PyCharm。

6.3 實驗評價指標

為了驗證機器學習回歸模型對預測GDP 增速的準確性,本文對數(shù)據(jù)集中的GDP 增速進行預測實驗,并將預測結(jié)果與其他模型得出的結(jié)果進行比較,比如AR(Auto Regressive Model,AR)、MA(Moving Average Model,MA)、ARIMA(Autoregressive Integrated Moving Average Model,ARIMA)模型,如圖7-圖9 所示。實驗選用均方根誤差(root mean square error,RMSE)作為各模型預測性能的主要評價指標,平均絕對誤差(MAE)和平均絕對誤差百分比(Mean Absolute Percentage Error,MAPE)作為輔助評價指標。通過3 個指標體現(xiàn)模型訓練精度及泛化性能。

其中,y代表樣本真實值?代表樣本預測值,m為樣本數(shù)據(jù)數(shù)量。

Fig.7 Comparison of prediction results of Ridge,XGBoost and LSTM圖7 Ridge、XGBoost 與LSTM 預測結(jié)果對比

Fig.8 Comparison of prediction results of LSTM-Ridge,LSTM-XGBoost and XGBoost-Ridge圖8 LSTM-Ridge、LSTM-XGBoost 與XGBoost-Ridge預測結(jié)果對比

從預測結(jié)果(見表3—表5)可以看出,3 種算法的3 種評價指標預測結(jié)果表現(xiàn)一致,單一模型預測誤差的排序是LSTM<XGBoost<Ridge,組合模型預測誤差的大致排序是LSTM-XGBoost<LSTM-Ridge<XGBoost-Ridge。組合模型XGBoost-Ridge 表現(xiàn)較差,整體上,機器學習的單一模型和組合模型的預測效果優(yōu)于傳統(tǒng)時序模型,非線性回歸模型整體優(yōu)于線性回歸模型。LSTM-XGBoost 組合模型的擬合效果最好,誤差最小,可以達到2.122 的誤差,XGBoost-Ridge 回歸誤差較大,約為5.542。XGBoost 和LSTM 預測結(jié)果相近,LSTM 結(jié)果略優(yōu)于XGBoost,LSTM 模型在處理時序問題上有著良好表現(xiàn),本文數(shù)據(jù)量偏小,可能無法凸顯LSTM 的優(yōu)勢。隨著數(shù)據(jù)集的增加,LSTM 的優(yōu)勢更加明顯,預測精度會進一步提高。

Table 3 Comparison of RMSE,MAE and MAPE in single regression model表3 單一回歸模型RMSE、MAE 及MAPE 對比

Fig.9 Comparison of prediction results of AR,MA and ARIMA圖9 AR、MA 與ARIMA 預測結(jié)果對比

Table 4 Comparison of RMSE,MAE and MAPE表4 組合模型RMSE、MAE 及MAPE 對比

Table 5 Comparison of traditional time series models RMSE,MAE and MAPE表5 傳統(tǒng)時序模型RMSE、MAE 及MAPE 對比

7 結(jié)語

本文提出LSTM-XGBoost 二維組合模型對GDP 增速進行預測,結(jié)果表明該組合模型在宏觀經(jīng)濟預測中具有較高應用價值。通過研究機器學習模型在經(jīng)濟領(lǐng)域的應用,得出如下結(jié)論:①從XGBoost-Ridge 組合模型中可以得出,并非所有組合模型優(yōu)于單一模型,模型的正確選擇有利于預測精度提升;②本文的誤差倒數(shù)法存在一定改善空間,誤差計算方法是預測值減去真實值,誤差值有正有負,使用誤差的絕對值或者誤差的平方形式計算權(quán)重能進一步提高預測精度。后續(xù)研究中,可結(jié)合大數(shù)據(jù)等平臺,探索機器學習模型應用于經(jīng)濟預測的其他可能性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美日韩导航| 97在线免费视频| 久久久久久久久久国产精品| 毛片视频网址| 老色鬼欧美精品| 91麻豆精品国产91久久久久| 国产一级精品毛片基地| 国产欧美视频一区二区三区| 青青青视频免费一区二区| 国产在线日本| 一边摸一边做爽的视频17国产| 国内精品久久九九国产精品| 51国产偷自视频区视频手机观看| 精品久久久久久中文字幕女| 91色老久久精品偷偷蜜臀| 伊人国产无码高清视频| 亚洲日韩精品无码专区97| 久久中文字幕2021精品| 欧美不卡二区| 99热这里只有成人精品国产| 国产精品男人的天堂| 在线毛片免费| 国产永久免费视频m3u8| 精品综合久久久久久97| 亚洲中文精品人人永久免费| 天堂亚洲网| 精品1区2区3区| 日韩欧美国产中文| 中文字幕无码制服中字| 青青草原国产免费av观看| www.精品国产| 欧美精品另类| 中文国产成人精品久久| 日韩精品无码一级毛片免费| 无码人妻免费| 无码AV高清毛片中国一级毛片| 日韩精品成人网页视频在线| 日韩毛片基地| 国产欧美日韩免费| 欧美区一区| 波多野结衣无码中文字幕在线观看一区二区 | 欧洲日本亚洲中文字幕| 国产精品色婷婷在线观看| 国产肉感大码AV无码| 国内精自视频品线一二区| 欧美97欧美综合色伦图| 91久久青青草原精品国产| 秘书高跟黑色丝袜国产91在线| 国产一区在线视频观看| 久久国产精品嫖妓| 色综合激情网| 欧美午夜在线播放| 国产日韩丝袜一二三区| 国产91精品调教在线播放| 三区在线视频| 激情综合网激情综合| 久久精品电影| 99久久精品免费观看国产| 好久久免费视频高清| 欧美啪啪一区| 伊人久久婷婷五月综合97色| 91在线激情在线观看| 91久久偷偷做嫩草影院| 国产极品嫩模在线观看91| 免费国产一级 片内射老| www亚洲天堂| 日韩AV无码免费一二三区| 亚洲日本中文字幕天堂网| jizz国产视频| 成年人福利视频| 欧美国产精品不卡在线观看| 手机在线免费毛片| 91最新精品视频发布页| 欧美一区二区精品久久久| 亚洲天堂视频在线免费观看| 午夜视频www| 欧美精品成人一区二区在线观看| 最新亚洲人成无码网站欣赏网| 亚洲成人一区二区| 国产凹凸视频在线观看 | 亚洲男人的天堂在线观看| 欧美成人综合在线|