999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種多模型集成的網絡論壇流量預測模型

2020-12-16 02:41:10廖含月曾劍平吳承榮
計算機工程 2020年12期
關鍵詞:模型

廖含月,曾劍平,吳承榮

(1.復旦大學 計算機科學技術學院,上海 200433; 2.教育部網絡信息安全審計與監控工程研究中心,上海 200433)

0 概述

時間序列預測一直是國內外學者廣泛關注的熱點問題。精確的論壇發帖量預測是論壇流量生成的重要參考,可以為網絡流量規劃、態勢感知、輿情管理以及論壇用戶行為模式分析等提供便利。針對時間序列預測,研究人員提出了較多的單模型,它們主要分為線性預測模型和非線性預測模型。線性預測模型中應用最廣泛的是差分自回歸移動平均(ARIMA)模型,其在處理線性時間序列時具有優勢,但是不能預測非線性關系。非線性預測模型主要包括循環神經網絡、長短期記憶(LSTM)神經網絡、支持向量機和梯度提升樹等,這些模型具有較高的特征學習能力和非線性逼近能力,在各種時間序列預測任務中取得了較好的效果,但是它們容易陷入局部最小值并產生過擬合現象。

目前,對于網絡論壇、微博和貼吧等社交媒體的流量預測,多數研究人員使用長短期記憶網絡[1-2]、卷積神經網絡[3]和徑向基神經網絡[4]等非線性預測模型,非線性預測模型的關鍵部分在于特征工程[5]。除歷史時間序列數據之外,在對微博發帖模式的預測中,學者們主要使用用戶資料特征、微博類型以及語義特征。在對微博刪除量的預測上,文獻[6]使用用戶關注數、內容長度等特征。對于股吧論壇發帖量的預測,基于用戶信息的特征與論壇發帖量的相關性不高,而股吧子論壇對應的股票價格漲幅、論壇關注數和新聞提及度等為可用的重要特征。特征工程通常需要預測者豐富的相關知識以及與時間序列相關的大量信息,而可選擇的特征數據規模大、維度復雜并且提取難度高。例如,股票的新聞提及度特征通常很難提取,復雜程度很高。除此之外,在實際應用中,能得到的關于時間序列的信息往往很少,可選擇的特征通常只有歷史時間序列。

集成模型綜合不同模型的優點,具有較高的預測準確性和穩定性。目前,模型集成方式主要分為3種。第1種是對時間序列的不同部分分別建模預測后將每部分的預測結果進行集成[7-9],文獻[10]使用離散小波變換得到時間序列的線性和非線性結構,使用差分自回歸移動平均模型和神經網絡分別對兩部分實現建模預測并將結果進行組合。第2種是利用子模型優化最終模型參數[11-12],文獻[11]利用模擬退火回溯搜索算法優化反向傳播神經網絡參數以獲得更優的預測結果。第3種是利用多種子模型對整條時間序列進行預測,最后集成各子模型的預測結果。目前,對于多模型預測結果的集成主要有算術平均法、加權平均法以及基于模型的集成法[13-14]3種方式。基于算術平均的集成方法往往受子模型預測結果中極端值的影響而產生誤差,利用基于測試集RMSE的加權平均法[15-16]對子模型進行集成需要利用時間序列的真實值,而利用訓練集RMSE的加權平均法[17-19]容易產生過擬合問題從而導致實驗結果出現較大的偏差,同時訓練過程中對極端值的擬合偏差將對模型最終權重造成影響。

在僅利用歷史時間序列作為特征的情況下,本文提出一種基于多模型集成的論壇流量預測模型。為解決上述模型集成方式中存在的問題,本文集成模型參照加權投票法的思想,在每一個時間尺度下,依據各模型預測值所在區間的密度大小賦予各模型不同的權重,然后通過加權平均得到最終的預測結果,從而避免過擬合問題并降低極端值對預測結果的影響。

1 子模型的選擇

本文選用ARIMA、LSTM、Prophet以及梯度提升決策樹(GBDT)4個子模型,這4個模型都是當前比較流行、基于不同方法的時間序列預測模型,且在數學原理、長短期精度以及對時間序列信息的提取和適用方面各不相同。

ARIMA模型是以統計學和數學隨機過程理論為基礎的時間序列分析方法,其優點是模型簡單、時間復雜度低、短期預測精度高。但是,ARIMA模型的建模過程需要將非平穩時間序列轉化為平穩時間序列,該過程會損失一部分非線性信息,因此,其難以很好地處理非線性數據的擬合問題,且長期預測精度較低。

Prophet[20]是以時間序列分解和曲線擬合思想為基礎而建立的模型,其時間復雜度較低、建模簡單。與ARIMA模型相比,Prophet的優點是對節假日和突發事件造成的數據波動具有很好的擬合效果,并能在一定程度上擬合非線性數據,適用于長期且周期明顯的時間序列預測。但是,Prophet在趨勢、周期不明顯的時間序列預測中效果不佳。

線性模型難以捕獲時間序列中的非線性數據,機器學習方法在訓練過程中能夠自動從數據中學習隱含關系,對非線性數據有強大的學習能力。因此,在ARIMA和Prophet模型的基礎上,本文選用機器學習模型LSTM和GBDT。

LSTM是一種循環神經網絡,具有定向循環的特點,可以很好地分析時間序列前后之間相互關聯的預測問題。LSTM的優點是可以較好地擬合時間序列中的非線性數據,且模型能存儲時間序列中長時間信息,可以提取到時間序列中間隔和延遲相對較長的重要信息。因此,LSTM對時間序列的趨勢預測和長期預測精度較高。但是,LSTM模型較為復雜,時間和計算復雜度高,訓練一個簡單的LSTM模型也需要耗費較長的時間。此外,LSTM容易陷入局部最小點,還存在泛化性能不高的問題。

GBDT是基于集成學習而建立的時間序列預測模型,其本質是一種迭代的決策樹算法,每次迭代建立的模型都在之前模型損失函數的梯度下降方向。GBDT同樣可以較好地擬合線性和非線性數據,對時間序列的長期和短期預測精度都較高。與LSTM模型相比,GBDT模型的時間和計算復雜度更低,泛化程度更高。

2 集成模型

集成是建立一系列模型,通過策略性地將其組合在一起以獲得準確性更高、穩定性更佳、泛化效果更好的模型。在對時間序列進行預測時,通常沒有一個可以適用于所有時間序列的模型,每個模型都有其適用的范圍和優缺點。為了達到較好的預測效果,研究人員通常要嘗試多個模型和多種參數。集成可以通過組合單模型來降低選擇錯誤模型的風險,同時較大限度地利用各子模型預測結果的信息,從而解決單模型由于隨機因素影響導致的預測值誤差大的問題,最終提高預測性能。

要獲得性能較好的集成模型,各子模型應該具有一定的準確性,同時子模型之間需要存在差異,否則集成模型的效果不會優于子模型。本文選取ARIMA、LSTM、GBDT以及Prophet 4個子模型,4個模型的基本原理以及運用的算法各不相同,在長短期精度、適用范圍方面各有所長。

加權投票法是一種集成學習的方法,投票結果往往可以使子模型之間的預測結果互補,以此降低單個子模型的預測誤差。本文算法采用加權投票法的思想,通過多數投票和加權平均對各子模型產生的預測結果進行集成。在對時間序列進行預測時,無法從預測結果中判斷各子模型的預測性能。為了比較子模型的預測效果,本文借鑒“投票”的思想,讓多個子模型進行“投票”。基于“投票”的思想,可以認為多數子模型的預測值所在區間是與真實值更加接近的區間,該區間稱為密集區間。

當每個子模型都具有一定的準確性時,假設子模型i的錯誤率為εi,在t時刻時間序列真實值為ft,設子模型i的預測值為Si(t),則子模型i的預測值接近真實值的概率為:

P(Si(t)=(ft±δ))=1-εi

(1)

其中,δ是一個可允許的誤差范圍。為了便于說明,本文假設共有a個子模型,每個子模型的錯誤率均為ε且錯誤率相互獨立,則各子模型在(ft±δ)內形成密集區間的概率PD為:

(2)

(3)

綜上,當選取適當的權重時,賦予預測值位于密集區間的子模型一個高的權重可以提高預測精度。

本文選用4個子模型,可能會產生投票數相同的情況。因此,添加算術平均模型作為第5個子模型,即在使用4個子模型對時間序列分別預測后,對4個子模型的預測結果進行算術平均,得到算術平均模型,將其作為第5個子模型,從而避免投票數相同的情況發生。

在時間尺度單位下,各子模型進行“投票”,選出密集區間,然后賦予預測值位于密集區間的子模型更大的權重,賦予預測值不在該區間的子模型較小的權重,從而降低子模型預測結果中的極端值對集成結果的影響,最終預測結果即為各子模型預測結果與子模型在該時間的權重的乘積之和。集成模型流程如圖1所示。

圖1 集成模型流程

各子模型的權重與子模型預測結果是否位于密集區間有關,即密集區間的范圍將對最終預測結果產生影響。本文設定一個參數k來控制區間的范圍。在某一時刻,當子模型A與子模型B之間預測值距離小于預設的k值時,認為模型A與模型B的預測值位于同一區間。將各子模型預測值進行排序,然后遍歷每個預測值并依據k值劃分區間。多數子模型預測值所在的區間為密集區間,對這些子模型賦予較大的權重,對預測值不在密集區間的子模型賦予較小的權重。最后,通過加權平均的方法得到最終預測值。

圖2所示為5個子模型對2018年8月17日股吧論壇發帖量的預測值。從圖2可以看出,當k值取28時,LSTM、Prophet以及GBDT 3個子模型的預測值位于同一區間且該區間為密度最大的區間,表明當日真實值最有可能位于此區間。因此,賦予這個區間的3個子模型預測值較大的權重,并對預測值不在該區間的ARIMA模型和算術平均模型賦予較小的權重,從而降低此時間尺度單位下ARIMA模型和算術平均模型預測值過小對最終結果產生的影響,提高預測精度。

圖2 子模型預測值對比

綜上,本文集成模型算法描述如下:

輸入時間序列X=[X1,X2,…,Xn],其中,n為訓練集大小。

輸出集成多個子模型預測結果的最終預測值Y=[Y1,Y2,…,Ym],其中,m為預測的時間長度。

步驟1分別利用ARIMA、LSTM、Prophet、GBDT 4個模型對原始時間序列進行建模,將訓練集數據X=[X1,X2,…,Xn]輸入模型并訓練模型。

步驟2分別對4個子模型進行預測。由于4個子模型均為目前流行的時間序列預測模型,本文不對子模型的具體算法進行詳細闡述,下面主要介紹子模型的具體預測方式。

1)使用ARIMA模型進行單步預測,然后將模型單步預測生成的結果作為輸入進行滾動預測。ARIMA模型在t時刻的輸入為時間序列X和t時刻之前模型生成的所有預測結果,輸出為S0(t)。數學表達式如下:

(4)

2)使用LSTM模型進行輸入步長為timestep的單步預測,再將模型單步預測生成的結果作為輸入進行滾動預測。則在t時刻LSTM模型的輸入為部分時間序列Xn-timestep+(t-1),Xn-timestep+(t-1)+1,…,Xn和t時刻之前模型生成的所有預測結果,輸入步長為timestep,輸出為S1(t)。數學表達式如下:

(5)

3)使用Prophet模型進行預測。Prophet模型基于曲線擬合的思想,使用整條時間序列X作為輸入訓練模型后直接輸出t時刻的預測結果S2(t)。數學表達式如下:

S2(t)=Prophet(X1,X2,…,Xn)

(6)

4)與LSTM的預測方法類似,使用GBDT模型進行輸入步長為timestep的單步滾動預測。其在t時刻的預測方法和輸入與LSTM模型相同,輸出為S3(t)。數學表達式如下:

(7)

綜上,可以得到預測值集合Si,i=0,1,2,3,其中,i為子模型編號。

步驟3對4個子模型的預測值Si,i=0,1,2,3進行算術平均,得到第5個子模型,即算術平均模型S4:

(8)

在t時刻,對于5個子模型的預測結果進行排序的時間復雜度為O(alba),a為子模型個數;對排序后的值進行遍歷并劃分區間的時間復雜度為O(a)。則在t時刻,集成算法的時間復雜度為O(alba)。

(9)

步驟6利用加權平均的方法得到最終的t時刻集成模型預測值Yt為:

(10)

其中,Si(t)表示子模型i在t時刻的預測值。

對于一段時間長度,集成算法的時間復雜度為O(malba)。

3 實驗結果與分析

本文實驗數據集包含股吧論壇所有子論壇從2017年7月1日—2018年9月30日的每日發帖量數據,共457條。將2017年7月1日—2017年8月15日的發帖量作為測試集,依據不同的算法建立子模型以預測2017年8月16日—2018年9月28日的發帖量,并與實際情況相比較。股吧論壇發帖量的時間序列如圖3所示,可以看出,股吧論壇發帖量的時間序列具有周和年2種周期性。

圖3 股吧論壇發帖量的時間序列

在數據集預處理時對數據集中的缺失項進行中位數插值。此外,2018年9月27日與9月28日兩天受國慶節放假影響,數據量偏高,因此,在分析結果時刪除這2條異常數據。

模型的預測性能評價指標使用均方根誤差RMSE和相對誤差δ。RMSE和δ的計算公式分別如式(11)、式(12)所示:

(11)

(12)

其中,ft為時間序列真實值,yt為預測值。

3.1 股吧論壇發帖量預測

分別利用ARIMA、LSTM、Prophet和GBDT 4個模型對原始時間序列進行預測。4個子模型的預測結果與原始時間序列的對比如圖4所示,其中,TimeSeries表示原始時間序列。

圖4 4個子模型的預測結果

從圖4可以看出,4個子模型均具有一定的準確性,LSTM、Prophet以及GBDT 3個模型在預測效果上差別較小。使用算術平均法、基于RMSE的加權平均法和本文集成算法分別對4個子模型進行集成。集成模型使用網格搜索得到最優參數,各子模型和不同集成模型的結果對比如表1所示。

表1 子模型及集成模型的實驗結果1Table 1 Experimental results 1 of submodels and integrated models

從表1可以看出,所有集成模型均獲得了比子模型更好的預測結果。對比不同的集成模型可以看出,本文集成模型得到的RMSE和相對誤差值比其他2種集成模型更小。對于基于RMSE的加權平均模型而言,使用測試集的RMSE需要利用時間序列的真實值,利用訓練集的RMSE容易產生過擬合問題從而導致實驗結果出現較大偏差。在各模型預測結果的RMSE值相差不大時,使用基于RMSE的加權平均法的效果甚至低于簡單的算術平均法。而本文模型參考加權投票法的思想,認為多數模型預測值所在的區間應當更接近真實值。從實驗結果可以看出,在選擇合適的區間大小和權重比例時,本文模型能獲得比其他2種集成模型更優的預測效果。

3.2 不同模式的時間序列集成效果

為了驗證本文集成模型的泛化性,將各種對比模型應用于國際航班乘客數時間序列,該序列與股吧論壇發帖量模式不同,結果如表2所示。

表2 子模型及集成模型的實驗結果2Table 2 Experimental results 2 of submodels and integrated models

與股吧論壇發帖量數據集結果類似,本文集成模型對國際航班乘客數數據集進行建模后,預測結果的RMSE和相對誤差值低于算術平均模型和基于RMSE的加權平均模型,這表明本文集成模型對于不同的時間序列具有一定泛化性。

3.3 不同k值和權重比例對集成結果的影響

k值的選取以及不同密度區間的權重比例是影響本文集成模型預測結果的重要因素。本次實驗使用網格搜索來確定最佳的k值和權重比例。

為了驗證不同k值和權重比例對時間序列的影響,選用不同的權重比例,k取[0,100]內的所有整數,對股吧論壇發帖量數據集進行實驗,并將預測結果的RMSE與算術平均模型得到的RMSE進行對比,結果如圖5所示。從圖5可以看出,在模型k值固定的情況下,不同權重比例之間的RMSE值波動幅度較小;而當模型的權重比例固定時,不同k值之間的RMSE值波動幅度較大。因此,k值對實驗結果的影響大于權重比例。在實驗過程中選擇合適的權重比例,可以在一定程度上減小子模型預測中極端值對最終預測結果的影響,而k值將影響集成模型對預測結果的優化效果。從實驗結果可以看出,選擇k=28、w=0.9時可以獲得最佳預測結果。

圖5 不同k值和權重比例時的集成模型預測結果

在預測結果最佳的情形下,統計各子模型未來42天的預測值分別被賦予大權重和小權重的天數,結果如圖6所示。

圖6 各模型被賦予大、小權重的天數統計

4個子模型被賦予大、小權重的天數比例能從一定程度上說明4個子模型的準確率大小。從圖6可以看出,算術平均模型、LSTM模型、Prophet模型和GBDT模型的預測值被賦予大權重的天數大致相同,表明LSTM、Prophet以及GBDT這3個子模型的準確率相近,而ARIMA模型的預測值被賦予大權重的天數較低,表明其準確率略低于其他3個子模型。該實驗結果與4個子模型RMSE值的差距吻合,表明本文模型傾向于賦予RMSE值更高的子模型一個大權重,以此提高模型的預測精度。針對ARIMA模型準確率較低的問題,今后將對子模型的個數和類型選擇進行探究,以獲得精度更高的集成模型。

LSTM模型由于對極端值預測結果偏差較大導致其RMSE值略高于Prophet和GBDT模型,但是在實驗過程中,LSTM模型被賦予大權重的天數多于其他子模型,表明LSTM模型對于非極端值的預測較為準確。與基于RMSE值的加權平均模型相比,使用本文算法對4個子模型進行集成,可以在一定程度上避免單模型在極端值上的預測偏差對模型最終權重造成的影響。

4 結束語

本文建立一種基于多模型集成的網絡論壇流量預測模型。通過ARIMA、LSTM、Prophet和GBDT 4個模型分別對時間序列進行預測,在時間尺度單位下參照加權投票法的思想,使各子模型投票選出密集區間,依據各模型預測值所在區間的密度大小賦予各模型不同的權重,然后進行加權平均得到最終的預測結果。實驗結果表明,與算術平均模型、基于RMSE的加權平均模型相比,該模型預測結果的RMSE值與相對誤差值更小,且對于不同模式的時間序列具有一定的泛化性。

本文集成模型的最終預測結果依據各子模型的投票而產生,無需預測該時間段的真實數據且避免了模型在訓練集上過擬合而導致的實驗結果偏差問題。同時,本文模型通過合理的權重分配降低了預測過程中極端值對預測結果的影響。各子模型的投票區間k值以及權重分配w值的選取非常重要,下一步將對k值和w值的取值范圍和選取規則進行深入研究。此外,在已有研究的基礎上適當增加和調整子模型,分析子模型的類型和個數對預測結果精度的影響也是今后的研究方向。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲第一页在线观看| 亚洲精品福利网站| 日韩黄色大片免费看| 国产成人1024精品| 亚洲中文在线看视频一区| 国产精品手机在线播放| 国产福利在线免费观看| 真人高潮娇喘嗯啊在线观看| 素人激情视频福利| 日本国产精品| 欧美国产成人在线| 91丨九色丨首页在线播放| 少妇精品久久久一区二区三区| 亚洲美女操| 91亚洲免费视频| 国语少妇高潮| 久久久亚洲国产美女国产盗摄| 人妻丝袜无码视频| 国产精品无码作爱| 全免费a级毛片免费看不卡| 韩国v欧美v亚洲v日本v| 午夜视频免费一区二区在线看| 免费网站成人亚洲| www欧美在线观看| 又爽又大又黄a级毛片在线视频| 久久a级片| 欧美日韩久久综合| 91久久偷偷做嫩草影院精品| 一区二区欧美日韩高清免费| 亚洲AV电影不卡在线观看| 8090成人午夜精品| 呦系列视频一区二区三区| 免费观看精品视频999| 久久久噜噜噜| 亚洲天堂伊人| 亚洲国产综合精品中文第一| 国产簧片免费在线播放| 综合五月天网| 无码AV动漫| 欧美日韩精品在线播放| 色妞永久免费视频| 丁香五月亚洲综合在线| 欧美性猛交xxxx乱大交极品| 国产成人AV男人的天堂| 国产成人乱无码视频| 狠狠色综合久久狠狠色综合| 国内黄色精品| 国产一区二区色淫影院| 亚洲一区免费看| 一区二区影院| 激情综合婷婷丁香五月尤物 | 亚洲欧美日韩成人高清在线一区| 91色在线观看| 婷婷伊人久久| 先锋资源久久| 成人蜜桃网| 国产午夜无码片在线观看网站| 免费国产小视频在线观看| 一级不卡毛片| 午夜电影在线观看国产1区| 精品日韩亚洲欧美高清a | 欧洲欧美人成免费全部视频 | 国产无码高清视频不卡| 538国产在线| 日本不卡在线视频| 亚洲第一成人在线| www.狠狠| 久久毛片网| 亚洲精品不卡午夜精品| 国产精品丝袜视频| www.youjizz.com久久| 亚洲欧美日韩精品专区| 2021国产精品自拍| 免费又黄又爽又猛大片午夜| 日韩欧美国产中文| 人妖无码第一页| 中文字幕在线欧美| 精品国产一区二区三区在线观看| 精品在线免费播放| 亚洲无码精彩视频在线观看 | 久久免费视频播放| 日本一区中文字幕最新在线|