于 瓊,田 憲
(1.西北工業大學保密處,陜西 西安 710072;2.西安電子科技大學物理與光電工程學院,陜西 西安 710071)
時間序列預測作為一種重要的手段對揭示事物發展變化具有重要意義,如在國民經濟和生活中有廣泛應用的證券市場預測、智能交通預測和氣候氣象狀態預測等[1-3]。現實中復雜系統隱含的時間序列多為在特征上能夠既包含確定成分又表現出隨機性的非平穩性和非線性的時間序列[4]。傳統非線性時間序列預測模型的研究工作主要集中在依靠回歸技術進行參數建模[5 - 8],由于需要基于先驗知識假設構造相對應的預測模型,訓練模型時對原始序列信息的挖掘不充分導致預測精度并不理想。近年來,基于人工神經網絡技術構建的模型克服了經典統計學方法中假設過于嚴格的缺點,被大量運用到非線性時間序列預測領域。如在處理大數據量的復雜系統中求解迅速的最小二乘支持向量機LS-SVM(Least Squares Support Vector Machine)[9]與傳統的前饋神經網絡相比,具有可求全局最優解的優勢并具備良好的泛化能力,且衍生出了不同形式的組合模型。文獻[10]構建了蜂群算法與支持向量回歸算法相結合的組合預測模型,并驗證了該模型在滑坡位移預測中有更高的精度。然而,在面對高復雜系統的時間序列特征提取時,SVM方法由于對信息挖掘不到位仍然難以充分提取原始序列所蘊含的波動模式。
為解決上述問題,本文首先利用經驗模態分解EMD(Empirical Model Decomposition)算法對原始序列進行降噪分解,該算法在處理和分辨非線性非平穩時序時比小波分解方法有更強的局部表現能力[11]。在應用EMD對非線性時間序列進行處理方面,文獻[12]選取分解后的T個本征模態函數IMF(Intrinsic Mode Function)作為快速震蕩部分,將剩余的N-T個IMF和余量(Residue)合并作為趨勢部分,然后使用小波神經網絡分別對T個震蕩部分和合并后的趨勢部分建模,建模前雖然對代表趨勢的N-T個IMF進行了合并,但對T的選取是憑借經驗而未給出具體的方法,其中N表示IMF個數。文獻[13]也對經過EMD分解后的IMF進行分類,將所有IMF歸為一類選用支持向量回歸算法建模,余量rn單獨歸為一類使用自回歸模型建模,由于對所有的IMF均使用了支持向量回歸建模,預測結果有待進一步優化。
由上述分析可知,在使用EMD對時間序列分解后,會生成多個IMF,若直接對每個IMF進行建模,最終整個模型會很龐大,導致算法復雜度高且效率明顯下降。因此,本文嘗試引入赫斯特指數H(Hurst exponent)對時間序列的偏移程度進行有效度量,提出了基于H重構的組合模型的非線性時間預測算法。對重構后的分量構建最小二乘支持向量回歸與自回歸積分滑動平均組合模型進行預測。優化的組合模型通過對IMF的重構,減少了預測所需要的模型數目,建模的效率得到了大幅提升。
直接訓練預測模型,不能充分利用原始序列的隱含信息。考慮到復雜系統時間序列非線性、非平穩且蘊含確定性成分,故選用經驗模態分解EMD自適應數據驅動分析算法對原始序列進行處理。EMD算法依據信號的局部時變特征將其分解為一組具有不同特征的子序列,即本征模態函數IMF。IMF必須滿足2個條件:在子序列中極值點與過零點的數目必須相等或差值為1;在子序列中局部極小值包絡線與局部極大值包絡線需關于時間軸對稱,即均值為0。這2個條件使IMF能夠代表信號不同頻率的波動或趨勢,相對于其他時頻分析方法,可以防止由于依賴基函數帶來的先驗假設誤差,效果有待驗證。
原始序列通過圖1所示流程,在EMD算法的逐步迭代循環求解過程中得到了平穩化處理,初始IMF的頻率比較高,隨著不斷分解,后續IMF的頻率逐漸被削弱,最終提取到原始時間序列特定局部特征且相互之間不存在信息耦合,圖1中ci(t)為分解后的第i個IMF,rn(t)為分解n次以后的余量。

Figure 1 Empirical mode decomposition process of original sequence圖1 原始序列經驗模態分解流程
為了減少模型輸入量,在進行子序列預測之前,需要對提取到的原始序列特征加以處理。綜合考慮后,本文選用重標極差分析法R/S Analysis(Rescale Range Analysis)來降低模型復雜度。R/S分析法是一種非參數分析方法,不要求提前假設分布形態,利用其基本原理容易得出自然系統有偏的隨機游走的波動規律[14],能夠較好地克服聚類等算法的固有缺陷,在解決區分時間序列的游走程度方面優勢明顯。為此,以時間序列的標準差除極差定義了非參數統計量赫斯特指數H,算法步驟如下所示:
設一時間序列為X={x1,x2,…,xn},將序列X劃為A個長度為k的等長子區間Ai(i=1,2,…,A),n=A·k。
(1)對每個長度為k的子區間Ai={xi1,xi2,…,xik}求其算術平均值,如式(1)所示:
xim=(xi1+xi2+…+xik)/k
(1)
進一步得到子區間Ai標準差如式(2)所示:
(2)
(2)對子區間Ai,記第j個元素的累積離差序列Xr,A={x1,A,x2,A,…,xk,A},如式(3)所示:
(3)
其中,j=1,2,…,k,得到區間內極差如式(4)所示:
Rk=max(Xr,A)-min(Xr,A)
(4)
(3)計算A個區間的重標極差平均值Rn/Sn,如式(5)所示:
(5)
其中,n為序列總長度,不同分段方法對應的Rn/Sn不同。
(4)根據研究,Hurst建立的關系如式(6)所示:
Rn/Sn=c×nH
(6)
其中,H為定義的赫斯特指數,c為常數。通過對式(6)取對數,用最小二乘法作回歸,得到赫斯特指數的估計值,即為擬合直線的斜率。
引入未來增量與過去增量的長程相關函數如式(7)所示:
22H-1-1
(7)
其中,E{[X(0)-X(-t)][X(t)-X(0)]}表示0時刻,在過去增量分布中含有未來增量的概率。
根據式(7)可分析得出,當H的值越接近1/2時,函數表達式的值越接近0,表明時間序列過去波動與未來越不相關,若H=1/2,則說明序列過去和未來不存在相關性,即該時序是一個隨機時間序列,可將其舍棄;而當H越接近于1,函數表達式的值也就越接近于1,表明時間序列過去波動與未來越相關。進而,取值在0~1的時間序列赫斯特指數以1/2為界可分為2個特征區間,當0 由EMD算法可知,所有IMF都必須符合代表傳統的窄帶信號特征和序列內在振動方式局部尺度的2個條件[16],進而提取出原序列的特定波動的模式,得到不同的IMF。為了在充分利用這些原始時間序列特征的基礎上優化預測效率,模型引入赫斯特指數對IMF進行重構,整合后的IMF按其特征能夠分為非線性和線性部分,為后續選擇恰當的算法構建組合預測模型帶來了極大的便利。 最小二乘支持向量回歸LS-SVR(Least Squares Support Vector Regression)將LS-SVM的思想引入回歸函數估計中來解決回歸問題。與LS-SVM類似,LS-SVR用誤差平方和取代了SVM中的不敏感損失函數且將原始序列在低維空間進行的非線性回歸轉化為在高維特征空間進行的線性回歸,降低了運算難度。文獻[17]中的實驗說明,當樣本數量較少時,采用LS-SVR建模仍然能保持很高的精度。本文利用LS-SVR在解決非線性時間序列復雜度方面能夠很好地逼近任意高、中頻時序分量的優勢,對重構得到的高頻和中頻部分構建LS-SVR模型進行預測。在建模過程中,LS-SVR的參數可以通過交叉實驗優化搜索得出,相比于其他基于核學習的人工神經網絡方法,克服了預測結果趨近于局部極小值或過擬合的問題,能夠實現高、中頻分量全局最優。 而差分自回歸移動平均ARIMA(AutoRegressive Integrated Moving Average)模型[18]通過“混合”自回歸與滑動平均,能夠很好地逼近任意低頻趨勢分量,針對低頻非平穩部分建模,能夠實現較好的擬合。本文構建的組合預測模型綜合以上算法優點,建模過程如圖2所示,本文算法流程如下: (1)提取序列特征。使用EMD將原始時間序列X(t)分解為n個IMF和1個rn。 (2)求解赫斯特指數。按照R/S分析法分別計算n個IMF和rn的赫斯特指數。 (3)重構各IMF。根據赫斯特指數的含義,忽略H取值為0.5的分量,對其他分量進行重構,若H小于0.5,表明序列存在較強的震蕩突變型,則重構為高頻分量;若H大于0.5且小于0.9,表明序列存在較強的趨勢性,則重構為中頻分量;剩余H大于0.9的分量由于具有較高的平滑度,則重構為低頻分量。 (4)構建模型。使用LS-SVR對高、中頻非線性分量建模,用ARIMA對低頻非平穩分量建模,確定各模型的參數然后分別進行預測。 The trajectory parameter equation in the XOY system is in the following (5)組合預測結果。采用加權均值形式將各分量的單項預測結果進行融合,本文采用差分進化DE(Differential Evolution)算法從整體解空間中搜索最優的組合權重與各模型的解集成,最終得到預測結果X(t+p)。 Figure 2 Modeling process of combined model based on HURST-EMD圖2 基于HURST-EMD的組合模型建模流程 實驗選取1990年12月20日~2016年3月28日的上證指數每日開盤數據,共計6 180條樣本作為研究對象。其中,前5 580條數據作為訓練集,后600條數據作為測試集。股票市場具有較強的波動性,對股票價格預測的研究在時間序列預測中具有代表性。同時為證明算法的有效性,本文選取阿里云提供的2016年9月19日~2016年10月17日的某路段交通流數據進行驗證,交通流的采集周期為20 min,共計2 084條。前3周1 580條數據用來訓練,最后1周504條數據用來測試。 使用Matlab R2015A對數據進行處理,上證指數開盤數據及交通流數據原始序列如圖3所示。 Figure 3 Original time series of Shanghai index opening price and traffic flow圖3 上證指數開盤價和交通流原始時間序列 由圖3明顯可以看出,2個時間序列整體上雖具有一定的趨勢性,但沒有明顯的規律可循,且在短期時間段內又呈現出較大的振蕩和波動,即序列是非線性、非平穩的。此外,交通流時間序列還表現出明顯的周期性。 采用EMD算法分別對上述2個數據集進行分解,分解后的結果如圖4所示。 Figure 4 Decomposition results of Shanghai index opening price and traffic flow by EMD圖4 上證指數開盤價和交通流的EMD分解結果 圖4中上證指數被分解為10個本征模態函數和1個余量,交通流序列被分解為9個本征模態函數和1個余量。經過經驗模態分解后,數據波動具有直觀性,各分量最大程度地反映了原始時間序列的特征,且相互之間不同信息的耦合減弱了。 使用赫斯特指數對分解后的IMF進行重構是構造本文改進的HURST-EMD模型的關鍵環節,依次計算各個IMF和rn的赫斯特指數,求得的結果如圖5所示,其中橫軸表示分解出的各個IMF及1個余量。 Figure 5 Hurst exponent of IMF and residue圖5 上證指數及交通流各IMF及余量的赫斯特指數 Figure 6 Reconstruction of Shanghai index opening price and traffic flow圖6 上證指數及交通流的重構 引入赫斯特指數重構后,上證指數及交通流時間序列中具有相似波動模式的IMF分別被整合為3組分量,即劇烈震蕩的高頻部分,有一定震蕩但頻率較小的中頻部分以及趨勢相對平滑的低頻部分,減少了預測需要建立的模型數量,提高了預測效率,降低了整個預測過程所需要的時間。 采用LIBSVM工具包里的默認LS-SVR模型對高頻分量和中頻分量進行預測,使用Matlab自帶工具箱econ中ARIMA模型對低頻分量進行預測,最終預測結果為3個分量的集成。作為對比,本文分別實現了未經過EMD分解的LS-SVR模型和文獻[13]中的傳統EMD預測模型,在傳統EMD預測模型中將所有IMF作為震蕩部分采用LS-SVR進行預測,而余量作為趨勢部分采用ARIMA進行預測。各模型預測值與實際值的對比如圖7~圖9所示。 Figure 7 Prediction results of Shanghai index opening price and traffic flow by HURST-EMD model圖7 HURST-EMD模型對上證指數及交通流預測結果 Figure 8 Prediction results of Shanghai index opening price and traffic flow by EMD model圖8 EMD模型對上證指數及交通流預測結果 Figure 9 Prediction results of Shanghai index opening price and traffic flow by LS-SVR model圖9 LS-SVR模型對上證指數及交通流預測結果 為對預測效果進行量化評估,本文選用均等系數EC、平均絕對誤差MAE和均方根誤差RMSE3種評價指標對結果進行評價。其中,EC用來表示預測值與實際值的擬合度,值越大說明擬合度越高;MAE主要衡量預測誤差的離散程度,值越小說明預測結果越好;RMSE主要衡量預測值與真實值之間的偏差,值越小說明偏差越小。其定義分別如式(8)~式(10)所示: (8) (9) (10) 3種預測模型在2個數據集上預測性能的比較如表1所示。 Table 1 Prediction performance comparison of three models on two datasets 為了進一步說明模型的穩定性及有效性,本文在2004年意大利某市公路氧化鎢含量的前5 500條數據及1848年~2015年的2 000條月平均太陽黑子數2個公共數據集上分別采用上述3種模型預測,基于組合模型的HURST-EMD預測的結果如圖10所示,3種模型預測性能的比較如表2所示。 觀察圖7可以看出,HURST-EMD模型除在上證指數數據集上具有較高的預測精度外,也能夠應用于交通流數據等周期性波動的非線性時間序列預測,并且預測結果的穩定性和擬合度都比較好,說明本文提出的HURST-EMD模型在更多非線性時間序列預測方面有一定的有效性和適用性。 對比圖7a、圖8a和圖9a中各模型的預測結果可以看出,在對上證指數的預測中,HURST-EMD模型和傳統EMD模型的大部分預測值與實際值擬合度較好,而在震蕩劇烈的部分,LS-SVR模型預值測有較明顯的誤差,表現稍遜于經驗模態分解處理后的組合預測方法。該結論在周期性變化的交通數據流預測上表現得更加明顯。比對圖7b、圖8a和圖9b可以看出,在每個周期的劇烈波動部分,LS-SVR模型預測的預測值與真實值有更加顯著的偏差。此外,通過預測結果圖的對比還能夠看出,在對交通流的預測上,HURST-EMD模型的預測略微優于傳統EMD模型的。 對比表1中各量化指標的評估結果,在上證指數數據集上,各預測模型的EC值均高于98%,說明3種模型均具有較高擬合度,但比較平均絕對誤差和均方根誤差的數值,HURST-EMD模型相對其他2種模型均有所降低,說明采用HURST-EMD模型預測時離散程度低且偏差小,預測效果最好。對比各模型在真實交通流數據集上的預測量化指標,LS-SVR和EMD各指標相近且略遜于HURST-EMD模型,更加說明了HURST-EMD模型在非線性時間序列預測上具有更好的準確性和穩定性。 由圖10呈現出的真實值與預測值的對比及表2的各項指標比較結果可以看出,優化的HURST-EMD模型在幾個數據集上的預測精度都較高,并且具有較好的穩定性和擬合度。 進一步對各模型在上證指數集上的預測結果進行殘差分析,結果如圖11所示。很明顯地可以看出,在400~500 d的數據點上,LS-SVR模型的殘差最大,而HURST-EMD模型的殘差較小,更加表明了該模型優異的預測效果。 Figure 11 Residual analysis of three prediction models on Shanghai index opening price圖11 3種預測模型在上證指數集上預測結果的殘差分析 本文運用經驗模態分解理論對非線性時間序列進行分解,提出了以赫斯特指數為依據將各個本征模態函數進行重構的方法。結合重構后各分量表現出的特性和不同算法的優勢,挑選出對應的非線性和線性預測模型進行建模,最后組合各模型得到最終的預測結果。主要的創新和成果體現在:(1)采用2組樣本進行實驗,通過比較預測值與真實值,驗證了優化的HURST-EMD組合模型的有效性和適用性。(2)引入赫斯特指數對分解得到的各個IMF進行整合和重構,縮短了建立模型的時間,提高了利用EMD進行非線性時間序列預測的效率。(3)將優化的HURST-EMD組合模型與傳統的EMD模型及LS-SVR模型進行實驗對比,結果表明該模型比其他2個模型預測效果更好,能夠獲得更高的預測精度。此外,模型對非線性時間序列的高、中頻分量波動性和非線性特征充分刻畫的同時能夠更好地逼近任意非平穩低頻趨勢分量,由于重構各分量之間區分度高,克服了其他模型由于過擬合導致預測結果失真等問題,表現出優異的穩定性和準確性,為進一步研究非線性時間序列預測問題提供了參考依據。2.3 構建組合預測模型

3 實驗及結果分析
3.1 樣本數據說明

3.2 輸入模型的訓練






3.3 評價指標


3.4 其他公共數據集上的測試結果
3.5 結果分析

4 結束語