王金策,楊寧
(四川大學(xué)計算機(jī)學(xué)院,成都 610065)
時間序列趨勢預(yù)測
王金策,楊寧
(四川大學(xué)計算機(jī)學(xué)院,成都 610065)
隨著時間序列應(yīng)用日益增多,時間序列預(yù)測,尤其是在未來的趨勢預(yù)測,獲得越來越多的關(guān)注。實現(xiàn)趨勢預(yù)測的挑戰(zhàn)在于實時提取時間序列的趨勢特征與合理的預(yù)測模型。現(xiàn)有時間序列特征提取方法均是離線分析,而時間序列的預(yù)測通常為單一數(shù)值序列的多步預(yù)測。針對此問題,設(shè)計一種在線分段方法并用向量自回歸(VAR)模型預(yù)測時間序列的趨勢,VAR充分考慮到序列分段的長度和斜率之間的動態(tài)聯(lián)系,因此比常規(guī)單變量的回歸預(yù)測算法更加合理、有效。在真實數(shù)據(jù)集上的實驗驗證該預(yù)測算法的有效性。
時間序列預(yù)測;時間序列趨勢預(yù)測;VAR模型
作為時間序列分析的一項重要任務(wù),時間序列預(yù)測已經(jīng)得到了廣泛的研究[1,4,5]。現(xiàn)有預(yù)測算法主要通過時間序列數(shù)值回歸分析,實現(xiàn)時間序列的多步預(yù)測。而時間序列趨勢預(yù)測,對于金融投資等領(lǐng)域中的應(yīng)用具有重要意義,例如針對某只股票,投資者需要判斷未來一段時間內(nèi)其價格的走勢,依此做出增持或賣出決策。
本文對時間序列的趨勢預(yù)測進(jìn)行了研究。我們的主要思路是,通過提取有效的時間序列的趨勢特征,建立向量自回歸(VAR)預(yù)測模型。基于這一思路,本文具體做了如下工作:
(1)在線識別并提取時間序列的每一個線性分段,每一段用長度(length)和斜率(slope)作為本段的特征。
(2)應(yīng)用向量自回歸模型(VAR)對時間序列進(jìn)行趨勢預(yù)測。序列的每個分段由向量(length,slope)T標(biāo)記,VAR模型可以準(zhǔn)確描述前后向量序列之間的關(guān)系和length與slope之間的相互影響,因此能夠?qū)r間序列的趨勢做出較為準(zhǔn)確的預(yù)測。
(3)在真實數(shù)據(jù)集上驗證了本文提出的分段算法和預(yù)測模型的有效性。
1.1 預(yù)處理
一條時間序列可以根據(jù)趨勢的變化劃分為一系列的線段,這些線段是構(gòu)成時間序列特征樹的基本元素。由于時間序列充滿噪聲,為了降噪,在劃分線段之前,首先應(yīng)用指數(shù)平滑技術(shù)EMA(Exponential Moving Average)對原始序列進(jìn)行濾波[2,3],進(jìn)一步將其轉(zhuǎn)化為DIF(Differential value)[5]序列,時間點t的DIF定義:

其中,N1,N2是求滑動平均的數(shù)據(jù)窗口大小,一般N1取12,N2取26[3]。
1.2 時間序列分段
針對DIF序列,在大小預(yù)先設(shè)置的滑動窗口內(nèi),應(yīng)用最小二乘法擬合一條線段,并根據(jù)各個窗口內(nèi)線段斜率的正負(fù)變化,判斷序列中的極值點,即斜率變號當(dāng)前時刻的前一時刻為極值點,兩個相鄰極值點之間的連線即為一個分段。為了防止序列在窗口內(nèi)的微小波動影響分段效果,在分段過程中設(shè)置Threshold,其大小根據(jù)擬合斜率的分布(在歷史數(shù)據(jù)中統(tǒng)計得出)設(shè)置,如圖1所示。本文實驗數(shù)據(jù)集上的擬合斜率服從高斯分布,且均值為0,設(shè)置Threshold為此分布的51%的分位數(shù)μ0.51,在區(qū)間[-μ0.51,μ0.51]內(nèi)的擬合斜率視為無效斜率,不具有趨勢特征。

圖1 擬合斜率的概率分布
2.1 VAR模型
VAR模型將一維自回歸模型拓展為多維變量自回歸,其考慮了多個變量的動態(tài)交互作用,在本文中多維變量為包含length與slope的向量。回歸過程中VAR體現(xiàn)了length和slope之間的相互影響,因此用VAR模型預(yù)測更為準(zhǔn)確。VAR模型表示為:

2.2 預(yù)測
模型訓(xùn)練本文根據(jù)AIC準(zhǔn)則確定p,參數(shù)估計采用最小二乘法,目標(biāo)函數(shù)如下:

其中,n為向量序列的個數(shù)。通過訓(xùn)練得到使f最小的c,Ai,μt,得到模型(3)。
預(yù)測輸入yt-1,…,yt-p到模型(3),如下:

本文隨機(jī)選取滬深市場某支股票行在2001/1/1至2015/7/8時間段內(nèi)的收盤價作為實驗數(shù)據(jù)。實驗一,驗證分段的在線分段的準(zhǔn)確性;實驗二,預(yù)測的有效性。
3.1 驗證分段算法
為驗證算法1的有效性,實驗比較了原始時間序列與由算法1得出的極值點序列對應(yīng)時間段的趨勢。
圖2表示一條原始時間序列,將其作為輸入數(shù)據(jù)執(zhí)行算法1得到極值點序列,如圖3所示。原始時間序列1-7下降趨勢,7-9上升趨勢,9-14下降趨勢,14-29是上升趨勢,與圖3中極值點之間線段的趨勢相同,驗證了算法1對極值點判斷的準(zhǔn)確性。

圖2 原始時間序列

圖3 極值點序列
3.2 驗證VAR有效性


本次實驗為本文所用多變量自回歸VAR模型與單變量的ARMA模型的對比,ARMA模型分別對length序列與slope序列進(jìn)行回歸預(yù)測。兩種模型同時預(yù)測未來10個分段的q,實驗結(jié)果如圖4所示,圖中曲線表示,隨著時間t的變化模型,模型預(yù)測出的每個分段得出的error,VAR模型預(yù)測其中9個分段的誤差小于ARMA模型,驗證了VAR模型的有效性。
本文設(shè)計基于滑動窗口的在線分段算法,并應(yīng)用VAR模型對時間序列的趨勢做出了預(yù)測。VAR模型可以準(zhǔn)確描述前后向量序列之間的關(guān)系和length與slope之間的相互影響,因此能夠?qū)r間序列的趨勢做出較為準(zhǔn)確的預(yù)測。在真實數(shù)據(jù)上的實驗驗證了分段及VAR模型的有效性。

圖4 error序列
[1]Wang Peng,Wang Haixun,Wang Wei.Finding Semantics in Time Series[C].Proceedings of the 2011 ACM IGMOD International Conference on Management of Data.ACM,2011:385-396.
[2]Creamer G,Freund Y.Automated Trading With Boosting and Expert We-ighting[J].Quantitative Finance,2009,10(4):401-420.
[3]Huang Kai,Qi Zheng-wei,Liu Bo.Network Anomaly Detection Based on Statistical Approach and Time Series Analysis[C].Advanced Information Networking and Applications Workshops,2009.WAINA'09.International Conference on.IEEE,2009:205-211.
[4]Cai Yong-jie,Tong Hang-hang,Wei Fan.Fast Comprehensive Mining of Coevolving High-order Time Series[C].Proc of the 21th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.Sydney,NSW:ACM,2015:79-88.
[5]Morchen F.Time Series Feature Extraction for Data Mining Using DWT and DFT[C].Technical Report No.33,2003.
Time Series Trend Prediction
WANG Jin-ce,YANG Ning
(College of Computer Science,Sichuan University,Chengdu 610065)
The challenge of achieving trend prediction is to extract the trend features of time series and the reasonable prediction model in real time. The existing time series feature extraction methods are offline analysis,and the method of realization of the trend prediction is based on the multi-step prediction of a single numerical sequence.In view of this problem,proposes an online segment method and applies the vector auto regressive(VAR)model to forecast its trend.Experiments on real data sets show the effectiveness of the proposed algorithm.
Time Series Prediction;Time Series Trend Prediction;VAR Model
國家自然科學(xué)基金(No.61173099)、四川省應(yīng)用基礎(chǔ)計劃項目(No.2014JY0220)
1007-1423(2017)02-0003-03
10.3969/j.issn.1007-1423.2017.02.001
王金策(1990-),男,河北衡水人,碩士研究生,研究方向為時間序列挖掘
楊寧(1974-),男,四川成都人,回族,博士,講師,碩士研究生導(dǎo)師,CCF會員,研究方向為時態(tài)序列數(shù)據(jù)挖掘、異構(gòu)信息網(wǎng)絡(luò)分析
2016-11-29
2017-01-05