劉海飛,李心丹
(南京大學 工程管理學院,南京 210093)
基于EMD方法的股票價格預測
劉海飛,李心丹
(南京大學 工程管理學院,南京 210093)
文章將經驗模式分解方法(EMD)引入到中國金融市場數據預測中,利用EMD正交分解的特殊功能,提出了一種較為準確的金融市場時間序列預測其走勢的方法。并與傳統實踐上相對比較成熟的小波分析方法(WA)進行對比分析,實證研究表明:經驗模式分解方法(EMD)較小波分析方法擬和精度更高、預測功能很強。此方法為金融市場數據研究提供了一個強有力新的分析工具,在理論和實踐上有其重要的指導意義。
金融市場;時間序列;EMD分法;小波分析;預測
金融市場的波動性研究一直以來都是國內外學者們關注的熱點。金融時間序列走勢的準確合理預測意味著投資者高額的市場回報和政府監管部門對市場的有效監管,是投資和證券理論界與實務界所共識的很有意義研究課題,金融時間序列預測模型的研究已成為國內外學者關注的焦點和當今的前沿課題。許多學者在此領域提出了多種有效分析方法,如短期預測方法:回歸分析、指數平滑、自回歸滑動平均模型(ARMA)、廣義條件異方差模型(GARCH)[1]、神經網絡、灰度模型、小波分析、遺傳算法及它們的各種改進型等;長期預測方法:神經網絡、Holt-Winters 方法[2]、Theta 模型[3]、模糊理論[4][5]、小波包分析[6]等。由于數據和方法本身苛刻條件的限制使得模型預測結果或多或少都存在令人惋惜的缺憾。如時間序列模型適合于線性時序的預測,當用于預測非線性時間序列時,準確性較差;小波分析方法中數據基本假定為平穩序列,當用于非平穩時間序列預測時準確性不高;神經網絡具有逼近非線性的能力,然而當用神經網絡來預測股價時間序列時,其結果不是很理想;中國證券市場的混沌性暗示著金融時間序列的長期不可預測性和短期預測的可行性,但混沌模型與其他方法對股市進行預測時,也為未能得到令理論界和實務界較滿意的效果。
本文提出一種全新的金融時間序列預測EMD方法[7],并與傳統相對比較成熟的小波分析預測(WA)方法進行對比分析表明:EMD方法的擬和與預測的精度較小波分析方法大幅提高,驗證了此方法在金融時間序列預測應用中的強有效性。
經驗模式分解方法,它的優點是能夠對非線性、非平穩過程的數據進行線性化和平穩化處理,分解的最終函數彼此之間是正交的,從而在分解的過程中盡可能的保留了數據本身的特性。其基本思路是用波動上、下包絡的平均值去確定“瞬時平衡位置”,進而提取出內在模函數。內在模函數(Intrinsic Mode Function),記為I(t))的計算過程主要有3個步驟:
(1)找出原序列Y(t)的各個局部極大值,為更好保留原序列的特性,局部極大值定義為時間序列中的某個時刻的值,其前一時刻的值不比它大,后一時刻的值也不比它大。然后用三階樣條函數進行插值,得到原序列Y(t)的上包絡序列值Ymax(t)。同理,可以得到下包絡序列值Ymin(t)。
(2)對每個時刻的Ymax(t)和Ymin(t)取平均,得到瞬時平均值m(t):

(3)用原序列Y(t)減去瞬時平均值m(t),得到類距平值序列h(t):

對于不同的數據序列,h(t)可能是內在模函數,也可能不是。若h(t)中極值點的數目和跨零點的數目相等或至多只差一個,并且各個瞬時平均值m(t)都等于零,則它就是內在模函數,否則,把h(t)當作原序列,重復以上步驟,直至滿足內在模函數的定義,求出內在模函數為止。求出了第一個內在模函數I1(t),也即從原序列中分解出第一個分量。然后,用原序列減去I1(t),得到剩余值序列r1(t):

至此,提取第1個內在模函數的過程全部完成。然后,把r1(t)作為一個新的原序列,按照以上步驟,依次提取第2,第3,…,直至第N個內在模函數IN(t)。之后,由于rN(t)變成一個單調序列,再也沒有內在模函數能被提取出來。如果把分解后的各分量合并起來,就得到原序列Y(t):

(1)小波定義:設 Ψ(t)∈L2(R),其傅立葉變換為 Ψ(ω),滿足允許條件時,則稱 Ψ(ω)是一個基本小波,連續情況下小波,其中 a為伸縮因子,b為平移因子,給定任意函數f(x)∈L2(R)的連續小波變換及其重構公式為:

(2)小波分解與重構的基本原理:小波分解的逼近包含了信號較低頻的成分,細節包含了較高頻的成分,利用小波的分解與重構可以得到不同頻率成分,根據需要可以選擇不同尺度對信號進行分析,以此將原始信號Y分解成Y=G1+G2+…+GN+DN式中,G1,G2,…,GN分別為第一層、第二層到第N層分解得到的高頻信號 (即細節信號);DN為第N層分解得到的低頻信號(即逼近信號)。通過對G1,G2,…,GN與DN進行預測,然后通過小波重構計算方法就能實現對原始信號Y的擬和與預測。
本文數據來自證券之星網站(www.stockstar.com),選取我國上證指數(000001)從2001年 6月1日至 2005年3月31日之間的每日收盤價,共916個有效樣本數據,采用對數收益率數據(對數收益率,即rt=lnPt-lnPt-1,其中Pt為第t天的日收盤價)作為研究對象,全部數據分為兩段,時段2001年6月1日至2005年3月18日的數據為模型估計階段數據(共907個數據),剩余時段為預測區間(共9個數據),用以數據的預測檢驗。分別利用EMD和WA方法和matlab編程[8][9]對股市時間序列建模與預測。其中WA方法中使用一維離散平穩小波多尺度分析過程。令Y=(Y(1),Y(2),…,Y(K))為原始收益率時間序列,分別經WA的4尺度和EMD方法的9層分解后得到:


其中,i=1,2,…,N,t=1,2,…,K,且 K 為最大樣本值, μN(t)和rN(t)為誤差項。在t≤T時刻的原始數據進行分解的基礎上,通過(7)(8)式做出K步預測。對WA方法而言,由于小波分解可以將原時間序列分解為趨勢項、隨機項和周期項,分別對趨勢項線性擬和,周期項正弦函數擬和,隨機項ARMA模型擬和,最后重構在一起得到預測函數:

對EMD方法而言,通過檢驗,每個序列都是平穩的序列,通過ARMA模型擬和,最后復合到一起得到預測函數:

最后通過小波重構與EMD重構 (即將不同的IMF函數復合)得到預測圖形。
時間序列原始數據Y的圖形如下:
在圖1中,描述出了上證指數收益率序列的走勢圖,具體數據性質見表1。

表1 原始時間序列Y的平穩性檢驗結果
由表1可知:收益率時間序列的偏度為0.864510>0,峰度為8.807155>3,其分布顯著偏離正態分布,且收益率序列ADF(PP)統計量值-14.36635(-29.67906)小于它們在不同顯著性水平(1%和5%)下的臨界值(-3.4402和-2.8651),統計值落在臨界值以外,表明收益率序列為平穩序列。收益率序列平穩性恰恰符合小波分析預測方法的數據基本假定,在此假定基礎上對此收益率數據分別進行兩種不同方法的分解,得出兩種不同方法的擬和精度。小波重構標準差err=0.01339和EMD重構標準差err=6.9969e-006,可以看出EMD的誤差顯著小于小波分析方法的誤差,取得了令人滿意的效果。
在圖2中,表示出原始離散數據Y序列、一維離散平穩小波重構序列和最終兩者擬和預測的誤差序列,誤差序列反映了擬和值與實際值的偏離,定義偏離的標準誤差(MSE)N為:,其中 Y(t)為實際值,為擬和值,由計算可得其擬和的標準誤差為:0.01339,可見小波擬和精度是很高的,它完全能適應實踐的各種需要,被公認為是一種很有效的分析工具。



在圖3中,分別描繪出了原始數據在不同尺度下頻率數據圖,從中可以清晰的看出通過一維離散平穩小波分析得出9層且尺度為4的不同的高頻與低頻數據,以此可以對不同頻率的數據進行分析,以適應不同的需要。
在圖4、5中,同樣給出了原始數據Y的EMD重構序列和最終兩者擬和的誤差序列,以及9個不同彼此正交的內在模函數(IMF)。從直觀上看,小波重構的誤差序列數據離散度要大于EMD方法的誤差序列數據離散度,再由計算可得其擬和的標準誤差(MSE)為6.9969e-006,可知通過EMD分解后再擬和誤差顯著減小,擬和精度大幅度提高,驗證EMD方法的強效性。
在圖6中,由EMD和WA兩種不同方法估計出各自的預測函數進行樣本外預測圖,預測的觀測值共9個。定義預測誤差(MSE)為:,其中 Y(t)為實際值,為預測值,由圖可知兩種方法預測圖形都與原始數據圖形近乎一致,兩種方法對平穩數據短期預測誤差都非常高,經計算分別為7.1043e-006和0.01333,可見EMD方法不失為一種數據預測有效的好方法。
本文提出了一種新的預測方法,即經驗模式分析方法(EMD),對平穩的收益率序列作了建模與預測分析,并就金融市場數據分別用EMD和WA方法進行了實證研究,比較分析結果表明:EMD方法較傳統上比較成熟的WA方法更具有效性,擬和與預測精度顯著提高。而EMD對非線性非平穩數據的處理更具有其自身的優越性,即分解出的不同的IMF是正交的,這樣能盡可能多的保留了原始數據的基本特性。此方法為處理非線性、非平穩的數據提供了一種強有力的分析工具。
鑒于EMD方法本身的特點,它不僅可以運用到金融市場數據的短期預測,同樣也可以用于長期預測。EMD方法可以同其他多種方法綜合使用,相信誤差會進一步降低,精度會進一步提高。EMD方法有廣泛的實踐應用價值,有助于推動我國金融領域的預測與決策問題的深入研究,同時也能極大的促進預測理論的進一步發展。
[1]Engle R F.Autoregressive ConditionalHeteroscedasticity with Estimations of the Variance of UK Inflation[J].Econometrica,1982,50.
[2]ThomasH L,KyungD N.CombiningForeign ExchangeRate Forecasts Using Neural Networks[J].Global Finance Journal,1998,9(1).
[3]Howard Grubb,Alexina Mason.Long Lead-time Forecasting of UK air Passengers by Holt-W Inters Methods with Damped Trend[J].International Journal of Forecasting,2001,(17).
[4]V.Assimakopoulos,K.Nikolopoulos.The Theta Model:a Decomposition Approach to Forecasting[J].International Journal of Forecasting,2000,16.
[5]Park Jae-gyun,Park Jong-Keun,Kim Kwang-ho,et al.A Daily Peak Load Forecasting System Using a Chaotic Time Series[J].IEEE,1996,(10).
[6]梁強,范英,魏一鳴.基于小波分析的石油價格長期趨勢預測方法及其實證研究[J].中國管理科學,2005,13(1).
[7]Huang,N.E.,Z.Shen,S.R.Long,W.L.Wu.,H.H.Shih,et al.The Empirical Mode Decomposition and Hilbert Spectrum for Nonlinear and Nonstationary Time Series Analysis[J].Proc.R.Soc.,1998,A454.
[8]徐金明.MATLAB實用教程[M].北京:清華大學出版社,2005.
[9]王翼,王歆明.Matlab在動態經濟學中的應用[M].北京:機械工業出版社,2006.
F830.91
A
1002-6487(2011)10-0059-03
國家自然基金重點項目(70932003);國家自然科學基金資助項目(70671053,70701016,10726072,70901037);國家社會科學基金項目(07CJL014);教育部科技創新工程重大項目培育資金項目(708044);南京大學人文社會科學項目資助
劉海飛(1980-),男,安徽阜陽人,博士,副教授,研究方向:金融工程、計算金融、行為金融。
(責任編輯/亦 民)