摘要:根據股票指數時間序列復雜的非線性特性,提出以相空間重構理論與遞歸神經網絡相結合的股票短期預測新方法#65377;以相空間重構理論確定最佳延遲時間和最小嵌入維數,以最佳延遲時間為間隔的最小嵌入維數作為遞歸神經網絡的輸入維數,并按預測相點步進遞歸的生成訓練數據進行短期預測,提高了預測精度和穩定性#65377;該方法應用于滬市股票綜合指數預測,其結果與傳統的單純用BP網絡模型預測的結果相比較,精度大大提高,證明了該預測模型和方法在實際時間序列預測領域的有效性和實用性#65377;
關鍵詞:股票短期預測;時間序列;相空間;神經網絡
中圖分類號:TP301.06文獻標志碼:A
文章編號:1001-3695(2007)04-0239-03
0引言
以股票指數為代表的金融時間序列變化有很強的非線性特性,其變化往往帶有混沌的特點[1]#65377;長期以來一直用隨機或統計的方法,如隨機行走理論[2]認為股價的波動完全是隨機的,毫無規律可循的,是一種不可測的隨機噪聲#65377;這種觀點過分地夸大局部性#65380;微觀性的價格隨機波動,否定價格變化過程中的過去#65380;現在及將來的相關性#65377;另外時間序列分析的傳統方法,如ARIMA(AutoRegressive Integrated Moving Average) [3]等,都要求時間序列具有正態分布#65380;全局平穩#65380;殘差互不相關的特點,但實際的股票價格時間序列往往是帶有非線性的#65380;非平穩#65380;不規則和混沌的特性,這使得傳統的統計學方法在時間序列的實際應用中很難準確地進行分析和預測#65377;
股票價格指數主要是受內#65380;外兩類隨機因素影響#65377;內在隨機因素主要由系統內部的不確定非線性因素影響;外在的隨機因素主要由國家政策#65380;重大事件等因素影響#65377;外在的隨機因素從技術上講根本不可能預測,而從內在因素上講,股票價格指數序列是非線性時間序列,并已證明它存在混沌特性行為[1]#65377;混沌理論糾正了股票價格指數時間序列由于內部非線性作用而產生了某種類似隨機現象的錯覺,實質是確定性的混沌動力學行為;相空間重構則是來自于混沌動力學的一種預測方法#65377;混沌理論和相空間重構理論為股票價格指數的預測研究開辟了新的思路,是本文研究的理論依據#65377;
人工神經網絡具有分布處理#65380;自組織#65380;自適應#65380;自學習和容錯性的優良特性,能較好地處理類似于股價預測等多因素#65380;不確定#65380;非線性的時間序列預測問題#65377;20世紀90年代以來,隨著神經網絡在模式識別和模糊控制方面獲得的巨大成功,其基本理論已趨于成熟,并在股票預測中得到廣泛的研究與應用[4]#65377;但在實際應用中,單純地應用神經網絡預測時間序列仍然存在一些有待繼續解決的問題,如訓練樣本的選擇#65380;網絡結構的確定#65380;算法的改進以及網絡推廣能力等方面#65377;
本文依據股票價格指數序列的混沌特性提出基于相空間重構理論與遞歸神經網絡相結合的預測模型進行股票價格的短期預測研究#65377;利用混沌特性處理樣本及確定神經網絡的網絡結構,用神經網絡映射混沌相空間相點演化的非線性關系#65377;該模型的特點是:神經網絡輸入維數m按照相空間重構理論的飽和嵌入維數確定;利用歐氏距離法選擇預測相點的K個最近鄰相點構成訓練樣本集;訓練樣本集是根據給定股票指數序列空間按預測相點依次步進生成,使神經網絡具有遞歸性和動態性#65377;因此所給出的預測方法能增強預測模型對系統混沌動力學的聯想和泛化推理能力,實現系統的總體尋優性#65377;依據滬市股票綜合指數資料,由預測結果和性能分析證實所提出方法能有效地#65380;穩定地提高預測精度,且有較強的適應能力#65377;
1相空間重構理論
相空間是指反映系統嵌入維的向量空間,將時間序列中的點序列根據嵌入維轉換成相空間中的點,這些點組成的軌跡就是反映系統規律的吸引子#65377;這里的嵌入維是指能夠完全包容以狀態轉移構成的吸引子的最小維數,即吸引子在該空間中沒有過分的交疊#65377;相空間重構的提出初衷是試圖在高維相空間中恢復混沌吸引子#65377;混沌吸引子是混沌系統的特征之一,混沌系統是由確定規律產生極復雜軌跡的系統,混沌軌跡的復雜性使得微小的初始差別會隨時間的推移不斷擴大,以至無法直接把握#65377;而混沌吸引子體現著混沌系統的規律性,意味著混沌系統最終會落入特定軌跡之中,此特定的軌跡就是混沌吸引子,可以通過展開和折疊進行混合#65377;相空間重構理論認為系統中任一分量的演化都是由與之相互作用的其他分量決定,因此,每個分量的演化過程中都隱含著系統的全部信息#65377;當重構一個狀態空間時,只需考慮一個分量,并將它在某些固定時間的延遲點作為新維處理#65377;
重構相空間Rm 中向量(空間點)Xt ,t=1,2,…,N,表示為
式中,τ為延遲時間,m為嵌入維數#65377;Takens[5]提出的嵌入定理證明,只要嵌入維數足夠大,即使延遲坐標的維數m≥2d+1(d是原動力系統相空間的維數),在該嵌入維空間里可把有規律的軌道(吸引子)恢復出來,即在重構的Rm空間中的軌道上與原動力系統保持微分同胚,與原吸引子的拓撲結構完全相同,即拓撲等價#65377;這時重構的相空間具有與實際的動力系統相同的幾何性質與信息性質,卻不依賴于重構過程的具體細節#65377;這為混沌時間序列的預測算法奠定了理論基礎,使得沿時間軸排列的一維時間序列可以通過重構相空間的方式恢復吸引子,而所得的吸引子能夠反映混沌系統的特征#65377;按Takens嵌入維數的要求重構相空間可確保系統的軌道不交叉,即處在混沌吸引子外的任一狀態,都與其近鄰狀態點有著共同的運動狀態,處在吸引子內的任一狀態點,與其近鄰狀態點也都保持在該吸引子域內并形成分形結構的運動趨勢#65377;因此,通過找出預測相點的最近鄰相點同向變化的狀態(即多個狀態點組成)與其后續時間序列的函數關系,就可以近似替代預測相點與其后續時間序列的函數關系來實現預測,即對于時間序列x1,x2,…,xN,如果能夠適當選取嵌入空間維數m和延時常數τ,那么就可以重構相空間,得到系統輸出為
重構相空間技術的關鍵在于正確地選取嵌入空間維數m和延時常數τ#65377;m太小,不足以展示復雜行為的細致結構;m太大,則會使計算工作大大復雜化,同時隨之而引起的噪聲的影響將不可忽視#65377;因此,選擇一個恰當的嵌入維數使吸引子能完全打開又不引起過多的噪聲,就顯得十分必要#65377;
1.1最佳延遲時間的確定方法
從理論上說, 當數據點數無限時, 嵌入的效果與τ無關, Takens定理并無對τ的要求, 但實際重建時,τ的影響極大#65377;τ太小,吸引子不能充分展開, 冗余誤差(Redundance Error)大;τ太大,則不相關誤差(Irrelevence Error)大[6]#65377;
在實際應用中主要有兩種方法選取最佳延遲時間τ,即線性自相關函數法(Autocorrelation Method)和互信息法(Mutual Information)#65377;但用自相關函數首次過0點的方法來確定最佳的τ,事實證明這不適用于非線性系統#65377;而互信息法表達式如下:
M(Xt,Xt-τ)=∑i,jPij(r) ln [Pij(r)/(PiPj)](3)
其中,pi為點Xt在第i個時間間隔中的概率;pij(r)為點Xt在t時刻落入第i個時間間隔和在t+τ時刻落入第j個時間間隔的聯合概率#65377;為了簡化計算,隨著τ的增加,互信息法將式(3)第一次達到最小值時的τ*作為最佳延遲時間τ#65377;根據文獻[7],由于互信息法考慮了非線性相關,比線性自相關函數法效果好,本文即采用互信息法確定最佳延遲時間τ#65377;
1.2最小嵌入維數m的確定方法
關于嵌入維數m的選取,Kennel[8]提出的偽鄰近點(False Nearest Neighbors,FNN)方法是一種比較常用的方法#65377;設d為吸引子的維數,為剛好使吸引子完全打開的最小嵌入維數,當m 已知相空間中的任一點X(t),由式(1)可知: 其最近鄰點XN(t): 式(2)和(3)中的t和t′分別為吸引子在相空間軌道上不同的參考點#65377;當嵌入維數為m時,X(t)和XN(t)兩點間的歐幾里德距離為 偽鄰近點判據ρm的意義評述為:在m+1維重構相空間中,X(t)與XN(t)之間的距離比X(t+1)與X(t)之間的距離大于某一值,則認為m維重構相空間中的XN(t)中的是偽鄰點#65377;所以ρm是閾值參數#65377; 根據此判據,計算m由小變大時的偽最近鄰數N;再計算嵌入維數從m到m+1時N的變化量△N;做△N/N~m的曲線#65377;當△N=0時,即在△N/N剛降為零(此時吸引子完全被打開)時,m的值m*就是所求的最小嵌入維數#65377; 2人工神經網絡預測原理 人工神經網絡(Artificial Neural Network,ANN)作為一種非線性的動力系統,它是一種模擬生物大腦的結構和功能而建立起來的對客觀事物進行科學研究的新方法#65377;它是由大量神經元通過不同的連接權值廣泛互連而成的多層復雜網絡系統#65377;它建立起的數學模型能更清晰地逼近輸入與輸出之間的映射關系,克服常規回歸方法處理非線性問題時的缺點#65377;其本質是用神經網絡的隱式來表達輸入與輸出的函數關系,將所構造樣本集代入網絡進行訓練,建立從輸入到輸出之間的非線性的映射關系,訓練完畢后得到預測的神經網絡模型,并將“知識信息”儲存在連接權上#65377;人工神經網絡無須人們預先給定公式,只在已知的有限實驗數據基礎上,經過反復迭代計算,不斷修正與目標值的差異而獲得反映實驗數據內在規律的數學模型#65377;因此它特別適合研究復雜非線性問題#65377; 3基于相空間重構和遞歸神經網絡相結合的預測方法 由于相空間重構和神經網絡在處理復雜系統上的有效性,以及相空間重構所提出來的非線性映射可以通過神經網絡自學習#65380;自適應等特點來計算模擬,本文提出了將兩者相結合,以發揮它們在處理股票指數時間序列這種復雜非線性問題上的有效性和互補性#65377; 根據相點與其后續時間序列的函數關系式y(t+τ)=f[x(t),x(t-τ),x(t-2τ),…,x(t-(m-1)τ)],構造預測網絡模型結構如圖1所示,輸入維數由第1.2節中計算得出的最小嵌入維數m決定,每個輸入維之間延時τ,即將x(t),x(t-τ),…,x[t-(m-1)τ]作為神經網絡的輸入;隱層節點數根據文獻[10]中網絡模型的改進方法來確定;輸出層含一個節點,即為預測時間點的預測值#65377;預測等價于由重構的m空間到一維空間的映射,由于輸入層由相空間重構理論的相點依次按τ步進生成,使得模型具有遞歸性,能增強預測模型對非線性系統的泛化推理能力,因此能實質性地提高預測精度#65377; 具體步驟如下: (1)對股票歷史數據進行預處理; (2)根據相空間重構理論計算最小嵌入維數m和最佳延遲時間,重構相空間; (3)由步驟(2)得到的m選擇神經網絡輸入層節點個數,決定節點之間的輸入數據的延時,構造BP神經網絡預測模型; (4)從原始數據中選擇部分訓練數據輸入進行網絡訓練,直到訓練達到要求為止,記錄此時的網絡參數,若不滿足訓練目標,則返回步驟(3); (5)選擇測試樣本輸入,得到第一個預測點值,并將第一點的實際值加入原輸入集,進行第二點的預測;依此類推,依次步進生成預測結果#65377; 4股票短期預測的實例研究 本文選取滬市股票綜合指數1998年1月5日~2000年12月4日期間700天的時間序列作為研究對象#65377;如圖2所示,選取前650天作為訓練數據,后50天作為預測數據,根據本文提出的預測方法進行驗證#65377; (1)由互信息法計算得到最佳延遲時間τ=1(延遲時間為1天),由偽鄰近點法計算得到最小嵌入維數m=5#65377; (2)構造神經網絡,設輸出為y(t+1),則輸入x(t),x(t-1),x(t-2),x(t-3),x(t-4),神經網絡輸入層為五個節點,每個神經元之間的時間間隔為1#65377;由文獻[10]可知隱層節點設為輸入層的兩倍即10個節點為宜,隱含層神經元轉換函數選取正切S形Tansig函數,輸出層只有一個神經元,即第二天的股票開盤指數預測值,輸出層神經元激活函數也為線性轉移(Purelin)函數,遞歸神經網絡的結構為5×10×1#65377; (3)y(t+1)是關于點x(t),x(t-1),x(t-2),x(t-3),x(t-4)的函數: y(t+1)=f [x(t),x(t-1),x(t-2),x(t-3),x(t-4)] 此模型是遞歸模型,在得到第一個預測點值后,將第一點的實際值加入原輸入集進行第二點預測;依此類推,依次步進生成預測結果來實現股票的短期預測#65377; (4)輸入650個訓練數據,待訓練結束后輸入50個預測數據,得到預測曲線與實際曲線比較,如圖2所示#65377; (5)單獨構造5×10×1的BP神經網絡,預測結果與本文遞歸模型預測結果比較如表1所示(在這里只選擇10個點列出),其預測曲線與實際曲線比較如圖3所示#65377; 從表1可以看出,本文的遞歸模型相對BP網絡模型預測精度有較大提高,并且從圖2#65380;3可以看出,對真實指數曲線的擬合程度也比BP網絡模型的擬合程度好#65377;從圖2看出,BP網絡在多步預測中,數據誤差較大#65380;曲線偏差較多,而遞歸模型預測曲線不僅多步趨勢預測較準確,而且在短期波動曲線擬合方面也效果理想#65377; 5結束語 本文提出了將相空間重構與人工神經網絡相結合的股票時間序列短期預測新方法,通過應用于滬市股指實例證明可有效提高預測精度#65377;取得結論如下: (1)股票指數時間序列具有混沌特性,用傳統的統計方法或者單純用一種方法(如BP網絡)很難得到令人滿意的預測結果,需要將不同的方法融合以提高預測精度#65377; (2)在股票指數時間序列相空間建立混沌分析基礎上的遞歸神經網絡,利用其混沌特征依次步進來構成樣本,用遞歸神經網絡來逼近相點的非線性關系,預測結果精度與BP網絡模型相比有了較大提高#65377; (3)該方法是研究非線性時間序列預測的一種嘗試,通過對滬市股票指數實例的短期預測,獲得了滿意的預測結果,從而證實該方法無論在理論分析還是實際應用中都具有實用性和有效性#65377; 本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。