◎李曉先
基于ARIMA模型對上證指數趨勢的預測
◎李曉先
股票市場的發展在一定程度上反應了一個國家或地區的經濟水平,而指數則是反應股市運行狀況的綜合指標。其中,上證指數作為我國幾大具有代表性的指數之一,在一定程度上綜合反應了我國股市的發展趨勢。再者,當今股票市場的波動時刻牽動著國內外億萬投資者的心弦,因此對上證指數趨勢的研究具有強烈的現實意義。基于此,本文選取2005年1月4日至2016年12月16日的上證指數數據,運用ARIMA模型進行了預測。研究發現,在短期內ARIMA模型對上證指數的預測效果較好。
ARIMA模型 上證指數 自相關函數 偏相關函數
股票市場起源于17世紀的荷蘭,發展至今,其作用和影響力巨大,可以說它是一個國家或地區經濟和金融活動的晴雨表。很多時候股票市場的不穩定波動可能危害一國經濟的健康發展。對于國家管理者而言,能夠準確預測股票價格的走勢,及時對股票市場進行合理的干預和健康的引導,將促使國家經濟持續健康的發展,也可以使投資者的損失最小化、收益最大化,間接起到拉動投資的作用。對于投資者而言,股票市場的波動直接影響其股票收益,或是影響其對公司所有權部分的分紅,就外國投資者而言可能還影響其對國內的投資額度。因此,對股票市場運行狀況進行預測分析研究,明確股票市場的運行趨勢有助于掌握一國地區的經濟運行狀況,并為當局管理國家金融事項提供幫助,也為投資者進行投資提供良好的建議并加強其信心。
對時間序列進行預測的方法有很多,如一次指數平滑、二次指數平滑、門限自回歸、灰色預測等。本文基于學者的成果經驗,最終選擇在金融領域預測效果較佳的ARIMA模型對上證指數進行預測。
ARIMA模型全稱為自回歸移動平均模型(Autoregressive Integrated Moving Average Model,簡記ARIMA),實質上是自回歸移動平均模型(ARMA)的擴展,是由Box和Jenkins于上世紀70年代初創立的著名時間序列預測方法,又稱為“B-J模型”。其中,AR是自回歸,p為自回歸項;MA為移動平均,q為移動平均項數,d為時間序列成為平穩時所做的差分次數。
ARIMA模型的基本思想是:將預測對象隨時間推移而形成的數據序列視為一個隨機序列,該隨機序列的單個值雖然具有不確定性,但其整體而言卻是具有一定的規律。因此,可以用一定的數學模型來近似描述這個序列,通過數學方法,使該序列達到最小方差下的最優預測。下面幾項為與模型相關的內容。
(一)自相關函數(ACF)
自相關函數記為ρt,s=Corr(Yt,Ys),t,s=0,±1,±2……

ρt,s表示同一個指標不同時間的兩個變量之間的相關關系,越接近于±1,說明變量的自相關越強,若接近于0,說明兩者之間幾乎沒有相關性,等于0就是不相關。
(二)偏相關函數(PACF)
ACF衡量的是Yt與Yt-k之間的相關性,并不考慮Yt與Yt-1,Yt-2,……Yt-k+1之間的關系,而PACF是考量當Yt-1,Yt-2,……Yt-k+1保持不變時,Yt-k與Yt之間的相關性,兩者的不同之處在于對其他變量的控制不同。
PACF記如下表達式:

其中,Ri,1,2……,k是由Yi關于(Y2……Yk)的線性回歸所得的殘差。
(三)ARIMA模型
ARIMA的表達式可以寫成三種形式。
第一種,AR(p)模型對應的表達式。

第二種,MA(q)模型的表達式。

第三種,ARMA(p,q)模型的表達式。

其實,第三種ARMA模型就是第一種與第二種的結合體,然后再考慮一個時間序列的滯后項問題,引入一個d參數,使時間序列達到平衡狀態,就是最終的ARIMA模型。
(一)數據來源
本文所選數據來源于國泰君安數據庫,截至2017年5月,數據庫對上證指數更新到2016年12月16日。以12月份的數據作為對比數據,與模型預測結果進行對比,檢驗模型的預測效果。2016年12月以前的數據作為建立模型進行預測作用。
(二)模型步驟
ARIMA模型具體步驟如下所示。
步驟一:對原始數據進行預處理,主要包括選取適當長度的數據,以及對數據進行穩性檢驗,若不平穩,則進行差分處理成平穩的序列。
步驟二:檢驗ACF與PACF,確實ARIMA(p,d,q)各參數的值。
步驟三:進行模型估計,選出最優的模型。
步驟四:對建立后的模型進行白噪聲檢驗,若通過則進行下一步。
步驟五:利用通過檢驗的ARIMA模型對未來走勢進行預測。
(一)時間序列的平穩性檢驗
由于時間序列數據一般來說都是不平穩的,因此在進行時間序列預測模型估計前,都要先對序列進行平穩性(ADF)檢驗,若不平穩則通過差分處理,轉化為平穩的序列。當然,即使差分后轉變成了平穩的序列,但轉化的序列已經沒有分析的價值,那么這序列也就不適合時間序列模型的預測估計,或是要通過別的方法對其數據進行優化處理。
圖1中的Y圖明顯可以看出,此序列不平穩,于是采取平穩性檢驗,結果如下所示。

圖1 序列原始圖與一階差分后的圖
從表1中可以看出,原始數據經過一階差分后達到平穩狀態,也就確立模型中d的取值為1。
間接的從圖1也可以看出,其中左邊部分為原始序列形態,右邊部分為一階差分圖,經過差分后總體達到平穩狀態,然而在當期以及前期還有部分不平穩狀態,但我們不考慮少部份異常值的影響。

表1 原始數據與一階差分數據的平穩性檢驗結果
(二)ACF與PACF圖檢驗
ACF與PACF主要是檢驗兩變量間的自相關關系以及兩變量間的偏相關關系,在此處的主要作用是用以確立ARIMA模型中p,q的值。
前面已經確定上證指數經過一階差分處理后才平穩,現就對其一階差分形式進行檢驗選擇。
自相關的檢驗結果告訴我們,在滯后期為4時,序列的樣本自相關系數才落入隨機區間內。
偏相關的檢驗結果告訴我們,在滯后期為6時,序列的樣本系數落入隨機區間,但在滯后期為13時,再次偏離隨機區間,表現拖尾,但最終還是選擇滯后期為6時的結果。
綜合上述ACF與PACF的檢驗結果,我們確立ARIMA模型中p、q的值分別為4與6,也就確立了我們最終所要的模型ARIMA(4,1,6)
(三)模型檢驗
最終估計出來的模型,能不能符合實際情況還不得而知,要經過一定的檢驗才能說明這個模型的估計是有效的,于是這里我們采取對估計模型的殘差序列做白噪聲檢驗(見圖2)。

圖2 白噪聲檢驗
從圖2中可以看出ARIMA(4,1,6)通過白噪聲檢驗,適用于時間序列上證指數的建模與預測。
(四)上證指數的預測
上面已經驗證模型可以用于上證指數的預測,我們先看一下預測結果圖(本文實際預測了未來20個交易日的走勢,但由于數據原因我們只對比12月16日前的數據)。

圖3 上證指數未來20個交易日的預測情況
為了使圖片上的預測效果看起來更加直觀,另外選取最近100個交易日的數據進行預測(見圖4)。

圖4 基于ARIMA(4,1,6),以100個歷史數據為基礎的預測區域
圖3、圖4藍色線條為預測線,藍色周圍的深灰色部分為80%的預測域,淺灰色的部分為95%的預測域。大致可以看出,未來預測值總的趨勢表現為平穩狀態。具體情況看基于2893個歷史數據的ARIMA(4,1,6)預測值與實際值之間的對比(見表2)。

表2 未來一個月的預測值與真實值對比
表2中對預測值與實際值之間做了一個數值的對比,結果表明前七個交易日的預測效果較好,后面五個交易日的預測數據則差距比較大。
目前,用于預測時間序列趨勢的方法相對來說較多,如前面提到的灰色預測、指數平滑、門限自回歸等方法,每個方法都有一定的預測優勢,但同樣存在一定的不足之處,因為每一個方法的創立之初都是為了解決特定問題而產生的。本文所采用的ARIMA模型,在經濟領域相對來說是效果較佳的一種預測方法。從最后的預測結果與實際發生值之間進行對比發現,在未來七個交易日的預測較好,之后則效果比較差,甚至與實際發生值偏離較大。因此,用該方法進行預測也要考慮相應的時效性。
另外,股票市場的實際波動比較大,受很多的影響因素干擾,有市場風險、政治風險、技術風險等。單純僅靠一個模型去做預測是不夠的,甚至有時候用同一指標的不同時間段的數據進行預測都會得出不同預測結果。因此,需要結合其他方法與經濟事實進行綜合判斷。
(作者單位:江西財經大學統計學院)
責任編輯:宋 爽