林鋒權
(福建師范大學經濟學院 福建 福州 350000)
金融時間序列的波動率會隨著時間變化,這在實證金融中已經是廣為熟悉和被接受的典型事實。但是,波動率的不可預測性使得度量和預測它成為一件難度非常大的任務。通常,以下三種經驗觀察推動了波動率模型的演變。
1.波動性聚集:它指的是金融市場上,大波動往往跟著大波動;小波動往往也跟著小波動。兩者的界限和明顯。
2.資產收益率的非正態性:實證分析顯示,相對于正態分布,資產收益率分布趨向于厚尾性。
3.杠桿效應:這會導致一種現象,波動率對正價格變動或負價格變動的反應往往不同。價格下降時波動率的增大幅度大于相似規模的價格上漲帶來的波動率的變動。
正是有了實證的觀察,推動了無數的學者對金融時間序列的異方差性進行詳細的實證研究,也使得一系列估計波動率的模型得以推出,其中就包括了著名的ARCH模型。ARCH模型(Autoregressive conditional heteroskedasticity model)全稱“自回歸條件異方差模型”,解決了傳統的計量經濟學對時間序列變量的第二個假設(方差恒定)所引起的問題。這個模型是獲得2003年諾貝爾經濟學獎的計量經濟學成果之一。
ARCH模型的介紹:

(1.1)
其中α0>0,αi≥0,i>0,即各期收益以非負數線性組合,常數項為正數。
GARCH模型的介紹:
如果方差用ARMA模型來表示,則ARCH模型的變形為GARCH模型(波勒斯勒(Bollerslev),1986年)
本次作業的樣本數據選自恒生指數收盤價的月度對數收益率,時間從2000.01.01至2020.05.01。在做具體的建模過程之前,首先要做的就是對該時間序列數據進行簡單又直觀的觀察。波動率的分析始于觀察自相關以及偏相關函數,因此先計算出該序列以及平方后序列的ACF、PACF進行觀察。結果如下圖所示:
從圖1可知,對數收益率的平方值出現了顯著的自相關性。這意味著對數收益率不相關,也不獨立。

圖1
GARCH模型可以用如下的公式表示
εt=σtηt
(3.2)
(3.3)

在實證研究中,GARCH(1,1)模型常常為數據提供了合適的擬合。它很好的捕捉到了波動的自回歸特性(波動聚集性)和資產收益率分布的尖峰效應。而且GARCH模型中出現波動聚集符合經驗觀察的結果。模型中的ηt正且大的沖擊會增大εt的值,進而會增加σt的值,并導致更大的εt并且沖擊是會持續的。這就可以解釋波動率的聚集效應。
在訓練模型之前,為了驗證模型的有效性以及與后面的隨機森林模型進行橫向對比。因此將樣本數據劃分成兩大部分:訓練集數據以及測試機數據。由于樣本數據是從2000.01.-2020.03,因此將2000.1-2019.05作為訓練集,共計232個樣本;2019.06-2020.03共計9個樣本。下面使用GARCH模型對序列數據進行擬合:在R中GARCH程序包包含了各種形式的數據分布假設,由于本文假設數據是服從正態分布的。故采用GARCH(1,1)-N模型進行模型參數的估計。
上文中將原始數據劃分成兩部分:訓練集(2000.1-2019.06),測試集(2019.06-2020.03)。在建立完GARCH(1,1)模型后,需要用測試集數據對其估計的結果進行檢測。具體做法是:首先用模型進行估計,再計算出測試集數據的均值和標準差,最后,進行橫向對比。下面給出具體的結果:
從表1,可以看出:雖然模型預測不可避免的會帶來誤差,但是GARCH模型仍然較好地擬合了測試集數據。其模型的預測能力明顯優于ARIMA模型。但是其與機器學習的模型預測能力孰優孰劣,還要看下文的對比。

表1
隨機森林是基于決策樹的組合模型。若因變量為連續變量則建立非線性回歸分析模型,若因變量為分類變量則建立分類判別模型。隨機森林在分類中返回得票數最多的分類選項,而在回歸中返回所有決策樹輸出的平均值。它與bagging非常類似,也是Beriman(2001)發明的。隨機森林是從原始數據提取有一定數量的自助法樣本。對每一個樣本都建立一棵決策樹,其中每個節點都是隨機選擇競爭變量的,不需要人工選擇競爭變量;隨機森林的每棵樹都不需要剪枝,讓其充分的生長。最終預測結果是對所有決策樹結果的加權平均。而且隨機森林的這種隨機選擇少數自變量來競爭節點拆分變量的做法使得一些弱勢變量也有機會參加建模,因此可能會揭示一些尚未被人們發現的數據規律。同時隨機森林也可以計算OOB交叉驗證誤差,來從不同角度驗證自變量的重要性。隨機森林還能夠處理所謂的“維數咀咒”問題,并能處理自變量具有高階交互作用以及自變量相關的問題。
本次實驗選擇的因變量依舊是恒生指數,自變量選擇了恒生指數滯后一階、上證指數(SSEC)、日經225指數(N225)、道瓊斯工業指數(DJI)以及標普500指數(SNP)。之所以選擇這些變量的原因在于,在全球金融市場背景下,不同區域市場之間存在很強的聯動性,但是區域市場也會有自己的獨特的個性。
采用R語言中的randomForest函數包進行擬合。下面展示變量的重要性:

表2
從上表可以看出,對于恒生指數而言,自變量中標普500、道瓊斯指數,以及上證指數對其影響較大,其滯后一階的指數反而對其影響不大。這說明,香港的股票市場主要受到發達國家尤其是美國股市的影響,其次影響較大的是中國的股票市場。
從當前國內國外的金融局勢來看,美國依舊是世界的金融中心,它的一舉一動的確會對全球其他金融市場的股市產生比較大的影響。隨著國內在香港上市的公司不斷增加,國內股票市場也或大或小的影響著香港的股票市場。
根據誤差的結果可以看到,隨著隨機森林決策樹數目的增多,誤差(MSE)會不斷降低;同時隨著解釋變量的增多,誤差(MSE)也在降低。但是如果用太多的決策樹或者變量反而會出現過學習的結果。因此在此案例中,選擇100棵決策樹,且選擇四個解釋變量為最佳的方案。
本次案例節選了后面9期的數據作為測試集數據。
計算GARCH與隨機森林模型各自的MSE后為了更加直觀的看出兩者的區別,畫出兩個模型MSE的散點圖:
從圖2可以得到K折交叉驗證后的結果:在較短短期內,GARCH模型與隨機森林模型預測能力相當;在較長期內,GARCH模型的誤差顯著的提高,而隨機森林模型預測能力精度在提高。由此可以得到,時間期限較長的時,隨機森林模型預測能力優于GARCH模型。

圖2