潘水洋,王一鳴
(北京大學 經濟學院,北京 100871)
基于滬深300股指期貨高頻數據趨勢持續期模型的構建與檢驗
潘水洋,王一鳴
(北京大學 經濟學院,北京 100871)
文章針對我國滬深300股指期貨高頻數據時間序列具有趨勢運動特性,提出了趨勢持續期模型。首先采用泊松過程對趨勢持續期的市場微觀結構進行建模,得出了趨勢持續期在理論上服從Gamma分布;基于經驗模態分解算法提取股指期貨日內高頻交易數據的趨勢持續期,采用最大似然估計法,估計趨勢持續期的Gamma分布參數,同時通過Kolmogorov-Smirnov檢驗驗證了模型的有效性;最后對不同采樣間隔下的趨勢持續期進行標準化處理,趨勢持續期模型具有很好的穩健性。
趨勢持續期;經驗模態分解;泊松過程;伽馬分布
在分析高頻時間序列過程中,資產價格高頻時間序列往往存在短期趨勢,許多高頻數據量化模型嘗試去預測價格運動趨勢,如Zhang等[1]采用非線性自回歸條件持續期模型對高頻交易數據進行預測、Paresh等[2]在隱馬爾科夫模型框架下對商品期貨價格高頻時間序列進行了較為成功的預測。與此同時,大量交易者通過量化模型預測短期趨勢戰勝市場獲取超額收益的事實表明:趨勢預測在實際的交易活動中起著至關重要的作用。正因如此,對趨勢形成背后的市場微觀結構的研究顯得尤為重要。
在日內高頻交易數據下,一個令人感興趣的研究點是趨勢持續期是如何形成的?它的統計分布具有哪些特性?深刻了解趨勢持續期的背后形成機制和統計分布規律對基于時間尺度構建高頻交易策略起著至關重要的作用。國內外目前還沒有文獻對高頻數據趨勢持續期進行研究。本文的創新之處在于首次提出了趨勢持續期這一基本概念,通過使用泊松過程對市場微觀結構進行統計建模,得出了趨勢持續期服從Gamma分布,基于Massey[3]提出的Kolmogorov-Smirnov單樣本檢驗方法,采用滬深300股指期貨2011年1月1日到2015年12月31日高頻交易數據對趨勢持續期統計分布進行檢驗,驗證了本文所提出模型的正確性。
本文將趨勢持續期定義為成交價格連續上漲或連續下跌的持續時間。成交價格連續上漲形成的趨勢稱之為上漲趨勢持續期;成交價格連續下跌形成的趨勢稱之為下跌趨勢持續期。為了探討趨勢形成機理,先研究市場微觀機制特性,主要體現在以下幾個方面:
(1)市場存在兩類異質交易者,一類是買方多頭,主動買入股票,引起股票價格上漲;另一類為賣方空頭,主動賣出股票,引起股票價格下跌;
(2)股票具有最小價格變動單位ΔS,價格變化是離散的;
(3)交易市場為指令驅動型市場,買賣雙方不斷將下單指令提交至指令?。?/p>
(4)指令成交事件為泊松過程。O’Hara[4]、Scalas[5]和Weber[6]對此假設分別給出了理論推導和實證檢驗。
假定觀測到的資產市場價格Pt滿足:

P*表示資產的基本價值,在高頻交易數據中P*保持不變。It可以解釋為一個指令型的指示變量,1代表買方發動的交易;-1代表賣方發動的交易。ΔS表示最小報價單位。由式(1)可知,當買方連續發出交易指令時,價格連續上漲,形成上漲趨勢;當賣方連續發出交易指令時,價格連續下跌,形成下跌趨勢。
本文將買方和賣方發起的交易指令作為事件集中的元素,并按照交易發生的先后順序建立事件時間軸。買方和賣方主動發起指令按照強度為λ的Poisson過程到達,如下頁圖1所示。
在圖1中,t0時刻買方多頭占主導地位,資產價格產生上漲趨勢,買方多頭力量連續發出交易指令,在t1時刻,交易指令引起價格上漲Δp1。t2時刻,交易指令引起價格上漲Δp2。一直到tk時刻,交易指令引起價格上漲Δpk,此后多空力量發生反轉,賣方空頭開始處于主導地位,資產價格由上漲趨勢轉變為下跌趨勢。根據Sheldom[7]提出的Poisson過程的性質:第i-1次交易發生與第i次交易發生的時間間隔Δti相互獨立,且都服從參數為λ的指數分布,其分布密度函數為:

圖1 趨勢持續期模型

圖1中第一個趨勢持續期為:

記τn為市場上第n個趨勢的持續期。根據Poisson過程的性質,趨勢持續期τ服從Gamma分布,其分布密度函數為:

本文采用泊松過程對交易指令進行建模,從理論上得出了趨勢持續期服從Gamma分布,模型的具體行為可參考圖1。
為檢驗模型的有效性,采用滬深300指數股指期貨2011年1月1日到2015年12月31日高頻交易數據對趨勢持續期統計分布進行檢驗。首先基于Huang[8]提出的經驗模態分解算法提取出股指期貨日內高頻交易數據的趨勢持續期。然后采用最大似然估計法,估計趨勢持續期的Gamma分布參數,最后通過Kolmogorov-Smirnov檢驗驗證模型的有效性。為檢驗模型的穩健性選取的數據為股指期貨當月主力合約1秒間隔高頻數據、5秒間隔高頻數據、10秒間隔高頻數據、20秒間隔高頻數據、30秒間隔高頻數據、60秒間隔高頻數據作為樣本。
本文采用如下方法提取趨勢持續期:
(1)對原始高頻數據采用Boudraa[9]提出的經驗模態分解濾波算法,濾除噪聲干擾。
(2)對濾波后的數據提取波峰與波谷的位置。
(3)波峰與波谷之間的距離為趨勢持續期。
濾波的原因在于高頻交易時間序列存在噪聲,趨勢之上會疊加干擾,需要采用濾波技術濾除這些干擾,得到干凈的趨勢成分。
本文采用經驗模態分解對原始高頻數據濾波主要基于如下考慮:經驗模態分解是一種非線性時間序列分析方法,而高頻時間序列具有非線性,非平穩特性,普通的濾波方法如移動平均、指數平均濾波方法本質上屬于線性處理方法,這些濾波方法作用在高頻時間序列時會產生嚴重滯后效應,不能正確提取波峰波谷位置,這將導致提取的趨勢持續期產生誤差。
經驗模態分解濾波計算方法如下所示:
給定時間序列x(t),經驗模態分解算法通過篩選過程將其分解成多個特征時間尺度的固有模態函數(Intrinsic Mode Function,IMF),稱這些函數為IMF。每一個IMF分量必須滿足兩個條件:①極值點(包括極大值和極小值)的個數與過零點的個數相等或至多相差一個;②由局部極大值點構成的上包絡和局部極小值點構成的下包絡的均值為零。篩選過程如下:
(1)確定?的取值(0.2-0.3),j←1
(2)cj?1(t)←x(t)
(3)提取第j個IMF分量,過程如下:
①i← 1,hj,i?1(t)←cj?1(t)
②提取hj,i?1(t)的所有極值點
③分別對極大值點和極小值點采用三次樣條插值得到hj,i?1(t)的上包絡Uj,i-1(t)和下包絡Lj,i-1(t)
④計算包絡的平均值:mj,i-1(t)←[Uj,i-1(t)+Lj,i-1(t)]/2
⑤更新:hj,i(t)←hj,i-1(t)-mj,i-1(t),i←i+1
⑥計算停止迭代準則:

⑦重復步驟②至步驟⑥,當SD(i)<?時,IMFj(t)←hj,i(t)
(4)更新剩余分量:cj(t)←cj?1(t)-IMFj(t)
(5)重復步驟(3),j← j+1,當cj(t)的極值點小于2時,結束整個過程。
經過經驗模態分解算法篩選,時間序列x(t)被分解成N個IMFj(t),j=1,…,N和一個剩余分量s(t),選取合適的IMF分量就可以濾除噪聲,完成對x(t)濾波。即:

通過經驗模態分解對高頻數據濾波,獲得趨勢持續期時間序列τ1,τ2,…,τn,接下來采用極大似然估計對趨勢持續期的Gamma分布進行估計檢驗。首先得到似然函數:

兩邊取自然對數:

對數似然函數分別對α,β求一階倒數,并令其一階倒數為0,即可求出最大似然估計值,。表1為采用最大似然估計對Gamma分布各個參數的估計結果。

表1 趨勢持續期Gamma分布參數估計結果
從表1可以看出,不同的采樣時間間隔下趨勢持續期均較好的服從Gamma分布,不同采樣時間間隔下α的估計值非常接近,β估計值隨著采樣時間間隔的增大而增加。在Gamma分布中參數α為形狀參數,α的變化主要引起分布曲線形狀的改變,α的值越小,分布的拖尾越明顯。β為尺度參數,反應了分布的尺度信息,隨著β的增大,分布曲線的跨度增加且峰值降低,因此采樣時間間隔越大,β的估計值必然會增大。
本文采用Massey[3]提出的Kolmogorov-Smirnov單樣本檢驗來驗證分布的擬合優度。KS檢驗是一個非參數檢驗,對由極大似然估計得到的Gamma分布進行擬合優度的檢驗,采用了單樣本KS檢驗的方法,KS檢驗的基本原理是通過檢驗經驗累積分布與假設累積分布之間的距離來進行判斷,具體描述如下:
對n個獨立同分布的樣本{τi,i=1,2…,n},Fn(τ)是τi的經驗累積分布函數。給定如下假設H0:{τi,i=1,2…,n}服從通過極大似然法擬合得到的Gamma分布函數F(τ),計算{τi,i=1,2…,n}的經驗累計分布Fn(τ)與理論累計分布F(τ)的最大差距,記為統計量Dn:

由 Kolmogorov定理可知,若Fn(τ)與F(τ)為同一分布,則Dn服從Kolmogorov分布,即:

給定顯著性系數a,通過計算可以得到相應的分位數Ka,使得:

當Dn>Ka時,在顯著性水平a下拒絕原假設H0。表2給出了不同采樣時間間隔下KS檢驗結果。表中KS檢驗的顯著性水平為0.05,表2的結果支持了趨勢持續期服從Gamma分布。

表2 KS檢驗結果
由于在不同的采樣時間間隔下,持續期分布均服從Gamma分布,而且α的估計值非常接近,說明模型是有效的。為進一步檢驗模型穩定性,對不同采樣時間間隔下的趨勢持續期進行標準化處理,進一步檢驗其統計分布特性:

其中τ是趨勢持續期隨機變量,σ是趨勢持續期τ的標準差。f(τ)是未經過標準化處理的趨勢持續期τ的概率密度分布函數。f′(τ/σ)是經過標準化處理后隨機變量τ/σ的概率密度分布函數。再次利用Gamma分布對標準化后的趨勢持續期進行建模,同樣使用極大似然估計法估計各個參數得到估計結果如表3所示。觀察表3中列出的不同采樣間隔下各參數的估計值,α,β的估計值都非常接近,結果進一步表明了本文所提出模型的穩健性。

表3 標準化后趨勢持續期Gamma分布參數估計結果
通過對市場微觀結構描述,基于泊松過程對趨勢持續期形成過程進行建模,從理論上推導趨勢持續期服從Gamma分布。采用最大似然估計和KS檢驗對趨勢持續期的分布參數進行了估計和推斷,結果表明了該模型的正確性。對不同采樣時間間隔下的趨勢持續期進行標準化后,趨勢持續期的分布展現了比較一致的分布特性,趨勢持續期模型具有很強的穩健性。
高頻數據下,上漲趨勢與下跌趨勢交替進行,其形成的原因可能是隨著時間推移,趨勢持續一段時間后,價格朝著不利于處在主導地位交易者的方向變動,致使交易者重新選擇買賣點,并由此形成趨勢反轉,由此往復就形成了上漲趨勢與下跌趨勢的交替進行。
[1]Zhang Y J,Russell J R,Tsay R S.A Nonlinear Autoregressive Conditional Duration Model With Applications to Financial Transaction Data[J].Journal of Econometrics,2000,9(3).
[2]Paresh D,Mamon M,Tenyakov A.Filtering and Forecasting Commodity Futures Prices under an HMM Framework[J].Energy Economics,2013,23(3).
[3]Massey F J.The Kolmogorrnov-Smirnov Test for Goodness of Fit[J].Journal of the American Statistical Association,1951,2(12).
[4]O’Hara M.Market Microstructure Theory[M].New York.Blackwell Press,1995.
[5]Scalas E,Gorenflo R,Lucklock R.Anomalous Waiting Times in High-frequency Financial Data[J].Quantitative Finance,2004,16(4).[6]Weber P,Rose B.Order Book Approach to Price Impact[J].Quantitative Finance,2005,17(7).
[7]Sheldom M R.Stochastic Processes[M].New York:John Wiley Sons Press,1981.
[8]Huang N E,Shen Z,Long S R.The Empirical Mode Decomposition and the Hilbert Spectrum for Nonlinear and non-stationary Time Series Analysis[J].Proceedings of the Royal Society,1998,98(12).
[9]Boudraa A O,Cexus J C.EMD-Based Signal Filtering[J].IEEE Transactions on Instrumentation and Measurement,2007,56(6).
F830.9
A
1002-6487(2017)20-0090-03
潘水洋(1986—),男,湖南岳陽人,博士研究生,研究方向:資產定價。
王一鳴(1967—),男,江西臨川人,教授,博士生導師,研究方向:資產定價與風險管理。
(責任編輯/易永生)