顧亦凡
摘 要 本文從統計角度,對金融高頻數據的概念進行辨析,將其與傳統數據進行對比,針對其具有噪聲的特點,提出了應用HHT方法進行分析,并對HHT方法進行詳細說明。
關鍵詞 金融高頻數據;金融高頻交易數據;HHT方法;EMD分解
21世紀世界經濟全球化趨向加倍顯著,金融逐漸國際化。大范圍的金融數據在人們的平日生活中起了越來越重要的影響。金融數據的挖掘和分析變得至關重要,在對金融數據處理和應用時,數據本身的統計特征不可以被忽視。
金融數據自身所具有的統計特點不可以被忽略,當我們在應用金融高頻數據時。這是統計可以被看作是正確認識數據的依據。根據早期研究,金融高頻數據并不是穩定的,在較短時間內,會有厚尾趨勢。而近期研究顯示,其還具有非正態性的特征。
1金融高頻數據概念
首先要對高頻,低頻以及超高頻數據來進行劃分,對于主要用小時,分鐘,秒來計量的數據我們將其稱為高頻數據。相應的,低頻數據通常以天,周,月,年作為計量單位的數據,而并不是日內數據。進一步而言,金融中所提及的超高頻數據,對于交易的過程是實時采集的,對于每筆的交易產生都條條記錄,并不是我們所認為的抽樣數據,而是全樣本數據,也并不是等間距的數據,數據時間的發生是不等的。
金融中高頻數據和超高頻數據囊括的范圍是廣泛的,除去買賣價格以外,和買賣關聯的諸如詢價報價等也都被容納其中。金融高頻數據包含大量市場微觀結構的信息。采用高頻數據,可以在較窄的觀測區間內產生滿足分析所需要的數據量,同時對市場微結構模型做出恰當的驗證。
想要區分高頻和低頻數據,就必須理解到噪聲層面,噪聲明顯在高頻數據中,相反的,低頻數據中,噪聲是可以被忽略的。
金融中高頻數據和超高頻數據大部分是相似的,首先它們都是體內數據,他們的價值也都是離散而非連續的,最后它們的業務的記載都是不等間隔的。但是同時它們也存在著不同點,比如說高頻數據存在非同步交易的特點。
由于交易的數據會因為多方面的原因缺失,或者說交易的時間點,交易的計算等多種問題,同時微結構噪聲,跳躍成分等等也對數據造成干擾,金融高頻數據的質量往往并不高。
在接下來,我們來介紹高頻交易。購買,銷售證券,這一類根據速度獲利的交易,常常被我們稱為是高頻交易,這個速度是非常驚人的,常常可以達到千分之一秒甚至百萬分之一秒。高頻交易中的決策并不單單只依賴于當前的數據,而是通過對大量的歷史數據的快速處理,并且對價格微小變動迅速反應構造資產組合頭寸。但是我們要區分一下交易高頻數據和高頻交易數據。交易高頻數據在大部分時間是對一般買賣的即時記載,但是高頻交易數據是對高頻交易的記錄。不過這兩種數據都對短期很關注[1]。
2進一步理解金融高頻數據
一種新的對數據的處理數段迫切被需要,因為在高頻數據中,高頻數據的腳標是隨機間隔的買賣時間,這個時候,我們就準備將數據變為等時間間隙的,從而重新使用原來的方法,比如說HHT就是將非線性非平穩序列穩定分解之后,再對其做hilbert變換。
其實對于高頻數據的使用大多要經過加總。雖然加總會損失一些信息,但是首先對于我們要分析的變量,這樣構造和組織數據是經濟并且實用的,其次這樣可以減少市場微結構噪聲的影響。
對于數據的加總,會產生一些問題,首先,如果這個交易并不是兩個相同的交易,也就是說不是交易拆分的問題,那么即便在數據上記錄的是同一時刻的交易,我們的加總也會產生問題。其次,對于一些過于活躍的交易,就算時間的記錄精確到毫秒,我們也不能忽視在一毫秒內發生的多次交易對于交易非常活躍,即便記錄時間精確可以到毫秒,但是1毫秒發生數筆交易也不是不可能的,在這種情況下,對令交易間隔的數據進行加總會導致誤配。
但是,我們也要意識到加總時間也有很多優點。首先在進行挑選數據可以保持一致,當我們對數據實施多變量分析時。其次在進行預測時,一般是鐘表時間可刻度的,但采用時間加總需要比較不同時間間隙所帶來的效用,也就是說取樣的縝密程度對解析的結果是有影響的[2]
3非平穩非線性序列hht方法
之前一直被廣泛應用于分析信號的小波分析,在金融高頻數據中并不能應用。因為小波辨析不具有根據當前信號的特點來實現自適應的分析,也就是說解析的頻率需要在實踐前給定。與之形成對比的是,HHT中的EMD是自適應的,也就是說,可以被應用于分解一些不是平穩的金融時間序列。
HHT方法由兩部分組成,EMD和hilbert譜分析。選擇EMD將信號解剖為一些imf,然后對imf做hilbert譜分析。
通過對數據分析可以得到EMD,根據數據由不一樣的震蕩的固定模式作為基礎來分解,而每一種固定的模式象征著具有相同數目極點和零點的震動。但是在認識的時間點內,不一樣的震蕩模式是可以在同一時間點上共同存在[3]。
4EMD分解與原序列重構
預測并不是分析高頻數據的真正目的,相反微結構以及短期行為特征的發現才是高頻數據挖掘的目。在噪聲被控制的前提下,EMD分解可以將數據序列的細節剝離出來,從而準確刻畫波動的動態行為結構。
對于EMD分解,信號的時域是需要被首先研究的,從時域中我們可以獲得信號中類似頻率的特征。時間的尺度可以用信號的極點來計算。Imf時間跨度的量是通過時間尺度參數來形容的。
由于imf函數的各個變量是接近于正交的,這也就是說,imf變量之間的相互影響是幾乎可以被忽略的,當我們需要某些imf來做分析的時候。方差貢獻作為依據,我們可以從截斷的角度來濃縮信息,將其中的主要信息來做近似。但imf函數需要滿足以下兩個條件,首先在所有樣本高頻數據集內,零點的數量必須和極大值或者極小值的數量一樣 其次,任意時間內由樣條插值得到的上下包絡局部上看來是關于時間軸對稱的也就是說均值為0。
5結束語
金融高頻數據由于其數據的大量以及復雜給我們數據的挖掘與分析造成了不小的障礙與挑戰,希望在未來更多的方法可以被更好的應用于其的分析。
參考文獻
[1] 朱建平,魏瑾,謝邦昌.金融高頻數據挖掘研究評述與展望[J].經濟學動態,2011,(6):59-62.
[2] 薛雅娟.地震信號時頻分析及其在儲層含氣性檢測中的應用研究[D].成都:成都理工大學,2014.
[3] 唐勇.基于高頻數據的金融市場分析[D].天津:天津大學,2007.