姜麗


摘 要:證券數據是高維數據,具有明顯的以時間為單位的特點。驗證證券數據的相似性,可以為證券行業的監管或者決策提供依據。文章設計了輕量級的證券數據格式,使用改進的高維數據相似性度量函數HDsim(X,Y),對證券數據的相似性進行了研究和計算,并對研究結果進行了驗證。
關鍵詞:高維數據;證券數據;相似度;XML
1 概述
證券交易行為充滿了復雜性,證券數據也看似隨機。客觀分析和研究證券數據,找出隱藏在其中的規律,有助于我們對證據市場進行監管和決策。
證券數據具有明顯的時間特性,幾乎所有能夠公開查閱的證券數據都有一定的時間有效周期。另外,證券數據具有高緯度的特征,即某一時間內的證券數據具有眾多屬性,每個屬性體現了這一時間內數據的不同特點。針對這兩點,對紛繁的證券數據進行有效組織,設計合理的相似度計算方法,可以事半功倍。
2 證券數據
基于證券數據的特點,在計算相似度之前,對證券數據進行了必要的預處理。
2.1 數據格式設計
由于證券數據具有較多影響其走勢發展的因素,文章首先選取了其中可能對相似度結果影響較大的幾維,包括:開盤價,收盤價,漲跌額,漲跌幅,最低價,最高價,成交量(手),成交金額(萬)。其中漲跌額,漲跌幅是開盤價、收盤價的冗余,故而舍棄。最終選取確定參與運算的數據包括:開盤價,收盤價,最低價,最高價,成交量,成交金額。同時,證券數據具有明顯的時間特性,因此所有數據以時間為主線關聯。由于個股數據容易被操作,發現其內在規律較為困難,文章選取了上證指數作為研究對象。
最后,為了計算機程序能夠快速地讀取數據,保證數據的輕量化,文章最終將證券數據格式設計成XML形式。XML格式的數據可以很好地保留初始數據清晰的組織結構,同時XML是一種輕量的數據文件,相對于數據庫形式的數據存儲方式,處理速度更快,很適合用來存儲海量的證券數據。
2.2 數據預處理
公式(1)將數據轉換到共同標度的區間[0.0,1.0],消除量綱的影響。同時,對非數值形的數據進行數字化。
3 相似度結果檢驗
研究中,選取了上證指數從2012年的4月到2013年4這一年的日線數據,進行了相似度計算。為了驗證相似度的結果,選取4個特殊的時間節點,加以分析說明。四組數據分別是2012-05-04,2012-09-06,2012-10-08和2012-12-05的上證數據,這幾日數據的具體走勢圖,如圖1所示。
對這四組數據進行相似度計算,結果如表1所示。
將相似度計算結果和K線數據進行對比,進行分析。從圖1可以看出,2012-05-04和2012-12-05的上證指數分別位于短期內的峰值和谷值,經過計算,兩日數據的相似度僅為0.5942446,是表1中最小的值,與K線相符。圖1中,2012-09-06和2012-10-08兩日的走勢非常相似,均為下降通道中的一個小拐點,相似度計算結果顯示,兩日數據的相似度高達0.9441344,與K線相符。另外,圖1中還可以看出,2012-09-06,2012-10-08和2012-12-05三日數據都處于谷值,具有一定的相似性。但是,與2012-09-06和2012-10-08這兩日不同的是,2012-12-05的數據是一波大幅拉升的起點。相似度計算結果顯示,2012-09-06和2012-10-08兩日的數據與2012-12-05的數據相似度都接近0.77,符合K線圖走勢。
4 結束語
文章對證券數據的特點進行了分析研究,設計了輕量級的證券數據樣本格式,選取了合適的相似度計算方法,對以時間為單位的高維證券數據進行了相似度計算。通過與上證數據K線圖的比較,驗證了該相似度計算結果與實際情況較為符合。
目前,文章的檢驗測試,僅僅用于上證指數數據,對更為復雜的個股數據或者其他分類數據的相似度計算,是今后需要深入研究的方向。另外,文章的相似度計算結果,在具有明顯特征的樣本點上取得了較好的結果,對于特點不明顯的一般數據,計算結果如何檢驗,還需要進一步研究。
參考文獻
[1]楊風召,朱揚勇.一種有效的量化交易數據相似性搜索方法[J].計算機研究與發展,2004,41(2):361-368.
[2]謝明霞,郭建忠,張海波,等.高維數據相似性度量方法研究[J].計算機工程與科學,2010,32(5):92-96.