王 琪,冷林峰,常永蓮
(重慶大學 數學與統計學院, 重慶 401331)
近年來,隨著我國證券市場的不斷發展,證券投資已成為投資者的主要途徑之一。投資者在追求收益最大化的同時,應當警惕由于市場的劇烈變化為其帶來的巨額損失。因此,在保值的前提下,如何實現增值的最大化是當前證券投資者關注的焦點之一。股票指數是選取具有代表性的一組股票,將其股價進行加權平均得到,反映了股票市場中各種股票價格總體水平及變動情況,以此作為評價一個投資組合預期收益的基準指標。自2016年以來,中國股指溫和上揚,券商指數基金收益領先。一個業績表現突出的指數基金,其超額收益在很大程度上取決于跟蹤指數的表現。跟蹤指數表現是指試圖令資產組合的價值緊貼某一市場指數的表現,通常是建立相關模型進行回歸分析。回歸方法的選取多種多樣,而選取何種方法能更好地跟蹤指數動態、幫助投資者更好把握股價的波動性與走勢成為亟待解決的問題。
2004年楊楠[1]通過對多元線性回歸中的多重共線性問題的研究,得出了嶺回歸分析在解決多重共線性問題中具有獨特優勢。吳仍康[2]將嶺回歸應用于我國上證綜合指數的預測分析。薛宏剛[3]利用滬深300股指的實證研究,建立了基于嶺回歸的套期保值模型。姬春煦等[4]將主成分回歸運用在滬深綜合指數的預測研究中,并取得了較好的預測效果。王成震[5]采用主成分回歸對股票價格指數進行預測與風險分析。本文分別對嶺回歸與主成分回歸進行改進,并將改進后的方法應用于上證50指數及其成分股的回歸分析及跟蹤研究,從跟蹤誤差的角度得出了改進嶺回歸的跟蹤效果更佳的結論。
股票價格指數是描述股票市場總的價格水平變化的指標。它是選取有代表性的一組股票,將其價格進行加權平均計算得到,用以表示整個市場的股票價格總趨勢及漲跌幅度。在我國,上證50指數是反映整個股市行情最重要的指標之一。上證50 指數是根據科學的統計方法,挑選上海證券市場規模大、流動性好的最具有代表性的50 只股票組成樣本股,意在建立一個主要作為衍生金融工具基礎的投資指數。因此,如何判斷和預測股票指數的走勢引起了研究者的極大興趣。由于影響上證指數的因素眾多,且其作用機制較為復雜,使得預測股指的長期走勢變得十分困難。然而,通過建立線性模型,在短期股指預測中往往能夠取得較好效果。
建立在一定時期內上證50指數與其50個成分股的收盤價之間的多元線性回歸模型:
Y=β0+β1X1+β2X2+…+β50X50+ε
其中:Y表示上證50指數;X1,X2,….,X50分別表示50個成分股的收盤價;β0,β1,…,β50表示多元回歸的參數估計;ε為估計誤差。
2.1.1 嶺回歸原理
嶺回歸是 1970年由Hoerl和Kennard提出的一種有偏估計方法。假定自變量數據矩陣X=xij}為n×p的,最小二乘估計尋求使殘差平方和達到最小時的系數,即
(1)
而嶺回歸需要一個懲罰項來約束系數的大小,即嶺回歸的系數既要使得殘差平方和小,又不能使得系數太膨脹,即
(2)

2.1.2 嶺回歸的改進
對嶺參數的選取方法在前人研究的基礎上做一些改進。在線性回歸模型的設計陣X存在多重共線性時,XTX的特征值至少有一個很小,接近于0,即
(3)
因此,可用XTX行列式的大小來判斷自變量的多重共線性強弱。令
(4)
再將式(4)改為
(5)
分別運用兩個公式選取嶺系數,并將預測誤差進行對比。其中,k為選擇的嶺參數,I為p×p單位陣,易見D(k)關于k單調遞增。規定若0
2.2.1 主成分回歸原理
主成分估計是在1965年瑪西提出的一種線性有偏估計,主要思想是將原來的回歸自變量變換到另一組變量,即主成分,選擇其中一部分重要的主成分作為新的自變量,以達到降維的目的。運用最小二乘法對選取主成分后的模型進行參數估計,最后再變換到原來的模型求出參數的估計。
主成分回歸主要步驟如下:
1) 對原始數據標準化處理,消除量綱不一致的影響。設有p個自變量X1,…,Xp,在第i次實驗中取值為xi1,…,xip,i=1,…,n。矩陣形式為
(6)
對樣本矩陣標準化可得

2) 計算相關系數矩陣R。
3) 求相關系數矩陣R的特征根和特征向量。求解R的特征方程|λE-R|=0,得到p個特征值λ1≥λ2≥…≥λp≥0,由(λE-R)X=0得到對應的標準化正交特征向量η1,η1,…,ηp。
4) 建立主成分特征函數。將x1,…,xp變換為主成分z1,…,zp,令
(7)
記標準化正交陣Q=(η1,η2,…,ηP)p×p,Z=XQ,引入參數α=QTβ,得到主成分特征函數
Y=β01+ZQTβ+ε=β01+Zα+ε

2.2.2 主成分回歸的改進
在進行主成分篩選時,如何確定選取主成分的個數是問題的關鍵。因此,提出將RMS、AIC與SSE 這3個準則相結合,聯合選取主成分,考慮同時滿足3個準則的模型為最優模型。
1) RMS準則,RMS=SSE/(n-k)。其中:SSE為殘差平方和;n為觀測值的個數;k為選取的主成分個數。選取使RMS達到最小值的k值,即RMS越小越好。
2) AIC準則,AIC=2k+nln(SSE)。AIC是衡量統計模型擬合優良性的一種標準,可以權衡所估計模型的復雜度和此模型的擬合優度。其中:n為觀測值的個數;k為選取的主成分個數。AIC鼓勵數據具有擬合優良性的同時,盡量避免出現過度擬合的情況,因此優先考慮AIC值最小的的模型。
3) SSE準則。優先選擇有最小殘差平方和的主成分模型。
2.5.1 彈性約束估計
在金融大數據統計分析中,由于變量的影響大小不同,加上數據收集的成本和分析的時效,并不總是需要盡可能多地收集全部變量。因此,當處理實際問題時,首要的問題就是變量選擇問題。
2005年Zou與Hastie將嶺回歸與Lasso方法合并,提出彈性約束估計,即Elastic Net。彈性約束的參數估計為
(8)
等價于找到
滿足當
達到最小的βj,j=1,2,…,p。易見,當λ=1時,彈性約束估計就是嶺回歸;當λ=0時,彈性約束估計就是絕對約束估計。因此,彈性約束估計同時具有絕對約束估計與嶺估計的特點。
2.5.2 兩步估計方法
在證券市場中,很多變量都是相互依存的,沒有必要將高度關聯的變量都考慮進來。此時,我們需要做兩步估計,即先篩選出一部分變量,再做回歸。針對本文的數據,考慮先用彈性約束估計方法篩選出變量,再將得到的變量做最小二乘估計。
本文數據來源于2017年1月3日至2017年3月20日的上證50指數及其成分股的5分鐘線收盤價數據,剔除兩支有嚴重缺失值的股票。通過Wind金融資訊軟件獲得了2 352組觀測值數據。選取前2 064組觀測值為訓練集,將剩下的288組觀測值作為測試集。本文擬通過對上證50指數與其成分股進行回歸分析,從估計誤差的角度,試圖尋找最佳估計方法,并依據未來短期內的成分股波動對上證50指數進行短期預測。
3.2.1 數據的標準化及異常點處理
在做數據分析時,引入的各變量常有不同的單位和不同的變異程度。為了消除量綱影響,將數據進行標準化處理。統計中常采用 Z-score 標準化,即

3.2.2 診斷多重共線性
多重共線性即變量間高度相關,導致樣本協方差矩陣奇異或不穩定,此時依賴協方差矩陣的最小二乘估計變得無意義。度量多重共線性嚴重程度的一個重要指標是計算變量相關系數矩陣的條件數k,即矩陣最大特征值與最小特征值之比。如果k值小于100認為變量間共線性程度較輕,大于1 000則認為存在嚴重共線性。相關系數矩陣最大特征值為22.819 9,最小特征值僅0.003 684,計算k值為6 193.64,可見變量間存在比較嚴重的多重共線性。
3.3.1 最小二乘法
經最小二乘估計,計算出訓練集SSE為234.054,MSE為0.113 508;測試集SSE為294.115 4,MSE為1.021 234。
3.3.2 迭代加權最小二乘法
在不符合方差齊性的模型中,迭代重復加權最小二乘法估計效果良好。由于本文數據未通過Shapiro-wilk檢驗,可以嘗試此方法。在R軟件中使用MASS包的rlm函數來實現Huber與Bisquare兩種方法計算每個自變量的權重,并將得出的權重分別乘以原始自變量數據,形成加權處理的新數據,再進行最小二乘法估計。由Huber法,利用R程序計算,可獲得上證50指數與成分股之間的回歸方程:

計算得訓練集SSE為234.718 3,MSE為0.113 8;測試集SSE為325.884 3,MSE為1.131 5。由Bisquare法得上證50指數與成分股之間的回歸方程:

計算得訓練集SSE為235.163 7,MSE為0.295 9;測試集SSE為340.817 1,MSE為1.183 3。可見,Bisquare法和Huber法的估計誤差均大于最小二乘法。
3.4.1 嶺回歸
首先選擇嶺參數,通過R程序繪出嶺跡圖,見圖1。
由R程序MASS包中lm.ridge函數,得HKB法給出的k值為0.080 2,L-W法給出的k值為0.007 6,GCV法給出的k值為0.04,選擇最小的k值0.007 6,得到嶺回歸方程


圖1 嶺跡圖
易見,殘差的趨勢性基本被消除了,嶺估計給出的嶺回歸方程較好地刻畫了上證50指數的變化趨勢。
3.4.2 嶺回歸的改進
首先考慮第1種情況,即
由R程序自編函數,得到在D(k)>0.001的范圍內最小k值為0.583 4,作為選取的嶺參數。得到嶺回歸方程為

分析殘差,得到訓練集SSE為234.255 8,MSE為0.113 606 1,測試集SSE為286.884 2,MSE為0.996 125 5。易見,經過嶺參數選擇方法的改進,特別是測試集的估計誤差,與L-W法相比有所減小,甚至小于最小二乘估計誤差。因此,改進的嶺回歸使估計誤差得到減小,預測精度得到提升。訓練集與測試集觀測值與預測值的擬合曲線分別如圖3、4所示。

圖3 改進嶺回歸訓練集實際值與預測值擬合曲線
從2017年1月3日至2017年3月20日兩個多月的時間,通過改進嶺回歸模型跟蹤上證50指數的走勢比較成功,說明通過數據擬合的模型用于股票指數跟蹤是完全可行的。
其次考慮第2種情況,即
由R程序自編函數,得到在D(k)>0.001范圍內的最小k值為0.099,作為選取的嶺參數。得到嶺回歸方程為

分析殘差,得到訓練集SSE為234.078 3,MSE為0.113 52,測試集SSE為291.495 9,MSE為1.012 138。與第一種改進方法比較,第二種方法得到的測試集殘差略大于第一種方法的殘差,但仍小于L-W法選取嶺參數的殘差以及最小二乘估計殘差。綜合來看,從預測誤差的角度,改進的嶺回歸降低了殘差,取得了一定的改進效果。
3.5.1 主成分回歸
使用R程序的主成分函數princomp( )進行主成分分析,得到前32個主成分的累計貢獻率如圖5所示。設置特征值門限值為0.05,第24個特征值小于0.05,因此選取前24個主成分進行分析,累積貢獻率為99.05%。得到主成分回歸方程為

經殘差分析,計算得訓練集SSE為548.99,MSE為0.26,測試集SSE為854.33,MSE為2.96。殘差趨勢見圖6,易見殘差的趨勢性基本被消除。
3.5.2 主成分回歸的改進
經R程序自編函數計算,當k=32時RMS和AIC同時達到最小,SSE亦為最小取值之一,因此選取前32個主成分進行回歸分析。得到主成分回歸方程為

經計算得到:訓練集SSE為389.856 2,MSE為0.189 0,測試集SSE為611.629 4,MSE為2.123 7。此時,條件數為989.215,與原始數據的條件數6 193.64相比,顯著降低。因此,經改進的主成分回歸,相對削弱了變量間的共線性,且估計誤差與改進前相比有所減小。訓練集與測試集的觀測值與預測值的擬合曲線分別如圖7、8所示。

圖5 前32個主成分的累計貢獻率

圖6 主成分回歸殘差圖

表1 殘差分析

圖7 改進主成分回歸訓練集實際值與預測值擬合曲線
3.6.1 彈性約束估計與最小二乘的結合
首先經彈性約束估計對上證50及其成份股進行變量選擇,由R程序中cv.glmnet函數進行交叉驗證,以確定最佳的λ值。λ選擇如圖9所示,橫軸是λ對數值,縱軸是均方誤差。

圖9 彈性約束估計λ選擇圖
經計算,易得λmin=0.093 4。按此參數值,保留變量個數是34個,分別是第1,2,3,4,5,6,7,8,10,12,14,15,16,17,19,21,23,24,25,27,28,29,30,32,35,37,38,39,41,43,45,46,47,48個成分股自變量。計算得訓練集SSE為1 476.961。
對彈性約束估計選出的34個變量進行最小二乘估計,由shapiro-wilk檢驗,得到p值為0.349 8,因此殘差經檢驗符合正太性假定。計算得訓練集SSE為639.467 5, MSE為0.310 1,與彈性約束估計相比有所減小。
3.6.2 彈性約束估計與主成分估計的結合
對經過彈性約束估計篩選出的34個變量進行主成分回歸,訓練集SSE為1 278.469,MSE為0.620 014。易見,由于主成分估計是有偏估計,估計誤差明顯增大。
綜上,針對本文的數據進行的兩步估計嘗試,尚未從估計誤差的角度找到更優于單步估計的方法。但是,對于基金公司來說,往往需要用最少的變量達到對指數的準確跟蹤,從而實現股票與股指期貨的對沖,達到保值目的。這時,全部持有股票幾乎不可能,因此有必要在變量選擇的基礎上再對股指進行回歸分析。
本文所用的每種方法的估計誤差匯總如表1所示。由表1可得,單步估計方面,改進嶺回歸的訓練集和測試集的估計誤差最小,特是在測試集中,改進嶺回歸法1和改進嶺回歸法2的估計誤差小于嶺回歸與最小二乘估計。易見,改進嶺回歸取得了降低預測誤差的效果,是不錯的嘗試。而主成分回歸的預測誤差最大,因此針對本文數據,改進的嶺回歸方法最適用。當不適合考慮全部股票時,需要進行變量選擇,因此考慮兩步估計。針對本文的數據,先用彈性約束估計篩選變量,再做最小二乘法的無偏估計。但不可避免的,估計誤差會高于單步估計的結果。
本文仍然存在一些不足之處。例如,由于數據、指標和估計方法的選取具有一定局限性,有待進一步拓展。總之,要更加透徹地研究和預測股票指數的趨勢,不僅需要進一步深化統計理論的學習,還應追蹤當前國內外研究成果,通過對股票指數趨勢的深入分析,結合我國股市特點,形成一套行之有效的股指預測體系。
[1] 楊楠.嶺回歸分析在解決多重共線性問題中的獨特作用[J].統計與決策,2004(3):14-15.
[2] 吳仍康.基于嶺回歸的證券指數的預測分析——以上證綜合指數為例[J].商業全球化,2016,4(2),47-55.
[3] 薛宏剛.基于嶺回歸的套期保值方法[J].統計與決策,2012(5):77-79.
[4] 姬春煦,張駿.基于主成分分析的股票指數預測研究[J].計算機工程與科學,2006,28(8):122-124.
[5] 王成震.股票價格指數的預測與風險分析[D].南京:東南大學,2003.
[6] 何秀麗.多元線性模型與嶺回歸分析[D].武漢:華中科技大學,2005.
[7] 鄧春亮.嶺參數選取的行列式法[J].嘉應學院報,2015,33(8):8-10.
[8] 高少龍.幾種變量選擇方法的模擬研究和實證分析[D].濟南:山東大學,2014.
[9] 龔樂春,鄭寧國.多元線性模型系數的主成分估計及其篩選[J].中國計量學院學報,2000,11(1):87-90.
[10] 鄭寧國.多元統計分析線性模型主成分篩選準則研究[J].沈陽航空航天大學學報,2002,19(2):70-71.
[11] 曹芳,朱永忠.基于多重共線性的Lasso方法[J].江南大學學報,2012,11(1):87-90.
[12] 楊虎.金融大數據統計方法與實證[M].北京:科學出版社,2016.
[13] 湯銀才.R語言與統計分析[M].北京:高等教育出版社,2008:316-324.
[14] 王學民.應用多元分析[M].上海:上海財經大學出版社,2009.
[15] 張興鳳.基于Lasso的我國股票價格影響因素分析[D].成都:西南財經大學,2016.
[16] 余新宏.多元線性模型系數嶺估計的改進研究[J].合肥工業大學學報,2009,32(10):1620-1622.