梁曉穎
[摘 要]股票收益受很多因素影響,比如市場環境、行業發展、投資者預期等。“多因子模型”中的因子即影響因素,該模型就是尋找對股票收益率影響顯著的因素,用這些因素來分解股票收益并進行選股。在量化選股的實踐中,由于市場環境的多變性及市場參與者或分析師的不同理解,會構建出不同的多因子模型。文章在簡述多因子模型的理論基礎后,敘述了多因子模型構建過程,從而為量化選股提供方法。
[關鍵詞]量化選股;多因子模型;因子有效性
[DOI]10.13939/j.cnki.zgsc.2021.25.031
隨著大數據時代的來臨以及多種基礎金融理論的不斷發展,量化投資獲得了必要的理論來源和支持,而多因子模型也順勢成為量化投資選股的重要方法。
1 多因子模型概述
1.1 多因子模型的基本概念
多因子量化選股模型指的是在選股過程中利用多個對股價走勢有顯著且有效影響的因子,通過量化不同因子對股票收益率的影響,建立起選股模型。
1.2 多因子模型的理論基礎
1.2.1 CAPM模型
1952年馬柯維茨用均值和方差來定量描述資產的收益和風險,建立了基本模型以用于確定最佳資產組合。后來,夏普等人在他的理論基礎上,發展出了CAPM模型。模型公式:E(ri)=rf+βi(E(rm)-rf), 該模型表明資產的預期超額收益與市場超額收益成正比,股票的價格只與市場風險有關,跟上市公司基本面并沒有關系,并且高的股價需要高的β值來支撐。
1.2.2 套利定價理論
由于CAPM模型假設條件過于苛刻,后來的學者們打破原有假設,導出套利定價理論(APT模型)。模型公式:E(ri)=rf+bi1F1+bi2F2+…+binFn, binFn為證券i第n個因素的敏感度。該模型比CAPM模型的假設更寬松,但是無法從模型中獲知哪些因子起到決定性的作用。
1.2.3 Fama-French三因子模型
經過學者們的研究,很多現象不再可以用CAPM模型來解釋,比如市場中的小市值、價值股表現明顯超過市場。故Fama及French在CAPM模型的基礎上加入了新的因子來解釋資產的收益率。三因素模型表明收益率不僅與市場風險有關,還與賬面市值比的模擬組合的收益率、市值因子的模擬組合的收益率有關。
1.2.4 四因子模型
研究者后發現市場中的動量現象無法用三因子模型解釋,所以在原有三因子的基礎上加入動量效應,即某個時段連續上漲或下跌的股票往往會沿著原來的方向繼續波動,由此構建四因子模型。
1.2.5 五因子模型
先前的模型并沒有引入刻畫公司資產質量的因子來解釋資產收益率,由此加入了代表盈利能力的RMW因子和代表投資模式的CMA因子,提出了五因子模型。
2 多因子模型的構建
2.1 模型構建前的數據處理
原始數據的選取是多因子模型的基礎,只有高質量的數據才能保證后續研究的準確,數據預處理的好壞很大程度上決定了模型分析結果的可靠與否,所以在模型構建前需要對基礎數據進行處理。
2.1.1 異常值處理
在實際使用過程中,應該根據具體情況來選取合適的方法。
(1)均值標準差修正法(3σ)。在統計學上,由于在正態分布下正負3倍標準差以外的數值發生的概率極小,可以視作小概率事件,小概率事件幾乎不可能發生,因此這一部分值可以被視作異常值。
該方法實用性強,可以識別出較大的異常值。但是缺點也顯而易見,首先是基于異常值數據計算的均值和方差,會造成μ的不準確,且可能會放大σ,導致上下界過寬,無法篩選部分異常值。其次是不適用于非正態的數據集。
(2)MAD 法。考慮到上種方法判斷異常值時均值和方差的計算容易受到異常值的影響,使得識別異常值不準確,進而考慮使用中位數對均值進行替代、絕對值的中位數對標準差進行替代,是一種更穩健的異常值識別方法。
(3)固定比率修正法。該方法是根據一定的比例對異常值識別,即認為一定百分比的數為異常值。因此該方法定義的異常值為:x∈(-∞, P2)∪(P98, +∞), 其中P2、 P98分別代表排序最接近2%和98%的值。該方法處理方便,適用于兩端都存在異常值的情況。但是僅通過比例來篩選異常值,而不以異常偏離程度篩選異常值會導致異常值識別不準確。
(4)箱型圖法。箱型圖判斷異常值也是統計中常用的方法,其主要通過利用上下四分位數構造了上下界,并據此定義異常值,也是一個較為穩健的方法。該方法定義的異常值為:x∈(-∞, L-n×IQR)∪(U+n×IQR, +∞), IQR=U-L, U=上四分位數, L=下四分位數。
(5)偏度調整后的箱型圖法。由于上面提到的箱線圖法不適用于分布呈偏態的因子數據,假設因子值呈現明顯的左偏,而這些因子值基于一定的經濟背景是合理的,使用箱型圖法會將左邊過多的數據識別為異常值。因此對原有箱線圖法進行了偏度調整。調整后的箱線圖法當數據左偏時會降低下界,數據右偏時會提高上界。
2.1.2 缺失值的處理方法
含較多缺失值的因子通常被認為是一個質量不佳的因子數據集,主要是因為缺失值會導致丟失部分有用的信息,而且會使得系統的不確定性更加顯著。因此對缺失值采用合理的處理方法,提升因子數據質量為后續步驟打下堅實的基礎。
(1)剔除法。將存在遺漏數據的元素進行刪除,得到一個完備的信息表,這是最為簡單的一種處理方法。這種方法適用于有大量缺失值的因子,或者存在大量缺失值的股票對象,但前提是這類因子或股票對象相對所有的數據量而言是很小的,否則會因為丟掉這些信息影響到結果的正確性。