孫奕迪 李恒昊 韓夢雪


摘 要:量化投資隨中國資本市場的快速發展而得到普及。本文以2014年至2018年滬深300為研究對象進行實證分析,通過連續五年多因子量化選股模型建立有效的股票投資組合。研究表明,基于多因子量化選股模型得到的股票組合可以跑贏市場。但是該模型具有局限性,模型的適用性因年份不同而出現差異,應依照年份建立不同股票市場的量化選股模型。
關鍵詞:量化選股;多因子模型;有效檢驗
一、多因子量化選股模型研究現狀
截至2019年4月22日,我國A股上市公司有3602家。如何能在這三千多家公司中選取具有投資價值和高成長性的股票進行投資并獲利,受到了投資者的廣泛關注。在量化投資受到業界關注的同時,多因子模型在我國證券市場也快速發展。隨著上市公司信息披露制度的健全,如何捕捉市場動態以及識別市場動態的驅動因素,就需要一種有效的模型或者方法。因此,研究多因子選股模型在現階段的中國股市就顯得十分重要。目前,研究者大多數是擁有信息優勢的機構投資者,研究成果也僅僅是用于在實務投資中獲取更多的超額收益,給個人投資者帶來不便。
二、研究思路
本研究以中國A股市場定量選股策略為主要研究方向。從定量方法和工具開始,首先確定庫存股票池,然后選擇候選因子,測試因子的有效性并消除冗余。考慮,評估和改進模型。完成因素篩選后,建立一個模型來篩選庫存。最常見的構造方法是通過多元線性回歸評估因子與未來收益之間的關系。基于線性回歸的多因子模型具有數據挖掘的特征,可從歷史數據中挖掘有效因子組合。線性回歸方法是利用過去的股票收益回歸多個因子以獲得回歸方程,然后用回歸方程替代最新的因子值來預測未來的股票收益,然后以它們為基礎。執行庫存選擇并評估庫存選擇模型的有效性和回報。回歸方程的系數可以認為是選股因子的權重。假設此回歸關系可以在下一個周期內保持,我們通過將回歸方程替換為最近時期的因子值來獲得回歸方程的預測值,然后根據預測值對股票進行排序并選擇一個更高的值。選擇這一組股票作為投資組合。在長期內觀察投資收益的穩定性和獲利能力。
三、樣本描述與數據選取
(一)樣本描述
在本研究中,使用了來自滬深300指數的300只股票作為研究對象。樣本研究間隔為2014年1月1日至2018年12月31日,共5年。這個時期大致涵蓋了股市中所有可能的趨勢。使用的數據取自wind信息。
(二)變量選取
大約有十個因子組成一個多因子模型。根據因子的性質,它可以分為價值因子,增長因子,質量因子和動量因子。評估指標包括,市凈率,市銷率,市盈率和股息率。獲利能力指標包括總資產的凈利率和凈資產收益率。現金流量指標包括現金流量凈額/營業收入的凈現金流量。資本結構指標包括資產負債率。運營能力指標包括總資產周轉率和固定資產周轉率。增長能力指標包括:營業利潤率、同比增長率、同比凈收入增長率、凈利潤,總資產同比增長率以及凈現金流量同比增長率。技術指標包括漲跌幅和換手率。
(三)數據標準化處理
由于樣本數據的來源并不統一,會導致不同因子的取值范圍存在差異,因此我們首先用Excel對數據中的異常值和缺失值進行了篩選,然后進行數據的標準化處理,用SPSS進行z-score標準化處理,使用公式:yi=(xi-■)/s
為原始數據的均值,s為樣本標準差,其中新序列y1y2y3…yi的均值為0,方差為1,且無量綱。
四、實證分析
(一)候選因子有效性檢驗
由于多因子量化選股模型中不同因子對因變量的影響結果可能不同,因此需要檢驗篩選出對因變量影響顯著的因子。具體方法為:分別用2014-2017年間滬深300中每一支股票經標準化處理后的年平均收益率和對應的候選因子進行時間序列回歸,利用Excel、SPSS統計軟件幫助回歸檢驗。得到每支股票年平均收益率與對應的該年的各因子的回歸系數coefficientβ(i=1,2,……n)(n為300支股票處理之后的可檢驗的統計量數目)。對有效的β值在5%的顯著性水平下進行t檢驗,原假設H0:回歸系數βi=0;備擇假設Hi:回歸系數βi≠0。以2014年數據為例,檢驗結果如下表1所示。
從上表可知,在2014年,以滬深300為例預測整個中國股市,有效的因子有市盈率、市凈率、凈利潤增長率和年平均換手率。其中,市盈率和市凈率為價值因子,凈利潤增長率為成長因子,年平均換手率為動量因子。用這些變量來構建后續的基本模型結構。
(二)多因子選股模型構建
以股票收益率為因變量,將上文中通過有效性檢驗得到的三類因子作為自變量,在價值因子中選取相關性更高的市盈率,以及凈利潤增長率,年平均換手率作為自變量,建立基于回歸法的三因子模型,對2014年滬深300 指數各成分股的收益率進行估計,模型的估計方程為:
YE = 0.242 × PE + 0.067 × NIg + 13.774 × YTO + 44.45723.482
(三)模型適應性檢驗
將2015年相關因子的取值代入回歸方程公式中,得到2015年每只股票的收益率估計值,按照估計值大小對股票進行排序,篩選出排名靠前的10只股票,構建2015年的投資組合。檢驗該證券組合在2015年1月5日至2015年12月31日的行情中能否穩定地跑贏滬深300指數,以檢驗上文建立的多因子量化選股模型的實際投資效果。
用股票組合的平均復合收益率減去該年股票市場的基準年收益率可得到超額收益率,結果如表2所示。我們可以發現,2015年利用多因子量化選股模型選出的股票投資組合的平均復合收益率跑贏滬深300指數的基準年收益率,超額收益率為31.32%。因此,2014年構建的多因子量化選股模型通過了模型的適應性檢驗。對滬深300指數成分股2015-2017年的標準化變量數據重復上述構建模型的步驟,分別得出2015年至2017年3年間不同系數的多因子線性回歸方程,并分別將2016至2018年的相應數據代入得到股票收益率的估計值,根據各年不同的多因子量化選股模型構建股票池,選擇下一年的股票組合。結合2015年多因子量化選股模型的選股組合,得到庫存池在2015—2018年的實際投資收益率,其結果如表2所示。
如果使用上述定量選股模型選擇股票并建立投資組合,則可以穩定地超越今年的市場,累計超額收益率達到71.17%,因此采用上述方法構建的定量選股模型為可以看出,可以選擇成長的潛在股票,股票投資組合可以賺取超額收益。但是,并非總是可以每一年獲得高利潤。例如,在整個股市下跌的一年(例如2016年),實際投資回報率接近于零,這表明量化投資是一個長期過程,投資者希望獲得更高的回報率、超額收入必須從長遠來看,而不是計較短期的損益。
結束語:
通過比較每年建立的多因子選股模型的分析,本文得出以下主要結論:
首先,基于回歸的多因子量化股票選擇模型是可行且非常有效的。基于該模型的定量股票選擇可以充分利用上市公司的價值信息,選擇具有成長潛力的股票。通過該模型逐年建立的投資組合基本上跑贏市場基準。可以看出,本文設計的多因子模型在中國股票市場上是可行且非常有效的。其次,影響股票市場中股票收益的變量以及它們之間的相關性也會改變。比較2014年至2018年逐年建立的多因子量化選股模型,可以發現,該模型最終每年都會因為披露因子數據的變化有所不同,這意味著使用多年的累計超額收益率和年化復合平均收益率是不科學的,不合理的,無法篩選出影響股票收益率的固定因子,因此應根據股票市場情況建立量化的選股模型進行研究。
參考文獻:
[1]吳荻.中國股市選股模型實證分析[D].復旦大學,2011.
[2]劉毅.因子選股模型在中國市場中的實證研究[D].上海:復旦大學,2012.
[3]王小龍.多因子定價理論和中國股票市場的檢驗[D].武漢:武漢大學,2015.
作者簡介:孫奕迪(1998-),女,漢族,河北省石家莊市人,本科。研究方向:金融,量化投資。