基于機器學習的基金收益預測與投資組合研究

2023-11-15 07:04:10王天業萬宇杰段思睿羅希意

中阿科技論壇(中英文) 2023年11期

王天業萬宇杰段思睿張偉羅希意

（1.西南證券股份有限公司,重慶 400025；2.重慶郵電大學,重慶 400065）

2023年7月，國務院常務會議提出，“要活躍資本市場，提振投資者信心”。基金作為資本市場的重要組成部分，對于推動中國金融高質量發展中起著至關重要的作用。近年來，基金產品數量激增，繁多的產品數量，相對滯后的披露信息為投資者選基帶來了困難，選基研究重要性凸顯。

早期的選基研究圍繞基金業績與持倉數據。Grinblatt等（1994）發現，基于動量策略投資的基金表現較為優異[1]；Zheng（1999）發現，規模增長較快的基金業績表現顯著占優[2]；Kacperczyk等（2007）研究表明，實際益與持倉模擬收益差異較大的基金未來表現較好[3]。近年來，利用機器學習進行選基研究成為新興研究熱點。DeMiguel等（2021）發現，多種機器學習模型均可有效挖掘基金基本特征中蘊含的有效信息[4]。陳曉非（2022）根據基金歷史凈值，使用多種深度學習模型實現了基金收益的有效預測[5]。李仁宇等（2023）基于已有選基因子，比較多因子模型與LightGBM模型的選基性能，結果證明LightGBM模型顯著占優[6]。

我國公募基金定期報告披露頻率較低，披露信息滯后，鮮有利用基金定期報告披露信息的選基研究。本文將從我國公募基金定期報告披露的信息入手，分別通過線性模型與機器學習模型挖掘有效信息，探索利用基金基本特征能否有效選基，以此為基礎，探討機器學習模型相較于多因子模型在特征篩選與組合優化維度上是否更具優勢。

1 實驗設計

1.1 樣本數據

綜合考慮樣本容量和實際交易需求，本文基金研究樣本選用2009—2023年中國公募偏股基金，剔除了股票投資資產凈值比不足50%的基金以及規模不足2億元的基金。

本文采用的中國公募基金特征數據中，除Fama French五因子數據來自國泰安（CSMAR）數據庫，其他基金特征數據均來自恒生聚源數據庫。

1.2 模型說明

1.2.1 線性回歸

傳統的線性回歸模型以最小化殘差平方和為目標函數，用來捕捉一個或多個自變量同因變量的線性相關關系，即

其中，Y為因變量，X為自變量，β為回歸系數，ε為回歸殘差。給定一組自變量取值Xi，相對應的因變量真實取值為Yi，線性回歸模型預測值為，對應殘差平方和（SSE）為

其中，n為樣本數量，通過最小二乘法，最小化殘差平方和求解模型最優回歸參數，該模型稱為普通最小二乘回歸（OLS），其廣泛應用于因子選基領域。

本文將OLS模型作為基準模型，探討機器學習算法相較于線性回歸模型在特征篩選與組合優化維度是否更具優勢。

1.2.2 決策樹與隨機森林

根據決策樹預測輸出結果的不同，決策樹可以分為分類樹和回歸樹兩類。決策樹模型的核心邏輯是根據度量標準為依據，從樹根開始，選擇最優特征逐級分裂，遞推生成一棵完整的決策樹。目前，業界大多會使用信息增益、信息增益比、基尼系數作為分裂標準。基尼系數對應的算法為回歸分類樹（CART），既可以解決分類問題，又可以解決回歸問題，因此本文將使用CART回歸樹預測基金收益。

本文將通過隨機森林（Random Forest）集成算法來規避樹模型的欠擬合或過擬合問題。隨機森林通過重置抽樣的方式隨機采樣，隨機構造多個樣本，在每個樣本上生成決策樹，集成隨機森林中每棵決策樹的預測結果形成最終預測結論。

由于隨機采樣的過程保證了隨機性，隨機森林中既有預測能力極強的強樹（過擬合），也有預測能力較弱的弱樹（欠擬合），當隨機森林中的樹足夠多時，過擬合與欠擬合的預測結果相互抵消，從而保證了最終預測結果的穩定。

為了降低樹模型之間的相關性，提高模型的預測性能，需要提高隨機樣本的隨機性。因此，在進行重置抽樣時，既要在樣本上隨機（行采樣），即從含有個原始樣本的樣本集中以重置（放回）抽樣的方式自助采樣出一個新的含有個樣本的樣本集；也要在特征上隨機（列采樣），即在全部的個特征中，每次自助采樣僅隨機選擇其中的個特征。

1.3 因子有效性檢驗

1.3.1 信息系數分析

信息系數（Information Coefficient，IC），是指當期因子值同下一期標的資產實際收益之間的秩相關系數，越大，模型對基金下期收益率的預測作用也就越強。

秩相關系數，又稱斯皮爾曼相關系數（Spearman's rank correlation coefficient），指代排序變量之間的皮爾遜相關系數。由于在實際基金投資的過程中，基金收益表現得相對優劣更具參考意義，因此選用秩相關系數衡量線性因子有效性。

1.3.2 置換檢驗

線性模型可以通過信息系數分析判斷特征的重要性，而非線性模型判斷特征的重要性相對困難。隨機森林雖然是非線性模型，但隨機森林可以通過置換檢驗判斷特征對預測的重要性。

置換檢驗的核心思想是：如果特征j是重要特征，那么將特征j替換為白噪聲后，模型的預測誤差會上升，模型的性能會下降。對樣本數量為n的數據集通過重置抽樣進行自助采樣，如果采樣集的樣本數量也為n，那么沒有被選到的樣本約占(1-1/n)n，當n很大時，其極限約為0.368，每次通過重置抽樣自助取樣時，約有2/3的數據入選訓練集，仍有1/3的包外數據（OOB），既然可以通過OOB數據計算包外預測誤差來判斷模型的泛用性，那么也可以通過計算數據置換前后隨機樹的預測誤差來評估特征重要性。假設隨機森林中共有棵隨機樹，特征j重要性的計算公式為

其中，εt代表隨機樹t的預測誤差，代表包外數據，OOB代表置換為白噪聲的包外數據。如果將特征j替換為白噪聲后，模型的預測誤差大幅增加，說明特征j對模型的預測結果非常關鍵，那么特征j就是一個重要特征。

1.4 模型設計

本文采用了決策樹模型與隨機森林集成模型，通過基金特征預測基金收益，實現基金優選。綜合考慮樣本容量及數據更新頻率，采用月頻預測。每期采用t-1期的K個基金特征作為模型輸入特征，t期基金實際收益作為模型標簽。完成模型訓練后使用t期基金特征預測基金t+1期基金收益。

模型在整個數據集上采取滑動窗口進行訓練和預測。滑動窗口大小為N，一共包含組月頻基金特征及基金月度歷史收益，使用N組月頻數據進行模型訓練，模型訓練完畢后，使用當期基金特征預測基金未來一期月度收益，從而構建基金投資組合。當前窗口模型訓練和收益預測完成后，窗口向后滑動1個數據點作為新的訓練集。特別說明，從第2個滑動窗口開始，當前窗口訓練數據與前一窗口訓練數據存在部分交集。

舉例說明，當滑動窗口N=12時，假設當前時點為2022年1月，訓練集特征由2021年1月—2021年12月基金特征構成，訓練集標簽由2021年2月—2022年1月基金月度收益率構成。模型訓練完成后，通過2022年1月基金特征數據預測2022年2月基金月度收益，進而根據基金收益預測結果構建2022年2月基金月度投資組合。

1.5 特征及標簽說明

本文所采用的基金特征及基金收益數據均已日頻計算，部分基金特征底層數據季度或半年度更新，則根據對應定期報告披露日期向后填充為日頻數據。本文參考相關文獻，構建了多個基金特征，基金特征詳細說明如表1所示。

表1 基金特征說明

2 實證檢驗

2.1 特征重要性分析

通過置換檢驗，本文逐期計算了所選基金特征對預測基金收益的重要性，將重要性統一規模后求解平均值作為整個樣本期的特征重要性；同時，計算了樣本期內基金特征與基金未來一期收益的信息系數的平均值的絕對值作為可比對象（見表2）。

表2 特征重要性分析結果

信息系數分析結果表明，在線性模型中，除基金超額收益的t統計量Alpha_T與基金期末凈資產TNA同基金未來一期收益的線性相關性相對顯著，可以發揮一定的預測作用，其他基金特征同基金未來一期收益幾乎沒有線性相關性，因此在線性模型中難以對基金未來收益進行有效預測。

置換檢驗的結果表明，從整個樣本期來看，在分類回歸樹與隨機森林模型中，15個基金特征都會對模型的預測結果產生顯著影響，這意味著這15個特征均都與基金未來收益息息相關。采用分類決策樹與隨機森林模型預測基金的未來收益將能夠充分利用這15個基金特征中所蘊含的信息。

同信息系數分析結果相似之處在于，基金超額收益的t統計量Alpha_T與基金期末凈資產TNA對整個模型的預測結果影響較大。不同之處在于，除這兩個基金特征外，Fama French 5因子模型可決系數RSquare、市場因子收益率的t統計量MKT_T、價值因子收益率的t統計量HML_T、盈利因子收益率的t統計量RMW_T、投資因子收益率的t統計量CMA_T等特征在分類回歸樹與隨機森林模型中的重要性相對較高。

相較于傳統的因子挖掘方法只能捕捉變量間的線性相關關系，分類回歸樹及隨機森林可以捕捉到變量間的線性及非線性關系，在因子挖掘上具備顯著優勢。

2.2 策略收益分析

為考察所選基金特征及決策樹模型（Decision Tree）與隨機森林（Random Forest）模型在中國公募基金市場的選基能力，本文采用2009年1月至2023年7月中國公募基金相關數據對模型進行回溯測試。根據模型預測基金收益來構建基金投資組合，通過分組檢驗與多空檢驗考察模型性能。本文同樣測試了傳統線性模型（OLS）的選基性能作為模型比較基準。機器學習模型與傳統線性模型均采用月頻滾動預測，滾動窗口N設定為24個月。機器學習模型與OLS模型的回測結果如表3所示。

表3 基金投資組合收益表現

從整體上看，通過決策樹和隨機森林模型預測基金收益構建的多頭及多空投資組合均可獲得正向的超額收益。不僅如此，從分組檢驗組合單調性、組合年化收益率、組合收益波動比來看，相較于傳統線性模型（OLS），決策樹及隨機森林模型組合優化維度更具優勢。

根據模型回測結果，機器學習模型預測收益信息系數IC為0.07，高于傳統線性模型預測收益信息系數。機器學習模型多頭組合年化收益率達到17.12%，多空組合年化收益率達到8.77%，傳統線性模型年化收益率則為14.56%，多空組合年化收益率只有6.22%，說明機器學習模型構建的多頭及多空組合顯著占優。相較于傳統線性模型分組檢驗的結果，機器學習模型分組單調性更強。綜合以上結果，可以得出結論，相較于傳統線性模型，機器學習模型組合構建能力顯著占優。

3 結論與啟示

本文采用了基金定期報告與基金凈值數據，構建了15個基金特征，并分別構建了決策樹及隨機森林模型與傳統線性模型，通過基金特征預測基金未來收益。

本文一方面通過置換檢驗與信息系數分析，證明了相較于傳統線性模型僅能捕捉基金特征與未來收益的線性相關性，決策樹及隨機森林模型可以有效挖掘基金特征與未來收益之間的線性及非線性相關性，在因子挖掘層面具備顯著優勢。另一方面，通過分組檢驗與信息系數分析，本文對比了決策樹及隨機森林模型與傳統線性模型的信息集成能力。實證檢驗結果表明，相較于傳統線性模型，決策樹及隨機森林模型在組合優化維度更具優勢。

綜上所述，在我國公募基金市場，盡管公募基金定期報告披露頻率相對較低，但是通過決策樹及隨機森林模型能夠充分挖掘基金定期報告中蘊含的非線性定價信息。相較于傳統線性模型，決策樹及隨機森林模型信息集成能力強，具備更高的預測精度，更有利于組合構建。