廖長友 李楠楠 劉星意
每個投資者都希望挑選具有投資能力的基金經理管理的基金進行投資,從而實現資產的增值,同時盡可能避開沒有投資能力的基金經理管理的基金以規避損失。Jensen(1968)以來,基金經理是否具有投資能力,一直是金融經濟學領域的重要話題。研究者從不同的角度,采用不同的方法,對基金經理是否具有投資能力做了大量的研究,但是結論并不一致。
目前,研究者主要基于基金歷史收益率數據,運用定價因子模型估計經過風險調整的超額收益率,并通過假設檢驗判斷該基金是否具有投資能力①Berk and van Binsbergen(2015)的研究是一個例外。他們認為,運用定價因子模型基于基金的收益率數據計算的alpha并不能度量基金經理的投資能力,而應該采用基金經理從市場賺取的財富(他們稱之為增加值,Value added)衡量基金經理的投資能力。本文仍然采用主流的方法,以基金的alpha度量基金經理的投資能力。。

其中,αi是第i只基金經過風險調整的超額收益率。當αi的p值小于預先設定的顯著性水平(該顯著性水平是研究者事前確定的能夠容忍的犯第一類錯誤的概率)時,研究者拒絕原假設,該基金經理被判為有投資能力;否則,該基金經理被判為沒有投資能力。但是,由于抽樣隨機性的影響,上述假設檢驗過程中會產生兩類錯誤。在單個假設檢驗中,兩類錯誤及其后果較易控制。然而,當研究者同時對多達幾千個基金經理是否具有投資能力做出判斷時,第一類錯誤和第二類錯誤帶來的問題就比較嚴重而無法接受。
最近,在檢驗基金經理投資能力時,研究者越來越重視對多重假設檢驗中的兩類錯誤的控制。Barras et al.(2010)采用Carhart(1997)四因素模型估計基金的alpha,基于Storey(2002)方法并結合自舉抽樣法控制運氣因素對基金業績評價的影響,發現僅有0.6%的主動管理基金具有投資能力。Ferson and Chen(2019)運用修改后Barras et al.(2010)的方法研究美國主動管理基金和對沖基金的投資能力,沒有發現共同基金具有投資能力的證據,但發現有高達50%的對沖基金的alpha顯著為正。Harvey and Liu(2020b)評估了Fama and French(2010)方法的兩類錯誤,并修正了Fama and French(2010)的實施方法②Fama and French(2010)允許最低具有8個收益觀測值的基金進入樣本。Harvey and Liu(2020b)發現,當樣本中基金的收益觀測值數量較低時,會降低假設檢驗的功效,因而,他們的研究樣本中只保留至少具有36個觀測值的基金。,結果發現美國基金市場上確實存在有投資能力的基金。基于中國基金市場數據,運用Barras et al.(2010)的方法,Yi and He(2016)發現中國基金市場上至少有10%的基金經理具有市場選時能力。唐涯等(2014)也發現少部分國內基金經理真正具有投資能力。Chordia et al.(2020)通過檢驗隨機生成的超過200萬個交易策略后發現,在多重假設檢驗(Multiple Hypothesis Test,MHT)中如果不采取措施控制兩類錯誤,第一類錯誤發生的概率高達45%。因此,在多重假設檢驗中必須采取措施控制第一類錯誤和第二類錯誤。
目前,在多重假設檢驗中,研究者更多關注對第一類錯誤的控制,Benjamini and Hochberg(1995)、Benjamini and Yekutieli(2001)以及Storey(2002)等提出了各種MHT調整方法。當面對各種MHT調整方法時,如何評價這些調整方法的可靠性?顯然,研究者需要獲得在假設檢驗中實施這些調整方法后犯兩類錯誤的信息,然后根據對兩類錯誤的關注重點選擇最優的調整方法。然而,運用這些調整方法后,MHT兩類錯誤的計算在過去一直未能得到滿意地解決,因此,在特定應用場景下很難對各種MHT調整方法做出選擇并進行檢驗。Harvey and Liu(2020a)提出的兩階段自舉抽樣法(Double Bootstrap)能夠計算各種MHT調整方法的兩類錯誤。本文首先運用兩階段自舉抽樣法計算多重假設檢驗中各種調整方法的兩類錯誤發生概率;其次,通過比較各種調整方法的兩類錯誤,從中選擇最優的MHT調整方法;最后,運用篩選出來的MHT調整方法對國內開放式股票型以及偏股型基金是否具有投資能力做出判斷,并確定具有投資能力的基金及其比例。
本文的貢獻主要體現在以下兩個方面:
第一,運用Harvey and Liu(2020a)的兩階段自舉抽樣方法,基于中國股票型以及偏股型基金數據,對各種MHT調整方法的兩類錯誤做出評估,并篩選出最優調整方法評估基金經理的投資能力。現有相關研究一般直接選用某種MHT調整方法研究基金經理的投資能力。然而,不同的MHT調整方法,在實施中兩類錯誤發生的概率不同。本文避免了運用同一種調整方法研究不同時間區間的基金經理投資能力,因此,能夠更合理地判斷基金經理的投資能力。
第二,在不同時間區間內,基金alpha之間的相關性等截面分布特征存在差異,這會影響特定的MHT調整方法的兩類錯誤。本文將中國股票型以及偏股型基金的整個樣本區間劃分成若干子區間,并分別在每一個子區間內運用Harvey and Liu(2020a)的兩階段自舉抽樣方法篩選最優MHT調整方法,并對比分析各樣本區間基金經理的投資能力。目前,在國內市場上,對基金經理是否具有投資能力存在爭議。本文的研究有助于解釋已有結論存在的差異并提供了關于基金經理投資能力的新證據。
當研究者評價某個基金經理的投資能力時,通常會犯兩類錯誤。第一類錯誤是當一個基金經理沒有投資能力時,錯誤地判斷其有投資能力;第二類錯誤是當一個基金經理有投資能力時,錯誤地判斷其沒有投資能力。設置統計顯著性水平或增大樣本容量能夠有效控制單個假設檢驗中的兩類錯誤。
當評價多個基金經理投資能力時(本質是做多重假設檢驗),控制第一類錯誤和第二類錯誤變得更為復雜。當第一類錯誤發生的概率較大時,意味著有較多的沒有投資能力的基金經理被錯判為有投資能力,這會給投資者帶來損失;當第二類錯誤發生的概率較大時,意味著有較多的具有投資能力的基金經理被錯判為沒有投資能力,投資者錯失了投資機會。當研究者力圖盡可能降低第一類錯誤,則必然會增加第二類錯誤發生的概率。因此,必須合理控制兩類錯誤才能夠確保基金經理投資能力評價的可靠性。然而,在多重假設檢驗背景下,定義、計算和控制兩類錯誤發生的概率變得較為困難①Harvey and Liu(2020b)認為,在多重假設檢驗下,第一類錯誤的定義不同于單個假設檢驗下的第一類錯誤,而第二類錯誤的定義涉及高維向量;其次,在一維條件下計算兩類錯誤發生概率的條件不再成立。。
在多重假設檢驗中,研究者更多關注對第一類錯誤的控制,并提出各種類型的控制策略。考慮到其他兩類控制策略實施過程中的嚴苛條件、計算困難以及結果的不理想性,本文采用的是控制錯誤發現率(False Discovery Rate, FDR)的策略,FDR是FDP的均值,這類策略試圖確保多重假設檢驗過程中錯誤發現率低于某個事先確定的顯著性水平δ,即:FDR=E(FDP)≤δ。
這類策略主要包括三種方法,即Benjamini and Hochberg(1995)的方法(以下簡稱BH方法)、Benjamini and Yekutieli(2001)的方法(以下簡稱BY方法)以及Storey(2002)方法②三類方法的具體實施步驟可向作者索取。。在實施過程中可以看到,BY方法比BH方法在拒絕原假設時更為保守。BH方法要求多重假設檢驗中的p值相互獨立,而BY方法則無需這個條件。對于Storey(2002)方法,Barras et al.(2010)運用bootstrap方法確定適合樣本數據的λ。Bajgrowicz and Scaillet(2012)建議λ取值0.6。在本文中λ分別取值0.2、0.4和0.6。
上述調整方法能夠在多重假設檢驗中實現對第一類錯誤的控制,但并不能計算并控制第二類錯誤。Harvey and Liu(2020a)的雙重自舉抽樣法通過對樣本數據實施兩個階段的自舉抽樣,能夠計算假設檢驗中運用上述各種調整方法后兩類錯誤的發生概率。本文運用Harvey and Liu(2020a)的雙重自舉抽樣法計算假設檢驗中上述調整方法的第一類錯誤和第二類錯誤,從而篩選出最優的調整方法,在此基礎上評價基金經理的投資能力③Harvey and Liu(2020a)的雙重自舉抽樣法的具體實施細節可向作者索取。。
本文的數據來自RESSET的金融數據庫。本文分析基金經理的投資能力,因此僅將投資風格為股票型、激進配置型、偏股型、靈活配置型的基金納入樣本①這些基金在RESSET數據庫中投資風格代碼分別為1、10、12和59。值得說明的是,在2014年,證監會要求凡是基金名稱中標明為“股票型”的基金,其資產組合中的股票持有比例不得低于80%(之前規定股票持有比例不低于70%)。一部分股票型基金為了規避股票持倉比例的限制,便將其基金類型變更為混合型基金,導致股票型基金數量大幅減少。為了將更多的基金納入研究樣本,本文將激進配置型、偏股型以及靈活配置型基金納入樣本。。研究樣本中排除了各種指數型基金、LOF基金、分級基金以及ETF基金。同時,考慮到QDII基金投資標的與其它基金不同,基金業績比較基準也完全不同,因而樣本中排除了QDII基金。本文使用的樣本涵蓋的時間是2011年1月至2020年12月。此外,各基金成立時間不同,本文將成立時間不足3年的基金②Andrikogiannopoulou and Papakonstantinou(2019)、Barras et al .(2020)以及Harvey and Liu(2020a)均發現,當基金收益觀測值數量較少時,將會影響alpha及其t值的準確性,導致兩類錯誤的計算出現偏差。排除在樣本外。截至2020年12月,在本文所研究的樣本中共有2043只基金,共143535個觀測值。
運用定價因子模型估計基金的超額收益并進行顯著性檢驗,是判斷基金經理投資能力的常見做法。在美國金融市場上,研究者早期一般采用CAPM、Fama and French(1993)的三因子模型(FF-3)和Carhart(1997)的四因子模型(FFC-4)估計基金的alpha。近年來,Fama and French(2015)的五因子模型(FF-5),Hou et al.(2015)的四因子模型開始受到越來越多的關注。
在中國證券市場上,研究者應該選擇哪一個定價因子模型估計基金的alpha并據以判斷基金經理的投資能力呢?趙勝民等(2016)發現,相對于FF-5,FF-3具有更好的解釋能力。李志冰等(2017)卻發現,FF-5的解釋能力優于CAPM、FF-3和FFC-4。Sha and Gao(2019)同樣發現FF-5優于FF-3以及CAPM。Liu et al.(2019)認為,不能簡單復制Fama and French(1993)以及Carhart(1997)的方法構建定價因子,他們檢驗了這些模型在中國金融市場上的適用性。Liu et al.(2019)根據中國金融市場運行的特點,在剔除了市值最低的30%股票并使用EP替代BM構建價值因子的基礎上③EP即凈利潤與上月末收盤價和總股數的乘積之比(Earnings-price ratio),BM即賬面市值比(Book-to-market ratio)。,重新構建了市場因子、市值因子和價值因子,由此形成了與FF-3和FFC-4對應的定價因子模型,即CH-3和CH-4。他們發現,相比FF-3和FF-5,CH-3和CH-4能夠解釋更多的市場異象,因此,CH-3和CH-4優于FF-3和FFC-4。
由此可見,到目前為止,在中國證券市場上,對于哪一個定價因子模型能夠更好地解釋資產預期收益率并未有一致的結論。我們認為,正如Liu et al.(2019)所言,在中國證券市場上,由于A股的IPO發審制度不健全,使得A股中市值最小的股票具有很好的“殼價值”,這些股票的收益率多與自身的“殼價值”相關,而與公司的基本面沒有太大關系。如果不剔除市值最小的股票,通過復制FF-3或FFC-4的方法構建出來的規模因子收益率不能反映不同規模上市公司股票收益率差異的基本狀況。此外,在不同的證券市場,研究者需要選擇能夠度量“價值股效應”的不同指標。Liu et al.(2019)認為,在中國證券市場上,EP較BM能夠度量“價值股效應”。因此,本文選取Liu et al.(2019)的CH-3和CH-4估計基金的alpha。在本文的穩健性分析中,我們也采用根據CAPM、FF-3和FFC-4計算的基金alpha和p值。
表1給出了各時間段內運用因子模型估計的基金alpha。首先,在計算基金業績時選取的時間區間不同,基金業績有很大的差異。在2011—2015年,基金的年平均超額收益僅為4.2%(以CH-3計算)。國內股市在2015年前后出現了暴漲暴跌,基金要獲得好的業績非常困難。而在2016—2020年,在CH-3模型下,基金的月平均收益率為0.83%,年平均收益率為9.96%,這是一個較高的收益水平。經過2015年年中的股市大跌,從2016年初開始,股市開始逐步恢復性上漲,股市波動性明顯下降,在此期間,大多數基金都取得了較好的業績。我們將樣本數據分成三個時間更短的子樣本后,發現基金的月平均超額收益在2014—2016年為-0.11%,遠低于2011—2013年的0.52%和2017—2019年的0.53%。可見2015年前后的國內股市波動對基金業績具有很大的負面影響。

表1 基金業績的描述性統計
其次,我們發現,在同一時間段內,CH-3模型和CH-4模型計算的基金業績非常接近,一般相差1—2個基點。CH-3模型和CH-4模型估計的基金業績相關系數均在0.99以上,說明運用這兩個定價因子模型估計的基金業績高度趨同。因此,為節約篇幅,本文主要基于CH-3模型估計的基金業績檢驗基金經理的投資能力。
在假設檢驗中,傳統上一般采用1%、5%和10%三個顯著性水平(對于單側假設檢驗,對應的t統計量的臨界值分別為2.33,1.65和1.28)對是否拒絕原假設做出決策。①由于我們的原假設是H0:α≤0,因此,所進行的是單側假設檢驗。基于CH-3模型計算的基金alpha的t值,我們統計t值超過臨界值的基金數量及其所占比例,所得結果見表2。我們也繪制出alpha的t統計量分布直方圖,見圖1。

表2 alpha的t值超過臨界值的數量及其比例

圖1:基金alpha的t值分布
從圖1和表2可見,2011—2015年,alpha的t值大多集中于-1.5—1.5之間,t值超過1.65的基金有56只,占比為12.61%。然而,在2016—2020年,與標準正態分布相比,基金alpha的t值呈現明顯的右偏分布,大部分的t值均在0以上,t值超過1.65的基金比例高達63.63%。這意味著,如果不采用多重假設檢驗調整方法消除偶然性因素的影響,高達63.63%的基金經理具有投資能力。另一方面,在2014—2016年,t值分布在0附近較為集中,t值超過1.65的基金比例僅有4.92%。同樣,在2011—2013年以及2017—2019年,t值超過1.65的基金比例也處在較高水平①2011—2013年、2014—2016年以及2017—2019年alpha的t統計量分布直方圖可向作者索取。。
由此可見,表2的結果與表1的結果一致。在不同的時間段內衡量基金的業績,具有投資能力的基金經理比例具有很大差異。顯然,在數量眾多的基金中(2016—2020年的樣本共有2018只基金),少數基金由于運氣的因素可能表現出較好的業績。因此,我們必須采用MHT調整方法,盡可能減少由于運氣因素對基金業績評價的影響。
前已述及,樣本數據中各基金alpha之間的相關程度,以及具有投資能力的基金比例等具體特征不同,將會影響到多重假設檢驗兩類錯誤的發生概率。本節運用Harvey and Liu(2020a)的方法評價各種MHT調整方法的兩類錯誤,經過比較分析篩選出最優MHT調整方法。首先,我們需要初步確定具有投資能力的基金比例P0的取值范圍。Harvey and Liu(2020a)認為,研究者可以根據自己的先驗認知確定P0,也可以通過計算在不同顯著性水平下t值超過臨界值的基金比例確定P0。我們根據后者初步確定具有投資能力基金比例。由于隨機性因素的影響,真實的具有投資能力的基金占比可能會高于或低于初步確定的比例。因此,我們取臨近此比例的3個值作為P0。例如,在2011—2015年,t值超過1.65的基金的比例為12.61%,則設定P0的值分別為10%、15%和20%,在此基礎上分別計算實施各種MHT調整方法后兩類錯誤的發生概率。
根據初步確定的P0,運用Harvey and Liu(2020a)的雙重自舉抽樣法,并設定第一階段的自舉抽樣次數I=100,第二階段自舉抽樣次數J=500,我們計算了各種調整方法的兩類錯誤,所得結果見表3。
首先,從表3A可見,在2011—2015年,實施各種調整方法的第一類錯誤都低于預先設定的顯著性水平。如當P0為15%時,在5%的顯著性水平下,BH方法的第一類錯誤是2.86%,而BY方法的第一類錯誤為0.52%,遠遠低于預先設定的顯著性水平;Storey方法的第一類錯誤為3.24%—3.32%之間。顯然,BY方法在控制第一類錯誤時更為保守。相對而言,Storey方法的第一類錯誤更接近預定的顯著性水平;另一方面,Storey方法的第二類錯誤約為9%,在各種控制方法中具有最低的第二類錯誤。當P0取值變化時,我們也得到相近的結果。可見,在2011—2015年,選取Storey方法控制兩類錯誤更為合理。

表3 多重假設檢驗調整方法的兩類錯誤

表3B 2016—2020年 優選方法:BH
其次,通過觀察表3B,我們發現,在2016—2020年,Storey方法的第一類錯誤大多高于預定的顯著性水平,而BY方法的第一類錯誤卻遠遠低于1%,且遠低于預定的顯著性水平;相比之下,BH方法的第一類錯誤更接近預定的顯著性水平。例如,當P0為60%時,在5%的顯著性水平下,BH方法的第一類錯誤為2.63%,低于預定的5%顯著性水平。另一方面,BY方法的第二類錯誤最高,而BH方法的第二類錯誤為22.4%,介于BY方法和Storey方法之間。因此,在
2016—2020年,選用BH方法控制兩類錯誤更為合理。

表4 多重假設檢驗調整方法的兩類錯誤

表4B 2014—2016年 優選方法:BH

表4C 2017—2019年 優選方法:BH
我們進一步將樣本數據分成2011—2013年、2014—2016年和2017—2019年三個時間段的子樣本,分別研究實施多重假設檢驗后的兩類錯誤,所得結果見表4。從表4A可見,在2011—2013年,BH方法和Storey方法的第一類錯誤都超過了預定的顯著性水平,而只有BY方法的第一類錯誤在預定顯著性水平之下;而且BY方法的第二類錯誤相對BH方法和Storey方法僅高出約5個百分點,為14.5%。因此,在此期間考察基金經理的投資能力,采用BY方法更為合理。在2014—2016年,只有BH方法和BY方法的第一類錯誤在預定顯著性水平之下,而BH方法的第一類錯誤更接近預定顯著性水平;從第二類錯誤來看,BY方法更高。因此,在此期間,選擇BH方法更為合理。與此類似,從表4C可見,2017—2019年選擇BH方法進行多重假設檢驗的調整更為合理。
運用篩選出來的最優MHT調整方法,我們計算了各時間段內的具有投資能力的基金比例,所得結果見表5。

表5 多重假設檢驗調整后具有投資能力的基金比例
從表5 我們可以得到如下結論:
1. 在2011—2015年,采用Storey方法后,當顯著性水平為1%時,沒有基金表現出投資能力,在5%和10%的顯著性水平下,有1只基金表現出投資能力,僅占0.23%。而在未經MHT方法調整前,當顯著性水平為5%時,有高達103只基金(占12.61%)顯示出投資能力。可見,其中絕大多數基金的投資能力均是來源于運氣,并不是真正具有投資能力。
2. 在2016—2020年,采用BH方法調整后,即使在1%的顯著性水平下,仍然有30.87%的基金表現出了顯著的投資能力。值得注意的是,在此時間段內,經過BH方法調整后的具有投資能力的基金比例,與沒有調整之前相比,并未有大幅度的下降。如當顯著性水平為5%時,未經MHT調整之前,有63.63%的基金表現出具有投資能力。經過BH方法調整后,具有投資能力的基金所占比例仍達55.6%,僅下降了8個百分點,超過半數以上的基金具有真正的投資能力。
3. 當我們將樣本數據分成3個時間更短的子樣本后,我們發現,在2011—2013年以及2014—2016年,沒有基金經理具有真正的投資能力。而在2017年之后,基金業績得以提升,至少有近1/3的基金經理獲得了顯著的超額收益,表現出了較好的投資能力。
在國內基金市場上,基金經理在近5年表現出了較好的業績,在此之前的一段時間的業績卻相對較差。而在美國基金市場上,Fama and French(2010)以及Harvey and Liu(2020a)發現,2000年之前約15年之內基金的業績較好,之后的業績卻變得很差。為什么在不同時間段內國內基金經理表現出不同的投資能力呢?我們認為,這主要有兩個原因。
第一,監管機構有關基金持股比例的強制規定、缺乏有效的做空機制以及較差的市場行情導致基金經理很難獲得較好業績。首先,證監會規定,主動管理的股票型基金持股比例不得低于80%,混合型基金的持股比例不得低于60%。當市場向下運行時,即使基金經理預期市場行情變差也不能大幅減倉規避風險。其次,由于國內股票市場缺乏有效的做空渠道和機制,當股市下跌時,基金經理無法通過做空市場賺取收益。這限制了基金經理投資能力的發揮,導致基金業績變差。最后,在經歷了前期由于應對金融危機而出臺的強力財政、貨幣政策帶來的高速經濟增長后,從2011年開始,國內財政、貨幣政策開始收緊,這對股票市場產生了沖擊。相反,在2016—2020年,股市總體上逐步走強,持股比例的強制規定和做空機制的缺乏并不會限制基金經理投資能力的發揮,因而基金經理有可能展現出投資能力。
第二,從2014年下半年至2015年底,國內股市經歷暴漲暴跌過程,股市波動性大幅度提高。而從2016年開始,股市波動性明顯下降。國內三大指數在2011—2015年收益率的標準差均遠遠超過了2016—2020年收益率的標準差。在劇烈波動的市場里,投資難度增加,投資者(包括基金經理)很難取得較好業績。
前面的論述是基于CH-3模型估計的alpha檢驗基金經理的投資能力。為了檢驗上述結論的穩健性,本文進一步基于CAPM、FF-3以及FFC-4模型估計的alpha檢驗基金經理的投資能力。穩健分析的結果與前述結論一致①為節約篇幅,此處沒有列出穩健分析的結果,如有需要可向作者索取。。
對基金的超額收益率即alpha進行假設檢驗是判斷基金經理是否具有投資能力的重要方法。然而,在假設檢驗過程中會產生兩類錯誤。由于基金數量眾多,必須在控制多重假設檢驗中的兩類錯誤基礎上才能夠對基金經理的投資能力做出正確判斷。目前,研究者提出了各種MHT調整方法,如Benjamini and Hochberg(1995)的方法、Benjamini and Yekutieli(2001)的方法以及Storey(2002)的方法等等。這些調整方法各有特點,研究者應當如何對這些調整方法做出選擇呢?Harvey and Liu(2020a)提出了兩階段自舉抽樣方法,這種方法可以評估在多重假設檢驗中實施這些調整方法后的兩類錯誤,從而實現對MHT調整方法的選擇。
本文首先運用Harvey and Liu(2020a)的方法,通過對基金樣本數據進行兩階段自舉抽樣后,計算多重假設檢驗中各種調整方法兩類錯誤發生的概率。其次,通過比較各種調整方法的兩類錯誤,本文對各種MHT調整方法進行篩選。本文發現,在2011—2015年,Storey方法是更為合理的MHT調整方法;而在2016—2020年,BH方法是更為合理的方法。最后,運用篩選出來的MHT調整方法,本文檢驗了國內開放式股票型以及偏股型基金經理的投資能力。本文發現,在2011—2015年,基金經理整體上并不具有投資能力,而在2016—2020年,半數以上的基金經理表現出了顯著的投資能力。
Harvey and Liu(2020a)的兩階段自舉抽樣方法,為檢驗基金經理投資能力提供了新的思路和方法。自舉抽樣過程中可以采取對回歸殘差獨立隨機抽樣和聯合隨機抽樣等不同的實施方法。目前,尚未有文獻研究具體自舉抽樣實施方法對兩階段自舉抽樣方法有效性的影響,這是值得進一步研究的新課題。