王舞宇 章 寧 范 丹 王 熙
投資組合管理是一個十分復雜的非結構化決策過程,涉及金融預測、投資決策分析、組合優化等一系列過程,受到宏觀經濟、投資者心理、政府政策等多方面的影響(Paiva等,2019[1];趙丹丹和丁建臣,2019[2])。隨著金融市場的不斷變化,市場上的金融資產信息也在發生著改變,投資者不僅要對已持有的投資組合內部資產進行調整,還需要結合市場狀況來決定買進市場上的哪些資產同時賣出投資組合中的哪些資產,以實現投資效用的最大化。根據適應性市場假說理論,金融市場是一個復雜的動態系統,任何單一的優化方法都不可能永久獲益,隨著市場的有效性逐漸提高,一些模型的獲利機會就會消失,也許在某一段時期模型A表現較好,而在另一段時期模型B表現更好,難以保證投資者的利益最大化。有效的投資組合模型應該在感知市場狀態變化的同時,進行適應性的調整并采取相應的資產交易行動,以更好地服務于投資組合管理(梁天新等,2019[3])。
隨著金融大數據的發展,巨大的數據量對數據存儲、數據分析和計算技術都提出了更高的要求(黃乃靜和于明哲,2018[4]),這無疑增加了投資組合管理相關研究的難度。傳統的統計學方法并不適合用于分析復雜、高維度、具有噪音的金融市場數據序列,因為統計學分析往往基于有大量約束的條件進行建模,而且這些假設在現實生活中往往不能完全成立,所以模型結果受到了前提條件的限制(L?ngkvist等,2014[5])。而早期的機器學習方法的表現在很大程度上依賴于人工特征設計,這將會對結果造成一定的干擾,無法對復雜的金融數據進行準確建模(Wang等,2020[6])。近幾年,基于機器學習的人工智能系列方法的出現為以上問題提供了新的思路。其中,強化學習是機器學習領域的一種比較前沿的方法,與監督學習不同,它并不僅僅依靠已知的、固定的數據進行學習,而是在不斷變化的外界環境中,通過大量、多次的試錯學習,尋找到產生最佳結果的路徑(Park等,2019[7])。
因此,本研究將采用強化學習提出一種基于動態交易的智能投資組合優化方法。與以往研究相比,本研究所提出的方法主要有以下兩點優勢:第一,在投資組合的管理過程中,不僅考慮了資產本身信息,還考慮了外部市場環境對投資組合管理過程的影響,能夠依據當前市場狀態和資產信息自動轉換投資組合優化模式,以應對不同的市場風格變化;第二,投資者可以依據自己的投資風險偏好來選擇相應的目標函數,根據目標函數最大化原則,通過投資組合內部資產與外部資產池動態交易的形式,來實時調整投資組合資產構成及資產配置。也就是說,本研究中的投資組合優化不再局限于投資組合內部資產配置的調整,而是能夠根據市場狀態、資產信息、投資者風險偏好來實時更新資產構成和相應的投資比例。
隨著智能時代的來臨以及金融數據分析需求的提升,利用計算機進行自我學習和大量計算,并實現投資組合的管理與優化已經成為可能,越來越多的學者開始將人工智能作為研究解決方案的支撐,并證明人工智能方法比傳統的統計學模型能更好地處理非線性、非平穩特征問題。
目前在國內外關于智能投資組合優化研究中,很多學者采用傳統的機器學習技術對金融財務數據或交易數據進行分類匯總進而建立模型來為投資者選擇和優化投資組合,主要應用的方法包括:專家系統(Yunusoglu和Selim,2013[8])、支持向量機(Paiva等,2019[1])、進化算法(齊岳等,2015[9])、梯度下降(吳婉婷等,2019[10])、人工神經網絡(Freitas等,2009[11])等。例如,Paiva等(2019)[1]結合支持向量機和均值方差模型兩種方法進行了投資組合的優化研究,他們首先利用支持向量機對資產的收益變化趨勢進行了分類,篩選出預測收益更高的一些資產作為投資組合的組成成分,再利用均值方差模型來優化投資組合,從而實現收益最大化的目標。此外,深度學習是機器學習中一種對數據進行表征學習的算法,由Hinton和Osidero(2006)[12]提出,它擅長處理復雜的高維數據,且不依賴任何先驗知識和假設,是一種更加貼近實際金融市場數據特征的方法,也是推動智能金融的關鍵技術(蘇治等,2017[13];Chong等,2017[14])。深度學習在投資組合構建與優化中的應用非常少。目前只找到兩篇這方面的研究,例如,Heaton等(2016)[15]基于經典的均值-方差理論(Markowitz,1952[16])和深度學習構建了一個深度資產組合理論,該理論首先基于深度自編碼器對金融市場信息進行編碼,然后再解碼從而形成一個符合目標函數的資產組合,實驗結果表明該投資組合的表現優于基準模型IBB指數的表現。Yun等(2020)[17]提出了一個兩階段的深度學習框架來訓練投資組合管理模型,他們首先利用主成分分析對各個組的資產數據特征進行降維,然后根據市場指標將高度相關的資產分為同一組,針對每一組采用深度學習網絡來建立一種預測模型,最后再次結合深度學習方法和均值方差模型對不同組的投資組合權重進行預測,從而構建并優化了投資組合。
強化學習方法側重于提出解決問題的策略,可以通過多次試錯來調整智能體行為從而找到最優結果(梁天新等,2019[3];Khushi和Meng,2019[18]),具有決策能力,故強化學習方法在投資組合的構建與優化過程方面的應用相對比深度學習多,但文獻數量仍十分有限。目前在投資組合優化領域應用較多的強化學習方法主要有四種。第一種方法是循環強化學習。Aboussalah和Lee(2020)[19]提出了一種層疊式深度動態循環強化學習架構,該方法能夠捕捉最新的市場變化情況并重新平衡和優化投資組合,他們以S&P500不同板塊的10只股票數據為研究樣本,進行了20輪的訓練和測試,實驗結果表明采用他們提出的方法所優化后的投資組合實現了較好的市場表現。第二種方法是策略梯度方法。這是一種直接逼近的優化策略,直接在策略空間進行求解得到策略(梁天新等,2019[3])。Jiang等(2017)[20]運用強化學習中的梯度策略研究了加密貨幣中的投資組合優化問題,在該框架中,智能體(Agent)是在金融市場環境中執行操作的虛擬投資組合經理,環境包括加密貨幣市場上所有可用的資產及所有市場參與者投資組合的期望,投資組合的累計收益回報是獎勵函數,通過將資金不斷分配到不同的加密貨幣,獲得更大累計收益,結果證明基于該方法提出的加密貨幣投資組合可以在50天內達到4倍的收益回報,明顯優于傳統的投資組合管理方法。第三種方法是Actor-Critic算法,又被稱作“行動者-評論家”方法。例如,García-Galicia等(2019)[21]結合馬爾可夫模型和強化學習中的Actor-Critic算法,提出了連續時間離散狀態投資組合管理的強化學習模型,根據觀察到的金融資產價格數據,每個狀態的概率轉移率和獎勵矩陣構成了鏈結構的特征,并用于優化和確定投資組合中不同資產的權重,進而找到了波動率最低的投資組合。第四種方法是深度強化學習方法,即深度學習和強化學習方法的結合。Vo等(2019)[22]基于深度強化學習方法研究了社會責任投資組合的優化問題,這種組合把公司的環境、社交和治理三方面也考慮了進來。首先他們采用深度學習來預測股票收益,然后利用均值方差模型進行投資組合的優化,并基于強化學習對預測模型進行再訓練,通過智能體的不斷學習和參數調整,最終實現了投資組合的有效自主再平衡。
通過對相關文獻梳理可知,以往相關研究存在以下兩點不足:其一,大多研究是直接選定幾種資產構建投資組合來優化投資組合,并未考慮外部市場資產池與投資組合內部資產動態交互的交易情景。隨著金融市場的不斷變化,市場上的金融資產信息也在發生著改變,投資者除了對已持有的投資組合內部固定資產進行調整外,還需要結合市場狀況來決定買進市場上的哪些資產的同時賣出投資組合中的哪些資產,以實現投資效用的最大化。其二,已有研究大多忽視了投資過程中的風險因素,一般以收益率、累計收益率最大化作為投資組合優化的目標函數。但是這些純收益指標無法體現出金融交易過程中發生的回撤情況。因此,有必要在投資組合優化的過程中考慮包含風險約束條件的目標函數以更好地應對市場風格變化。
循環強化學習算法(Recurrent Reinforcement Lea-rning,RRL)由Moody等(1998)[23]提出,是一種利用即時市場信息不斷優化效用測度的隨機梯度上升算法。RRL在自適應性上有一定的優勢,易于根據當前金融信息自動轉換交易風格,可以提供即時反饋來優化策略,能夠自然地產生真實且有價值的行動或權重,而不依靠于值函數方法所需的離散化或者價格預測(梁天新等,2019[3])。RRL方法具有遞歸循環的特性,其核心思想在于當前時刻所采取的行動不僅僅與當前的市場環境有關,還依賴于前一時刻所采取的行動(司偉鈺,2018)[24]。故循環強化學習在投資組合動態優化方面的研究具有較大優勢。
1.算法更新規則。
本研究主要采用循環強化學習RRL為投資組合進行資產配置,同時生成多/空交易信號。為了讓RRL方法能夠應對金融交易市場的復雜變化情況,參考相關研究(Maringer和Ramtohul,2012[25];Hamilton和Susmel,1994[26])的研究,我們將體制轉換模型與循環強化學習方法相結合,提出了一種基于動態交易的自適應的智能投資組合優化方法(Ada-ptive Recurrent Reinforcement Learning,A+RRL),該方法可以在不同的市場環境狀態下選擇不同的神經網絡權重來應對市場風格的變化。
在金融市場,市場環境狀態可以作為描述金融市場風格的重要標志之一(Aylward和Glen,2000[27];曾志平等,2017[28])。參考吳淑娥等(2012)[29]對牛市和熊市的劃分,我們以股票指數作為衡量市場狀態變化的指標。我們將市場環境狀態分為兩類:牛市狀態和熊市狀態。具體來講,這種雙體制的循環強化學習模型可以描述如下:
Gt=[1+exp(-γ[qt-c])]-1
(1)
Ft=yt,1Gt+yt,2(1-Gt)
(2)

forj={1,2)
(3)
其中:公式(1)中的c表示體制轉換閾值;γ決定了轉換的平滑性;Gt代表不同的循環強化學習神經網絡的權重,Gt∈[0,1];qt為指示變量,其主要作用是讓模型能夠在熊市和牛市之間進行有效轉換,以適應不同的市場狀態。本研究選擇股票價格指數的平均收益率作為指示變量qt的重要衡量指標。公式(2)中的yt,1和yt,2分別表示兩個不同的循環強化學習神經網絡。公式(3)中的rt為對數收益率,可以表示為rt=log(pricet/pricet-1);wi,j代表對應的神經網絡權重,即神經網絡中不同單元之間連接的強度;v為神經網絡的閾值。A+RRL模型可以被看作由兩個RRL網絡組成,每個網絡對應著一種市場狀態和交易風格并有一組獨特的權重。而整個模型總輸出為Ft,它是單個神經網絡yt,1和yt,2的加權之和,權重主要受到指示變量qt的影響。A+RRL模型的結構如圖1所示,該模型的每個網絡對應一個獨特的區域,在指標變量qt轉換過程中,A+RRL可以在每個時間步選擇合適的網絡,以應對不同的市場風格變化。在此過程中,參數更新可以在每一次訓練數據的前向傳播過程中實現。

圖1 自適應的循環強化學習模型
依據以上模型,我們將輸出信息簡寫為Ft=tanh(x′tθ),為交易信號,Ft∈{-1,1};θ表示我們要訓練的模型的一系列參數;xt為一個向量,可以表示為xt=[1;rt…rt-M;Ft-1];M為要交易的時間序列,即交易周期。當Ft>0時,投資者將持有多頭頭寸,則設Ft=1;當Ft<0時,投資者將持有空頭頭寸,則設Ft=-1。rt為對數收益率,可以表示為rt=log(pricet/pricet-1)。持有的頭寸在t時刻的回報如公式(4)所示,其中,μ為固定數值的資產數量,在本研究中表示能夠交易的最大資產數量,δ為交易費用率。
Rt=μ×[Ft-1×rt-δ|Ft-Ft-1|]
(4)
給定交易信號Ft,模型將通過調整一系列參數θ來最大化目標函數UT。在給定的交易周期T內,目標函數UT對于參數θ的梯度更新的具體過程可以表示如下:
(5)
(6)
(7)
(8)
根據以上公式可知,dFt/dθ具有遞歸性質,依賴于前一時刻的動作。算法沿著梯度上升的方向θi+1=θi+ρdUT/dθ進行參數更新,可以將交易策略不斷優化到目標函數的最大值,其中ρ為學習率。
為了讓該模型可以用于投資組合優化而不單單是交易單支資產,當循環強化學習用于優化投資組合內部的資產權重配置時,我們設定fit=logsig(x′itθi),其中,fit在時刻t對資產i的動作,這里指的是在不同時刻t對資產i的資產配置比例。logsig指的是log-sigmoid函數。于是我們可以得到以下公式:
(9)
最終模型的輸出是投資組合中各個資產的配置權重:
Fit=softmax(fit)
(10)
值得說明的是,我們使用Ft=tanh(x′tθ)作為激活函數,從而得到每個資產在訓練期間的交易信號,而fit=logsig(x′itθi)和公式(10)主要用于獲得投資組合內資產的配置比例。在交易周期t,將投資組合資產i的交易信號Fit與相應資產i的投資配置比例wit結合,就可以得出每一交易周期的投資組合優化后的結果。由此我們可以得出:
(11)
2.目標函數。
不同的目標函數使得智能體學習的決策有所差異,從而導致投資組合優化結果也會有所不同。在大多投資組合優化研究中,目標函數均為投資組合的收益,并未考慮相應風險因素。然而,投資收益的增加必然伴隨著風險的發生,故有必要將風險因素的約束條件納入投資組合管理過程中,以滿足不同投資者的投資需求。本研究從衡量投資組合績效的指標中選取了兩個比較常用且具有代表性的收益-風險綜合指標,分別為夏普比率(Sharpe ratio)和卡瑪比率(Calmar ratio),作為目標函數。投資者可以根據個人偏好來自行選擇相應的投資組合優化目標函數。微分形式為強化學習提供了一個非常有效的評估方法,有利于在強化學習模型訓練的過程中直接優化RRL相應參數(Moody等,1998[23])。因此,在RRL模型部分,我們分別采用夏普比率和卡瑪比率的微分形式作為目標函數,然后通過性能函數來增加模型在線學習過程的收斂性,并在實時交易中適應不斷變化的市場狀況。
(1)夏普比率。夏普比率是一個可以同時對收益與風險加以綜合考慮的指標,表示的是單位風險收益,衡量的是投資的穩健性。夏普比率主要是為處理正向投資組合價值而設計的(Berutich等,2016[30]),也就是說,夏普比率將上漲和下跌的波動率視為同等位置。公式(12)表示的是T時間段內夏普比率ST,其中δ為交易成本,E[Rt]為平均收益率,σ[Rt]為收益率的標準差,γf為無風險利率。依據已有相關研究(Moody和Saffell,1999[31];Almahdi和Yang,2017[32]),本研究設定γf=0。
(12)
微分夏普比可以看成是一個滑動平均式夏普比率,公式(13)至公式(15)展示了微分夏普比率的具體推導過程。
(13)
At=At-1+η(Rt-At-1)=At-1+ηΔAt
(14)
(15)
At和Bt分別表示收益率的一階矩和二階矩陣,微分夏普比率將移動平均值擴展為了自適應參數η的一階展開。微分夏普比率DSAt表達式如公式(16)所示:
(16)
(2)卡瑪比率。卡瑪比率也是一種經過風險調整的投資組合績效度量指標。它描述的是收益和最大回撤之間的關系,是一個最大回撤風險度量指標,度量從峰值到隨后的底部的最大累積損失。與夏普比率不同,卡瑪比率區分了波動的好壞,認為投資者更關心收益下跌時的波動率變化才是風險,因為收益上漲帶來的高波動率符合投資者的投資需求,不應視作風險。可以發現,卡瑪比率對投資損失比夏普比率更加敏感,故將卡瑪比率作為目標函數有助于抵消市場長期下行風險(梁天新等,2019[3])。具體表示如公式(17)所示,其中,CalmarT為T時間周期內的卡瑪比率,E[Rt]為T時間周期內收益率的平均值,E(MDD)是對應的期望最大回撤。參考Almahdi和Yang(2017)[32]的研究,微分卡瑪比率可以表示為公式(18)至公式(21)。其中,γ為投資收益在一段時期的平均值,σ為投資收益在一段時期的標準差。
(17)
E(MDD)=
(18)
(19)
(20)
(21)
3.投資組合約束條件。

4.動態止損機制。
由于金融市場的復雜多變,金融交易中沒有持久的確定性,所有的分析和預測只是一種可能性,根據這種可能性而進行的交易和投資行為自然會產生許多不確定性,因此有必要采取一些措施來控制相應的風險。已有研究表明,建立合理的動態止損機制在改善交易決策性能方面是有效的(Lo和Remorov,2017[34])。參考Almahdi和Yang的研究(2017)[32],我們在每次交易決策的最后階段加入動態止損機制,表示如下:

(22)
其中,rt-1為到時間點t-1的累計收益,而σt-1為到時間點t-1的累計收益的移動波動率,n為觸發動態止損機制的波動日的天數。值得注意的是,該動態止損機制只應用于投資組合交易的測試階段,而并不用于訓練強化學習參數和模型。
5.投資組合動態優化過程。
在初始狀態,投資者可以根據自己的偏好來選擇想要實現的目標函數(夏普比率或者卡瑪比率)。例如,如果投資者注重投資的穩健性,非常厭惡市場波動率,認為任何形式的波動都會給自己帶來不利的影響,則可以選擇夏普比率作為投資組合優化的目標函數;如果投資者更在意市場下行風險而不太在乎市場上行帶來的波動,并對投資過程中的損失非常敏感,就可以選擇卡瑪比率作為目標函數。然后,我們需要考慮投資組合的基數約束,即對投資組合內部的資產數量約束。交易成本的改變也會影響我們模型的交易結果,在本研究中,將每次交易決策中的交易成本設定為固定不變的數值,為了更好地檢驗投資組合模型的穩健性,我們設定了多組交易成本。
接著是對模型進行系統訓練,基于RRL方法,我們的智能體將持續監控和感知市場環境狀態,根據目標函數和市場情況來從市場資產池中為投資組合動態挑選符合目標函數的資產,并進行投資組合資產權重的優化,然后再為投資組合中的每個資產生成相應的交易信號,從而產生多/空投資組合。在每一個交易周期T,投資組合內部資產與外部市場資產池都需要進行實時動態交易。也就是說,投資組合內部的資產構成及資產配置并不是固定不變的,而是隨著交易周期T的推進以及市場與資產信息的實時變化而發生改變,以保證投資者所持有的投資組合能夠實現目標函數最大化。值得說明的是,數據選擇的范圍可能會影響最后交易結果,故我們采用了一種多周期重疊式的投資組合交易訓練方式來提升模型訓練效率,訓練窗口將在每次決策后向后逐步移動,以便每次訓練都能夠包含最新的市場數據。在模型參數選擇方面,我們在輸出層上采用了dropout正則化技術。它的工作原理為,在訓練過程中,隨機刪除網絡中的一些隱藏神經元,同時丟棄掉從該節點進出的連接,并保持輸入輸出神經元不變,然后將輸入通過修改后的網絡進行前向傳播,將誤差通過修改后的網絡進行反向傳播,以此來有效減少過擬合(Srivastava等,2014[35];Fischer和Krauss,2018[36])。我們先采用部分樣本進行了預實驗,結果表明模型的性能會隨著丟棄率(dropout ratio)的增加而下降,因此,我們將丟棄率設置為相對較低的0.1。然后我們采用應用較為廣泛且有效的隨機搜索法(Bergstra和Bengio,2012[37];Greff等,2017[38]),根據上述設置動態地找到一個好的超參數組合。具體來講,隨機搜索對以下參數進行了采樣:(1)學習率,范圍從0到1;(2)epoch的個數,范圍從100到5 000。其中,epoch指的是模型訓練的迭代次數,1個epoch等于使用訓練集中的全部樣本訓練一次;(3)每個資產的最大迭代次數,范圍從10到2 000;(4)閾值c的大小,范圍從0到2。最后我們選取了表現最好的一組數值作為參數集合,學習率為0.1,epoch為每個時間周期2 000次,每個資產的最大迭代數為100個,閾值為1。
此外,我們在每次交易之后加入了一個動態止損機制,如公式(22)所示。當投資組合的收益與風險比值達到了止損閾值,便會觸發平倉止損操作,然后我們的模型將被重新迭代訓練,模型參數將被更新,智能體將持續關注環境狀態,等待下一次投資組合的建倉。如若投資組合的收益與風險比未能觸發止損機制,交易將正常繼續進行,每次交易將輸出相應的獎賞值作為獎勵,然后更新當前的交易信息存儲到交易經驗池中。通過這樣的方式循環往復,直到投資期結束。為了更好地訓練模型,動態止損機制只在測試階段使用,并不應用于訓練階段。本研究所提出的帶有動態止損機制的投資組合優化方法的具體過程如圖2所示。

圖2 基于動態交易和風險約束的投資組合優化過程(含動態止損機制)
6.基準策略。
基于本研究所提出的帶有動態止損機制的Calmar/Sharpe+A+RRL模型,我們又選用了以下兩種基準策略,用于同Calmar/Sharpe+A+RRL(Stop loss)模型在投資組合優化方面進行比較,以進一步驗證模型的有效性。
(1)Calmar/Sharpe+A+DDPG(Stop loss)
不同的目標函數使得智能體學習的交易決策有所差異,從而導致交易結果也會有所不同。本研究選出了兩個常用的衡量投資組合績效的指標作為目標函數,分別為夏普比率和卡瑪比率。保持模型的其他設置相同,通過不同目標函數的設定,來觀察在不同的市場狀態下哪種目標函數所搭配的優化模型可以帶來更多投資收益。同時我們也可以保持相同的目標函數,變化不同的強化學習算法來優化投資組合,從而觀察哪種方法的組合更有利于實現投資組合的動態優化。其中,深度確定性策略梯度(Deep Determination Policy Gradient,DDPG)是強化學習中的另一種較常用的方法,它結合了深度學習的感知能力與強化學習的決策能力,能夠有效解決復雜系統的感知決策問題。
(2)Calmar/Sharpe+A+RRL/DDPG
本研究所提出的模型在每次交易的最后階段都加入了動態止損機制,但是無法保證這種止損機制在市場環境變化的情況下依然有效。因此有必要將無動態止損機制的交易策略作為基準策略,進行對比,以此來驗證該止損機制在投資組合優化過程中能夠避免相應投資損失的有效性。
我們從中國股票市場收集了21只股票數據作為研究樣本。由于我們需要用到滬深300指數(HS300)數據,而HS300是由滬深證券交易所于2005年4月8日聯合發布,為了保證我們整個研究數據的一致性,故中國市場所有樣本數據的時間范圍為2005年4月8日至2019年3月13日。其中,訓練集數據的時間范圍為2005年4月8日至2015年9月15日,包含2 550個交易日,測試集數據的時間范圍為2015年9月16日至2019年3月13日,包含850個交易日。此外,許多研究表明,對于個人投資者而言,持有成百上千個資產作為投資組合是不現實的(Almahdi和Yang,2017[32];Kocuk和Cornuéjols,2020[39];Tanaka等,2000[40])。例如,Tanaka等(2000)[40]選取了9種證券作為樣本,形成了最優投資組合。Almahdi和Yang(2017)[32]構建了一個包含5種資產的投資組合。本研究分別從中國市場隨機選取了21只股票作為研究樣本,這足以支撐個人投資者投資組合優化的研究。
所有的樣本數據都涉及股票調整后的開盤價、收盤價、最高價、最低價和交易量,均為日度數據。中國股票市場數據來源于滬深300指數(11只股票)和中證500指數(10只股票)。對于缺失數據,若為交易日停牌現象,則取停牌之前最后一個交易日的數據,若為非交易日,則直接刪除空白數據。這些股票的收盤價的描述性統計如表1所示。我們可以看出股票000538.sz的日平均價格最高,為45.04元,000012.sz的標準差最低,為2.69元,緊隨其后的是000008.sz,為2.88元。

表1樣本數據的描述性統計 (單位:元)
在實際金融交易場景中,交易次數不應過于頻繁,也不該間隔太久,許多研究表明以兩周(約10個交易日)為交易周期對個人投資者而言是比較合理的(Mousavi等,2014[41];Almahdi和Yang,2019[33])。結合已有文獻和實際情況,本研究以兩周(10個交易日)為一個交易周期T,并按照交易周期T對樣本數據進行劃分。最終訓練集數據包含了255個交易周期,測試集數據包含了85個交易周期。由于數據選擇的范圍可能會影響最后實驗結果,故我們采用了一種多周期重疊式的投資組合交易訓練方式,以便每次訓練都能夠包含最新的市場數據,提升模型訓練的效率。我們設置訓練窗口大小為一周(5個交易日),訓練窗口將在每次交易決策后向后逐步移動。本研究的實驗結果均是基于以交易周期T劃分的數據集來模擬市場交易所獲得。
參考相關實證研究(Almahdi和Yang,2017[32];Paiva等,2019[1]),我們分別對交易成本為0bps、0.05 bps及0.10 bps的情況進行了仿真,并展示了最終的投資組合優化結果,這也符合我國股票市場的交易費用管理規范。本研究中的交易成本只考慮了傭金。表2至表5展示了Sharpe+A+RRL(S-A-R)、Sharpe+A+RRL(Stop-loss)(S-A-R-SL)、Calmar+A+RRL(C-A-R)、Calmar+A+RRL(Stop-loss)(C-A-R-SL)、Sharpe+A+DDPG(S-A-D)、Sharpe+A+DDPG(Stop-loss)(S-A-D-SL)、Calmar+A+DDPG(C-A-D)和Calmar+A+DDPG(Stop-loss)(C-A-D-SL)模型對投資組合進行優化之后的金融績效結果對比,為了使表更簡潔,我們分別采用了各個模型的簡稱。其中,表2表示無交易成本,表3表示交易成本為0.05bps的情況,表4表示交易成本為0.1bps的情況。面板A、B和C分別描述了以交易周期T為單位,優化后的投資組合的收益特征、風險特征和風險-收益特征。

表2無交易成本的投資組合績效特征

表3含交易成本的投資組合績效特征(0.05bps)

表4含交易成本的投資組合績效特征(0.1bps)
收益特征:在表2的面板A中,我們可以發現,相比于其他的基準模型,以卡瑪為目標函數且帶有動態止損機制的Calmar+A+RRL(Stop-loss)模型優化后的投資組合實現了最高平均收益率0.046 57和累計收益率18.501 03。當考慮了交易成本0.05 bps之后,如表3的面板A所示,Calmar+A+RRL(Stop-loss)模型依然保持著最優的平均收益率(0.052 07)和累計收益率(15.806 38)。Calmar+A+RRL模型的平均收益率和累計收益率均位居第二,分別為0.049 02和11.055 20。當考慮了交易成本0.1bps之后,如表4的面板A所示,在累計收益率方面,Calmar+A+RRL(Stop-loss)模型實現了最高值7.416 39,其次是Calmar+A+DDPG(Stop-loss)。在交易周期內的平均收益率方面,Sharpe+A+RRL模型實現了最高值(0.034 75),然后是Calmar+A+RRL(Stop-loss)模型(0.033 88)。
風險特征:在表2至表4的面板B中,可以觀察到與風險特征對應的風險價值(Value at Risk,VAR)、條件風險價值(Conditional Value at Risk,CVaR)及最大回撤率(Maximum drawdown)。當交易成本為0bps時,Calmar+A+DDPG(Stop-loss)模型交易后的投資組合在5%置信水平上VAR和CVAR都實現了最低值,分別為0.015 20和0.058 00。Calmar+A+RRL和Sharpe+A+RRL模型交易后的投資組合分別實現了最低的1% VAR(0.016 60)和1%CVAR(0.017 40)。當交易成本為0.05bps時,Calmar+A+DDPG(Stop-loss)模型交易后的投資組合實現了最低的1% VAR(0.038 00)和5% CVAR(0.061 25),Sharpe+A+DDPG(Stop-loss)模型在5%置信水平上CVAR實現了最低值0.011 00,此外,Calmar+A+RRL(Stop-loss)模型也實現了比較低的1% CVAR(0.011 50)和5%VAR(0.035 00)。當交易成本增加至0.1bps時,Sharpe+A+RRL(Stop-loss)模型實現了最低的1%VAR(0.105 00),Calmar+A+RRL(Stop-loss)模型實現了最低的5%VAR(0.014 00),Calmar+A+DDPG(Stop-loss)模型實現了最低的1%CVAR(0.067 00)和5%CVAR(0.033 50)。最大回撤率指的是某一段時期內投資組合的收益率從最高點開始回落到最低點的幅度,描述的是投資者可能面臨的最大損失。在最大回撤率方面,我們發現,Calmar+A+DDPG模型優化后的投資組合在不同的交易成本情況下,均實現了最低的最大回撤率。通過以上分析,我們并沒有發現在投資組合風險維度表現最好且穩定的模型。
風險-收益特征:在表2至表4的面板C中,我們討論了基于各個模型交易之后的投資組合相應的風險-收益情況。具體來講,在標準差方面,當無交易成本時,Sharpe+A+RRL模型實現了最低值0.071 35,Calmar+A+DDPG(Stop-loss)模型緊隨其后,標準差為0.093 17,然后是Calmar+A+RRL(Stop-loss)模型(0.102 21)。當交易成本增加至0.05bps時,Sharpe+A+RRL(Stop-loss)表現最好,標準差僅為0.073 93,Calmar+A+DDPG(Stop-loss)模型緊隨其后,標準差為0.096 70。當交易成本為0.1bps時,Sharpe+A+RRL(Stop-loss)模型優化的投資組合實現了最低的標準差值0.074 04,其次是Calmar+A+RRL(Stop-loss)模型(0.091 36)。在夏普比率方面,無論是否考慮交易成本,我們可以發現,Calmar+A+RRL(Stop-loss)模型優化的投資組合均實現了最優的夏普比率,分別為0.455 63(無交易成本)、0.423 51(0.05bps)、0.371 94(0.1bps)。在索提諾比率方面,我們依然可以發現,在不同的交易成本情況下,Calmar+A+RRL(Stop-loss)模型優化的投資組合依然實現了最優值,分別為0.999 95(無交易成本)、0.905 82(0.05bps)和0.852 90(0.1bps)。而Calmar+A+DDPG(Stop-loss)模型在無交易成本時位居第二(0.832 28),Sharpe+A+RRL(Stop-loss)在0.05交易成本時位居第二(0.711 14)。
根據以上討論和分析,我們發現,在投資組合的收益特征、風險特征及年度收益-風險特征方面,加入動態止損機制的交易模型Calmar+A+DDPG(Stop-loss)、Calmar+A+RRL(Stop-loss)、Sharpe+A+DDPG(Stop-loss)、Sharpe+A+RRL(Stop-loss)的綜合表現要優于未加入該機制的Calmar+A+DDPG、Calmar+A+RRL、Sharpe+A+DDPG、Sharpe+A+RRL模型。此外,以卡瑪比率為目標函數的模型Calmar+A+RRL(Stop-loss)、Calmar+A+DDPG(Stop-loss)模型優化后的投資組合的綜合表現優于以夏普比率為目標函數的模型Sharpe+A+RRL(Stop-loss)、Sharpe+A+DDPG(Stop-loss)。其中,Calmar+A+RRL(Stop-loss)模型優化后的投資組合的綜合表現優于其他基準模型。
為了更加直觀地比較各個模型對投資組合的優化效果,我們接著對Calmar+A+DDPG(Stop-loss),Calmar+A+RRL(Stop-loss),Sharpe+A+DDPG(Stop-loss),Sharpe+A+RRL(Stop-loss)這四種綜合表現更優的模型在樣本測試集期間(2015年9月16日至2019年3月13日)優化后的投資組合的累計收益率進行了可視化展示。首先,我們對不同的目標函數的優化模型對應的投資組合的累計收益率(0bps)進行了縱向對比。從圖3可以看出,加入了動態止損機制的投資組合優化方法確實比不加入該機制的方法實現了更高的累計收益率,而且無論是否加入動態止損機制,無論如何設置目標函數,各個模型優化的投資組合所實現的累計收益率始終高于滬深300指數HS300的累計收益率,也就是中國股票市場的基本水平(黃東賓等,2017[42];曾志平等,2017[28])。圖4展現了無交易成本時每個模型對應的累計收益率。顯然,在四個模型之中,Calmar+A+RRL(Stop-loss)模型具有更高的累計收益率,最終的累計收益率約達到了18.501 03。位居第二的是Sharpe+A+DDPG(Stop-loss)模型,累計收益率為15.587 01。然后是Calmar+A+DDPG(Stop-loss)模型(15.587 01)和Sharpe+A+RRL(Stop-loss)模型(10.507 10)。此外,我們還需要進一步觀察不同模型在不同交易成本水平下的投資組合優化結果。

圖3 無交易成本時不同目標函數對應的累計收益對比

圖4 無交易成本時的累計收益
我們接著分別描繪了交易成本為0.05bps和0.10 bps的各個交易策略所對應的投資組合的交易后的累計收益率,結果如圖5和圖6所示。顯然,與無交易成本相比,各個模型交易后的投資組合的累計收益率都有下降的趨勢。當交易成本為0.05 bps時,Calmar+A+RRL(Stop-loss)模型依然實現了最大的投資組合最終累計收益率(15.806 38);Calmar+A+DDPG(Stop-loss)模型對應的投資組合累計收益率位居第二(6.598 70),然后是Sharpe+A+RRL(Stop-loss)模型(6.203 44)。當交易成本為0.1 bps時,Calmar+A+RRL(Stop-loss)模型交易后的投資組合的最終累計收益率(7.416 39)依然大于其他模型,Calmar+A+DDPG(Stop-loss)模型對應的投資組合累計收益率位居第二(6.069 55)。接著是Sharpe+A+RRL(Stop-loss)模型(5.661 37)。

圖5 含交易成本時的累計收益(0.05bps)

圖6 含交易成本時的累計收益(0.1bps)
通過將不同的模型優化后的投資組合的累計收益率進行可視化對比,容易發現,無論是否考慮交易成本,以卡瑪比率為目標函數且加入了動態止損機制的投資組合優化模型Calmar+A+RRL(Stop-loss)均實現了較優的結果,實現了投資組合交易的收益最大化。
需要說明的是,本研究參考了Almahdi和Yang(2017)[32]的研究,該研究所采用的投資組合優化模型可以簡寫Calmar+RRL(Stop-loss),我們在該模型的基礎之上進行了改進和拓展。與已有研究[32]相比,本研究中的投資組合優化模型Calmar+A+RRL(Stop-loss)將體制轉換模型與循環強化學習方法相結合,可以在不同的市場環境狀態下選擇不同的神經網絡權重來應對市場風格的變化,此外本研究還設計了投資組合內部資產與外部資產池進行動態交易場景來實時更替投資組合的資產構成和投資配置比例。由此我們將本研究中綜合表現最好的模型Calmar+A+RRL(Stop-loss)與Almahdi和Yang(2017)[32]提出的投資組合優化模型Calmar+RRL(Stop-loss)進行了累計收益率的可視化比較。如圖7所示,Calmar+A+RRL(Stop-loss)模型優化后的投資組合所實現的最終累計收益率(18.501 03)高于Calmar+RRL(Stop-loss)模型對應的投資組合最終累計收益率(10.442 89)。
由此我們想要驗證不同模型在對投資組合優化過程中產生的交易信號頻率如何,因為交易信號的產生頻率關系著投資組合優化之后的金融績效。投資組合包含了9只資產,在動態交易情境下,該投資組合中始終有9個位置留給在相應周期T內符合目標函數最大化的資產。于是,我們隨機選取了三個位置,它們的交易信號如圖8、圖9和圖10所示。從橫向對比來看,在相同的目標函數條件下,加入動態止損機制的模型比沒有動態止損機制的模型的交易信號產生的頻率稍微高一點。而從縱向對比來看,以卡瑪比率為目標函數的投資組合優化模型Calmar+A+RRL(Stop-loss)、Calmar+A+DDPG(Stop-loss)、Calmar+A+RRL和Calmar+A+DDPG產生的交易信號比以夏普比率為目標函數的投資組合優化模型Sharpe+A+RRL(Stop-loss)、Sharpe+A+DDPG(Stop-loss)、Sharpe+A+RRL和Sharpe+A+DDPG產生的相應交易信號頻率更低、一致性更高。這也能夠說明我們在同一位置上持有資產的時間更長,從而在一定程度上降低了交易成本對收益的影響。這也進一步解釋并驗證了Calmar+A+RRL(Stop-loss)模型在動態交易情境下比其他模型表現更好。

圖8 交易信號(位置一)

圖9 交易信號(位置二)

圖10 交易信號(位置三)
基于前面的投資組合優化結果對比和可視化分析,可以看出,在不同的交易成本情況下,Calmar+A+RRL(Stop-loss)模型的優化效果都較為全面地、顯著地優于其他基準模型,即Calmar+A+RRL(Stop-loss)模型的魯棒性得到了驗證。為了對實驗結果進行更加嚴謹的分析和檢驗,我們進一步對Calmar+A+RRL(Stop-loss)、Calmar+A+DDPG(Stop-loss)、Calmar+A+DDPG、Sharpe+A+RRL(Stop-loss)和Sharpe+A+DDPG(Stop-loss)模型在周期收益率數據集上的差異性進行了顯著性檢驗。首先,我們對所有模型構建的投資組合的每個交易周期的收益率數據集進行了正態性檢驗。如表5所示,P值均為0.00,故拒絕這些數據集服從正態分布的原假設。因此,我們選擇了非參數檢驗。表6為Kruskal-Wallis檢驗的結果,易得不同模型平均周期收益率分布的無差異的非參數假設被拒絕。由于Kruskal-Wallis檢驗不顯示兩兩模型之間的差異關系,于是我們采用了Mann-Whitney檢驗,表7、表8和表9分別展示了無交易成本、交易成本為0.05bps和0.1bps時各個模型對應的交易周期收益率差異的顯著性檢驗結果。從這些檢驗結果中可以看出,在95%甚至99%的置信水平上,Calmar+A+RRL(Stop-loss)模型優化后的投資組合與Calmar+A+DDPG(Stop-loss)、Calmar+A+DDPG、Sharpe+A+RRL(Stop-loss)和Sharpe+A+DDPG(Stop-loss)模型優化后的投資組合在收益率上差異性顯著。

表5投資組合周期收益率的正態性檢驗(P-value)

表6 投資組合周期收益率的Kruskal-Wallis檢驗(P-value)

表7無交易成本的投資組合周期收益率的Mann-Whitney檢驗(P-value)

表8含交易成本(0.05bps)的投資組合周期收益率的Mann-Whitney檢驗(P-value)

表9含交易成本(0.1bps)的投資組合周期收益率的Mann-Whitney檢驗(P-value)
本研究基于循環強化學習RRL提出了一種智能投資組合動態優化方法Calmar+A+RRL(Stop-loss),該方法能夠依據不同風險約束的目標函數來應對不同的市場風格變化,并根據當前市場的金融時間序列信息,通過投資組合內部資產與外部資產池動態交易的形式,來實時調整投資組合資產構成及資產配置。具體而言,在每一個交易周期T,該方法都會依據包含風險約束的目標函數和市場的實時變化來從外部市場資產池中為投資組合動態挑選符合目標函數的資產,然后基于RRL方法對投資組合的資產權重進行配置并為每個資產生成相應的交易信號,從而基于這種動態交易的方式來優化投資組合。此外,我們在動態交易之后加入了一個動態止損機制,當止損機制被觸發,交易將被停止,然后重新開始新一輪周期的投資組合優化。本研究基于中國股票市場數據進行了實證分析,得出了以下幾個主要結論。
第一,我們發現在交易成本和市場狀況都發生變化的情況下,加入動態止損機制的投資組合優化模型Calmar+A+DDPG(Stop-loss)、Calmar+A+RRL(Stop-loss)、Sharpe+A+DDPG(Stop-loss)和Sharpe+A+RRL(Stop-loss)在收益、風險和風險-收益三個維度的綜合表現要優于未加入該機制的Calmar+A+DDPG、Calmar+A+RRL、Sharpe+A+DDPG和Sharpe+A+RRL模型。這說明在投資組合優化過程中,由于市場環境的不斷變化,任何一種優化方法或者模型都不能永久獲益,因此有必要加入與市場環境和資產信息變化相適應的動態止損機制,而本研究提出的動態止損機制可以從一定程度上控制投資組合優化過程中的風險。
第二,研究發現,以卡瑪比率為目標函數的模型Calmar+A+RRL(Stop-loss)、Calmar+A+DDPG(Stop-loss)模型優化后的投資組合的綜合表現優于以夏普比率為目標函數的模型Sharpe+A+RRL(Stop-loss)、Sharpe+A+DDPG(Stop-loss)。因此,在投資組合的優化中考慮下行風險約束比考慮總體風險更有利于實現既定投資風險下的收益最大化。
第三,無論是否考慮交易成本,綜合來看,以卡瑪比率為目標函數且帶有動態止損機制模型Calmar+A+RRL(Stop-loss)所優化的投資組合的各項金融指標性能都顯著優于其他基準模型所對應的投資組合。這說明該模型可以適應不同的市場情況,有效過濾市場噪聲并識別重要的交易信號,進而幫助投資者獲取更高的收益。而且Calmar+A+RRL(Stop-loss)模型在投資組合動態優化方面的有效性在新興的中國股票市場得到了充分的檢驗。
第四,通過對比本研究提出的模型Calmar+A+RRL(Stop-loss)和Almahdi和Yang的研究(2017)[32]所采用的模型Calmar+RRL(Stop-loss),在相同的數據集和模型參數設定條件下,研究發現Calmar+A+RRL(Stop-loss)模型實現了比Calmar+RRL(Stop-loss)更高的投資組合最終累計收益率。這說明了依據市場環境變化和動態交易方式來選擇投資組合的資產構成并考慮風險約束因素的必要性。