

摘要:本文基于債券發行人財務、經營情況的客觀表現,借助ElasticNet算法,構建了預測債券發行人信用風險水平的盯市模型。在此基礎上,將構建的盯市模型與常規的二分類違約模型進行對比,發現本文所構建的盯市模型能夠對企業信用風險實現更加精準、及時的動態監測。
關鍵詞:盯市模型 信用風險監測 機器學習
近年來,我國債券違約事件有所增加。在防范化解金融風險的政策導向下,2022年債券市場違約規模及違約數量較2021年均有所下降,債券違約形勢逐漸緩和,信用風險暴露形式從實質性違約向展期逐漸釋放,債券展期規模創新高。與此同時,違約企業行業集中度提升明顯,房地產行業信用風險加速出清。因此,對于重點行業債務主體的信用風險進行早識別、早預警非常重要。信用風險預警不僅可以幫助投資者及時識別違約風險,還可以緩釋企業違約對經濟社會造成的沖擊,降低信用風險防范化解的成本。
鑒于信用風險預警的重要價值,國內學界和業界對構建更及時的信用預警模型展開了一系列研究,如周雙雙和張子鵬(2022)的企業信用風險預警Logistic模型,方匡南、范新妍和馬雙鴿(2016)基于網絡結構Logistic的信用風險計量模型,周榮喜、彭航、李欣宇和閆宇歆(2019)基于XGBoost算法的信用債違約預測模型等。
以往的信用風險預警模型多基于企業是否發生違約的二分類樣本建立,對于債券價格在信用風險預警中的作用討論較少。因此本文重點關注房地產行業,以發行人的經營財務特征為自變量,以基于中債估值數據計算得到的發行人信用利差作為因變量,借助機器學習方法構建了預測發行人信用水平的盯市模型,并與其他基于二分類樣本建立的模型方法的結果進行對比,進一步對該盯市模型的有效性展開討論。經實證檢驗,相較于二分類樣本作為模型因變量的常規違約模型,本文提出的盯市模型的預警準確性更高,并能夠及時反映房地產行業債券發行人風險惡化的動態過程,具有一定的預警優勢。
樣本選擇、數據預處理與指標篩選
(一)樣本選擇與數據預處理
筆者選擇中債一級行業“房地產”行業發行人作為研究對象,選擇房地產行業的短期融資券、中期票據、企業債、公司債作為債券樣本,并剔除了私募債和含擔保債券,以保證信用利差能夠準確反映發行人信用水平,提取出房地產行業的發債主體共計178個。
筆者利用債券的中債估值收益率計算得到債券的信用利差,并按照同一發行人存續債券的債券余額加權平均,得到發行人的信用利差作為模型的因變量。同時,參考各評級公司的評級方法與相關研究文獻,形成了123個信用分析的常用指標,并將其加工為最近1年、最近3年平均值兩種形式,作為模型的備選自變量。
為了提高模型穩健性、降低模型過擬合風險,筆者選擇更適合連續變量的K-means聚類方法對所有連續指標進行分箱處理。為了避免經營財務指標的回歸系數有正有負導致其經濟意義難以解釋,筆者依據其自身經濟含義調整自變量的分箱方向:對于與信用利差正相關的指標,按照從小到大的順序進行排列分箱,負相關指標則相反。
(二)指標篩選
考慮到房地產行業債券發行人數量較少,而用于備選的經營財務指標較多,且指標間普遍存在嚴重的多重共線性,筆者首先手動剔除高度相關的指標,而后選擇ElasticNet算法對經營財務指標繼續進行降維處理,該算法集合了Lasso回歸與嶺回歸的優勢,既保留了Lasso回歸中L1正則化項的稀疏性,又具有嶺回歸中L2正則化項較好的泛化能力。
對于模型中超參數的選擇,筆者選取RMSE和秩相關性作為模型預測效果的評價指標,觀測不同超參數條件下,五折交叉驗證下樣本外發行人的預測誤差,并結合歷史場景檢驗結果,選取最優的超參數進行建模。
模型擬合、實證分析與模型比較
(一)模型擬合
根據ElasticNet算法得到的預測房地產行業發行人信用風險的最優模型結果如下:
Yt+1=-2.4740+0.0317X1t+0.1104X2t+0.0304X3t
+0.0369X4t+0.0832X5t+0.0464X6t+0.0561X7t
+0.0624X8t+0.0909X9t+0.0673X10t+0.1192X11t
+0.2302X12t+0.0893X13t+0.1068X14t
其中,因變量Yt+1為t+1時期發行人的信用利差分箱值,變量X1t至X14t為經過清洗處理的t時期發行人的經營財務指標。指標的具體含義如表1所示。
(二)實證分析
本文依據上述盯市模型對2019—2022年的156家房地產企業的信用風險進行滾動預測1。根據網格搜索結果,將模型預測值大于5.4定義為高風險企業時,模型預測效果最優。在此條件下,模型成功預警2019—2022年發生違約(含展期,下同)的34家房地產企業中的25家。對所有預測值進行匯總后,筆者發現該模型的預測值整體較為均衡,如圖1所示,符合房地產行業現實中的信用風險分布情況。
筆者將這25家房地產企業的預警日期與其真實違約日期進行了對比,并以5家房地產企業為典型,繪制出其2019—2022年的模型預測情況(見圖2)。結合對比結果可以發現,模型預警年份與企業真實違約發生年份吻合度較高。以公司A為例,本文模型給出其2019年、2020年、2021年、2022年的預測值分別為4.99、5.04、5.19、6.96。由于高風險企業的閾值為5.4,即在2022年4月末可根據其2021年年報中披露的經營財務信息對該發行人進行預警,而該公司最早違約發生在2022年7月14日。另外,部分房地產企業的違約時間點恰好卡在當年年報公布前,導致預警略晚于實際違約日期。但這受制于年報數據的滯后性,在實踐中可借助輿情數據進行輔助分析,實現提前預警。
上述盯市模型對9家違約發行人的預測值并未達到本文設定的預警閾值,因此筆者未對這9家發行人進行預警。但筆者繪制出其中部分典型發行人的模型預測情況如圖3所示。通過觀察可以發現,2019—2022年,房地產企業H、房地產企業I、房地產企業J的模型預測值均在逐步上升,說明其信用風險水平在逐漸提升。因此,可以從預測值的變動趨勢上獲取信用風險的動態變化信息,從而實現對該類企業的早預警、早識別。對于房地產企業K、房地產企業L這類未預警企業,筆者未從其預測值的變動情況中觀測到較明顯的上升趨勢,但這類企業近一年的模型預測值均維持在(3.5,5.4]區間內,可以對接近警戒區域的企業保持關注,并結合輿情類信息進行輔助,實現對該類高風險企業的提前預警。
(三)模型比較
為了探究以發行人信用利差作為因變量的盯市模型相較于二分類因變量的違約模型是否具有一定的動態監測優勢,筆者利用相同的自變量,選擇Logistic回歸、決策樹與K近鄰這三種常規的違約模型與本文構建的盯市模型進行樣本外預測比較,并將效果統計指標匯總于表2。結果顯示,盯市模型的召回率2為73.53%,即73.53%的違約企業被正確預測為違約;特異度3為88.52%,即88.52%的未違約企業被正確預測為未違約;準確率4為85.26%,即全部企業中85.26%的樣本被正確識別;精確率5為64.10%,即預警的企業中64.10%的企業發生了真實違約。精確率相對較低的原因是研究的目標是對高風險企業進行有效識別及預警,因此高風險企業閾值的選擇越低,擴大預警比例,則更能識別到容易被漏判的違約企業,但相應的精確率會逐漸降低。為了平衡精確率和召回率的影響,筆者也計算了綜合指標F1得分6,盯市模型的F1得分為0.6849,相較于三種違約模型,整體模型質量更高。
觀察三類違約模型的預測結果可以發現,由于違約企業相較所有發債企業來說數量較少,即使對測試數據進行過采樣技術7處理后,三類違約模型仍傾向于將更多的企業判定為不違約,這也是三種違約模型均召回率較低,而特異度很高的原因。相較之下,本文所構建的盯市模型對企業違約的判定可以兼顧均衡性與準確性。
結論
通過對發行人財務、經營類信息的挖掘,筆者發現發行人財務、經營類信息對其信用風險存在顯著影響,并且實證分析顯示,基于財務、經營類信息的基礎盯市模型可以獲得較優的風險預警效果。同時,由于盯市模型的因變量涵蓋了更多的價格變動信息,相較于常規違約模型,該類模型在企業信用風險的動態監測方面也具有一定優勢,可以據此對那些仍處于低風險但預測值持續惡化的企業提早進行重點關注。
鑒于仍存在部分高風險企業未得到有效預警,未來筆者計劃對本文盯市模型作進一步升級。除本文關注的發行人經營、財務類信息以外,筆者將繼續深入挖掘發行人的基本面信息,并考慮納入更加高頻的輿情類信息對模型進行輔助提升,以期實現對高風險企業更加及時精準的預警。
注:
1.例如,2020年的預測值是利用2019年及以前的數據建立的模型計算得到的預測結果,以此類推。
2.將違約企業記為正例,未違約企業記為負例,召回率是指所有正例中被識別為正例的比例,衡量模型對正例的識別能力。
3.特異度是指所有負例中被識別為負例的比例,衡量模型對負例的識別能力。
4.準確率是指在所有樣本中,被模型正確識別的樣本比例,衡量模型對正例、負例的整體識別準確程度。
5.精確率是指在模型識別的所有正例中,實際為正例的比例,衡量模型對正例識別的精準程度。
6. F1得分是召回率和精確率的調和平均,引入F1得分是為了平衡召回率和精確率,較為全面地評價分類效果,F1得分越高說明模型質量越高。
7.分類問題中若數據類別之間的比例嚴重失調,預測結論也往往有偏差,針對這種非平衡數據,可以通過增加分類中少數類樣本的數量來實現樣本均衡,即過采樣。本文采用SMOTE過采樣算法解決文中違約發行人數量偏少、不違約發行人數量較多的問題。