徐文倩
(安徽工業大學管理科學與工程學院,馬鞍山 243032)
隨著現代金融系統的發展,借貸平臺在現代金融系統中具有重要地位,尤其在個人借貸方面得到了廣泛的應用。社會整體消費觀念的轉變及消費水平的發展,極大地刺激著人們的消費欲望。個人借貸的出現,不僅滿足了人們的需求,并保證了社會經濟的長期穩定增長。然而,由于借貸平臺缺乏有效的風險控制,信用風險不可避免。良好的借貸關系有利于達成借貸平臺與貸款者的共贏,但隨著個人貸款交易數量的迅速增長,一些無節制透支、超時還款以及借款無法追回等違約現象不僅影響了借貸平臺的正常運營以及投資人的利益,還對個人信用產生了極大的影響。為了有效的避免或降低借貸風險,保證借貸關系的持續健康發展,對個人信用風險進行有效評估具有重要意義。
信用風險評估是根據貸款者相關信息對貸款者進行評估的一種方法,通過將貸款者分為好的和差的兩種信用類型,然后決定是否提供貸款[1]。信用評分法在傳統金融機構中已被廣泛使用,根據目前的研究,信用評分方法主要基于統計方法和機器學習方法[1-3]。
由于大部分信貸數據集屬于不平衡數據集,數據集中具備良好信貸關系的貸款者數量遠遠大于存在違約現象的貸款者數量。因此,信用風險評估問題中的不平衡現象對評估模型的有效性提出了重大挑戰,對不平衡數據分類的研究也將有助于信用風險評估問題的研究。不平衡數據分類主要分為數據層面方法和算法層面方法。數據層面方法使用重采樣技術預先平衡目標訓練數據集進而使用分類方法進行分類,主要有過采樣方法和欠采樣方法。過采樣方法通過合成少數類樣本,增加少數類數量來平衡數據集。SMOTE(synthetic minority,SMOTE)方法[4]作為經典的過采樣方法,通過在每個少數類樣本與其K個近鄰樣本之間的連線上產生合成新樣本來增加少數類樣本數量,從而使數據集趨于平衡。欠采樣方法通過減少多數類樣本來平衡數據集。研究表明,在信用風險評估問題中,采用重采樣方法平衡數據集能夠有效提高對信用風險不平衡數據集的分類性能。Song等[5]使用基于多準則決策的方法評估了用于信用風險預測的幾個不平衡分類器,證明了基于SMOTEBoost的模型對于不平衡數據分類比其他方法更有效。Shen等[6]提出一種合成少數過采樣技術和分類器優化技術的集成模型,使用SMOTE技術平衡目標訓練數據集,構造基于Ada-Boost和BP神經網絡算法的集成模型對不平衡信用數據進行分類。數據層面的方法主要使用代價敏感學習和集成學習方法來提高分類性能。針對信用風險不平衡數據集,代價敏感方法為具有良好借貸關系的貸款者和存在違約現象的貸款者指定不同的誤分類代價,對存在違約現象的貸款者提高誤分類代價,從而提高對存在違約現象的少數貸款者的識別率,降低信用風險。馬鵬舉等[7]構造基于代價敏感學習方法的決策樹,提高了對貸款者違約情況的評估能力。Xia等[8]提出了一種代價敏感的集成樹貸款評估模型,結合代價敏感學習和XGBoost方法增強對潛在違約貸款者的辨別能力,證明了模型對不平衡問題的有效性。集成方法在信用風險評估中的應用已經取得了顯著進步,陳舒期等[9]通過改進選擇性支持向量機集成算法,提供了一種有效的個人信用評估方法。李淑錦等[10]將Boosting和Bagging兩種集成方法的優勢結合,提出了基于LightGBM和Bagging的評估模型,進一步提高了對信用風險評估問題的分類能力。Ye[11]利用機器學習算法建立了logistics回歸模型、決策樹模型、支持向量機模型以及基于三種算法的集成模型評估和預測個人信用風險,通過比較不同模型的預測效果,表明集成學習模型分類效果更好。
與統計方法和機器學習方法相比,深度學習模型尚未廣泛應用于信用風險評估。楊德杰等[12]針對銀行客戶數據的數據特征之間的相關性,引入截斷的Karhuncn-Loève對堆棧降噪自編碼神經網絡模型改進,提高了信用風險評估準確率。Dastile等[13]采用系統的文獻調查方法,分析了信用風險評估中的常用統計方法和機器學習技術,并表明了深度學習算法對信用風險評估的適用性。
通過上述研究發現,基于神經網絡和集成方法的混合與集成模型已成為信用風險評估問題研究的新趨勢,這些模型為借貸平臺提供了更復雜、更準確的工具。因此,本文提出一種ADASYN-AdaBoost-CNN集成學習模型用于不平衡信用風險評估。通過ADASYN(adaptive synthetic sampling,ADASYN)過采樣方法平衡目標訓練數據集,利用卷積神經網絡(convolutional neural network,CNN)分類預測性能的優越性,將卷積神經網絡作為基分類器,使用AdaBoost集成方法避免卷積神經網絡的過擬合,構造強分類器,從而提高對信用風險不平衡數據集的評估準確性和魯棒性。
ADASYN算法的主要思想是根據少數類樣本密度分布自適應生成不同數量的新少數類樣本[14]。與SMOTE算法為每個少數類樣本生成相同數量的新樣本相比,ADASYN方法不僅可以減少原始不平衡數據分布帶來的學習偏差,還可以自適應地將決策邊界轉移到難以學習的樣本上。
ADASYN算法步驟如下:
輸入:訓練集{(x1,y1),(x2,y2),…,(x i,y i),…,(x n,y n)},其中x i是n維特征空間X中的一個實例,y∈Y={1,-1}是類別標簽。n s:少數類樣本數量,n l:多數類樣本數量。
輸出:加入合成樣本后數據集。
(1)計算數據集的不平衡率:d=n s/n l,其中,d∈(0,1]。
(2)如果d<dth(dth為最大不平衡率預設閾值):
1)計算需要為少數類樣本生成的合成數據示例的數量:G=(n s-n l)×β。其中β∈[0,1],用于指定合成數據生成后所需的平衡水平。β=1表示完全平衡的數據集。
2)對于每個少數類樣本,基于n維空間中的歐式距離找到K個最近鄰,Δi為k個鄰居中屬于多數類的樣本數,并定義比例r i為:r i=Δi/K,i=1,…,n,r i∈[0,1]。
4)計算每個少數類樣本合成樣本的數量:g i=?×G。
5)對每個少數類樣本,按照以下步驟合成樣本:Forz=1 tog i:
①在待合成的少數類樣本x i的K個最近鄰中選擇1個少數類樣本x zi。
②根據s i=x i+(x zi-x i)×λ合成新少數類樣本,其中λ是一個隨機數,λ∈[0,1]。
AdaBoost[15]是一種精度提升算法,其核心思想是通過不斷調整樣本權重和創建若干基分類器,直至新創建的基分類器的精度不再變化,進而將創建的基分類器組合成一個強分類器以達到較好的預測效果。訓練過程中,AdaBoost算法自適應地調整數據集中每個樣本的權重。首先,為訓練集中的每個樣本隨機分配一個相同的權重,表示對所有樣本的重要性相同。然后在迭代過程中,增加錯誤分類的樣本的權重,減少正確分類的樣本的權重,目的是在后續的迭代過程中更加重視誤分類樣本的學習,使分類錯誤率隨著訓練增加而穩定下降。
卷積神經網絡(CNN)是一種包含卷積計算并且具有深度結構的前饋神經網絡,能夠在大量數據樣本中自動學習原始數據特征表達。因此,基于卷積神經網絡的分類性能,將其作為基分類器,構造AdaBoost-CNN集成學習模型,以處理不平衡數據分類[16]。本文構建的卷積神經網絡主要由輸入層、卷積層、池化層、全連接層和輸出層組成,其中,除了輸出層使用Sigmoid函數作為激活函數外,其余都使用ReLU作為激活函數,同時在池化層和全連接層后添加了Dropout技術以緩解過擬合。
AdaBoost-CNN算法步驟如下:
輸入:訓練集{(x1,y1),(x2,y2),…,(x i,y i),…,(x n,y n)},其中其中x i是n維特征空間X中的一個實例,y∈Y={1,-1}是類別標簽。
Form=1 toM:
(1)如果m==1,根據初始化樣本權重分布D m-1={D1()i=1n}在訓練集上訓練第一個基分類器C m-1(x)。
否則,將前一個基分類器的學習參數轉移到第m個基分類器:C m(x)。根據樣本權重分布D m在訓練集上訓練第m個基分類器C m(x)。
(2)獲取第m個基分類器的輸出,即每個類別的概率估計:(x),其中k={0,1}。
(3)基于(x)更新數據樣本權重D m。
(4)重新標準化數據樣本權重D m。
(5)保存第m個基分類器:C m(x)。
不平衡數據分類結果可以用混淆矩陣表示,本文將存在違約現象的少數類定義為正類,具備良好信貸關系的多數類定義為負類。混淆矩陣如表1所示:

表1 混淆矩陣
根據混淆矩陣,相關評價指標如下:
精確率(Pr eci sion)表示被預測為正類的樣本中實際為正類的比例:

召回率(Recall)表示正類樣本被正確分類的概率:

F1值(F1-measure)表示精確率和召回率的加權調和平均,當F1值高時意味著精確率和召回率都高:

G-均值(G-mean)表示正類分類準確率和負類準確率的均衡值:

F1-measure和G-mean表現了分類準確率的高低,ROC曲線下的的面積AU C的大小,體現了模型平均性能的優劣,A U C值越大,模型性能越好。
本文實驗數據集使用從Kaggle獲取的Lending club數據集的一個子集,其中數據集總量90096條,多數類樣本76745條,少數類樣本13351條,不平衡率為0.17。
使用ADASYN算法對數據集進行過采樣后,數據集總量為151026條,多數類樣本76745條,少數類樣本74281條,數據集趨于平衡。
對采樣后的數據集進行分類預測,基于先前研究,采用對比算法為AdaBoost[15]算法,SMOTEBoost[5]算法,AdaBoost-CNN算法[16],其中Ada-Boost算法,SMOTEBoost算法使用決策樹作為基分類器,深度為8,實驗中使用10折交叉驗證方法,將數據集劃分為10份,其中9份作為訓練集,1份作為測試集,重復進行10次實驗,取平均值作為結果。對于ADASYN-AdaBoost-CNN模型與AdaBoost-CNN算法,在訓練過程中將數據集的80%作為訓練集,20%作為測試集。本文ADASYN-AdaBoost-CNN模型實驗過程如圖1所示。

圖1 ADASYN-AdaBoost-CNN模型實驗過程
仿真實驗后,本文提出的模型ADASYN-AdaBoost-CNN和其它對比算法在數據集下得到的評價指標值如表2所示。其中加粗值為當前評價指標下最高值。為了更直觀的表示實驗結果,圖2展示不同算法得到的實驗結果對比圖,圖中橫坐標表示評價指標,縱坐標表示結果取值。

表2 不同算法在數據集上的F值、G-mean、A U C值

圖2 實驗結果對比圖
從上述結果可以看出,本文提出的ADASYN-AdaBoost-CNN模型整體表現最優。在F1-measure評價指標上,4個不同算法結果較為穩定,說明模型的精確率和召回率保持在穩定的狀態。其中,相對于SMOTEBoost算法本文模型的F1-measure提高3%。在G-mean評價指標上,ADASYN-AdaBoost-CNN模型的G-mean達到82.95%,與AdaBoost算法相比提高40%,與SMOTEBoost算法和AdaBoost-CNN算法相比提高30%,說明本文模型對于訓練數據集的正類分類準確率和負類分類準確率較高。在AUC評價指標上,相比SMOTEBoost算法,ADASYN-AdaBoost-CNN模型的AUC值提高57%,與其他兩個算法相比也有明顯提升,說明本文模型的泛化性能較好,能夠針對信用風險不平衡數據集進行有效評估。
針對信用風險評估中數據集不平衡現象,本文應用ADASYN自適應過采樣算法進行數據預處理,減小數據集不平衡程度,并進一步結合Ada-Boost集成算法的魯棒性以及卷積神經網絡的分類準確性,構造ADASYN-AdaBoost-CNN信用風險評估模型。實驗結果表明,與AdaBoost,SMOTEBoost,AdaBoost-CNN算法相比,本文模型實現了對信用風險不平衡數據集的有效評估,有助于借貸平臺降低風險,進而維護借貸系統中良好的運作環境。