基于遷移學習的信用評分預測①

2020-11-24 05:46:26魏千程吳開超

計算機系統應用 2020年11期

魏千程,吳開超,劉瑩

1(中國科學院計算機網絡信息中心,北京 100190)

2(中國科學院大學,北京 100049)

對客戶進行信用評分是金融機構開展業務的重要保證,是金融機構長期關注的核心問題.一個好的信用評分模型,能幫助金融機構對客戶進行準確識別,繼而規避可能發生的風險,獲得更高的利潤.

隨著互聯網時代的來臨,互聯網金融信貸業務也得到了廣泛的發展.互聯網金融機構在開展信貸業務的同時,也面臨著一些客戶由于主觀惡意欺詐或者其他客觀原因無法及時還款而帶來的風險問題,因此對信貸業務進行風控建模是必不可少的.互聯網金融機構通常會開展多項不同的信貸業務,其中一些新開展的業務由于缺少相應的客戶數據而存在無法利用傳統機器學習方法進行有效建模的 “冷啟動” 問題.如何根據互聯網金融機構已開展的擁有一定數量客戶信息的信貸業務幫助新開展的業務進行建模是一個既有應用價值又值得廣泛探究的領域.

本文針對互聯網金融機構實際業務中存在的樣本數量少以及模型 “冷啟動” 問題,并根據實際數據情況(大量已有業務數據及少量新開展業務數據),提出了一種基于遷移學習的信用評分模型.首先引入Triplet-Loss表征學習[1]網絡結構對數據進行重新編碼,再加入領域適配模塊[2]以進一步拉近兩類業務數據在特征空間內的距離,而后通過fine-tune 技術實現了不同業務數據之間的知識遷移.相較于單獨利用新開展業務數據進行建模,利用本文模型在信用評分預測效果上得到了一定的提升,在一定程度上解決了該問題.

1 相關工作

1.1 信用評分模型

信用評分模型經歷了3 個階段的發展:分別是定性分析、描述性統計分析以及數據挖掘分析[3].定性分析是早期的信用評分方法,而后基于描述性統計分析的方法被引入到信用評分中.隨著計算機性能的提高和人工智能技術的發展,利用數據挖掘手段進行信用評分逐漸成為主流方法,通過對客戶行為特征、資產能力以及其他屬性信息進行深度挖掘,提煉出大量反應客戶還款能力的特征,并將各種特征信息進行綜合,從而對客戶的信用表現進行預測.如賈中明等基于梯度提升決策樹模型進行信用風險評測[4];都紅雯等基于SVM 和Logistic 組合模型建立的風險評估模型[5].

1.2 遷移學習

遷移學習作為機器學習的一個研究方向已經得到了長足的發展,其基本思想是將已學習到的知識應用于新的任務當中,使得新任務在樣本數量少的情況下能夠獲得更好的建模效果,正適用于本文提出的問題.遷移學習中的數據分為源領域數據以及目標領域數據,其中源領域數據即為已有大量樣本的數據,目標領域數據為目標任務所用的數據.遷移學習的核心目標就是找到源領域數據和目標領域數據之間共通的知識特性,縮小兩個領域數據的差距,利用源領域數據的知識提高目標領域數據在目標任務中的表現.

遷移學習方法可分為4 類:基于實例的遷移學習、基于特征的遷移學習、基于模型的遷移學習以及基于關系的遷移學習[6].基于實例的遷移學習通過權重重用,加大源領域數據中與目標領域數據相似的樣本并將其填充到目標領域中,實現對目標領域數據擴展.基于特征的遷移學習是將源領域數據和目標領域數據的特征通過變換,映射到同一空間中,使它們更加相似.基于模型的遷移學習主要用于神經網絡中,利用源領域數據先訓練好一個模型,再將目標領域數據直接輸入該模型.基于關系的遷移學習是利用不同領域數據的關系類比,不適用于本文提出的問題.

隨著深度學習的方法的興起,利用深度神經網絡進行遷移學習的研究也越來越多的被研究人員所關注.來自康奈爾大學的Yosinski 等[7]率先進行了深度神經網絡可遷移性的研究并證明了神經網絡的可遷移性.深度遷移學習具有可以自動化提取表現力更好的特征等優勢,可以實現基于特征和基于模型的遷移學習.

2 基于遷移學習的信用評分模型

本文的建模場景是借助樣本數量多的信貸業務數據提升樣本數量少的信貸業務的建模效果.Razavian等做過由卷積神經網絡提取特征作為SVM 分類器輸入的研究,顯著提高了圖像分類的效果[8].借鑒Razavian利用神經網絡提取特征再輸入分類器的研究思想,本實驗整體結構也分為兩部分,第1 部分神經網絡實現特征提取,第2 部分為XGBoost 分類器.針對數據特性和任務需求,構建如圖1所示信用評分模型.

圖1 信用評分模型

模型整個流程可分為Triplet-loss 表征學習、領域適配、模型fine-tune、分類器預測等步驟.其中表征學習、領域適配以及模型fine-tune 等深度學習方法實現了對樣本的重新編碼,之后將重新編碼后樣本數據輸入XGBboost 進行分類.前3 個步驟的深度學習方法詳細過程如下:模型通過Triplet-loss 實現對數據的表征學習,使數據特征變為更易于分類的編碼形式;在領域適配步驟,首先計算源領域數據和目標領域數據的數據分布距離,再以該距離作為優化目標,不斷縮小兩類數據之間的分布距離;將源領域數據經過網絡訓練后得到的模型保存,通過fine-tune 技術(在此過程中,預訓練模型的自適應層會被刪除)實現將源領域數據中學習知識遷移到目標領域數據中.

2.1 Triplet-loss 表征學習

Triplet-loss 最早提出是為了解決人臉識別領域的問題,由谷歌公司的Schroff 等提出,是對樣本進行新的編碼表示的過程,目的是讓數據中類別相同的樣本在新的編碼空間中距離更近,類別不同的樣本在新的編碼空間中距離更遠.本文實驗本質是一個二分類的任務,故選用Triplet-loss 使樣本根據類別不同而以更易于分類的特征編碼表示出來.

Triplet-loss 基于Triplet Network[9]的網絡結構,并提出了新的損失函數.其網絡結構是由3 個參數共享的網絡模塊組成,如圖2所示.

圖2 Triplet-Loss 網絡結構

Triplet-loss 原理如下:

(1)輸入一個三元組 ,其中a是目標樣本,p是與a同類的正例樣本,n是與a不同類別的負例樣本.

(2)三元組分別經過三個網絡模塊后得到各自的Embedding 向量表示.

(3)計算Triplet-loss 損失函數并進行反向傳播.

Triplet-loss 公式為:

其中,loss為損失函數,d(a,p)代表目標樣本a和正例樣本p的之間距離,d(a,n)代表目標樣本a和負例樣本n之間的距離,margin是自定義超參數,代表兩類距離的最小差值.

(4)通過最小化上述損失函數,實現d(a,p)=0以及d(a,n)>d(a,p)+margin.達到縮小同類樣本特征距離的,加大不同類別樣本特征距離的目的.

2.2 領域適配

領域適配即數據分布自適應,是最常用的一類遷移學習方法.其基本思想是,針對源域數據與目標域數據的數據概率分布不同問題,通過一些變換拉近兩類數據分布的距離,使它們的數據分布趨于相同.在構建本文模型時,雖然兩類數據存在業務上的聯系,但是他們的數據分布并不相同,因此在對源領域數據進行訓練時加入領域適配工作,將源領域數據的數據分布向目標領域數據拉近,以期使源領域數據面對目標領域數據有更好的知識表達,更好的發揮遷移學習的作用.

在本文的實現中,在Triplet 網絡中間加入領域自適應計算,實現領域適配的目的.在加入自適應層之后,網絡的損失函數為:

其中,loss為損失函數,Ds指源領域數據,ys指目標領域標簽,Dt指目標領域數據,lc(Ds,ys)表示源領域數據的常規損失函數,即式(1)所示損失函數,lA(Ds,Dt)網絡的自適應損失函數,如式(3)所示.后一部分是傳統深度學習中所不具有的部分,表示源領域數據與目標領域數據的分布距離損失函數.λ是超參數,用來衡量兩部分損失函數的權重比值.

深度網絡自適應包括兩個主要方面:一方面是上面提到的自適應層選取,決定網絡的學習程度,加州大學伯克利分校的 Tzeng 實驗[10]得出自適應層放在網絡倒數第二層取得的效果最優;另一方面是采用什么樣的自適應方法(度量準則),決定網絡的泛化能力.

最大均值差異MMD 度量是由Borgwardt 等[11]提出的判斷兩類樣本是否屬于同一個總體分布的指標.它是一種核學習方法,度量在再生希爾伯特空間中兩個分布的距離.MMD 是領域適配方法中常用的度量準則,被很多學者應用在遷移學習領域.本文也選用MMD方法作為領域適配過程的度量準則.訓練源領域數據模型時,在Triplet-Loss 網絡后面添加領域自適應層,計算源領域數據和目標領域數據之間數據分布的距離,并將該距離作為網絡總損失函數的一部分,從而實現領域適配.兩個隨機變量的MMD 平方距離為:

其中,MMD2(X,Y)表示兩個隨機變量的MMD 平方距離,n1和n2分別表示源領域數據集和目標領域數據集,xi和yj代表源領域數據集和目標領域數據集中的樣本,φ(·)用于把原變量映射到再生和希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS),希爾伯特空間表示為H.

2.3 Fine-tune

Fine-tune 也是深度學習在遷移學習應用中的重要概念.具體方法是利用已經訓練好的網絡模型,針對自己的任務進行相應調整,從而實現在目標數據較少或者訓練成本較高時,提高模型的效果或訓練效率.本文實驗中,先對源領域數據進行特征編碼表示訓練之后刪除領域適配層網絡并保持其他參數不變,之后采用fine-tune 技術,將目標領域數據輸入到模型中,對模型進行調整.

圖3所示為fine-tune 示意圖,該網絡結構分為輸入層、隱藏層和輸出層,其中fine-tune 過程是針對隱藏層網絡的.具體原理如下:

(1)將已訓練網絡模型的參數作為目標任務的初始化參數.

(2)根據目標任務和數據,對已訓練網絡模型隱藏層從前往后擇取適當的層數進行參數凍結保持不變.

(3)剩余部分隱藏層網絡作為遷移層,用目標數據對遷移層參數重新訓練.

圖3 Fine-tune 過程圖

2.4 XGBoost 算法

XGBoost 是一種梯度提升決策樹算法,它在殘差擬合的過程中會生成多個弱分類器,再通過boosting 將多個弱分類器進行集成得到一個強分類器[12].XGBoost通過對損失函數二階泰勒展開從而引入二階導數信息的方法進行優化,以使得模型訓練能夠更快的得到收斂.XGBoost 額外引入正則項防止過擬合現象的出現.

XGBoost 具有模型可解釋性、輸入數據不變性、易于調參等特點,適用于表格數據.同時由于良好的內存優化、緩存機制等因素,XGBoost 的計算速度也非常快,有良好的性能.

3 實驗與分析

3.1 實驗數據及實驗參數

本實驗采用的數據集為前海征信 “好信杯” 大數據算法大賽公開的脫敏數據集.數據集分為兩類,分別是4 萬條信用貸A 數據和4 千條現金貸業務B 數據.A 數據是借款人憑借自己的信譽獲得貸款批準發放,無需提供抵押物品.B 數據是發薪日貸款有額度小、周期短、無抵押、流程快、利率高等5 個特點.本實驗就是利用業務A 和業務B 之間的關聯性,通過將業務A 數據學習到相關知識并遷移到業務B 任務中,提高業務B 的信用評分模型水平.數據樣本類別分布如表1所示.

表1 數據集樣本分布表

兩類數據集擁有過相同的字段,主要包括業務產品特征、用戶是否具有某些網絡行為以及用戶自身屬性等三類樣本特征.其中產品特征與網絡行為特征是類別特征,用戶自身屬性既有類別特征也有數值特征.

參數設置上,我們設置了具有4 個隱藏層的全連接神經網絡,其中每層的維度分別為256、256、128和64,使用tanh 激活函數;為了抑制過擬合,加入了dropout 層,比率為0.5;調整MMD 損失權重的λ參數設置為0.2;XGBoost 部分,設置最大深度為5,迭代10 輪,樹的數目為100.

3.2 評估指標

因實驗數據集樣本存在數據不平衡的問題,故選用F1 值作為模型性能的評價指標.F1 值兼顧精確率和召回率,同時讓兩個指標達到相對的最高值,是一個平衡的評價指標.F1 值的公式如下:

3.3 實驗結果

首先進行消融實驗來確定我們提出模型中的每個組件的重要性.

(1) Our:包含本模型所有組件.

(2) Our-t:Triplet-loss 起到對原始數據重新編碼,拉近同類數據類內距離,拉大異類數據類間距離的作用.該模型驗證Triplet-loss 表征學習對遷移性能的影響.作為對比實驗,保持模型其他部分不變,將Triplet-loss部分網絡結構替換為全連接層神經網絡.

(3) Our-m:領域適配遷移學習思想的體現,起到縮小源領域數據與目標領域數據整體數據分布的作用.本實驗驗證領域適配對遷移性能的影響.作為對比實驗,保持模型其他部分不變,單獨去除適配層網絡.

表2上面部分顯示了該消融實驗的結果.可以看到Our 方法比Our-t 方法的F1 值高2.2%,證明了Tripletloss 表征學習的有效性.同時Our 方法比Our-m 方法的F1 值高1.2%,證明了領域適配的有效性.

表2 實驗結果F1 對照表

其次將提出的模型與傳統非遷移學習建模基準方法[13]進行比較,直接將目標領域數據放入XGBoost 模型中做分類預測.

表2最后一行顯示顯示了比較的結果.我們可以看到Our 方法優于已有基準方法.具體來說,該模型比XGBoost 的F1 值提高了2.4%,證明了運用遷移學習的模型比未進行遷移學習的模型效果更好.

4 結語

本文針對互聯網信貸中常見的模型 “冷啟動” 問題進行了利用遷移學習去解決的相關探索,并提出了基于遷移學習的信用評分模型.我們的模型相較傳統非遷移學習方法有一定的提升效果,為解決相關問題提供了一定幫助.在模型方面,我們應用了圖像識別領域的Triplet-loss 表征學習,并驗證了該方法的有效性;在預訓練源領域數據時進行了領域適配工作,使源領域數據從數據分布上更接近目標領域數據,對該方法的有效性也進行了驗證,實現了基于模型遷移和基于特征遷移兩個方面的探索.