白云歌,郭炳暉,米志龍,鄭志明
(北京航空航天大學 a.數學與系統科學學院; b.數學信息與行為教育部重點實驗室;c.大數據與腦機智能高精尖中心,北京 100191)
伴隨著互聯網技術的不斷發展,傳統的民間資本交易、中小企業融資和個人借貸等線下業務在互聯網金融平臺上不斷發展壯大。在具有金融中介性質的互聯網金融平臺中,如何通過網絡及數據分析實現對用戶的信用評價,是目前廣大互聯網金融機構關注的核心技術難題,也是當今的一個研究熱點[1]。根據網絡小額借貸的特點以及其與傳統征信系統的不同點去建立合適的違約風險評價系統,是減少不良交易、促進平臺發展的重要途徑。
信用評價與風險預測是解決上述問題的2個方向。文獻[2]使用統計中的判別分析來評價貸款并提出FICO信用評分體系。近年來,隨著神經網絡模型的建立,較多研究者使用機器學習方法來解決信用評價與違約預測問題[3-4]。但是,使用機器學習方法解決信用問題存在一定局限性,當樣本不足時其無法進行訓練,且效果良好的模型往往復雜且解釋性不強,這限制了分析人員對模型的把控與干預能力。
現有研究以及傳統方法更注重對指標的研究[5],原因是在傳統金融信用評價體系中,多數是金融機構對用戶的單向評價,而在網絡借貸關系中,用戶通過借貸而構成一個復雜網絡并進行互相評價,因此,用戶在復雜網絡中的特征顯然也與用戶信用相關。文獻[6]研究通過手機通訊錄構建靜態網絡。復雜網絡指標,即對網絡中節點的評價,也是該領域的熱門研究內容[7]。其中,各文獻根據不同的側重點來研究節點的重要性,如文獻[8]基于網絡局部結構,文獻[9-10]基于節點在網絡中所對應路徑的屬性,文獻[11-13]基于網絡中影響力的傳播,即網絡中基于迭代的指標等。加入用戶的網絡屬性作為分析違約風險的特征,也是一個新的嘗試。
本文在對具有金融中介性質的某互聯網金融平臺海量用戶數據進行分析的基礎上,引入復雜網絡結構特征作為分析變量以增加分析維度,然后建立使用典型相關分析的用戶信用評價量化模型。將基于社交網絡的互聯網借貸關系與用戶發生債務違約的行為相關聯,給出用戶信用評分策略及相應算法,并通過在實際平臺數據集上的對比實驗,驗證該模型在風險評價維度、違約概率預測等方面的性能。
在P2P互聯網借貸平臺中,用戶的交易是小額且頻繁的,因此,其具有獨有的優勢,即擁有足量的歷史交易數據可以用來構建每個用戶的屬性以及用戶間的關系。
本文構建的風險量化模型如圖1所示,通過歷史交易記錄提取借貸特征與用戶網絡特征,結合違約狀態進行分析得到量化模型,并通過AUC值對模型進行評價和反饋修正。

圖1 風險量化模型流程
在原始數據輸入中,每個記錄都具有多個屬性,用來描述一筆交易的過程,如借入方、借出方、交易金額、債務開始時間等。選擇[T-t,T]時間區間內的原始數據Data作為網絡構建的依據:
Input(t)={(T-t) (1) 將借貸數據中每個用戶對應網絡中的一個節點,每條借貸記錄構成網絡中的一條邊,借出方和借入方分別對應邊的起始點和結束點,以此構建借貸網絡G(V,E)與鄰接矩陣A。在網絡G(V,E)中,V和E分別為節點和邊的集合。A={aij},其中,vi和vj連接時aij=1,否則aij=0。 通過在構建的借貸網絡上應用復雜網絡節點重要性排序方法,得出用戶在網絡結構中對應不同含義的地位,以及用戶交易對象中所含與逾期用戶相關的指標:度中心性(入度、出度),接近度中心性[9],介數中心性[10],特征向量中心性,PageRank值[12],HITs算法權威值與樞紐值[13]。同時,提取用戶歷史借貸記錄中包含違約的記錄,并將違約交易的若干屬性來代表用戶的歷史違約情況,構成基于歷史的用戶信用情況以及目標預測區間內用戶的違約情況O。 應用典型相關分析方法找到一組線性變換使得(I,L)經投影到一維空間時與O的相關系數達到最高,利用這種映射得到一個通過(I,L)預測O值的模型: Predict=f(I,L) (2) 式(2)是一個二分類模型,因此,通過繪制ROC曲線以及計算AUC值的方法來評價該模型。AUC值計算方法如下: AUC=ROC(Predict,O) (3) 因模型f的輸入(I,L)還受到參數t的影響,令M為t的參數,求得對應于f的AUC值的模型,結合數據優化得到最佳模型的時間區間為: t0=argmaxM(Input(t)) (4) 傳統的風險量化算法更注重用戶自身屬性,在P2P網絡借貸中考慮用戶在網絡中的狀態,是本文對傳統方法進行的改進。關于網絡構建數據的選擇,本文通過結合AUC值對模型的評價完成一個反饋過程,以此得到最佳網絡構建數據選擇區間。 風險量化模型所使用的屬性定義如下: 1)借入方(Debtor):交易中借入方的用戶ID。 2)借出方(Creditor):交易中借出方的用戶ID。 3)交易金額(Principal):該筆交易中起始本金。 4)債務開始時間(DebtStartTime):交易達成時間。 5)債務結束時間(DebtEndTime):交易達成時設定的債務償還時間。 6)逾期利息(OverdueInterest):未按債務結束時間償還債務所生成的額外逾期利息值,若按時償還或債務未到期,則此項為0。 以上6項歷史交易記錄特征為本文模型的輸入內容: Input(t)={Data((T-t) 網絡特征I的各項指標定義如下: 1)節點vi的度定義為與該節點直接相連的鄰居數量ki。為比較不同網絡中節點的度,歸一化度中心性(DC)為: (5) 其中,n為網絡G的總節點數,n-1為最大可能的度。對于有向網絡,還可以分別考慮節點的入度和出度。 2)節點vi的接近度中心性(CC)定義為從vi到其他所有節點的最短路徑距離平均值的倒數: (6) 其中,dij表示節點vi與vj的最短路徑。接近度中心性可以理解為信息在網絡中平均傳播長度的逆。 3)節點vi的介數中心性(BC)定義為: (7) 4)特征向量中心性表示一個節點的影響不僅由它的鄰居節點數目來確定,還由每個相鄰節點的影響來確定。節點vi由xi表示其重要性為: (8) 其中,c是比例常數。一般情況下,c=1/λ,λ是鄰接矩陣A={aij}的最大特征值。 5)PageRank(PR)值表示從由網頁之間的關系構成的網絡上,通過隨機行走來區分不同網站的重要性。每個節點獲得一個單位的PR值后這些PR值沿其指向鏈接的鄰居均勻分布。節點vi在t步驟的PR值為: (9) 6)HITs算法考慮網絡中每個節點的2個屬性:權威性和樞紐性。權威性和樞紐性互相加強,一個好的樞紐指向許多權威,許多樞紐共同指向的必是好的權威節點。在有向網絡中,節點的權威得分等于指向該節點的所有節點的樞紐得分總和,而節點的樞紐得分等于由該節點指向的所有節點的權威得分總和。在擁有n個節點的網絡中,分別用ai(t)和hi(t)表示t時間節點vi的權威得分和樞紐得分。初始時刻,所有節點的2個分值均為1。節點vi的權威得分和樞紐得分計算方法分別為: (10) 每次迭代后,對每個節點的2個得分進行標準化: (11) 7)平均鄰居度:節點的鄰居節點度值的平均。 8)一階鄰居違約數:節點鄰居中曾經逾期的鄰居數量。 9)一階鄰居違約率:節點鄰居中曾經逾期的鄰居數量與節點鄰居總數的比值。 違約狀態O由研究目標時刻到之后1個月這一階段時間內用戶是否逾期得出。對于每個用戶,若該時間區間內有交易發生逾期,則該目標值為1,否則為0。 典型相關分析是反映2組變量間相關性的多元統計分析方法,其在所有線性組合中,找到2組變量通過線性組合達到的最好的相關關系組合,并以此實現通過一組變量的數值預測另一組變量數值的目的[14]。 如圖2所示,本文研究變量X=(I,L)與Y=O間的關系。 圖2 典型相關分析模型中的2類變量分析 X、Y線性組合為aTX、bTY。目標為找到向量a,使得指數aTX、bTY間的關系能被量化且易于解釋,即找到最合適的映射向量a、b使2個指數間相關關系最大化(因為此模型中Y為一維變量,所以只考慮X的線性組合或考慮b為常映射): (12) (13) ai、bi為典型相關向量,也是以上最大化問題的解。因此,得出風險量化模型為: Predict=aT(I,L) (14) 對一個二分問題而言,ROC若分為正類和負類,則會出現4種情況:實為正預測為正(True Positive,TP),實為正預測為負(False Negative,FN),實為負預測為正(False Positive,FP),實為負預測為負(True Negative,TN)。真正類率TPR代表判別出的正類占總正類的比例,假正類率FPR代表判別出的負類占所有負類的比例。TPR和FPR計算公式如下: (15) 根據模型給出的評分設定閾值并作為二分的依據。每一個閾值可以算出一組對應的(FPR,TPR),將這2個值的組合作為坐標繪入圖像。閾值最大時對應(0,0),全部實例被劃為負類,隨著閾值減小,劃分為正實例的越來越多,錯分現象也會增多,即(FPR,TPR)增大,直到閾值達到最小時得到坐標(1,1),理想目標點為(0,1)。ROC曲線示意圖如圖3所示,隨機猜測模型結果對應圖中的虛線。 圖3 ROC曲線示意圖 在圖3中,ROC曲線下的面積即為AUC值,AUC值是一個概率值,當隨機挑選一個正樣本與一個負樣本時,現有分類算法根據計算得到的Score值將該正樣本排在負樣本前面的概率值即AUC值。AUC值越大,分類算法越有可能將正樣本排在負樣本前,即能夠更好地分類。 對于本文模型,O值由選定目標時刻到后1個月內交易記錄決定,I、L值由選定時刻之前時間區間內交易記錄決定,且每一組I、L、O可以計算一個ROC曲線及AUC值。AUC值越大,說明通過模型建立的分類器效果越好。 用戶違約情況與用戶網絡特征情況如表1、表2所示。 表1 用戶違約特征基本屬性以及其與違約情況的相關系數 表2 用戶網絡特征基本屬性以及其與違約情況的相關系數 從表1、表2可以看出,從單個特征自身與違約情況的相關系數來看,在歷史違約中提取的相關特征具有明顯的相關性。而網絡特征中只有入度中心性與PageRank值有一定的相關性,其他特征基本沒有明顯的相關性,且因為違約用戶在全部用戶中占比較小,所以所有個人違約相關特征中位數為0。 基于模型效果來分析最佳構成網絡所使用的記錄區間。網絡構建最佳數據區間如圖4所示,在使用1個月~7個月數據時AUC值隨時間選取增長而提高,在7個月之后幾乎趨于穩定并在12個月達到峰值。數據區間為1個月時明顯效果最差,此時使用的數據量較少,很難反映出用戶的實際信用及行為特點。隨著選取數據區間的擴大,模型效果越來越好,但數據區間擴大到一定程度后趨于穩定且使用全量數據模型效果反而會降低。原因是實際網絡中存在動態變化,一味增大數據量而忽視時間的衰減效應,是不合理的。本文認為12個月即一年間的信用及交易記錄是用戶的最佳信用評價區間,即選擇數據區間在12個月左右能夠達到模型效果最佳值。 圖4 模型AUC值與選取數據區間的關系 將原數據進行歸一化后,由2017年4月1日的12個月數據模型分析得到的各特征權重情況如表3所示。由表3可以看出,用戶歷史的違約情況在風險預測中影響最大,而在逾期相關屬性中,最大逾期本金與逾期次數對未來逾期影響較小,累計屬性的影響較大。網絡特征在模型中有較大的影響,其中,特征向量中心性、出度中心性、接近度中心性有顯著的負向權重。 表3 典型相關模型特征權重 本次實驗的數據為某P2P網貸公司中3 345個用戶間的929 403條借貸記錄數據。選定2017年4月1日前12個月的數據作為初始研究對象。實驗數據的基本屬性情況如表4所示。 表4 實驗數據基本屬性 經模型計算出的風險用戶為755人,其風險量化分布如圖5所示。以所有研究特征均為0的空白用戶風險評價值作為分割,高于該值的用戶定義為風險用戶,將風險用戶的預測值進行歸一化。 圖5 風險用戶風險值柱狀分布 2017年5月構建模型的預測權重以及2017年4月模型權重減去2017年5月權重所得差值的情況如表5所示。由表5可以看出,對不同時間區間分析而得到的模型,其權重有一些差異,但模型中指標對結果的影響方向以及指標的權重排序是近似的。 表5 不同時間模型的特征權重以及差值情況 前文所提到的6個典型特征在不同時間的分布情況如圖6所示。由圖6可以看出,不同時間的特征分布差異并不大,即本文中特征的分布對時間具有較強的魯棒性。本文模型與決策樹模型[15]的訓練結果對比如圖7所示。其中,橫坐標代表該次應用測試距離模型生成的時間。由圖7可以看出,本文模型表現更穩定,更具有魯棒性,模型在使用訓練數據分析生成后,應用在之后的數據集上仍然有較好的效果,隨時間推延模型效果衰減緩慢。決策樹模型對訓練集能夠得到很好的效果,但將該模型應用在之后的未知情況時,預測效果降到70%左右,出現了過擬合的現象。鑒于在實際場景應用中,預測風險用戶并采取相應措施是本文的主要目的,因此,可以認為本文模型在此場景下優于決策樹模型。 圖6 網絡特征分布隨時間的變化情況 圖7 2種模型訓練結果對比 違約是互聯網金融平臺中常見的不良行為,不僅會使交易中的一方蒙受損失,對平臺中用戶的交易傾向也會產生不利影響。本文基于典型相關分析模型及用戶復雜網絡特征提取方法,對用戶建立合理的違約風險量化及預測模型,并對用戶的個人特征及網絡特征對違約風險的影響進行分析與評價。分析結果表明,用戶的一些網絡特征對于違約的影響要大于其個人特征。在實際互聯網平臺運營過程中,對于預測風險較高的用戶進行更多的關注與審核,可以有助于對平臺違約率的控制。但本文模型的數據集仍存在一定局限性,下一步將對此進行改進并擴大特征的提取與選擇范圍,以取得更好的預測效果。2 基于典型相關分析與復雜網絡特征的風險量化算法
2.1 模型輸入數據
2.2 特征提取算法



2.3 典型相關分析方法


2.4 效果評價



2.5 模型最佳參數選取


3 實驗結果與分析





4 結束語