999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向互聯網金融平臺的違約風險量化模型

2019-01-02 03:44:52白云歌郭炳暉米志龍鄭志明
計算機工程 2018年12期
關鍵詞:特征用戶評價

白云歌,郭炳暉,米志龍,鄭志明

(北京航空航天大學 a.數學與系統科學學院; b.數學信息與行為教育部重點實驗室;c.大數據與腦機智能高精尖中心,北京 100191)

0 概述

伴隨著互聯網技術的不斷發展,傳統的民間資本交易、中小企業融資和個人借貸等線下業務在互聯網金融平臺上不斷發展壯大。在具有金融中介性質的互聯網金融平臺中,如何通過網絡及數據分析實現對用戶的信用評價,是目前廣大互聯網金融機構關注的核心技術難題,也是當今的一個研究熱點[1]。根據網絡小額借貸的特點以及其與傳統征信系統的不同點去建立合適的違約風險評價系統,是減少不良交易、促進平臺發展的重要途徑。

信用評價與風險預測是解決上述問題的2個方向。文獻[2]使用統計中的判別分析來評價貸款并提出FICO信用評分體系。近年來,隨著神經網絡模型的建立,較多研究者使用機器學習方法來解決信用評價與違約預測問題[3-4]。但是,使用機器學習方法解決信用問題存在一定局限性,當樣本不足時其無法進行訓練,且效果良好的模型往往復雜且解釋性不強,這限制了分析人員對模型的把控與干預能力。

現有研究以及傳統方法更注重對指標的研究[5],原因是在傳統金融信用評價體系中,多數是金融機構對用戶的單向評價,而在網絡借貸關系中,用戶通過借貸而構成一個復雜網絡并進行互相評價,因此,用戶在復雜網絡中的特征顯然也與用戶信用相關。文獻[6]研究通過手機通訊錄構建靜態網絡。復雜網絡指標,即對網絡中節點的評價,也是該領域的熱門研究內容[7]。其中,各文獻根據不同的側重點來研究節點的重要性,如文獻[8]基于網絡局部結構,文獻[9-10]基于節點在網絡中所對應路徑的屬性,文獻[11-13]基于網絡中影響力的傳播,即網絡中基于迭代的指標等。加入用戶的網絡屬性作為分析違約風險的特征,也是一個新的嘗試。

本文在對具有金融中介性質的某互聯網金融平臺海量用戶數據進行分析的基礎上,引入復雜網絡結構特征作為分析變量以增加分析維度,然后建立使用典型相關分析的用戶信用評價量化模型。將基于社交網絡的互聯網借貸關系與用戶發生債務違約的行為相關聯,給出用戶信用評分策略及相應算法,并通過在實際平臺數據集上的對比實驗,驗證該模型在風險評價維度、違約概率預測等方面的性能。

1 風險量化模型

在P2P互聯網借貸平臺中,用戶的交易是小額且頻繁的,因此,其具有獨有的優勢,即擁有足量的歷史交易數據可以用來構建每個用戶的屬性以及用戶間的關系。

本文構建的風險量化模型如圖1所示,通過歷史交易記錄提取借貸特征與用戶網絡特征,結合違約狀態進行分析得到量化模型,并通過AUC值對模型進行評價和反饋修正。

圖1 風險量化模型流程

在原始數據輸入中,每個記錄都具有多個屬性,用來描述一筆交易的過程,如借入方、借出方、交易金額、債務開始時間等。選擇[T-t,T]時間區間內的原始數據Data作為網絡構建的依據:

Input(t)={(T-t)

(1)

將借貸數據中每個用戶對應網絡中的一個節點,每條借貸記錄構成網絡中的一條邊,借出方和借入方分別對應邊的起始點和結束點,以此構建借貸網絡G(V,E)與鄰接矩陣A。在網絡G(V,E)中,V和E分別為節點和邊的集合。A={aij},其中,vi和vj連接時aij=1,否則aij=0。

通過在構建的借貸網絡上應用復雜網絡節點重要性排序方法,得出用戶在網絡結構中對應不同含義的地位,以及用戶交易對象中所含與逾期用戶相關的指標:度中心性(入度、出度),接近度中心性[9],介數中心性[10],特征向量中心性,PageRank值[12],HITs算法權威值與樞紐值[13]。同時,提取用戶歷史借貸記錄中包含違約的記錄,并將違約交易的若干屬性來代表用戶的歷史違約情況,構成基于歷史的用戶信用情況以及目標預測區間內用戶的違約情況O。

應用典型相關分析方法找到一組線性變換使得(I,L)經投影到一維空間時與O的相關系數達到最高,利用這種映射得到一個通過(I,L)預測O值的模型:

Predict=f(I,L)

(2)

式(2)是一個二分類模型,因此,通過繪制ROC曲線以及計算AUC值的方法來評價該模型。AUC值計算方法如下:

AUC=ROC(Predict,O)

(3)

因模型f的輸入(I,L)還受到參數t的影響,令M為t的參數,求得對應于f的AUC值的模型,結合數據優化得到最佳模型的時間區間為:

t0=argmaxM(Input(t))

(4)

2 基于典型相關分析與復雜網絡特征的風險量化算法

傳統的風險量化算法更注重用戶自身屬性,在P2P網絡借貸中考慮用戶在網絡中的狀態,是本文對傳統方法進行的改進。關于網絡構建數據的選擇,本文通過結合AUC值對模型的評價完成一個反饋過程,以此得到最佳網絡構建數據選擇區間。

2.1 模型輸入數據

風險量化模型所使用的屬性定義如下:

1)借入方(Debtor):交易中借入方的用戶ID。

2)借出方(Creditor):交易中借出方的用戶ID。

3)交易金額(Principal):該筆交易中起始本金。

4)債務開始時間(DebtStartTime):交易達成時間。

5)債務結束時間(DebtEndTime):交易達成時設定的債務償還時間。

6)逾期利息(OverdueInterest):未按債務結束時間償還債務所生成的額外逾期利息值,若按時償還或債務未到期,則此項為0。

以上6項歷史交易記錄特征為本文模型的輸入內容:

Input(t)={Data((T-t)

2.2 特征提取算法

網絡特征I的各項指標定義如下:

1)節點vi的度定義為與該節點直接相連的鄰居數量ki。為比較不同網絡中節點的度,歸一化度中心性(DC)為:

(5)

其中,n為網絡G的總節點數,n-1為最大可能的度。對于有向網絡,還可以分別考慮節點的入度和出度。

2)節點vi的接近度中心性(CC)定義為從vi到其他所有節點的最短路徑距離平均值的倒數:

(6)

其中,dij表示節點vi與vj的最短路徑。接近度中心性可以理解為信息在網絡中平均傳播長度的逆。

3)節點vi的介數中心性(BC)定義為:

(7)

4)特征向量中心性表示一個節點的影響不僅由它的鄰居節點數目來確定,還由每個相鄰節點的影響來確定。節點vi由xi表示其重要性為:

(8)

其中,c是比例常數。一般情況下,c=1/λ,λ是鄰接矩陣A={aij}的最大特征值。

5)PageRank(PR)值表示從由網頁之間的關系構成的網絡上,通過隨機行走來區分不同網站的重要性。每個節點獲得一個單位的PR值后這些PR值沿其指向鏈接的鄰居均勻分布。節點vi在t步驟的PR值為:

(9)

6)HITs算法考慮網絡中每個節點的2個屬性:權威性和樞紐性。權威性和樞紐性互相加強,一個好的樞紐指向許多權威,許多樞紐共同指向的必是好的權威節點。在有向網絡中,節點的權威得分等于指向該節點的所有節點的樞紐得分總和,而節點的樞紐得分等于由該節點指向的所有節點的權威得分總和。在擁有n個節點的網絡中,分別用ai(t)和hi(t)表示t時間節點vi的權威得分和樞紐得分。初始時刻,所有節點的2個分值均為1。節點vi的權威得分和樞紐得分計算方法分別為:

(10)

每次迭代后,對每個節點的2個得分進行標準化:

(11)

7)平均鄰居度:節點的鄰居節點度值的平均。

8)一階鄰居違約數:節點鄰居中曾經逾期的鄰居數量。

9)一階鄰居違約率:節點鄰居中曾經逾期的鄰居數量與節點鄰居總數的比值。

違約狀態O由研究目標時刻到之后1個月這一階段時間內用戶是否逾期得出。對于每個用戶,若該時間區間內有交易發生逾期,則該目標值為1,否則為0。

2.3 典型相關分析方法

典型相關分析是反映2組變量間相關性的多元統計分析方法,其在所有線性組合中,找到2組變量通過線性組合達到的最好的相關關系組合,并以此實現通過一組變量的數值預測另一組變量數值的目的[14]。

如圖2所示,本文研究變量X=(I,L)與Y=O間的關系。

圖2 典型相關分析模型中的2類變量分析

X、Y線性組合為aTX、bTY。目標為找到向量a,使得指數aTX、bTY間的關系能被量化且易于解釋,即找到最合適的映射向量a、b使2個指數間相關關系最大化(因為此模型中Y為一維變量,所以只考慮X的線性組合或考慮b為常映射):

(12)

(13)

ai、bi為典型相關向量,也是以上最大化問題的解。因此,得出風險量化模型為:

Predict=aT(I,L)

(14)

2.4 效果評價

對一個二分問題而言,ROC若分為正類和負類,則會出現4種情況:實為正預測為正(True Positive,TP),實為正預測為負(False Negative,FN),實為負預測為正(False Positive,FP),實為負預測為負(True Negative,TN)。真正類率TPR代表判別出的正類占總正類的比例,假正類率FPR代表判別出的負類占所有負類的比例。TPR和FPR計算公式如下:

(15)

根據模型給出的評分設定閾值并作為二分的依據。每一個閾值可以算出一組對應的(FPR,TPR),將這2個值的組合作為坐標繪入圖像。閾值最大時對應(0,0),全部實例被劃為負類,隨著閾值減小,劃分為正實例的越來越多,錯分現象也會增多,即(FPR,TPR)增大,直到閾值達到最小時得到坐標(1,1),理想目標點為(0,1)。ROC曲線示意圖如圖3所示,隨機猜測模型結果對應圖中的虛線。

圖3 ROC曲線示意圖

在圖3中,ROC曲線下的面積即為AUC值,AUC值是一個概率值,當隨機挑選一個正樣本與一個負樣本時,現有分類算法根據計算得到的Score值將該正樣本排在負樣本前面的概率值即AUC值。AUC值越大,分類算法越有可能將正樣本排在負樣本前,即能夠更好地分類。

對于本文模型,O值由選定目標時刻到后1個月內交易記錄決定,I、L值由選定時刻之前時間區間內交易記錄決定,且每一組I、L、O可以計算一個ROC曲線及AUC值。AUC值越大,說明通過模型建立的分類器效果越好。

用戶違約情況與用戶網絡特征情況如表1、表2所示。

表1 用戶違約特征基本屬性以及其與違約情況的相關系數

表2 用戶網絡特征基本屬性以及其與違約情況的相關系數

從表1、表2可以看出,從單個特征自身與違約情況的相關系數來看,在歷史違約中提取的相關特征具有明顯的相關性。而網絡特征中只有入度中心性與PageRank值有一定的相關性,其他特征基本沒有明顯的相關性,且因為違約用戶在全部用戶中占比較小,所以所有個人違約相關特征中位數為0。

2.5 模型最佳參數選取

基于模型效果來分析最佳構成網絡所使用的記錄區間。網絡構建最佳數據區間如圖4所示,在使用1個月~7個月數據時AUC值隨時間選取增長而提高,在7個月之后幾乎趨于穩定并在12個月達到峰值。數據區間為1個月時明顯效果最差,此時使用的數據量較少,很難反映出用戶的實際信用及行為特點。隨著選取數據區間的擴大,模型效果越來越好,但數據區間擴大到一定程度后趨于穩定且使用全量數據模型效果反而會降低。原因是實際網絡中存在動態變化,一味增大數據量而忽視時間的衰減效應,是不合理的。本文認為12個月即一年間的信用及交易記錄是用戶的最佳信用評價區間,即選擇數據區間在12個月左右能夠達到模型效果最佳值。

圖4 模型AUC值與選取數據區間的關系

將原數據進行歸一化后,由2017年4月1日的12個月數據模型分析得到的各特征權重情況如表3所示。由表3可以看出,用戶歷史的違約情況在風險預測中影響最大,而在逾期相關屬性中,最大逾期本金與逾期次數對未來逾期影響較小,累計屬性的影響較大。網絡特征在模型中有較大的影響,其中,特征向量中心性、出度中心性、接近度中心性有顯著的負向權重。

表3 典型相關模型特征權重

3 實驗結果與分析

本次實驗的數據為某P2P網貸公司中3 345個用戶間的929 403條借貸記錄數據。選定2017年4月1日前12個月的數據作為初始研究對象。實驗數據的基本屬性情況如表4所示。

表4 實驗數據基本屬性

經模型計算出的風險用戶為755人,其風險量化分布如圖5所示。以所有研究特征均為0的空白用戶風險評價值作為分割,高于該值的用戶定義為風險用戶,將風險用戶的預測值進行歸一化。

圖5 風險用戶風險值柱狀分布

2017年5月構建模型的預測權重以及2017年4月模型權重減去2017年5月權重所得差值的情況如表5所示。由表5可以看出,對不同時間區間分析而得到的模型,其權重有一些差異,但模型中指標對結果的影響方向以及指標的權重排序是近似的。

表5 不同時間模型的特征權重以及差值情況

前文所提到的6個典型特征在不同時間的分布情況如圖6所示。由圖6可以看出,不同時間的特征分布差異并不大,即本文中特征的分布對時間具有較強的魯棒性。本文模型與決策樹模型[15]的訓練結果對比如圖7所示。其中,橫坐標代表該次應用測試距離模型生成的時間。由圖7可以看出,本文模型表現更穩定,更具有魯棒性,模型在使用訓練數據分析生成后,應用在之后的數據集上仍然有較好的效果,隨時間推延模型效果衰減緩慢。決策樹模型對訓練集能夠得到很好的效果,但將該模型應用在之后的未知情況時,預測效果降到70%左右,出現了過擬合的現象。鑒于在實際場景應用中,預測風險用戶并采取相應措施是本文的主要目的,因此,可以認為本文模型在此場景下優于決策樹模型。

圖6 網絡特征分布隨時間的變化情況

圖7 2種模型訓練結果對比

4 結束語

違約是互聯網金融平臺中常見的不良行為,不僅會使交易中的一方蒙受損失,對平臺中用戶的交易傾向也會產生不利影響。本文基于典型相關分析模型及用戶復雜網絡特征提取方法,對用戶建立合理的違約風險量化及預測模型,并對用戶的個人特征及網絡特征對違約風險的影響進行分析與評價。分析結果表明,用戶的一些網絡特征對于違約的影響要大于其個人特征。在實際互聯網平臺運營過程中,對于預測風險較高的用戶進行更多的關注與審核,可以有助于對平臺違約率的控制。但本文模型的數據集仍存在一定局限性,下一步將對此進行改進并擴大特征的提取與選擇范圍,以取得更好的預測效果。

猜你喜歡
特征用戶評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于Moodle的學習評價
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 伊人成人在线| 亚洲日韩精品无码专区| 麻豆国产在线不卡一区二区| 午夜福利视频一区| 老司国产精品视频| 国产网站免费观看| 国产美女91呻吟求| 2020国产精品视频| 久久频这里精品99香蕉久网址| a级高清毛片| 国产不卡在线看| 国产性生交xxxxx免费| 亚洲欧美日韩动漫| 草逼视频国产| 成色7777精品在线| 精品国产美女福到在线不卡f| 日韩成人午夜| 久久综合AV免费观看| 无遮挡一级毛片呦女视频| 日韩AV无码免费一二三区| 国产精品美女免费视频大全| 69国产精品视频免费| 亚洲国产精品无码久久一线| 2021亚洲精品不卡a| 久久精品国产亚洲麻豆| 免费看一级毛片波多结衣| 亚洲一道AV无码午夜福利| 91在线播放免费不卡无毒| 成人日韩精品| www.91在线播放| 亚洲精品成人7777在线观看| 国产精品3p视频| 女同久久精品国产99国| yjizz国产在线视频网| 久久精品人人做人人爽| 亚洲色欲色欲www在线观看| 在线视频精品一区| 日韩视频精品在线| 国产精品香蕉| 国产91熟女高潮一区二区| 精品国产免费第一区二区三区日韩| 婷婷99视频精品全部在线观看 | 亚洲日本一本dvd高清| 国产精品黄色片| 亚洲精品手机在线| 夜夜操狠狠操| 99爱在线| 国产精品三级专区| 高清无码一本到东京热| 国产午夜精品鲁丝片| 国产91丝袜在线播放动漫 | 久久免费看片| 欧美国产日韩另类| 久久精品这里只有国产中文精品| 中国国产一级毛片| 国产成人av一区二区三区| 欧美精品在线免费| 香蕉久久永久视频| 青青草综合网| 欧美激情综合一区二区| 国产迷奸在线看| 国产精品视频系列专区| 日韩免费成人| 久久久噜噜噜| 久久五月视频| 亚洲专区一区二区在线观看| 欧美a√在线| 三级视频中文字幕| 国产女人在线| 尤物国产在线| 久草视频福利在线观看| 最新亚洲人成无码网站欣赏网 | 亚洲三级a| 国产精品永久不卡免费视频| a级毛片免费网站| 精品一区二区无码av| 97在线免费| 丁香婷婷激情综合激情| 全部无卡免费的毛片在线看| 扒开粉嫩的小缝隙喷白浆视频| 国产va免费精品观看| 国产又粗又猛又爽视频|