魏 力 王子炫
(南京航空航天大學計算機科學與技術學院 南京 211106)
P2P 借款是近幾年新興的借款方式,依托于互聯網行業的迅速發展,P2P 網貸無論是在平臺數量還是用戶數量,都有較為迅猛的增長[12]。P2P 網絡借貸是一種不經由中介機構,個體和個體之間通過網絡平臺直接實現借款,具有無抵押、快捷方便、高收益等優勢[1]。然而,也正是由于其使用門檻低的特點,在面對魚龍混雜的用戶時,不免會出現違約現象。如今,一些平臺設置了風險準備金作為出借人的風險保障[3],但是,這些沒有從根本角度去解決違約問題。為了規避可能存在逾期行為的客戶,信用評分一直是傳統金融行業的評價標準[2]。信用評分本質上就是對某一群體以某種模型劃分為不同組,對劃分“好”客戶和“壞”客戶具有直接高效的優勢。然而,如果只是以一種模型預測客戶的信用評分,并不能很好地刻畫出客戶的“形象”,在預測準確率上也是不盡人意。本文建立標簽模型,利用機器學習技術,通過規則推導生成客戶標簽,從而描述出客戶畫像,結合特征篩選后的用戶屬性,完成信用等級和是否會逾期的預測。
Wang 等[4]通過計算變量之間的互信息來構建最大權重生成樹(NWST),并結合Bayes 算法完成了對用戶是否會如期還款的預測,效果頗為顯著;Zhao 等[5]通過修改傳統的基于用戶協同過濾的模型來為出借人生成特定的候選借款人列表,并根據出借人現有的資金為每個候選人分配權重,合理規避風險;另一方面,Wu 等[6]從借款人角度出發,提出了一種智能的P2P借貸決策系統,通過為借款人提供個人風險評估、合格出借人的搜索列表、貸款組合和貸款推薦,幫助借款人更有效地獲得貸款。基于機器學習的模型,以“二分類”預測為出發點,僅完成了好、壞客戶的預測。然而,無論是對于出借人還是平臺來說,是否會逾期并不是評價“好、壞”的唯一標準。而從客戶畫像角度出發,通過挖掘用戶屬性,推導出標簽生成規則,能夠對客戶有一個立體的刻畫。
標簽是用極短的語言去概括事物的特點,根據描述的角度,大致可以分為“同類標簽”和“異類標簽”。“異類標簽”是指描述事物的不同特點,比如在形容一家公司時,可以貼上“有限責任公司”、“外資企業”等標簽。“同類標簽”是指在形容事物的某個特點時進行細致劃分,比如在形容一個學生時,會有“成績好”、“成績一般”、“成績差”的學生。“同類標簽”在機器學習中就是分類任務,基于規則的分類可以視為用一組“IF...Then...”規則對目標進行分類[7]。其中IF部分稱為規則的前件或前提,Then部分稱為規則的后件或結論,規則的前件可以是屬性的合取,如式(1)所示,規則前件由邏輯文字fi組成,規則結果則為f 。

為了生成客戶標簽,本文中使用了三種方式來構建標簽模型,分別是定量分析、監督學習和聚類判別。
對于由少量屬性定義且分析較為簡單的標簽,可以直接使用定量分析法。即對于由少數簡單屬性可直接推導得出的規則,根據標簽設定的特性和屬性(連續屬性先離散化)在各區間的分布情況,直接得出映射關系。在本文的模型中,“借貸情況”標簽由“房貸”和“車貸”兩個屬性推導而成,如果兼具兩者則為“嚴重”,有其一則為“輕微”,兩者皆無則為“無”。規則可以描述為

當標簽不能通過簡單地屬性定量推導生成時,標簽與屬性間的聯系可以通過監督學習來顯式表達[13]。機器學習中,決策樹是一個預測模型。它代表的是屬性與類別之間的一種映射關系[8]。樹中每個節點表示某個屬性,而每個分支叉路徑則代表可能的屬性值,而每個葉節點則對應從根節點到該葉節點所經歷路徑的類別的值。因此,使用決策樹算法去解決分類任務時,得出的決策樹模型的分裂規則即為標簽的推導序列。基于決策樹提取分類規則,可以將根節點到葉節點的路徑轉換為IF-THEN規則,如圖1所示。

圖1 決策樹規則示例
決策樹分類是個監督學習,而在數據集中只有收入等級有類別標注。為了完成其他標簽的標注,在選定標簽關聯的屬性后,提取一部分數據由5 個志愿者根據標簽含義和屬性值獨立標注,對于某條記錄,當有4 個以上的志愿者的標注相同時,則確定該樣本記錄的標簽,否則提出異議,商量重新標注[14]。
根據此類方法生成的標簽有“財產狀況”、“拖欠行為”、“忠誠度”和“持續收入能力”。其中與標簽相關聯的屬性如表1 所示,部分由決策樹生成的推導規則如表2所示。
當想分析一個借款人對平臺來說屬于哪種類型時,“同類標簽”并不能很好地表述,因而不能通過人工標注來完成任務。本文采用客戶的借款次數和平均借款額進行分析。將借款人的這兩個屬性利用K-Means進行聚類分析,將K分別設置為3、4 和5 進行實驗。當K 設置成4 或5 時,分別抽取不同簇內樣本進行觀察。將借款人依借款次數和平均借款額劃分類別過多時,簇內數據會過于紊亂,無規律可循。當K 設置為3 時,分別在三個簇內抽取一定量的樣本,如表3所示。

表1 標簽的關聯屬性

表2 標簽規則

表3 不同簇內抽樣示例
從表3 中可以看出,簇1 內的用戶擁有借款次數低,平均借款額小的特點,即使違約,對平臺的風險沖擊較小,需要培養用戶粘度,增加用戶的使用次數。因此,這類用戶可以用“培養型客戶”的標簽來描述、簇2 內的用戶則是借款次數較高,平均借款額不高,屬于正常用戶,擁有一定的平臺使用粘度,卻不會有過高的借款額。那么,這類客戶可以貼上“一般客戶”的標簽。簇3 內的客戶平均借款額則明顯相對較高,這種客戶在高額借貸的情況下,卻多數只有一次的借款記錄。如果出現違約情況,將會對平臺造成較大的風險沖擊,這類客戶有著“易損型客戶”的特點。
將聚類后帶有標注的樣本作為訓練集,同樣用決策樹訓練,利用監督學習(3.2 節)的方法生成標簽規則的推導公式。發現決策樹規則符合客戶類型特點,得到的推理規則也驗證了之前標簽設計思想。這些標簽定義為“客戶類型”,描述如表4 所示,具體的標簽規則如圖2所示(0為易損型客戶,1為一般客戶,2為培養型客戶)。

表4 客戶類型
為了驗證提取標簽能夠有效地刻畫客戶,且對平臺風險預測有輔助作用。本文首先根據標簽規則對樣本進行標簽標注,之后僅利用標簽來完成客戶信用等級的預測,并結合特征篩選后的屬性完成是否會逾期的預測(詳見第5節)。

圖2 客戶類型決策樹
在機器學習實際應用領域中,經常會出現特征屬性過多的情況,這些屬性有的是與預測結果毫不相關的,有的彼此間存在相關性[15]。屬性維度的擴張會對學習過程造成相當多的困擾,繁雜的特征屬性會增加模型的訓練時間,模型也會更復雜,甚至會讓模型的魯棒性降低,預測樣本微小的變化會引起結果巨大的波動[16]。因此,在訓練模型前,特征篩選工作變得尤為重要,本文利用一種基于遺傳算法的特征選擇方法對信息認證屬性進行篩選,將結果與使用信息增益(Information Gain)和IV 值(Information Value)做特征選擇來比較。信息增益與IV值的定義如下。
在信息增益中,衡量一個特征好壞的標準是看特征能夠為分類系統帶來多少信息,帶來的信息越多,該特征越重要。所謂信息量,就是熵[9](如式(2)所示)。那么一個分類系統在擁有這個特征和沒有時信息量將發生的變化就稱為“增益”。這個差值即為信息增益的計算公式,其中D 為樣本數據,| D |為樣本數據總數,特征C 有k 種取值,根據特征A 的取值將D 劃分為n 個子集Di,g(D,A)即為特征A 對數據集D 的信增益。

IV 值是指信息價值,能夠反映變量的區分能力[10],其計算公式如下所示。其中WOE(Weight of Evidence)是指原始自變量的一種編碼形式,反映了自變量對未響應比例的影響。其中P(yi)為屬性y 取值為i 分組時響應樣本占所有響應樣本的比例,P(ni)則為屬性y 在取值為i 分組時未響應樣本占所有未響應樣本的比例。

用信息增益和IV 值去做特征選擇,本質上是依據特征對分類系統貢獻的大小來評定一個能力分數,并沒有考慮后續的學習模型,屬于filter方法[11]。特征選擇的另一種方法是將特征的篩選看作子集搜索尋優問題[17],利用搜索方法生成一個特征子集,后以評價函數來衡量該子集的好壞,再決定是否繼續迭代搜索。本文利用遺傳算法作為子集選擇的優化方法,以子集在算法應用后的分類準確率(Accuracy)作為適應度函數。特征選擇算法步驟如下:
輸入:原始數據集TrainSet。
過程:
1)輸入訓練樣本TrainSet,設置種群數M,最大迭代次數N,變異率α;
2)隨機設置初代染色體;
3)While i<N;
4)根據染色體編碼生成篩選后的子集,套用算法模型,得出在測試集上的Accuracy;
5)直接保留上一代的最佳染色體(Accuracy最高)
6)根據輪盤賭原則每次選擇兩條染色體,從隨機位置交換染色體編碼;
7)若隨機數小于α,進行變異操作,即在隨機位置對編碼取反;
8)若適應度函數連續3代維持不變,跳出循環;
End while;
輸出:最后一代最優染色體編碼χ。
在認證信息數據集上比較這幾個特征選擇算法的優劣,為了保證公平性和普適性,在確定各個特征的信息增益和IV 值后進行排序,在前八個特征中,依次分別加入特征子集中,構筑八種不同的數據集,以峰值為該算法的最終表現能力。

圖3 filter方法子集的Accuracy

表5 不同特征選擇方法的比較
從表5 中可以看到,基于遺傳算法的特征選擇在處理分類任務方面有著絕對的優勢。一方面,遺傳算法具有良好的全局搜索能力,適應度函數可以快速篩選特征子集,具有隨機性的變異操作不會讓搜索過程陷入局部最優解的快速下降陷阱。并且利用它的內在并行性,可以加快求解速度。另一方面,信息增益和IV 值在考慮特征分類能力時,只單獨考慮本特征的效果,并沒有聯系其他特征。而遺傳算法的個體編碼則在子集搜索的過程中同時將多個特征放入模型中,并以模型的結果作為優勝劣汰的依據,自然在分類任務中會有更好的表現。
本文選用來自某網貸平臺2016~2017 年的借貸客戶的數據集,包含逾期次數、逾期金額等58 個關鍵字段。樣本總數為14311。字段屬性可以分為兩大類,其一是客戶的個人屬性信息、工作信息、歷史借款信息等與客戶在平臺借貸相關的信息共34 個;其二是認證信息包括手機號認證、照片認證等可以為客戶信息真實性作證的信息共24個字段。
實驗步驟:
1)對原始數據集進行處理,使用遺傳算法篩選特征,構建特征數據集。
2)在特征數據集的基礎上應用標簽規則為每個客戶都打上相應的標簽,將此數據集稱為標簽數據集。
3)分別在特征數據集和標簽數據集上套用分類算法(NaiveBayes、SVM、J48),并進行比較。
4)提取每個客戶的標簽,以標簽作為特征,并附上客戶的信用等級作為分類目標,構建純標簽數據集。
5)在純標簽數據集上應用分類算法(Naive-Bayes、SVM、J48),測試標簽能否有效刻畫用戶。
表6 是使用遺傳算法進行特征選擇后的最佳子集。在數據集上分別利用常見的機器學習算法的效果如表7 所示。可以看到在結合標簽數據后各算法模型有了不同程度的提高。其中,SVM表現最為出色,SVM 將非線性問題映射到高維空間,而后尋找出能夠劃分類別的超平面,在本文的二分類問題上有較好適用性。然而,SVM 是個“黑箱模型”,在決策階段不具有可解釋性。J48決策樹則如前文的規則生成一樣,在擁有不低的準確率的同時,又能將劃分類別的過程明確地展示出來。同時,從表8 可以看到,只利用客戶標簽就能對信用等級有較好的預測,也驗證了本文標簽模型的有效性。

表6 提取的主要信息特征

表7 特征子集預測違約比較

表8 標簽數據集預測信用等級
在傳統P2P 貸款風控模型的基礎上建立了一套標簽體系。利用三種不同的方法構筑推導規則,該標簽規則與神經網絡、支持向量機這樣的“黑箱模型”相比,有更好的可解釋性,能使決策者更直觀地對判別過程有所了解。另一方面,標簽從多種維度刻畫了用戶,不再像傳統的風控模型一樣做簡單的信用預測,對客戶有深入的剖析。本文還利用了基于遺傳算法的特征選擇去處理客戶數據,發現借款總額、逾期次數、收入等特征在決策中有較為關鍵的作用。通過將特征選擇后的數據與結合標簽的數據集進行比較,實驗表明,標簽模型還能夠有效提高預測精度,完善風控模型。