鄭浦陽
(華東交通大學(xué),江西 南昌 330013)
最近幾年,以第三方支付、網(wǎng)絡(luò)借貸為代表的互聯(lián)網(wǎng)金融服務(wù)在國內(nèi)迅猛崛起,極大促進(jìn)了我國金融消費(fèi)市場的發(fā)展。金融消費(fèi)市場的擴(kuò)展推動了金融領(lǐng)域的發(fā)展繁榮,同時也為金融機(jī)構(gòu)帶來新的挑戰(zhàn)。這種挑戰(zhàn)來自兩個方面:一方面是客戶層面,當(dāng)前金融產(chǎn)品在互聯(lián)網(wǎng)金融的背景下,融資渠道更為便利,從而導(dǎo)致信用風(fēng)險高,用戶惡意違規(guī)手段不斷更新,這對金融公司造成了潛在隱患。同時,當(dāng)前的信貸審批流程相對落后,對個人信用風(fēng)險的識別和控制能力一般,這也影響到金融公司產(chǎn)品銷售的效率。以往對于金融消費(fèi)者資質(zhì)分析往往集中于消費(fèi)者的收入情況、信貸歷史等因素,很少通過消費(fèi)行為來反饋金融消費(fèi)者的金融素養(yǎng),從而對金融消費(fèi)者進(jìn)行系統(tǒng)評價,本文從金融消費(fèi)者的消費(fèi)行為入手,通過大數(shù)據(jù)的獲取和機(jī)器學(xué)習(xí)方法的應(yīng)用,試圖建立金融消費(fèi)者“信用風(fēng)險”與“消費(fèi)行為”之間的映射關(guān)系,從而為進(jìn)一步對金融消費(fèi)者的金融素養(yǎng)評定提供依據(jù)。
本文的數(shù)據(jù)來源為深圳某金融服務(wù)平臺,獲取的數(shù)據(jù)部分字段經(jīng)歷“脫敏處理”,以保護(hù)用戶隱私。數(shù)據(jù)包括用戶的“消費(fèi)情況”和“信用風(fēng)險”兩個層面,其中“信用風(fēng)險”相關(guān)特征包括用戶的還款行為等信譽(yù)表現(xiàn)狀況。
該平臺提供了2017年1月—2019年1月的信貸數(shù)據(jù),包括訓(xùn)練樣品12萬條,測試樣品1萬條。數(shù)據(jù)共包含3部分:第一部分?jǐn)?shù)據(jù)集(Master文件)是用戶消費(fèi)行為數(shù)據(jù)集,每個樣本包含159個特征字段和1個是否違約的目標(biāo)字段,主要為用戶消費(fèi)的具體類型,其中1個是否違約的目標(biāo)字段,只要有違約記錄則計為1,沒有違約記錄計為0。部分字段的名稱和數(shù)量見表1所列;第二部分?jǐn)?shù)據(jù)集(Consume time文件)是用戶消費(fèi)時間的數(shù)據(jù)集,包括4個字段,見表2所列;第三部分?jǐn)?shù)據(jù)集(Habit_info文件)是表征用戶消費(fèi)習(xí)慣的數(shù)據(jù)集,包括3個字段。
由這3個數(shù)據(jù)文件可知特征變量共167個,預(yù)測是否違約的目標(biāo)變量1個,為典型的二分類問題。特征變量在邏輯上與借款人的消費(fèi)行為習(xí)慣有關(guān),且數(shù)據(jù)量具有一定規(guī)模,滿足了機(jī)器學(xué)習(xí)的一般需要。
1.2.1 消費(fèi)類別統(tǒng)計(見表1)
收集到的消費(fèi)項目,將159個字段分為9個類別,統(tǒng)計不同類別消費(fèi)類型的具體消費(fèi)比重。值得注意的是,單純的統(tǒng)計消費(fèi)額度是沒有意義的,因為不同消費(fèi)者的消費(fèi)行為有較大差異,與自身經(jīng)濟(jì)能力有關(guān)。為了更好地表征消費(fèi)行為這一特征,本文對每一個消費(fèi)類別采用“該類別月消費(fèi)數(shù)額/月消費(fèi)總額”作為衡量特征。
本文獲得的2個較為極端的案例,即月消費(fèi)額超過10 000,和不足2 000的2個案例,二者之間的消費(fèi)能力差異較大,但消費(fèi)比重近似,這反映了二者在消費(fèi)觀念上相似性。值得注意的是,高消費(fèi)者在娛樂類消費(fèi)的比重較高,這與消費(fèi)習(xí)慣有關(guān),也與娛樂項目和基礎(chǔ)生活花銷在價值上的差異有關(guān)。本文從消費(fèi)行為上重點提取的是表征“非理性消費(fèi)”的特征,因此,消費(fèi)能力偏低,娛樂類消費(fèi)或者美妝類消費(fèi)較高的特征更偏重于這一點。這與通常意義上認(rèn)為的“消費(fèi)不理性”的印象一致。
1.2.2 消費(fèi)時間統(tǒng)計(見表2)
對消費(fèi)時間的評估,更多的是反饋消費(fèi)習(xí)慣的一方面特征。通常來說,集中在節(jié)假日、周末消費(fèi)的群體往往有穩(wěn)定的工作情況,這對他們履行金融義務(wù),按期還款提供了便利。長假集中消費(fèi)的群體往往有假日出行旅游的習(xí)慣,這一群體往往有較好的經(jīng)濟(jì)背景,通常情況下逾期還款的可能性不高。相反,發(fā)生在特殊時段(深夜),特殊日期(工作日)的大額消費(fèi)往往可能是緊急情況下的“特殊消費(fèi)”,或者是“失業(yè)群體”的零散消費(fèi),無論是緊急情況下的“特殊消費(fèi)”,或者是“失業(yè)群體”的零散消費(fèi),當(dāng)消費(fèi)占據(jù)很大比重時,都有理由懷疑他們的經(jīng)濟(jì)能力是否可以支持按期還款,因此這一方面的特征在邏輯上與金融信用有關(guān),可作為深度學(xué)習(xí)的輸入層。
1.2.3 消費(fèi)習(xí)慣統(tǒng)計(見表3)
用戶的消費(fèi)習(xí)慣是一個處理后的特征,用以更好地建立目標(biāo)映射。其中,沖動消費(fèi)指數(shù):
Im_con=con_con/month
其中,Im_con為沖動消費(fèi)指數(shù);con_con指代連續(xù)消費(fèi)次數(shù),month為每月。其中con_con連續(xù)消費(fèi)的定義為,在1 d時間內(nèi),同時進(jìn)行5個類別(如表1)消費(fèi)行為。一般來說,短時間內(nèi)進(jìn)行大量跨類別的消費(fèi),往往表征這個人在一定的消費(fèi)環(huán)境和消費(fèi)刺激下“沖動消費(fèi)”行為,實際上這是一個表征“消費(fèi)理性的特征”,不難認(rèn)為,沖動消費(fèi)的人更傾向于逾期還款,或者有較差的金融素養(yǎng)和金融行為。
消費(fèi)集中指數(shù)的計算為:
Fo_con=Lar_amon/month
其中,F(xiàn)o_con為消費(fèi)集中指數(shù);Lar_amon/month為1個月內(nèi)大額消費(fèi)的次數(shù),其中大額消費(fèi)定義為:消費(fèi)額度超過該用戶月平均消費(fèi)總額度20%的消費(fèi)行為(月平均消費(fèi)為1年內(nèi)的月平均水平)。
消費(fèi)分布指數(shù),指消費(fèi)行為發(fā)生集中度,即用戶在該月消費(fèi),集中在任何2個類別的消費(fèi)超過本月消費(fèi)總額度的60%,被認(rèn)定為集中消費(fèi)1次。

表1 消費(fèi)類別統(tǒng)計

表2 消費(fèi)時間統(tǒng)計

表3 消費(fèi)習(xí)慣統(tǒng)計
通過描述性統(tǒng)計分析,對數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)和部分字段內(nèi)容有了邏輯上的認(rèn)識。本章節(jié)將對消費(fèi)者消費(fèi)行為數(shù)據(jù)預(yù)處理、特征工程以及模型調(diào)優(yōu),建立消費(fèi)行為-信貸素養(yǎng)預(yù)測模型,以達(dá)到識別信用風(fēng)險的目的。
在現(xiàn)實的工業(yè)場景中,大部分的數(shù)據(jù)都是不規(guī)整、高缺失的“臟數(shù)據(jù)”,如不處理這種數(shù)據(jù)“噪聲”就直接用于模型訓(xùn)練,效果往往大打折扣。本文通過數(shù)據(jù)清洗、數(shù)據(jù)集成以及數(shù)據(jù)變換等方法,結(jié)合具體業(yè)務(wù)邏輯對數(shù)據(jù)進(jìn)行處理后,從而大幅減少數(shù)據(jù)噪聲,提高訓(xùn)練分類器的性能和準(zhǔn)確率。
2.1.1 缺失值處理
在處理數(shù)據(jù)的過程中,樣本往往會含有缺失值。 這是由于顧客在消費(fèi)過程中,其購買的商品信息或者具體的消費(fèi)項目難以歸類,在判別消費(fèi)類型上有難度。此外,獲得的數(shù)據(jù)庫本身就存在數(shù)據(jù)不完整的問題。對缺失值的處理方面,首先對缺失率大于70%的數(shù)據(jù)進(jìn)行刪除,即Dailishop_和Traval_13,其中Traval_13項目數(shù)據(jù)的缺失與該金融產(chǎn)品及其綁定的旅行服務(wù)企業(yè)之間的數(shù)據(jù)交互問題有關(guān)。去除2個項目后,對剩余缺失值進(jìn)行基于歐氏距離的插值處理。即參照擁有數(shù)據(jù)的樣本數(shù)據(jù),選取該特征大類下(如Travel特征大類)與該確實樣本的其他未缺失特征平均歐氏距離最小的樣本,選取改樣本相應(yīng)值作為缺失樣本值的插值依據(jù)(如表4)。
2.1.2 單一值處理
所謂單一值,就是對各個樣本來說,彼此之間相沒有顯著差異的值,即對目標(biāo)預(yù)測沒有意義的值,本文通過數(shù)據(jù)標(biāo)準(zhǔn)差來反映數(shù)據(jù)的波動情況,結(jié)果顯示,在7個項目上,標(biāo)準(zhǔn)差小于0.1。即這一數(shù)據(jù)在各個樣本之間的表現(xiàn)比較均一,包括“非商業(yè)醫(yī)療保險投入額度”,“消費(fèi)發(fā)生的月份”等。值得注意的是,這些特征從邏輯上,本身就是與“消費(fèi)素養(yǎng)”因素?zé)o關(guān),也符合本文判斷。

表4 缺失值情況統(tǒng)計
2.1.3 重要特征處理
在原始數(shù)據(jù)的訓(xùn)練過程中,本文采用基于樹模型的LightGBM,用以輸出各個特征的重要性。這一重要性特征的篩選對后續(xù)機(jī)器學(xué)習(xí)模型的約束有重要意義。具體過程如下:首先定義訓(xùn)練數(shù)據(jù)集D,定義集合D的經(jīng)驗熵為H(D),對于特征X,條件熵為H(D|X),則特征X的信息增益g(D,X)為H(D)與H(D|X)的差。值得注意的是,熵與條件熵之間的差值為“互信息”,訓(xùn)練數(shù)據(jù)集中類與特征的互信息就等價于決策樹學(xué)習(xí)中的信息增益。獲得的信息增益,往往反映特征的類群性,即信息增益越大,分類能力越強(qiáng)。通過比較信息增益,獲得了重要性最高的10個特征。選取這10個特征與樣本數(shù)據(jù)進(jìn)行對比,剔除缺失該特征的樣本。同時,對于重要性較低(<0.02)的特征進(jìn)行刪除。
特征工程是指將原始數(shù)據(jù)轉(zhuǎn)化為可直接進(jìn)行訓(xùn)練的特征向量的過程。包括數(shù)據(jù)轉(zhuǎn)換、特征提取、特征選擇等方法。特征工程可以有效地簡化數(shù)據(jù)處理的過程,通過建立判別特征來高效地進(jìn)行機(jī)器學(xué)習(xí)。
2.2.1 消費(fèi)時間統(tǒng)計
對于消費(fèi)時間統(tǒng)計,本文收集了消費(fèi)的月份、日期(星期幾)、節(jié)假日、時間等特征,其中月份這一特征通過單一值分析過程已經(jīng)被剔除,對于剩余的幾個特征,本文發(fā)現(xiàn),其中星期六、日可以和短假期合并為一個特征,即“三天以內(nèi)假期”特征,對于長假期特征則保留。具體的消費(fèi)時間,分成12個時段非常繁瑣。由于通過數(shù)據(jù)分析,產(chǎn)生不良金融信用行為的樣本在“9:00-17:00”的消費(fèi)行為比較活躍,因此對于消費(fèi)時間分為兩類:“工作時間”和“非工作時間”,兩類時間的主要劃定依據(jù)為是否在“9:00-17:00時段”,盡管這一時段并不能完全代表“工作時間”。
2.2.2 相關(guān)性分析
高相關(guān)性特征即共線特征,表示特征變量之間高度相關(guān)。一般來說,2個相關(guān)性很高的特征沒有必要作為2個獨(dú)立的特征存在,從而造成“數(shù)據(jù)噪聲”或者增加了數(shù)據(jù)處理難度。
皮爾遜相關(guān)系數(shù)用于衡量變量之間線性相關(guān)的程度,2個變量之間的皮爾遜相關(guān)系數(shù)的計算方法為2個變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商:
ρ(X,Y)=Cov(X,Y)/σXσY
對于相關(guān)性>0.96的特征進(jìn)行刪除。共刪除了6個特征。比如在1個月內(nèi)購買大型消費(fèi)品(商品房、汽車)這一類型的特征與消費(fèi)集中特征,具有前者特征的樣本往往也具有后者特征。因此這一類型特征可以去除,用消費(fèi)集中特征代表即可。
2.2.3 數(shù)據(jù)標(biāo)準(zhǔn)化
為了對數(shù)值去量綱化,并能夠讓不同特征的數(shù)據(jù)進(jìn)行比較。對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,采用最大值做商法,即對于樣本特征值I,比較全部樣本對應(yīng)特征值,選取最大值做商,得出標(biāo)準(zhǔn)化值Istan,從而讓所有樣本數(shù)值在0~1浮動。可以保證輸入值保持在一個相對較小的范圍內(nèi),加快訓(xùn)練速度。同時,也可以避免因為輸入值范圍過大而使權(quán)重過大的情況。
Istan=I/Imax
將以上預(yù)處理和特征工程后的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,通過目前主流的機(jī)器學(xué)習(xí)算法,建立消費(fèi)行為-信貸違約模型。
通過Python人工智能主流模型,利用相應(yīng)數(shù)據(jù)包進(jìn)行計算。其中邏輯回歸模型使用SKLEARN機(jī)器學(xué)習(xí)庫的LogisticRegression算法接口,讀取已處理的結(jié)構(gòu)化訓(xùn)練集和測試集,通過網(wǎng)格搜索窮舉參數(shù)范圍確定最優(yōu)超參數(shù),進(jìn)行數(shù)據(jù)擬合。LightGBM、AdaBoost等模型使用Python專門的相應(yīng)程序包。不同模型的計算結(jié)果中,主要關(guān)注Auc(Area Under Curve)參數(shù),作為模型評估指標(biāo)。通過對比可以得出,在使用的六種模型中,LightGBM的擬合效果最好,邏輯回歸效果最差(如表5)。

表5 不同模型評價對比
為了進(jìn)一步提高擬合效果,本文參照機(jī)器學(xué)習(xí)慣例,使用SKlearn投票機(jī)將邏輯回歸、隨機(jī)森林,SVM,XGBoost等6種模型融合,結(jié)合不同機(jī)器學(xué)習(xí)分類器,采用平均預(yù)測概率(軟投票)來預(yù)測分類標(biāo)簽,提升分類效果。
軟投票模型的Auc值為0.804568,略高于Light GBM模型,反映集成學(xué)習(xí)的融合方式效果較好。
前述特征工程已經(jīng)提取了對違約率產(chǎn)生較大影響的消費(fèi)行為,基于樹模型的LightBGM根據(jù)信息增益、基尼系數(shù)計算來返回特征重要性,也有助于反饋影響違約率的消費(fèi)行為,本文展示了影響違約率的重要性前6指標(biāo),即消費(fèi)行為呈現(xiàn)以下特征的用戶更容易出現(xiàn)違約行為,以下消費(fèi)行為可看作不良消費(fèi)行為(如表6)。

表6 特征工程后的特征重要性
采用ACU值作為模型評估的指標(biāo),集成模型明顯優(yōu)于單一模型。單一模型中,LightBGM與AdaBoost具有良好的擬合效果,對用戶消費(fèi)行為的評估,采用融合模型有助于更準(zhǔn)確地獲得評估結(jié)果。
通過特征工程以及基于樹模型的LightBGM根據(jù)信息增益、基尼系數(shù)計算來返回特征重要性,本文得出了影響到用戶違約行為的不良消費(fèi)行為,其中,本文自建的2個特征“沖動消費(fèi)指數(shù)”和“消費(fèi)集中指數(shù)”占據(jù)較高的兩個重要性,而具體的消費(fèi)項目影響程度相對較低。用戶的消費(fèi)習(xí)慣比消費(fèi)類型更能反映用戶的金融素養(yǎng)和違約風(fēng)險。
本文根據(jù)平臺用戶使用的數(shù)據(jù),通過集成模型在預(yù)測中的準(zhǔn)確率可以達(dá)到94%,這反映模型還有一定的改良空間。更大的數(shù)據(jù)量以及對特征的優(yōu)化,對模型的優(yōu)化將有助于獲得更加精準(zhǔn)的預(yù)測結(jié)果。