999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征選擇算法的個人信用預測模型

2022-06-23 11:11:36查志成梁雪春
計算機工程與設計 2022年6期
關鍵詞:特征

查志成,梁雪春

(南京工業大學 電氣工程與控制科學學院,江蘇 南京 211816)

0 引 言

隨著互聯網金融的飛速發展,個人信用數據的規模變得極其龐大。高維數據會使計算復雜度增加,訓練效率低下[1]。特征選擇算法通過選取優質特征,降低數據集特征維度,提高分類效率和準確率,且有去噪、防止過擬合的作用[2]。同時,降維后的模型具有更低的時間成本,也更容易被理解和解釋[3]。

最初,學者們以實際數據為依托,通過算法進行智能篩選特征。張永梅等[4]通過mRMR算法來選擇合適的特征,改善了XGBoost(extreme gradient boosting)的預測準確率。曾鳴等[5]通過卡方檢驗計算出每一個特征與類別的相關性,剔除無關的特征。近年來若干方法相互組合來篩選特征成為主流,陳諶等[6]提出了RFG-χ2來對特征進行選擇,并應用在支持向量機上,得到最佳屬性集且有很好的預測效果,但是沒有考慮是否存在冗余特征。王名豪等[7]提出了RF-GBDT算法,得到的最優特征子集作為XGBoost的輸入,分類效果比特征選擇之前更佳,但是未考慮特征與標簽之間的相關性。劉啟川等[8]使用卡方檢驗和信息增益計算特征貢獻度并設定閾值篩選特征,但是該算法沒有結合搜索策略,選出更好的特征。

針對以上問題,本文提出了基于皮爾森相關系數和MI-GBDT的結合搜索策略的最優特征子集的選擇方法,并將此算法應用于Lending Club平臺公開的2016年~2020年的部分貸款數據上,為預測模型篩選出最優特征子集。

1 理論基礎

1.1 皮爾森相關系數

皮爾森相關系數(Pearson correlation coefficient,PCC)是統計學3大相關系數之一,用于考察兩變量之間的線性關聯程度。對于兩個隨機變量X=(x1,x2,…,xn),Y=(y1,y2,…,yn), 樣本的皮爾森相關系數如式(1)

(1)

r的絕對值越大則兩變量越相關;r的正負值表示兩變量是正相關還是負相關;當r為0時表示兩變量無相關性,當r為1或-1時表示兩變量完全相關。

1.2 互信息理論

互信息(mutual information,MI)常被用來對特征間的相關性進行評價,是一種有效的信息度量方法[9],它可以反映兩變量之間的線性與非線性關系。設兩個離散型隨機變量X=(x1,x2,…,xn),Y=(y1,y2,…,yn), 且p(x,y),p(x),p(y) 分別為 (X,Y) 的聯合分布函數,X的邊緣分布函數,Y的邊緣分布函數,則X,Y的互信息I(X;Y) 定義為

(2)

從式(2)可以看出,I(X;Y) 的意義是X,Y共享信息的一個度量,即如果知道其中一個變量,對另一個變量不確定度減少的程度。例如,若X,Y相互獨立,那么知道X并不能對Y提供任何信息,則它們的互信息為0。

1.3 梯度提升決策樹模型

梯度提升決策樹(gradient boosting decision tree,GBDT)是由Friedman提出并改進的集成學習算法[10],由多顆決策樹組成,是梯度提升(Gradient Boosting)和決策樹結合后的應用。GBDT中梯度提升采用了最速下降的近似方法來擬合回歸樹,用損失函數的負梯度近似表示Gra-dient Boosting中的殘差,決策樹采用了CART回歸樹。

設訓練集S={(x1,y1),(x2,y2),…,(xN,yN)}, 損失函數為L, 最大迭代次數為T, 最終構造的強分類器為f(x), 則GBDT的算法流程可描述為:

步驟1 初始化弱分類器

(3)

選取平方誤差函數作為損失函數

(4)

步驟2 對迭代輪次t=1,2,…,T:

(1)計算樣本n=1,2,…,N的負梯度rtn

(5)

(2)用 {(x1,rt1),(x2,rt2),…,(xN,rtN)} 擬合一個回歸樹,得到第t棵樹的葉節點區域Rtj,j=1,2,…,J(J為葉子節點個數);

(3)對j=1,2,…,J, 擬合出使損失函數達到最小的葉節點區域值,如式(6)

(6)

(4)更新強分類器

(7)

式中:I為示性函數。

步驟3 得到最終的回歸樹,如式(8)

(8)

2 模型建立

2.1 GBDT進行特征選擇

利用GBDT進行特征選擇屬于特征選擇中嵌入式方法。GBDT是生成回歸樹的過程,每個特征的重要度時可以根據該特征在分裂后,平方損失的減少值來衡量,減少的越多則該特征重要度越大,然后根據每個特征的重要度來進行特征的篩選。

對某一特征i,它的全局重要度可以通過它在每一棵樹的單棵重要度的平均值來衡量,特征i全局重要度表達式如式(9)所示

(9)

(10)

2.2 基于特征排序的搜索策略改進

在基于特征排序的特征選擇算法中,對于已經按照重要度排好序后的特征集,選取前K個特征可以得到一個局部最優特征子集,然而前K個特征并不一定都對模型分類有幫助,K個特征之后的特征也有可能對分類效果有所提升,本文在此基礎上對搜索策略進行改進,對K之前的某些特征進行刪除,對K之后的某些特征進行添加,篩選出更優的特征子集,使分類性能進一步提高。改進后的搜索策略分為3個階段:

第一階段:對于按照某種評價準則降序排序后的特征,依次加入分類器中,模型的分類準確率一般會隨著特征數量的增加呈現出先上升后下降的趨勢,如圖1所示,準確率達到最大時的特征數量記為K。

圖1 準確率隨特征數量變化

算法流程如下:

輸入:排序后的特征集Feature={f1,f2,…,fN}

輸出:K,最大準確率amax,

前K個特征集Feature1={f1,f2,…,fK},

剩余特征集Feature2={fK+1,fK+2,…,fN}。

Begin

(1) setF={} //設一個空集

(2) fori=1 toNdo

F=F+fi//向集合F中添加特征fi

ai=CAL_Acc(F) //計算特征子集F對應的數據在分類器下的準確率

(3)amax=max(a) //找出最大準確率

(4)K=argmax(a) //找出最大準確率對應的特征數量

(5)Feature1={f1,f2,…,fK},Feature2={fK+1,fK+2,…,fN}

End

第二階段:對于前K個特征組成的特征集合Feature1, 需要刪除某些影響分類效果的特征。從后往前依次刪除Feature1中的特征,每次刪除后代入分類模型計算對應的準確率,若準確率未得到提升,則把該特征放回。算法流程如下:

輸入:Feature1={f1,f2,…,fK},amax

輸出:刪除一些特征后的特征集Feature1′

更新后的最大準確率amax

Begin

(1)Feature1′=Feature1

(2) Fori=Kto 1

Feature1′=Feature1′-fi

//減去集合Feature1′中的特征fi

atemp=CAL_Acc(Feature1′)

//計算特征子集Feature1′對應的數據在分類器下的準確率

if(atemp>amax)then

amax=atemp//若準確率提升, 則更新amax

else

Feature1′=Feature1′+fi

//若準確率未提升, 則添回刪除的特征fi

End

第三階段:對于K之后的特征集合Feature2, 需要篩選出某些能進一步提升分類效果的特征。從前往后依次將Feature2中的特征添加進Feature1′中,每次添加后代入分類模型計算對應的準確率,若準確率未得到提升,則把該特征刪除。算法流程如下:

輸入:Feature1′,amax,Feature2

輸出:最終篩選出的特征集Feature3,amax

Begin

(1)Feature3=Feature1′

(2) Fori=K+1 toN

Feature3=Feature3+fi

//將Feature2中的特征fi加入Feature3中

atemp=CAL_Acc(Feature3)

//計算特征子集Feature3對應的數據在分類器下的準確率

if(atemp>amax)then

amax=atemp//若準確率提升, 則更新amax

else

Feature3=Feature3-fi

//若準確率未提升, 則刪除添加的特征fi

End

2.3 皮爾森相關系數和MI-GBDT特征選擇方法構建

圖2 皮爾森相關系數和MI-GBDT 特征選擇模型實現流程

步驟1 設訓練集S={(xi,yi)|i=1,2,…,N}, 其中xi為特征向量,yi為標簽變量,N為總樣本數。特征集F={fi|i=1,2,…,m}, 其中m為特征維度。計算每個特征fi與標簽之間的互信息值I,得到互信息值I的集合,I={Ii|i=1,2,…,m} 然后按照互信息值將特征由大到小排列,得到有序特征集合Order1={fi|i=1,2,…,m}。

步驟2 計算各個特征之間的皮爾森相關系數R={rij|i=1,2,…,m;j=1,2,…,m}, 其中rij表示特征i與特征j之間的皮爾森相關系數。然后根據Order1中的順序,依次遍歷里面的特征,并檢查它的與其余特征的皮爾森相關系數是否有大于0.6的,若有,則刪除互信息值小的那個,被刪除的特征不再參與接下來的遍歷過程。有序特征集合Order1刪除冗余特征后的集合記為Order2。 此步驟是利用皮爾森相關系數去除冗余特征,算法流程如下:

輸入:各個特征之間的皮爾森相關系數R={rij|i=1,2,…,m;j=1,2,…,m}, 有序特征集合Order1={fi|i=1,2,…,m}

輸出:去除冗余特征后的有序特征集合Order2

Begin

(1)Order2=Order1

(2) fori=1 tom

forj=1 tom(j≠i)

if(rij≥0.6)

Order2=Order2-fj//刪除冗余特征

End

步驟3 由于特征集發生了變化,所以重新計算剩余特征與標簽特征之間的互信息值,并將其歸一化,將互信息值I統一映射到[0,1]區間上,得到歸一化后的互信息值Inrm={Inrmi|i=1,2,…,m}, 轉換公式如式(11)

(11)

步驟4 計算每個特征的綜合重要度ci, 并對特征按照綜合重要度從大到小排列,得到有序特征集合記為Order3, 計算公式如式(12)

(12)

步驟5 對于排序后的特征,按照2.2節改進的搜索策略結合分類器進行特征選擇,便可以得到最終的特征子集Order4和其分類準確率amax。

3 實驗分析

3.1 實驗數據及其預處理

為驗證特征選擇算法的有效性,本文選取了Lending Club平臺官網上公開的2016年到2020年的199萬條個人信用數據記錄,數據包括了用戶的基本信息、經濟狀況、信用狀況和借款詳情等,共144維,其中1個為標簽特征。

首先要對數據進行預處理:

(1)標簽特征處理。標簽特征名稱為loan_status(貸款狀態),共有8種取值:Current(進行中)、Issued(發出)、Fully Paid(全部償還)、Charged Off(沖銷,投資人有損失)、Default(違約)、In Grace Period(在寬限期)、Late (16~30 days)(延期16~30天)、Late(31~120 days)(延期31~120天),將Charged Off作為好賬處理,Default、Late(16~30 days)、Late(31~120 days)作為壞賬處理,其余的無法判斷狀態,將對應的樣本剔除。

(2)缺失值處理。對于缺失值大于15%的特征,將該特征刪除;對于缺失值小于5%的特征,將對應的樣本刪除;對于其余缺失的數值型特征用平均值填補;對于其余缺失的類別型特征用眾數填補。

(3)刪除貸后變量。像out_prncp(剩余未還本金)、total_pymnt(已還金額)、recoveries(扣除費用后的總回收率)、last_credit_pull_d(信用證收回了這筆貸款的月份)等特征都屬于貸后特征,會暴露標簽信息,所以要刪除。

(4)數據規范化。利用零-均值規范化(z-score)對特征進行規范化處理。

(5)字符串轉換。對于一些原始類別中的取值為字符串的,采用標簽編碼把字符串轉換成數字。

表1 預處理后的數據情況

3.2 特征選擇

對處理完的數據進行特征選擇,首先用式(2)計算72個特征(loan_status是標簽特征不參與排序)與標簽之間的互信息值,并按照從大到小進行排序,互信息值越大,說明與標簽之間的關聯度越大,重要度越高。

然后用式(1)計算各個特征(除標簽特征)之間的皮爾森相關系數,得到以下的皮爾森相關系數圖譜(取其中10個特征展示),如圖3所示。

圖3 各特征之間的皮爾森相關系數圖譜

從圖3中可以看出有一些特征之間的相關系數比較高,屬于冗余特征,應予以去除。所以根據2.3節中的去冗余特征算法,找出所有強相關特征(皮爾森相關系數絕對值大于0.6的),刪除其中互信息值低的特征。最終刪除了29個冗余特征,除標標簽特征外還有43個特征。

去冗余后的特征皮爾森相關系數圖譜(取其中10個特征展示)如圖4所示。

圖4 去冗余后各特征之間的皮爾森相關系數圖譜

從圖4中可以看出,剩余的特征中不再含有強冗余的特征。

由于特征集發生了改變,現在需要重新計算各個特征與標簽特征之間的互信息值,并進行歸一化處理。接著利用式(9)計算各個特征的全局重要度,然后根據互信息值與全局重要度,用式(12)計算特征的綜合重要度,并按照從大到小來排序,由于特征較多,取排名前十的特征展現出來,如表2所示。

得到特征的重要度排序之后,按照流程所描述的搜索策略對特征進行遍歷。由于選擇特征的時候需要用到分類器,不同的分類器最終得到的特征子集也是不同的,這取決

表2 特征綜合重要度排序(前十位)

于最終的信用風險評估選取什么樣的模型。現在分別選取決策樹、支持向量機、樸素貝葉斯分類器進行實驗。

實驗結果見表3。

其中,當分類器選用決策樹時,留下的4個特征分別為last_fico_range_high(借款人最近一次FICO所屬于的上限范圍)、grade(風險等級)、term(貸款期數)、application_typ(貸款是個人申請還是共同申請)。

表3 特征選擇實驗結果

當分類器選用支持向量機時,留下的5個特征分別為last_fico_range_high、grade、home_ownership(注冊過程中提供的房屋所有權狀態)、verification_status(總收入來源是否核實)、pub_rec_bankruptcies(公開記錄破產數)。

當分類器選用樸素貝葉斯分類器時,留下的5個特征分別為last_fico_range_high、installment(若貸款產生,貸款人每月支付的款項)、term、emp_length(就業年限)、annual_inc(注冊過程中提供的年收入)。

3.3 結果分析

為了驗證本文提出的特征選擇算法對模型分類的有效性,現在對測試集進行實驗驗證效果。將預處理后的數據集記為Original_data,去冗余特征后的數據集記為Selection1_data,經過MI-GBDT結合搜索策略選擇特征后的數據集記為Selection2_data,用3種分類器針對不同特征子集下數據集實驗,測試結果見表4。

表4 不同子集不同分類器下的模型性能比較

從表4中可以看出,使用PCC和MI-GBDT模型選擇特征后,再用分類模型進行訓練預測,分類性能有了顯著的提高。

去冗余特征后的數據集Selection1_data對于原數據集,在決策樹和樸素貝葉斯分類器下準確率略微有些下降,分別減少0.16%和0.9%,但是對不平衡數據集而言更有參考價值的AUC值分別上漲了0.001和0.015,訓練時間也快了一倍。在支持向量機下,去冗余特征后的數據集的分類準確率比原數據集提升了15.7%,AUC值提升了0.039,訓練時間更是提升了一倍。說明了基于皮爾森相關系數選擇特征的有效性,在去除了冗余特征的同時,改善了分類效果,并且大大的減少了訓練時間。

經過MI-GBDT結合搜索策略選擇特征后的數據集Selection2_data對于原數據集Original_data和Selection1_data,效果提升則更為明顯。在決策樹下,準確率分別提高了4.33%和4.49%,AUC值分別提高了0.081和0.08。在樸素貝葉斯分類器下準確率分別提升了13.29%、14.19%,AUC值分別提高了0.015和0.052。在支持向量機下準確率分別提升了20.27%、4.57%,AUC值分別提高了0.046和0.007,時間更是提高了157.56 s和88.9 s。說明了MI-GBDT在去除完冗余特征的基礎上,又進一步大幅提升了分類效果和模型訓練時間。

將上述結果用3組柱狀圖來表示,可以更清晰展示本文特征選擇算法對分類效果的提升,如圖5和圖6所示。

圖5 不同特征子集在3種分類器下的準確率

圖6 不同特征子集在3種分類器下的AUC值

4 結束語

本文提出了一種基于皮爾森相關系數和MI-GBDT的個人信用特征選擇方法。針對個人信用指標存在冗余和無關指標的問題,根據皮爾森相關系數去除了冗余特征,利用互信息和GBDT分別從數據的信息相關性和分類能力兩方面對特征的重要度進行度量,按照綜合重要度大小對特征進行了排序,結合改進的搜索策略選出了最優特征子集。將此特征選擇算法應用在3種傳統分類器上,實驗結果表明該算法篩選出的特征可以大幅提升分類器的分類效果,并且大大降低了數據的維度,提高模型的訓練效率,使個人信用風險評估變得更加高效可靠。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 欧美精品成人一区二区在线观看| 国产精品无码久久久久AV| 五月婷婷伊人网| 中文字幕永久视频| 19国产精品麻豆免费观看| 中字无码精油按摩中出视频| 高清欧美性猛交XXXX黑人猛交| 欧美午夜在线播放| 日日拍夜夜操| 中文字幕日韩丝袜一区| 亚洲 日韩 激情 无码 中出| 九色在线观看视频| 色噜噜综合网| 国产成人免费手机在线观看视频| 婷婷五月在线| 久久国产精品国产自线拍| 欧美怡红院视频一区二区三区| 久久综合九九亚洲一区| 97色伦色在线综合视频| 中国精品自拍| 91精品国产一区自在线拍| 99热这里都是国产精品| 国产精品无码AV中文| 亚洲av日韩av制服丝袜| 国产中文在线亚洲精品官网| 97视频精品全国在线观看| 亚洲AV一二三区无码AV蜜桃| 成人在线视频一区| 91福利免费视频| 一区二区三区四区日韩| 一本大道视频精品人妻 | 视频在线观看一区二区| 国产精品亚洲片在线va| 国产综合另类小说色区色噜噜| 欧美日韩91| 999国产精品| 国产精品福利导航| 在线观看亚洲人成网站| 色婷婷亚洲十月十月色天| 亚洲一区二区三区在线视频| 精品国产黑色丝袜高跟鞋| 日韩欧美国产成人| 国产小视频网站| 中文字幕在线播放不卡| 无码日韩视频| 亚洲最黄视频| 亚洲综合专区| 99热这里只有成人精品国产| 男女猛烈无遮挡午夜视频| 久久99国产乱子伦精品免| 久久国产亚洲欧美日韩精品| 亚洲色图欧美| 精品人妻一区二区三区蜜桃AⅤ| 欧亚日韩Av| 免费观看三级毛片| 国产成人在线无码免费视频| 免费一级α片在线观看| 日韩欧美成人高清在线观看| 国产视频a| 国产成人精品男人的天堂下载 | 国产高清精品在线91| 欧美成人一级| 女人天堂av免费| 亚洲色图另类| 国产欧美日韩va另类在线播放| 1024国产在线| 精品人妻AV区| 一级毛片不卡片免费观看| 嫩草在线视频| 天堂在线www网亚洲| 青草视频网站在线观看| 无码日韩视频| 四虎永久在线| 久久6免费视频| 国产成人亚洲精品蜜芽影院| 国内精品久久人妻无码大片高| 波多野结衣中文字幕一区| 久久国产亚洲欧美日韩精品| 亚洲色图欧美| 国产噜噜在线视频观看| 国模沟沟一区二区三区| 色呦呦手机在线精品|