999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度集成學習的類極度不均衡數據信用欺詐檢測算法

2021-04-01 03:39:28
計算機研究與發展 2021年3期
關鍵詞:分類深度實驗

劉 穎 楊 軻

1(吉林財經大學管理科學與信息工程學院 長春 130117) 2(吉林財經大學稅務學院 長春 130117)

(lyaihua1995@163.com)

經濟全球化背景下,金融衍生品的加速膨脹導致市場波動加劇、信用欺詐行為不斷出現.信用欺詐識別是通過挖掘征信數據中蘊含的客觀規律而對申請人信用等級進行劃分,其本質屬于二分類問題.然而,在構建信用分類模型時,信用樣本的涌現性使得少數類樣本點很少,即在獲取大量的實際樣本中,真正存在欺詐行為的樣本點遠少于非欺詐行為樣本點.在處理這種樣本不均衡信用欺詐數據時,錯誤識別一個信用差的客戶往往要比誤分一個信用好的客戶給企業造成的損失大.因此,提升模型對不平衡數據的分類效果成為信用欺詐識別領域的研究重點.

目前,解決類不均衡問題的相關研究主要集中于重采樣方法和集成算法2方面.重采樣方法包括欠采樣和過采樣2種.其中過采樣方法以合成少數類技術(synthetic minority oversampling technique, SMOTE)[1]為主要代表,并在所選樣本近鄰之間插入數據以實現類均衡.雖然歷經數十年該方法已經發展成為解決類不均衡問題的經典方法,但SMOTE的算法仍然存在其自身的缺陷.Nguyen等人[2]在2009年以支持向量機(support vector machine, SVM)處理類不均衡數據為例,實驗指出當分類樣本重疊時,通過SMOTE隨機采樣可實現SVM分類器在重疊區域的無偏估計.然而如果少數類樣本距離理想邊界相對較遠或者有效樣本過少,便很難利用SMOTE隨機插值法擴張少數樣本.也就是說,當理想樣本數量較少,或者樣本存在一定數量的噪聲、離群點時,SMOTE方法在某種程度上會放大無效樣本的影響,進而降低分類精度.針對這一問題,學者們提出其他改進SMOTE方法,如BorderlineSMOTE[3],KMeansSMOTE[4],Generative Adversarial Networks[5].

為了減少訓練集不完善對分類性能的影響,學者們也提出集成方法處理類不均衡問題.Chen等人[6]提出對隨機森林(random forest, RF)分類器進行樣本再平衡,在RF每次迭代的過程中,對不同類別樣本的采樣數量加以控制:分別從少數類和多數類樣本中有放回地抽取一定數量的樣本.Liu等人[7]提出Easy Ensemble算法,綜合運用欠采樣和AdaBoost算法解決欠采樣方法丟失多數類樣本有效信息的不足.具體而言,將多數類樣本分成若干個與少數類樣本集相同大小的子集,對每一個多數類樣本的子集,將其與少數類樣本合并后訓練基分類器,最后利用AdaBoost算法集成.此外,Seiffert等人[8]提出RUSBoost算法,在AdaBoost的每次迭代過程中,隨機抽取與少數類樣本數量相同的多數類樣本訓練迭代分類器,綜合運用隨機欠采樣和AdaBoost來處理類不均衡問題.Sun等人[9]構建一種裝袋法(bagging)集成,即在類不均衡數據集中抽取若干均衡數據子集得到基分類器,最終通過集成規則預測輸出訓練結果.Díez-Pastor等人[10]研究隨機均衡集成,利用特定分類器考慮受試者工作特征曲線(receiver operator characteristic curve, ROC)上不同的執行點,輸出更大的曲線下面積(area under curve, AUC)值.夏利宇等人[11]提出迭代重抽樣集成模型,在欠抽樣的迭代中不斷優化模型對于多數類和少數類樣本的傾斜,并通過我國征信數據證明了該模型可以顯著降低金融機構的違約風險.

大數據時代的金融改革背景下,半結構、非結構化數據大量涌現,深度學習作為一種端到端的數據驅動方法,越來越多的被學者應用于信用欺詐識別[12].Sohony等人[13]采用綜合隨機森林和神經網絡集成算法處理類不均衡問題.Kazemi等人[14]提出使用深度自動編碼器從交易數據樣本中提取合適特征,并基于這些特征使用Softmax網絡識別樣本類別.Roy等人[15]使用云計算環境分析證明了神經網絡及其拓撲結構在處理信用欺詐問題中的顯著表現.Luo等人[16]利用深度信念神經網絡(deep belief neural network, DBN)建立信用評估模型對信用違約互換(credit default swaps, CDS)數據進行評估,并將其表現與邏輯回歸(logistic regression, LR)、多層感知器(multilayer perceptron, MLP)、SVM等傳統機器學習算法比較,證實了DBN擁有最為優異的AUC值.Kim等人[17]基于韓國信用卡公司的實際數據,使用冠軍-挑戰者測試(champion-challenger)框架分別構建和比較Bagging集成算法和前饋神經網絡學習模型,實驗表明前饋神經網絡算法的復雜神經元更適合處理高維、復雜的信用欺詐數據.

上述方法均能在一定程度上解決不平衡數據分類問題,但仍然存在兩大不足:1)評估指標體系不完善.多數文獻仍然基于總體分類準確率為目標,必然導致過度關注信用好的多數類樣本,忽視信用差的少數類樣本.2)較少考慮類極度不均衡問題.部分顯示所處理類不均衡數據比例(少數類樣本與多數類樣本比值)通常不超過1∶10,而在現實的信用欺詐檢測中,樣本比例往往會達到1∶50,甚至更高.在這種類極度不均衡情況下,算法的設計和測試將面臨極大挑戰.本文提出一種基于深度信念神經網絡集成的類極度不均衡信用欺詐算法.一方面提出雙向聯合采樣法抽取樣本,融合欠采樣和過采樣方法平衡數據集.同時,為了克服SVM在處理極度不均衡數據分類超平面偏移問題,將SVM結合RF生成基分類器簇,利用DBN集成輸出.另一方面,提出成本-效益指數,以量化的成本收入改善評價性能.最后,論文以真實發生的歐洲信用卡欺詐數據進行測試,并與傳統機器學習算法和類不均衡經典算法進行性能對比.

1 相關工作

1.1 支持向量機(SVM)

SVM[18]于20世紀60年代提出,主要任務是在處理二分類問題中尋求最優超平面.考慮一個有m個樣本的n維樣本集{(X1,y1),(X2,y2),…,(Xm,ym)},其中,第i個樣本的特征為Xi=(x1,x2,…,xn),第i個樣本的類標簽為yi∈{0,1},超平面定義為

W·X+b=0,

(1)

其中,W=(w1,w2,…,wn),X=(x1,x2,…,xn).對于超平面?yi=1,W·Xi+b>0;?yi=-1,W·Xi+b<0,即?i,yi(W·Xi+b)≥1,SVM的二分類問題轉化為規劃求解問題,即

(2)

使用拉格朗日公式可得決策邊界:

(3)

其中,l表示支持向量個數,Xi為支持向量點的特征向量,yi為支持向量點的類標記,X為輸入實例的特征向量,αi和b0為訓練模型得到的參數,αi為拉格朗日乘數.

最后,SVM對目標樣本的分類識別公式為

f(X)=sgn(decision(X)).

(4)

對于線性不可分的數據集,通過非線性變換將其轉換為高維空間中的線性分類問題,以核函數K(x,z)代替兩實例之間的內積即可得到非線性求解公式:

(5)

SVM常用核函數包括徑向基函數(radial basis function, RBF)、二項式核函數(binomial kernel function, BKF),本文在求解過程中使用RBF核函數.

1.2 SVM處理非均衡數據性能分析

SVM作為一種經典的模式識別方法,具有泛化能力強、結構簡單、易解決高維和小樣本數據優勢.通常SVM分類算法基于正負類樣本數量大致相同的假設,因此樣本不均衡可能造成SVM算法分類超平面發生偏移.為了比較非均衡數據對SVM分類器的影響,論文以美國加州大學爾灣分校開發的蘑菇數據集(UCI mushroom)[19]作為實驗樣本,其總數為8 124,包括6 093個訓練樣本、2 031個測試樣本、22個特征維數.為了更好地可視化,利用主成分分析(principal component analysis, PCA)降至2維.對訓練樣本進行抽取,分別構建1∶4,1∶40,1∶100的非均衡樣本集合.實驗選擇SVM、基于過采樣的SMOTE平衡樣本的SMOTE_SVM及基于隨機欠采樣(random under sampling, RUS)的RUS_SVM這3種模型測試比較,結果如表1所示:

Table 1 Experiment Description of SVM with Imbalanced Data

實驗表明,當樣本出現不均衡現象時,重采樣方法某種程度上會提高分類精度,但對于樣本出現極度不均衡現象時表現效果不佳.

Fig. 1 Framework for DBN ensembled algorithm圖1 DBN深度集成算法框架

2 本文方法

本節首先給出深度信念神經網絡集成框架,然后介紹雙向聯合采樣法及DBN深度集成算法,表2列出了本文后續內容使用的一些符號定義.

Table 2 Description of Symbols表2 符號描述

Continued (Table 2)

2.1 算法整體框架與流程

DBN集成算法分為3個階段實現:1)數據劃分,主要利用雙向聯合采樣法平衡訓練子集;2)訓練基分類器,為了解決SVM在處理數據極度不均衡時超平面偏移問題,綜合SVM和RF雙重分類器構建基分類器集;3)DBN深度集成.算法整體框架與流程如圖1所示:

2.2 算法詳細步驟

階段1.數據劃分.首先,在控制采樣比例的前提下對訓練集中多數類樣本和少數類樣本進行隨機欠采樣,然后,針對訓練子集執行SMOTE過采樣.確定該訓練子集中支持向量及其近鄰數量,若其近鄰數量較少,采取外推方式合成新樣本,若其近鄰數量較多,采取插值方式合成新樣本.迭代上述采樣過程,直至訓練出與本文設計的SVM分類器相同數量的訓練子集.

算法1.joint_sampling().

① forc∈[1,num_svm]

② 由Tr提取Trmaj,Trmin;

③ 確保L∶S<10∶1,且S>60;

在Trmaj中隨機抽取L個樣本,在Trmin中隨機抽取S個樣本組成Trunder;

⑤ 由Trunder訓練SVM分類器,得到Sv+;

⑥ 在Sv+中平均分配T,得到amount;

⑨ 由Trunder確定m個近鄰;

階段2.訓練基分類器.首先,由算法1采樣得到的訓練子集訓練SVM分類器得到SVM基分類器簇.針對每個SVM基分類器,都從訓練集中不放回抽取一定數量的樣本構成評估集,共采集若干個互不重疊的評估集,并以該SVM基分類器對這些評估集進行預測,生成未能正確分類樣本集Failure,以其為新的訓練集訓練RF基分類器,最后組合SVM和RF基分類器簇構成本文的基分類器集合.

本算法涉及的局部變量:num_eva表示每個SVM基分類器設置的評估集數量,num_sample_in_eva表示每個評估集采集的樣本數量,num_sample_for_rf表示訓練RF基分類器時從指定樣本中分別抽取多數類和少數類樣本的數量,Svm表示訓練的支持向量基分類器簇.Rf表示訓練的隨機森林基分類器簇.具體算法如下:

算法2.base_clf_training().

① forc∈[1,num_svm]

② 由Trsc訓練SVM分類器;

③ end for

④ forsvm∈Svm

⑤ fork∈[1,num_eva]

⑥ 從Tr中采集num_sample_in_eva個樣本構成Evasvmk;

⑦ 使用svm對Evasvmk進行預測,輸出

Predictsvmk;

⑧ 在Evasvmk中篩選出Predictsvmk錯誤預測的子集放入Failure;

⑨ end for

⑩ end for

階段3.深度集成算法.首先從訓練集中抽取一個樣本集;然后針對每個樣本都由基分類器集合中的每個基分類器預測其結果,從而形成以樣本為行向量、各分類器預測結果及樣本真實標簽為列向量的訓練集.以該訓練集訓練DBN集成模型,并對測試集完成預測輸出,具體算法如算法3、算法4:

算法3.DBN_ensemble_training().

① forc∈[1,num_clf]

② 由Clfc預測E得到Eic;

③ end for

④ 由矩陣(Ei,E(N+1))訓練深度信念神經網絡.

算法4.DBN_ensemble_predict().

① forc∈[1,num_clf]

② 由Clfc預測T得到Applicantc;

③ end for

④ 由深度信念神經網絡預測Applicant輸出Output.

3 實驗與結果

3.1 數據描述

本文實驗數據選取源訊科技(Worldline)公司和布魯塞爾自由大學機器學習研究小組共同開發和維護、經由Kaggle平臺發布的信用卡欺詐數據[20-26].數據集表征了2013年9月歐洲信用卡持卡人發生的部分交易及其相關信息.實驗數據集(詳見表3)共有21 693個樣本,28個特征向量經由PCA進行了預處理.樣本類別由0和1表示,其中0表示信用好樣本(又稱負類樣本)且為多數類,1表示欺詐樣本(又稱正類樣本)且為少數類樣本.少數類樣本356個,多數類樣本21 337個,不平衡比例達到1∶60,達到類極度不均衡比例.

Table 3 Description of Experiment Data表3 實驗數據描述

3.2 評價指標

通常,處理類不均衡學習算法可經由ROC曲線下面積AUC來評估其效果[7,16].但當負類樣本與正類樣本數量差異較大時,ROC的AUC難以顯著區分分類器性能.在混淆矩陣中,TN表示被正確識別的負類樣本,FP表示被錯誤識別的負類樣本,FN表示被錯誤識別的正類樣本,TP表示被正確識別的正類樣本,其中,真正類率TPR=TP(TP+FN),真負類率TNR=TN(FP+TN),假正類率FPR=FP(FP+TN),假負類率FNR=FN(TP+FN).在負類極多、正類極少的情形下,假正類率FPR的分母過大,即使其分子有顯著變化,也很難被明顯地體現在FPR數值及其最終對應曲線上.同時,單純考慮混淆矩陣各數值的絕對指標和相對指標會潛在地忽略信用欺詐的現實情境.鑒于此,Yu等人[27]提出成本-效益指數(revenue cost index,RCI),但該指數強調現實成本而忽視機會成本,本文在此基礎上完善該評價指標對機會成本的考慮.指標做3個假設:1)信用卡供應商因某筆交易產生一個FP而承擔的顯隱性成本之和為該筆交易數額的資金在一個記賬期內所產生的利息;2)欺詐行為人實施欺詐行為后不會被抓獲;3)一個記賬期內的利息為10%.

成本-效益評估指標RCI構建公式為

(6)

其中,分子表示期望收益,分母用于將指標數值歸一;樣本類不均衡比例(imbalance ratio,IR)為樣本的不均衡程度,它為樣本中多數類樣本的數量與少數類樣本數量的比值.

3.3 實驗結果

本節為了比較所提DBN集成算法的性能,與類不均衡經典算法Balanced Random Forest[6],Easy Ensemble[7],Rus Boost[8],SMOTE_SVM[2],及常用機器學習算法Random Forest[28],SVM[18],MLP進行對比,分別實現基于不同算法和不同樣本比例的分類結果.

3.3.1 基于不同算法的實驗結果

在第1階段的雙向聯合采樣法中,設定參數S=100,L=900,N=900,k=5,m=10;在第2階段的基分類器訓練中,設定參數num_svm=100,num_rf=20,num_eva=10,num_sample_in_eva=1 000,num_sample_for_rf=200.本實驗進行20次隨機實驗,最終輸出8個分類器的RCI均值,實驗結果如表4所示.

Table 4 Comparation among Credit Fraud Detection Machine Learning Algorithms表4 信用欺詐檢測機器學習算法比較 %

從表4不難發現,在本文設定的成本-效益指數下,DBN深度集成算法產生了最好的效果,RCI達到95.19%,高于傳統Random Forest的94.75%,SVM的92.80%,MLP的90.93%三種算法.綜合來看,DBN深度集成算法在RCI指標上較其他算法的平均值高出3個百分點.同時,圖2顯示各個分類器的綜合混淆矩陣,包括20次實驗TN,TP,FN,FP的平均值.類不均衡算法實現了最高的TP值,但TN較低,削弱了成本-效益的綜合表現.DBN集成算法優勢是能夠在較高TNR值的情況下提高TPR的值,進而獲得較高的RCI值.

Fig. 2 Confusion matrix summary for 8 algorithms圖2 8種算法在本次實驗中的混淆矩陣比較

3.3.2 基于不均衡樣本比例實驗結果

為了比較所提算法在樣本不均衡比例下的性能變化,本節固定少數類樣本數量,調整多數類樣本獲得樣本比例1∶5至1∶55共計11組測試數據集,分別比較8種算法的RCI指標,結果如圖3所示.在類不均衡比例較低時,DBN深度集成算法的RCI指標并不能顯著高于其他算法;但隨著類不均衡比例不斷提高,尤其當類不均衡比例超過20進入類極度不均衡狀態之后,DBN深度集成算法的RCI表現優于其他算法.

Fig. 3 Comparison of algorithms for different sample proportions圖3 不同樣本比例算法比較

4 結 論

樣本分布極度不均衡是影響信用欺詐評估的主要因素.本文提出一種深度信念神經網絡集成算法來解決類極度不均衡問題.一方面,提出雙向聯合采樣法平衡樣本集,為了克服單一SVM分類器處理不平衡數據表現的超平面偏移問題,融合RF分類器構建基分類器簇,利用DBN學習增強對多維伯努利數據的特征識別能力,從而更好地處理信用欺詐檢測不均衡數據的極端情形.另一方面,鑒于傳統的精度評價指標對信用欺詐風險評價形成較大制約,本文綜合考慮正負類樣本對數據使用者成本和效益的不同影響,提出成本-效益評估指標評價算法性能.通過對比實驗發現在樣本類極度不均衡情況下所提算法優于傳統機器學習算法和一般類不均衡數據處理方法.

未來的工作包含2個方向:1)進一步結合行業的實際特點建立更加全面的計算成本效益指標數學模型;2)探索本文提出算法的參數優化策略.

猜你喜歡
分類深度實驗
記一次有趣的實驗
分類算一算
深度理解一元一次方程
做個怪怪長實驗
分類討論求坐標
深度觀察
深度觀察
深度觀察
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 欧美一级夜夜爽www| 色偷偷男人的天堂亚洲av| 亚洲精品免费网站| 澳门av无码| 思思99热精品在线| 国产内射一区亚洲| 狂欢视频在线观看不卡| 亚洲欧洲日产国产无码AV| 国产亚洲美日韩AV中文字幕无码成人| 国产精品久久精品| 9丨情侣偷在线精品国产| 国产成人禁片在线观看| 国产精品嫩草影院av| 亚洲视频三级| 2021国产精品自拍| 最新国产午夜精品视频成人| 无码AV动漫| 91青青草视频| 日韩a在线观看免费观看| 999精品免费视频| 97久久免费视频| 99久久国产综合精品2023| 亚洲一级毛片在线观播放| 一级一级一片免费| 青青草一区二区免费精品| 日韩毛片在线播放| 蜜臀AV在线播放| 亚洲精品午夜无码电影网| 日本国产一区在线观看| 蝴蝶伊人久久中文娱乐网| 精品亚洲麻豆1区2区3区| 国产精品白浆无码流出在线看| 在线观看国产精美视频| 日本黄色不卡视频| 久久网欧美| 欧美日韩中文国产va另类| 青青国产成人免费精品视频| 91精品视频播放| 亚洲系列中文字幕一区二区| 国产自在自线午夜精品视频| 2020最新国产精品视频| 91精品伊人久久大香线蕉| 热思思久久免费视频| 日本一区二区三区精品国产| 亚洲欧美日韩综合二区三区| 一区二区三区精品视频在线观看| 日本亚洲国产一区二区三区| 日a本亚洲中文在线观看| 欧美日韩免费| 日本午夜三级| 无码一区18禁| 亚洲人成网站18禁动漫无码| 日韩资源站| 欧美综合中文字幕久久| 国产色婷婷视频在线观看| 色亚洲成人| 2021天堂在线亚洲精品专区| 性69交片免费看| 亚洲无码高清一区| 久久五月视频| 国产视频入口| 欧美不卡在线视频| 国产拍揄自揄精品视频网站| 亚洲综合二区| vvvv98国产成人综合青青| 国产产在线精品亚洲aavv| 女人毛片a级大学毛片免费 | 欧美第九页| 91精品视频网站| 日本在线欧美在线| 98超碰在线观看| 这里只有精品免费视频| 精品国产黑色丝袜高跟鞋| 午夜精品久久久久久久无码软件| 亚洲午夜国产精品无卡| 91在线激情在线观看| 成人免费网站在线观看| 18禁高潮出水呻吟娇喘蜜芽| 精品无码人妻一区二区| 久久99久久无码毛片一区二区| 久久中文字幕2021精品| 亚洲一区国色天香|