999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GAN-AdaBoost-DT不平衡分類算法的信用卡欺詐分類

2019-08-01 01:57:38莫贊蓋彥蓉樊冠龍
計算機應用 2019年2期

莫贊 蓋彥蓉 樊冠龍

摘 要:針對傳統單個分類器在不平衡數據上分類效果有限的問題,基于對抗生成網絡(GAN)和集成學習方法,提出一種新的針對二類不平衡數據集的分類方法——對抗生成網絡自適應增強決策樹(GAN-AdaBoost-DT)算法。首先,利用GAN訓練得到生成模型,生成模型生成少數類樣本,降低數據的不平衡性;其次,將生成的少數類樣本代入自適應增強(AdaBoost)模型框架,更改權重,改進AdaBoost模型,提升以決策樹(DT)為基分類器的AdaBoost模型的分類性能。使用受測者工作特征曲線下面積(AUC)作為分類評價指標,在信用卡詐騙數據集上的實驗分析表明,該算法與合成少數類樣本集成學習相比,準確率提高了4.5%,受測者工作特征曲線下面積提高了6.5%;對比改進的合成少數類樣本集成學習,準確率提高了4.9%,AUC值提高了5.9%;對比隨機欠采樣集成學習,準確率提高了4.5%,受測者工作特征曲線下面積提高了5.4%。在UCI和KEEL的其他數據集上的實驗結果表明,該算法在不平衡二分類問題上能提高總體的準確率,優化分類器性能。

關鍵詞:對抗生成網絡; 集成學習; 不平衡分類;? 二分類;自適應增強;決策樹;信用卡欺詐

中圖分類號: TP391

文獻標志碼:A

Abstract: Concerning that traditional single classifiers have poor classification effect for imbalanced data classification, a new binary-class imbalanced data classification algorithm was proposed based on Generative Adversarial Nets (GAN) and ensemble learning, namely Generative Adversarial Nets-Adaptive Boosting-Decision Tree (GAN-AdaBoost-DT). Firstly, GAN training was adopted to get a generative model which produced minority class samples to reduce imbalance ratio. Then, the minority class samples were brought into Adaptive Boosting (AdaBoost) learning framework and their weights were changed to improve AdaBoost model and classification performance of AdaBoost with Decision Tree (DT) as base classifier. Area Under the Carve (AUC) was used to evaluate the performance of classifier when dealing with imbalanced classification problems. The experimental results on credit card fraud data set illustrate that compared with synthetic minority over-sampling ensemble learning method, the accuracy of the proposed algorithm was increased by 4.5%, the AUC of it was improved by 6.5%; compared with modified synthetic minority over-sampling ensemble learning method, the accuracy was increased by 4.9%, the AUC was improved by 5.9%; compared with random under-sampling ensemble learning method, the accuracy was increased by 4.5%, the AUC was improved by 5.4%. The experimental results on other data sets of UCI and KEEL illustrate that the proposed algorithm can improve the accuracy of imbalanced classification and the overall classifier performance.

Key words: Generative Adversarial Nets (GAN); ensemble learning; imbalanced classification; binary-class classification; Adaptive Boosting (AdaBoost); Decision Tree (DT); credit card fraud

0 引言

不平衡數據是指數據集中的某個或某些類的樣本量遠遠高于其他類,而某些類樣本量較少,通常把樣本量較多的類稱為多數類,樣本量較少的類稱為少數類[1]。在不平衡數據集中,對少數類的識別較為重要,例如故障診斷[2]中,機器故障屬于少數類,如果將故障診斷為正常,就會造成工程延誤,帶來不必要的損失。由于不平衡數據集的復雜特性,傳統的分類算法預測少數類的分類規則比多數類的分類規則少,而且效果差[3],這就是不平衡分類問題。不平衡分類問題已經成為數據挖掘領域的挑戰之一[4],現在這種問題普遍存在于銀行信用評級[5]、異常檢測[6]、人臉識別[7]、醫學診斷[8]、電子郵件分類[9]等領域。

本文所研究的信用卡欺詐偵測問題也是不平衡分類問題。信用卡欺詐偵測就是銀行根據與客戶信用狀況相關的特征變量預測客戶的支付記錄是否是欺詐交易,欺詐交易雖然是少數類,但一個欺詐交易的分類錯誤所造成的資金損失,是千百個正常交易分類正確也挽回不了的。為了避免信用風險造成的損失,對欺詐交易記錄的識別尤為重要。

目前處理不平衡問題的方法可以概括為兩類。一種比較普遍的方法是在數據層面通過采用欠采樣或過采樣的方法,重新分配類別分布,例如文獻[10]提出的合成小類過采樣技術(Synthetic Minority Over-sampling Technique,SMOTE),文獻[11]提出的自適應樣本合成方法(Adaptive Synthetic Sampling Approach,ADASYN)。欠采樣方法可以提升模型對小類樣本的分類性能,但是這種方法會造成大類樣本數據的信息丟失而使模型無法充分利用已有的信息。傳統的過采樣方法可以生成少數類樣本的數據,但是根據少數類數據生成,只是基于當前少數類蘊含的信息,缺乏數據多樣性,一定程度上會造成過擬合。

另一種是在算法層面上,包括集成學習和代價敏感學習。集成學習通過集成多個分類器來避免單個分類器對不平衡數據分類預測造成的偏差[12],如文獻[13]提出的在自適應增強模型(Adaptive Boosting,AdaBoost)的每次迭代中引入SMOTE的SMOTEBoost算法,文獻[14]提出的在AdaBoost的每次迭代中引入隨機欠采樣(Random Under-Sampling method,RUS)的RUSBoosts算法。代價敏感學習是在算法迭代過程中設置少數類被錯分時具有較高的代價損失[15],通常與集成學習算法組合使用。代價敏感方法只是在算法層次進行了修改,沒有增加算法的開銷,效率較高,能有效提高不平衡數據的分類效果;但是由于主觀引入代價敏感損失,損失函數的設計會影響算法的迭代效果,適用性普遍較弱[16]。

因此,本文擬從數據層面生成少數類樣本來使數據達到平衡,以此提高傳統分類算法的分類效果。生成式對抗網絡(Generative Adversarial Nets,GAN)[17]是2014年提出的生成模型,與傳統的生成模型對比,不需要基于真實數據就可以生成逼近真實數據的合成數據,可以擴展數據多樣性,避免過擬合。

由于單一方法難以滿足不同不平衡數據集的要求,適用性普遍不強,同時組合預測模型能發揮各個單一預測模型的優勢,進而提高模型整體的預測效果,因此,本文提出一種針對不平衡二分類問題的對抗生成網絡自適應增強決策樹(Generative Adversarial Nets-Adaptive Boosting-Decision Tree,GAN-AdaBoost-DT)算法。該算法首先使用GAN生成少數類樣本,使數據達到平衡,之后使用AdaBoost集成學習框架,使用以決策樹(Decision Tree,DT)作為基分類器的AdaBoost算法,利用集成的思想提高DT在不平衡數據集中的分類能力。采用受測者工作特征曲線下面積(Area Under the Carve,AUC)作為評價標準評價分類器的效果。

1 相關工作

1.1 GAN算法

GAN是2014年基于零和博弈理論提出的一種生成式模型,模型包括基于神經網絡的生成模型(G)和判別模型(D),生成模型基于噪聲空間z生成數據,判別模型判斷數據是真實的還是生成模型生成的。這個過程相當于一個二人博弈,G的訓練目標是使生成的數據接近于真實數據的分布,判別器訓練目標是區分出真實數據生成數據,兩者相互迭代優化,使D和G的性能得到不斷增強,最終使兩個網絡達到一個動態均衡,判別模型判斷生成模型生成的數據為真的概率接近0.5,此時生成器生成的數據近似真實數據。計算流程如圖1所示。

4 結語

針對傳統分類算法在不平衡分類問題性能較差的問題,本文提出了一種用于解決不平衡二分類問題的算法——GAN-AdaBoost-DT算法。該算法基于對抗生成網絡改進了AdaBoost算法,在AdaBoost每次迭代中使用GAN生成少數類數據,降低數據的不平衡率,從而提高AdaBoost-DT的分類性能。在信用卡詐騙數據集的實驗結果表明,該方法對不平衡數據集的識別率有所提高,綜合提升了分類器的性能。在UCI、KEEL的5個數據集上的實驗結果表明,該方法相比其他算法識別率更高,分類性能更優。

參考文獻:

[1] SEARLE S R. Linear Models for Unbalanced Data [M]. New York: John Wiley & Sons, 1987: 145-153.

[2] YANG Z, TANG W H, SHINTEMIROV A, et al. Association rule mining-based dissolved gas analysis for fault diagnosis of power transformers [J]. IEEE Transactions on Systems, Man & Cybernetics, Part C: Applications and Reviews, 2009, 39(6): 597-610.

[3] SUN Y, KAMEL M S, WONG A K C, et al. Cost-sensitive boosting for classification of imbalanced data [J]. Pattern Recognition,2007,40(12): 3358-3378.

[4] YANG Q, WU X. 10 challenging problems in data mining research [J]. International Journal of Information Technology & Decision Making, 2011, 5(4): 597-604.

[5] BROWN I, MUES C. An experimental comparison of classification algorithms for imbalanced credit scoring data sets [J]. Expert Systems with Applications, 2012, 39(3): 3446-3453.

[6] TAVALLAEE M, STAKHANVA N, GHORBANI A A. Toward credible evaluation of anomaly-based intrusion-detection methods[J]. IEEE Transactions on Systems, Man & Cybernetics, Part C: Applications and Reviews, 2010, 40(5): 516-524.

[7] LIU Y-H, CHEN Y-T. Total margin based adaptive fuzzy support vector machines for multiview face recognition [C]// Proceedings of the 2005 IEEE International Conference on Systems, Man and Cybernetics. Washington, DC: IEEE Computer Society, 2005, 2: 1704-1711.

[8] MAZUROWSKI M A, HABAS P A, ZURADE J M, et al. Training neural network classifiers for medical decision making: the effects of imbalanced datasets on classification performance [J]. Neural Networks, 2008, 21(2/3): 427-436.

[9] BERMEJO P, GAMEZ J A, PUERTA J M. Improving the performance of Naive Bayes multinomial in e-mail foldering by introducing distribution-based balance of datasets [J]. Expert Systems with Applications, 2011, 38(3): 2072-2080.

[10] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: Synthetic Minority Over-Sampling Technique [J]. Journal of Artificial Intelligence Research,2002, 16(1): 321-357.

[11] HE H, BAI Y, GARCIA E A, et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning [C]// Proceeding of the 2008 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2008: 1322-1328.

[12] FREUND Y, SCHAPIRE R E. Experiments with a new boosting algorithm [C]// Proceedings of the Thirteenth International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann, 1996: 148-156.

[13] CHAWLA N V, LAZAREVIC A, HALL L O, et al. SMOTEBoost: improving prediction of the minority class in boosting [C]// Proceedings of the 2003 European Conference on Knowledge Discovery in Databases, LNCS 2838. Berlin: Springer, 2003: 107-119.

[14] SEIFFERT C, KHOSHGOFTAAR T M, van HULSE J, et al. RUSBoost: a hybrid approach to alleviating class imbalance [J]. IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, 2010, 40(1): 185-197.

[15] FAN W, STOLFO S J, ZHANG J, et al. AdaCost: misclassification cost-sensitive boosting [C]// Proceedings of the 16th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann, 1999: 97-105.

[16] CATENI S, COLLA V, VANNUCCI M. A method for resampling imbalanced datasets in binary classification tasks for real-world problems [J]. Neurocomputing, 2014, 135: 32-41.

[17] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]// NIPS'14 Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014, 2: 2672-2680.

[18] GOODFELLOW I. NIPS 2016 tutorial: generative adversarial networks [EB/OL]. (2016-12-31) [2017-09-24]. https://arxiv.org/pdf/1701.00160.pdf.

[19] LI J, MONROE W, SHI T, et al. Adversarial learning for neural dialogue generation [EB/OL].[2017-07-13]? [2018-05-02]. https://arxiv.org/pdf/1701.06547v1.pdf.

[20] YU L, ZHANG W, WANG J, et al. SeqGAN: sequence generative adversarial nets with policy gradient [EB/OL].[2017-08-25] [2018-05-02]. https://arxiv.org/pdf/1609.05473.pdf.

[21] HU WW, TAN Y. Generating adversarial malware examples for black-box attacks based on GAN [EB/OL]. [2017-02-20][2018-05-02]. https://arxiv.org/pdf/1702.05983v1.pdf.

[22] CHIDAMBARAM M, QI Y. Style transfer generative adversarial networks: learning to play chess differently[EB/OL]. [2017-05-07] [2018-07-02]. https://arxiv.org/pdf/1702.06762v1.pdf.

[23] FREUND Y, SCHAPIRE R E. A desicion-theoretic generalization of on-line learning and an application to boosting [J]. Journal of Computer & System Sciences, 1997, 55(1):119-139.

[24] HUNT E, KRIVANEK J. The effects of pentylenetetrazole and methylphenoxypropane on discrimination learning [J]. Psychopharmacology, 1966, 9(1): 1-16.

[25] BOSE I, FARQUAD M A H. Preprocessing unbalanced data using support vector machine [J]. Decision Support Systems, 2012, 53(1): 226-233.

[26] 張順,張化祥.用于多標記學習的K近鄰改進算法[J].計算機應用研究,2011,28(12):4445-4450. (ZHANG S, ZHANG H X. Modified KNN algorithm for multi-label learning [J]. Application Research of Computers, 2011, 28(12): 4445-4450.)

[27] 李詒靖,郭海湘,李亞楠,等.一種基于Boosting的集成學習算法在不均衡數據中的分類 [J].系統工程理論與實踐,2016,36(1):189-199. (LI Y J, GUO H X, LI Y N, et al. A boosting based on ensemble learning algorithm in imbalanced data classification [J]. Systems Engineering — Theory & Practice, 2016, 36(1): 189-199.)

主站蜘蛛池模板: 久久综合丝袜日本网| 综合人妻久久一区二区精品 | 亚洲床戏一区| 国产精品私拍在线爆乳| 精品一区二区三区水蜜桃| 欧美中文字幕在线视频 | 99在线视频精品| 青青热久免费精品视频6| 国产一区二区网站| 日韩国产一区二区三区无码| 日本午夜精品一本在线观看| 国产福利不卡视频| 久久国产乱子| 欧美精品v欧洲精品| 国产精品页| 免费观看三级毛片| 国产黄在线免费观看| 日本精品αv中文字幕| 99re热精品视频国产免费| 成年人视频一区二区| 3D动漫精品啪啪一区二区下载| 91精品国产自产在线老师啪l| 刘亦菲一区二区在线观看| 中字无码精油按摩中出视频| 欧美一级高清免费a| 日韩第九页| 久久永久免费人妻精品| 9久久伊人精品综合| 中文成人无码国产亚洲| 亚洲 欧美 偷自乱 图片| 91极品美女高潮叫床在线观看| 国产传媒一区二区三区四区五区| 色偷偷一区| 欧美www在线观看| 欧洲熟妇精品视频| 亚洲午夜福利精品无码不卡 | 久久亚洲国产视频| 日韩A∨精品日韩精品无码| 成人综合久久综合| 国产成人一区免费观看| 日韩中文精品亚洲第三区| 国产精品吹潮在线观看中文| 99re在线免费视频| 欧美成人免费一区在线播放| 日韩 欧美 国产 精品 综合| 中文字幕中文字字幕码一二区| 国产精品福利尤物youwu| 日韩欧美国产精品| 午夜日本永久乱码免费播放片| 国产日韩精品一区在线不卡| 婷婷午夜天| yy6080理论大片一级久久| 激情综合网址| 国产男女XX00免费观看| 成人午夜亚洲影视在线观看| 日韩欧美国产区| 亚洲AV人人澡人人双人| 看av免费毛片手机播放| 久久国产精品影院| 伊大人香蕉久久网欧美| 99精品在线看| 亚洲成年人片| 色视频久久| 欧美日韩中文字幕在线| 99视频在线观看免费| 欧洲一区二区三区无码| 黄色三级网站免费| 色成人亚洲| 一级毛片免费观看久| 手机永久AV在线播放| 久久大香香蕉国产免费网站| 午夜视频在线观看免费网站| …亚洲 欧洲 另类 春色| 欧美日韩第三页| 亚洲欧美一区二区三区蜜芽| 亚洲三级视频在线观看| 亚洲精品色AV无码看| 国产在线啪| 日韩黄色大片免费看| 又黄又湿又爽的视频| 思思热精品在线8| 一本视频精品中文字幕|