999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

三種不同監督方法的離群值檢測在欺詐交易上的比較

2015-02-05 07:59:12佘玉萍陳淑清
長春大學學報 2015年10期
關鍵詞:精確度監督檢測

佘玉萍,陳淑清

(莆田學院信息工程學院,福建莆田351100)

0 引言

國內外有眾多的學者、專家還有企業的研究機構在各自的應用領域對欺詐檢測技術進行了大量的研究與實踐,也取得了不少的成果。在國內,文獻[1]在分析信用卡欺詐風險成因和識別防范策略的基礎上,介紹了支持向量機和決策樹這兩種算法來進行實證研究。欺詐檢測的應用還普遍應用于審計[2]、金融[3]和報稅[4]等領域。從欺詐檢測算法來看,主要用到了決策樹、支持向量機[5]、神經網絡[6]。因而目前國內對異常檢測方法的研究[7]主要集中于無監督學習框架和一些利用極少數有標號異常樣本的監督學習方法。在國外,2002年Bolton等[8]對金融欺詐分析領域的統計方法進行了回顧,探討了監督學習和無監督學習方法該領域的應用,然而其設計的監督學習方法并未考慮到異常檢測中存在的類別分布不平衡。CHANDOLA[9]研究深度挖掘異常產生的原因,并對異常檢測的應用場景繼續進行了廣泛分析,但其依然按異常檢測原理方法進行分類,而未能在半監督學習方面深入探討。因此,本文以某公司的銷售數據為例,分別使用無監督、監督和半監督的方法分別來進行較為全面的建模分析,為欺詐交易檢測提供更好的指導。

本文以某公司的銷售交易數據為測試數據,數據共計401146行,每一行記錄包括來自銷售員報告的信息。這些信息包括銷售員的編號(ID)、產品編號(Prod)、銷售員所報告的銷售數量(Quant)、總價值(Val)和公司對交易的檢查結果(Insp)。其中數據的各變量名與含義如表1所示。有些交易被懷疑為欺詐交易,主要目的是運用數據挖掘工具,為確定是否核查這些提供指導。

表1 樣本數據的變量及其含義

數據集中有一列(Insp)含有先前檢驗活動的信息。其中go rhf 14462條記錄標記為ok,1270條標記為fraud,385414條標記為unkn。從已有數據顯示還有96%的數據集沒標記(unkn),它們還沒有被檢驗,而只有較小的數據集(大約4%)是有標記的,它們有交易的特征描述和檢驗結果。在這種情況下,本文嘗試使用不同監督技術下的建模方法。

1 建模方法

從確定已有報告是否為欺詐的任務角度來看,這是一個描述性的數據挖掘任務。聚類分析是描述性數據挖掘的一個列子,聚類方法試圖對一組觀測值形成多個聚類,同一個聚類內的個案相似。相似性通常要求由描述觀測值的變量所定義的空間給出一個距離定義。距離是衡量一個觀測值與其他觀測值之間距離的函數。距離靠近的個案通常認為屬于同一組。離群值檢測也是描述性的數據挖掘任務。有些離群值檢測方法假定數據的預期分布,把背離這一分布的任何值標記為離群值。另一個常見的離群值檢測策略是假定一個變量空間的距離度量,然后把距離其他觀測值“太遠”的觀測值標記為離群觀測值。本文分別從機器學習的三種不同技術對應的三種模型來對同一組交易數據進行離群值檢測。

1.1 無監督學習技術

基于聚類的離群值排名(Clustering-Based Outlier Rankings,ORh)方法[10]采用分層聚類法獲得一個給定數據集的聚類樹。主要的思想是:以聚類樹的信息為基礎進行離群值的排序。離群值不易于合并,因此當它們最終被合并時,它們合并前所屬類的大小和它們被合并進去的類的大小應該相差很大。這也反映了離群值和其他觀測值是很不相同的。少數情況下,離群值與其他觀測值的合并發生在初始階段,但這只限于類似的離群值,否則離群值的合并會在聚類過程的后期合并。這種方法使用下面方法來計算每一個個案的離群值分數。

1)對于每一個合并兩個組(gx,i和gy,i)的第i步,得到離群因子值of(outlying factor)為:

其中gx,i是x所屬的組,而|gx,i|是該組的大小。因為感興趣的是較小的組,所以參與合并的兩個組中較大組的成員離群值分數將被賦為0。在分層聚類算法的整個迭代過程中,每個觀測值可以參與多個合并過程,有時是較大組的成員,有時是較小組的成員。

2)數據集的每個個案的最終離群值分數由下面的公式算出:

得到的實驗結果是基于預先定義的檢驗限制值為10%來計算決策精確度和回溯精確度。以下兩組模型的實驗前提條件與此相同。

1.2 監督學習技術

AdaBoost.M1[11]是屬于監督學習的一種算法,每個用來訓練的樣本被賦予一個權重,權重的大小代表了該樣本被下一個弱分類器列入訓練樣本集的概率。首先考慮一個二分類問題,并假設訓練樣本集為:S={(x1,y1),…,(xm,ym)},其中 xi屬于實例空間 X,有 xi∈X;yi是類別標志,yi屬于類別空間 Y,有 yi∈Y∈{+1,-1}。初始化時對所有的訓練樣本賦予相同的觀測權重1/m。然后,使用弱分類器對訓練集進行訓練,每次訓練后,根據訓練結果更新訓練樣本的觀測權重,并按照新的權重分別進行訓練。反復迭代T次,最終獲得一組弱分類器序列h1,…,hT,每個弱分類器都具有一定的權重,分類效果好的弱分類器觀測權重較大,反之較小。最后,通過加權的方法合并全部弱分類器,進而生成最終的強分類器H。Ada Boost.M1算法有很多優點,首先簡單易用,除了迭代次數T以外,不需要調節任何參數;其次,尋找一個精度比隨機預測略高的弱學習算法比尋找一個高精度的強學習算法要容易得多;最后,它具有理論支持,只要有足夠的數據以及弱分類器就能夠達到任意預測精度。

從實驗結果看出,在10%的檢驗水平下,標準的Ada Boost.M1比ORh有較高的決策精確度和回溯精確度。

1.3 半監督學習技術

自我訓練模型[12]是一個眾所周知的半監督分類形式。該方法先用給定標記的個案來建立一個初始的分類器。然后應用這個分類器來預測給定訓練集中未標記的個案。將分類器中有較高置信度的預測標簽對應的個案和預測的標簽一起加入到有標記的數據集中。在這個新的數據集上得到一個新的分類器,繼續重復這個過程,直到達到某個收斂準則時迭代過程才停止。只要能輸出預測的置信度信息,那么基本分類算法都可運用該方法。本文采用AdaBoost.M1模型作為訓練模型來完成實驗測試。

從實驗結果看出,在10%的檢驗水平下,自我訓練的Ada Boost.M1模型(Ada Boost.M1-ST)比標準的Ada Boost.M1和ORh均有較高的決策精確度和回溯精確度。

2 評價模型的準則及結果分析

當給出檢測報告的一個測試集時,每個模型將會產生排序,如何評價這些排序。當目標是預測一個小集合的罕見事件(如欺詐)時,決策精確度和回溯精確度[13]是合適的評價指標。而決策精確度和回溯精確度曲線(Precision/Recall Curve)是對這兩者的一種可視化表示。對于不同的限制水平(即檢測更少或更多的報告)進行迭代,得到不同的決策精確度和回溯精確度。某些模型給出測試集中每一個觀測值的離群值排序分數,這些分數的取值范圍為0~1。分數越高,說明這個觀測值是欺詐交易的模型置信度就越高。如圖1所示。

評價模型的另一準則是根據陽性預測率(RPP,Rate of positive predicitions)所捕獲的檢驗限制得到的回溯精確度[13],對應的曲線為累積回溯精確度圖(Cumulative Recall Curve)。對于累積回溯精確度圖而言,模型的曲線越靠近左上角,模型越好。如圖2所示。

圖1 標準的Ada Boost.M 1模型、ORh模型和自我訓練的Ada Boost.M 1模型的CR曲線

圖2 標準的AdaBoost.M 1模型、ORh模型和自我訓練的AdaBoost.M 1模型的PR曲線

從圖1的實驗結果可以看出,在欺詐交易檢測問題的三種模型中,CR曲線確認了自我訓練的AdaBoost.M1模型(AdaBoost.M1-ST)是最好的模型。尤其是在檢驗限值水平在15%至20%時,明顯要優于其他的模型。但就決策精度(PR曲線)而言,對低水平的回溯精確度值,這個模型的分數不是那么理想,甚至比Ada-Boost.M1模型和ORh模型都要差,然而對于較高的回溯精確度值,該模型就體現出它的優勢。這里較高的回溯精確度水平恰恰是銷售欺詐檢測應用所需要的。總之,對銷售數據的欺詐檢測這個應用而言,Ada-Boost.M1-ST模型是一個很有競爭力的模型。

3 結語

離群值檢測研究是一個非常有應用價值的問題,近年來受到越來越多的討論與關注,但由于離群值的相對性和主觀性。在不同應用的海量數據中挖掘離群值是相當復雜的,至今沒有高效且通用的方法來檢測離群值。本文主要從機器學習的三種不同技術出發,分別從對應的三種模型來應用于銷售數據中欺詐交易的檢測,并從實驗數據來分析這三種模型的檢測性能,對這類問題具有一定的指導性。但對于其他領域的應用還缺乏實驗驗證,所以暫且不具備所有應用的普遍指導意義。

[1] 吳婷.數據挖掘在信用卡欺詐識別上的應用研究[D].南京:東南大學,2006.

[2] 黃曉輝,張四海,王煦法.基于免疫網絡的分類應用于審計欺詐檢測[J].計算機工程與應用,2005(29):204-207.

[3] 曹長修,王 越.KDD方法在金融欺詐檢測中的應用研究[J].計算機工程與設計,2002,23(5):43-45.

[4] 王世衛,李愛國,郭媛媛等.基于SGNN的報稅欺詐檢測[J].西安科技大學學報,2004,24(4):470-473.

[5] 徐永華.基于支持向量機的信用卡欺詐檢測[J].計算機仿真,2008,28(8):376-379.

[6] 凌晨添.進化神經網絡在信用卡欺詐檢測中的應用[J].微電子學與計算機,2011,28(10):14-17.

[7] 陳斌,陳松燦,潘志松,李斌.異常檢測綜述[J].山東大學學報(工學版),2009,39(6):13-23.

[8] BOLTON R J,HAND D J.Statistcal fraud detection:a review[J].Statistical Science,2002,17(3):235-255.

[9] CHANDOLA V,BANETJEE A,KUMRY V.Anomaly detection:a survey[J].ACM Computing Surveys,2009,41(3):1-58.

[10] Torgo,L.Resource-bounded Fraud Detection[C]∥ in Progress in Artificial Intelligence,13th Portuguese Conference on Artificial Intelligence,EPIA,Neves et.al(eds.).LNAI,2007:449-460.

[11] R.E.Schapire,Y.Singer.Improved boosting algorithms using confidencerated predictions[C].Machine Learning 37,1999:297-336.

[12] Chuck Rosenberg,Martial Hebert,and Henry Schneider man.Semi-Supervised Self-Training of Object Detection Models[C]∥ Processings of the 7th IEEE Workshop on Application of Computer Vision.IEEE Computer Society,2005:29-36.

[13] Davis,J.,Goadrich,M.The relationship between precision-recall and ROC curves[C]∥Proceedings of the 23rd International Conference on Machine learning.ICML ’06,New York,2006:233 –240.

猜你喜歡
精確度監督檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
“硬核”定位系統入駐兗礦集團,精確度以厘米計算
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
小波變換在PCB缺陷檢測中的應用
監督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
易錯題突破:提高語言精確度
主站蜘蛛池模板: 青青草原国产| www精品久久| 亚洲经典在线中文字幕 | 91破解版在线亚洲| 亚洲精品无码专区在线观看| 色综合成人| 亚洲自偷自拍另类小说| 国产亚洲精品va在线| 亚洲第一极品精品无码| 一级在线毛片| 亚洲视频免费播放| 456亚洲人成高清在线| 国产va欧美va在线观看| 色婷婷电影网| 在线国产毛片| 五月综合色婷婷| 青青久在线视频免费观看| 超碰精品无码一区二区| 国产精品自在自线免费观看| 国产一区成人| 在线无码av一区二区三区| 亚洲永久色| 国产男女免费完整版视频| 一级爱做片免费观看久久| 国产在线观看99| 久久这里只有精品8| 国产丝袜无码精品| 国产高清无码麻豆精品| 黄色网站在线观看无码| 国产福利2021最新在线观看| 粉嫩国产白浆在线观看| 欧美国产在线看| 亚洲成人手机在线| 四虎国产成人免费观看| 久久一日本道色综合久久| 久久久久久久久久国产精品| 97在线免费视频| 精品国产香蕉伊思人在线| 久久五月视频| 在线观看国产网址你懂的| 日本三区视频| 中文字幕一区二区人妻电影| 亚洲精品大秀视频| 国产最爽的乱婬视频国语对白| 尤物特级无码毛片免费| 亚洲AⅤ波多系列中文字幕| 成年人国产视频| 久久永久免费人妻精品| 一本大道AV人久久综合| 亚洲高清资源| 国产成人91精品免费网址在线| 亚洲 成人国产| 久久精品亚洲中文字幕乱码| 奇米精品一区二区三区在线观看| 亚洲中文字幕在线观看| 为你提供最新久久精品久久综合| 国内精品久久九九国产精品| 小13箩利洗澡无码视频免费网站| 亚洲Av激情网五月天| 亚洲第一黄色网| 亚洲人成网址| 伊人激情久久综合中文字幕| Aⅴ无码专区在线观看| 国产手机在线小视频免费观看| 91麻豆国产视频| 亚洲国语自产一区第二页| 国模极品一区二区三区| 亚洲二区视频| 91精品啪在线观看国产91九色| 青青草欧美| 九色综合伊人久久富二代| 日韩无码一二三区| 国产网友愉拍精品| 丁香六月激情综合| 日本少妇又色又爽又高潮| 亚洲三级视频在线观看| 最新精品久久精品| 一本色道久久88| 2022国产无码在线| 欧美日韩精品在线播放| 怡红院美国分院一区二区| 亚洲国内精品自在自线官|