999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異常檢測和神經網絡的財政欺詐屏蔽分析

2016-12-28 01:22:58賴華梁陳建國
現代計算機 2016年33期
關鍵詞:檢測

賴華梁,陳建國

基于異常檢測和神經網絡的財政欺詐屏蔽分析

賴華梁,陳建國

(華南農業大學數學與信息學院,廣州 510642)

隨著國家對“三農”問題的重視,作為“三農”政策的重要組成部分,近年來國家逐漸加大農業財政補貼的力度,同時也出現一些財政補貼申請存在欺詐的問題。以Clementine提供的虛擬數據為基礎,分析財政補貼申請中可能出現欺詐行為的情況,通過運用SPSS Clementine 11.1軟件,利用異常檢測和神經網絡兩種分類算法,對財政申請的欺詐行為進行數據挖掘分析,挖掘出存在較大欺詐可能性的申請者。

財政補貼;異常檢測;神經網絡;數據挖掘

0 引言

國外發達國家農產品貿易普遍較為繁榮。例如,美國2013年農品出口總額達到了創紀錄的1409億美元,主要得益于其不斷調整的農業財政補貼政策。日本在二戰后,經濟復蘇快速發展,由于其固有的地理因素限制了農業生產效率,日本政府在結合本國實情基礎上,推出了一系列有針對性的農業補貼政策,最大限度的發揮了日本農業的優勢。

中國是個農業大國,但是農業一直處于相對落后狀態。農業補貼政策對我國農業發展有著巨大的推動作用,我國財政補貼支農政策經過多年的演變、調整和發展,財政支持“三農”政策框架體系已經顯現。由于相關政策存在監管死角,引發了諸如補貼申請欺詐等情況。在全球范圍內,申請欺詐已經被確定為金融機構收益損失的重大來源。

本文使用SPPSS Clementine 11.1提供的虛擬數據,模擬農業發展財政補貼申請案例,此案例中的財政補貼包括兩種類型:耕地開發財政補貼和退役田地財政補貼。本文通過使用數據挖掘分析方法發現偏離常態,同時突出了有必要進一步調查的異常記錄。財政補貼申請金額取決于田地的類型和大小。

1 前期研究

1.1 數據字段

本文分析采用SPSS Clementine 11.1提供的虛擬數據,如表1所示,該數據共有10個字段。

表1 農業申請記錄字段

1.2 異常檢測算法

異常檢測是數據挖掘中一個重要方面,一般用來發現較小規模的模式,即數據集中顯著不同于其他數據的對象。

Hawkins認為,異常是在數據集中與眾不同的數據,使人懷疑這些數據并非隨機偏差,而是產生于完全不同的機制。后來研究者們根據對異常存在的不同假設,發展了很多異常檢測算法,大體可以分為基于統計的算法、基于深度的算法、基于距離的算法、基于密度的算法,以及面向高維數據的算法等。

1.3 BP神經網絡算法

BP神經網絡是由非線性變換單元組成的前饋網絡,由輸入層、輸出層和隱含層組成。理論證明:對于任何一個閉區間內的連續函數可以用一個隱含層的BP網絡來逼近,因而一個三層的BP網絡可以完成任意的n維到m維的映射。

(1)BP神經網絡結構

圖1 BP神經網絡拓撲結構圖

BP神經網絡是基于BP誤差傳播算法的多層前饋網絡,多層BP網絡包含輸入節點、輸出節點,以及一層或多層隱含節點。三層BP網絡拓撲結構如圖1所示。各層神經元與下層所有的神經元連接,同層神經元之間沒有連接。

1.4 數據預篩選

使用異常處理算法對300條申請記錄進行預篩選,初步確定可能存在欺詐行為的申請者。

(1)確定異常范圍。在異常檢測節點的“模型”選項卡中,選擇訓練數據中大多數異常記錄的數目。

(2)查看異常檢測結果。使用表將異常結果進行呈現,結果顯示,經過數據預篩選判斷存在潛在欺詐可能的10條記錄,ID字段標識分別為:633,647,654,703,704,739,752,791,813,883。

2 建模分析與驗證

2.1 數據調查

首先,思考數據中可能存在的詐欺類型。一種可能是一塊田地同時出現多份財政補貼資助申請表。具體步驟如下:

(1)要檢查重復申請,需將分布節點連接至數據集,然后選擇姓名字段(假定該字段具有識別每塊田地的唯一值)。最終的分布圖將顯示一些進行了多次申請的田地。

(2)以上述步驟結果此為基礎,使用選擇節點放棄具有多個記錄的田地所對應的記錄。關注申請資助的單塊田地的特征。根據田地的大小、主要農作物類型、土壤類型等來評估該田地的期望收入。在導出節點中使用CLEM語言導出新字段。通過farmsize*rainfall *landquality這一簡單公式評估收入。

(3)調查偏離評估值的農民。需要導出另一個字段,對兩個值進行比較并返回一個百分比差值,該字段被稱為diff,繪制diff的直方圖。通過疊加申請類型來檢查其會不會影響評估收入之間的差距。

圖2 數據預篩選——異常檢測模型

2.2 訓練神經網絡

在最初的數據調查中,在考慮各種因素的情況下將實際申請金額與期望金額進行比較很有用。這就是神經網絡的意義所在。在數據中使用變量,神經網絡可以根據目標變量或相關變量來進行預測。通過這些預測變量,可以查明偏差的記錄或記錄組。步驟如下:

(1)建模準備過程中,應首先將類型節點添加到當前流中。由于要使用數據中的其他變量來預測申請值,可以使用類型節點將申請金額的方向設置為輸出。

(2)大多數案例的預期申請金額與實際申請金額都基本相符。導出另一個claimdiff字段(與之前導出的“收入差額”字段類似)。

(3)為了說明實際申請金額與預估申請金額之間的差異,使用claimdiff直方圖。了解申請金額比預估金額(由神經網絡判斷)高的人。

(4)通過在直方圖劃出區域,可以右鍵單擊劃出的區域,然后生成一個選擇節點以進一步調查claimdiff值相對較大(如大于50%)的人。這些申請有待進一步調查。

2.3 重訪異常檢測

作為使用“神經網絡”的一種備選方案,再次使用“異常檢測”,但此次僅檢測“神經網絡”模型中所用記錄的子集(claimtype=='arable_dev')。具體步驟如下:

(1)在與添加神經網絡節點相同的位置添加異常檢測節點(這樣兩個節點便同時成為相同類型節點的兩個分支)。在“模型”選項卡中,如前所述選擇訓練數據中大多數異常記錄的數目,然后輸入值10。

(2)執行此節點,將已生成模型添加到流,如前所述選擇相應選項以放棄非異常記錄。添加表節點,然后執行以查看結果。

最終建立如圖3所示的異常檢測與神經網絡對比模型。

圖3 異常檢測與神經網絡對比模型

3 挖掘結果分析

通過上節的分析,根據不同判斷規則,得出了相應的異常檢測結果。

3.1 數據調查

通過選擇姓名字段(假定該字段具有識別每塊田地的唯一值)輸出申請者name字段的分布表。最終的分布圖4顯示name618和name777兩個申請者有多條申請記錄,認為有較大可能存在潛在欺詐行為。

3.2 神經網絡與異常檢測結果

如圖5所示,是在“重訪異常檢測”后得到的判斷結果;圖6是訓練神經網絡得到的判斷結果。不難發現,其中ID為773、897和899在兩種分析模型中同時出現,可以認為上述3個申請者存在較大的欺詐可能。

圖4 name字段分布圖

圖5 重訪異常檢測結果

圖6 神經網絡檢測結果

同時綜合前面得到同一申請者有多條申請記錄的name618和name777,因此認為一共有5個申請者存在潛在的欺詐行為。

4 結語

使用“異常檢測”進行預篩選后,可以創建一個模型,將模型預測值與數據集中的現有值(關于田地收入字段)進行比較。從比較結果看出,偏差主要出現在某類財政補貼申請(耕地開發)中,然后選擇相應記錄進行進一步調查。通過訓練神經網絡模型,申請金額與田地大小、評估收入、主要農作物等之間建立了關系。與網絡模型預估金額相差較大(大于50%)的申請將檢測出來并有待進一步調查。當然,有可能所有這些申請都是有效的,但他們與標準數據存在偏差的事實值得引起人們的注意。

為了進行比較,將再次使用異常檢測節點,但此次只針對“神經網絡”分析中包含的耕地開發財政補貼使用該節點。除存在些微差別之外,此方法得到的結果與“神經網絡”方法幾乎相同。由于兩種方法均為勘察方法,這也在情理之中。

[1]董理.日本農業財政補貼政策及對中國的借鑒[J].世界農業,2012(12):34-36.

[2]郭偉,張海風,苑連霞.美國農業財政補貼政策及對我國農業發展的啟示[J].對外經貿實務,2014(08):35-38.

[3]杜晨雪.淺析中國農業財政補貼政策[J].商業文化(學術版),2010(10):82-83.

[4]高莉.欺詐偵測系統解決方案研究[J].金融電子化,2012(07):65-67.

[5]李炎,李皓,錢肖魯,等.異常檢測算法分析[J].計算機工程,2002(06):5-6.

[6]王建琦,李友年,陳星陽.基于BP神經網絡算法的自動駕駛儀設計[J].航空兵器,2007(04):3-5.

Analysis of the Financial Fraud Screening Based on the Anomaly Detection and Neural Network

LAI Hua-liang,CHEN Jian-guo

(College of Mathematics and Informatics,South China Agricultural University,Guangzhou 510642)

As the country's emphasis on"three rural"issue,as an important part of the"three rural"policy,in recent years,the government gradually increases the intensity of agricultural subsidies.At the same time there are also appeared some subsidies fraud.Based on the virtual data provided by Clementine,analyses the fiscal subsidy application may occur in the case of fraud,by using the software of SPSS Clementine 11.1,uses two kinds of classification algorithms include anomaly detection and neural network,carries on the data mining analysis to the financial application fraudulent practice,digs out the possibility of applicants is fraud,finally digs out the applicants which with big possibility of fraudulent.

Financial Subsidies;Anomaly Detection;Neural Network;Data Mining

1007-1423(2016)33-0025-04

10.3969/j.issn.1007-1423.2016.33.006

賴華梁(1991-),男,廣東梅州人,碩士研究生,研究方向為數據挖掘、管理信息系統

2016-09-06

2016-10-30

陳建國(1963-),男,湖南岳陽人,博士研究生,教授,研究方向為工業工程

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數的乘除法”檢測題
“有理數”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 久草青青在线视频| 亚洲日本www| 国产欧美成人不卡视频| 秋霞国产在线| 制服丝袜 91视频| 日本三级精品| 色综合成人| 精品黑人一区二区三区| 国产手机在线ΑⅤ片无码观看| 欧美成人一级| 四虎国产精品永久在线网址| 国产在线精品99一区不卡| 国产精品女熟高潮视频| 无码精品国产dvd在线观看9久| 久久香蕉国产线| 精品国产成人国产在线| a毛片在线| 亚洲首页国产精品丝袜| 在线观看免费AV网| 欧美午夜一区| 日本人妻一区二区三区不卡影院| 精品欧美一区二区三区久久久| 国产在线视频欧美亚综合| 欧洲精品视频在线观看| 精品福利视频网| 亚洲欧美国产视频| 成人午夜视频免费看欧美| 亚洲欧美日韩中文字幕一区二区三区| 人妻无码一区二区视频| 免费国产高清精品一区在线| 日韩欧美中文在线| 无码人妻免费| www.99在线观看| 亚洲中文无码av永久伊人| 日本高清有码人妻| a亚洲天堂| a毛片在线播放| 婷婷六月综合网| 国产激情第一页| 一区二区自拍| 五月婷婷综合色| 久久激情影院| 婷婷综合色| 99视频精品全国免费品| 亚洲精品国产自在现线最新| 亚洲黄色成人| 亚洲无码高清免费视频亚洲| 日韩高清在线观看不卡一区二区| 人妻21p大胆| 尤物特级无码毛片免费| 久久综合色88| 东京热高清无码精品| 亚洲中文字幕在线一区播放| 手机成人午夜在线视频| 亚洲永久色| yjizz视频最新网站在线| 免费A级毛片无码无遮挡| 欧美国产日韩另类| 亚洲精品国产首次亮相| 九色免费视频| 亚洲V日韩V无码一区二区| 伦伦影院精品一区| 91午夜福利在线观看精品| 99热这里只有精品免费国产| 亚洲av无码人妻| 日本91视频| 色综合五月| 日韩AV手机在线观看蜜芽| 一区二区影院| 国产精品亚洲专区一区| 久久semm亚洲国产| 国产性爱网站| 国产精品欧美在线观看| 国产区在线看| 99激情网| 亚洲一区第一页| 久久久久久尹人网香蕉| 麻豆精品在线视频| 亚洲成a人在线播放www| 谁有在线观看日韩亚洲最新视频| 好吊色妇女免费视频免费| 97在线免费|