基于異常檢測和神經網絡的財政欺詐屏蔽分析

2016-12-28 01:22:58賴華梁陳建國

現代計算機 2016年33期

關鍵詞：檢測

賴華梁，陳建國

賴華梁，陳建國

（華南農業大學數學與信息學院，廣州 510642）

隨著國家對“三農”問題的重視，作為“三農”政策的重要組成部分，近年來國家逐漸加大農業財政補貼的力度，同時也出現一些財政補貼申請存在欺詐的問題。以Clementine提供的虛擬數據為基礎，分析財政補貼申請中可能出現欺詐行為的情況，通過運用SPSS Clementine 11.1軟件，利用異常檢測和神經網絡兩種分類算法，對財政申請的欺詐行為進行數據挖掘分析，挖掘出存在較大欺詐可能性的申請者。

財政補貼；異常檢測；神經網絡；數據挖掘

0 引言

國外發達國家農產品貿易普遍較為繁榮。例如，美國2013年農品出口總額達到了創紀錄的1409億美元，主要得益于其不斷調整的農業財政補貼政策。日本在二戰后，經濟復蘇快速發展，由于其固有的地理因素限制了農業生產效率，日本政府在結合本國實情基礎上，推出了一系列有針對性的農業補貼政策，最大限度的發揮了日本農業的優勢。

中國是個農業大國，但是農業一直處于相對落后狀態。農業補貼政策對我國農業發展有著巨大的推動作用，我國財政補貼支農政策經過多年的演變、調整和發展，財政支持“三農”政策框架體系已經顯現。由于相關政策存在監管死角，引發了諸如補貼申請欺詐等情況。在全球范圍內,申請欺詐已經被確定為金融機構收益損失的重大來源。

本文使用SPPSS Clementine 11.1提供的虛擬數據，模擬農業發展財政補貼申請案例，此案例中的財政補貼包括兩種類型：耕地開發財政補貼和退役田地財政補貼。本文通過使用數據挖掘分析方法發現偏離常態，同時突出了有必要進一步調查的異常記錄。財政補貼申請金額取決于田地的類型和大小。

1 前期研究

1.1 數據字段

本文分析采用SPSS Clementine 11.1提供的虛擬數據，如表1所示，該數據共有10個字段。

表1 農業申請記錄字段

1.2 異常檢測算法

異常檢測是數據挖掘中一個重要方面，一般用來發現較小規模的模式，即數據集中顯著不同于其他數據的對象。

Hawkins認為，異常是在數據集中與眾不同的數據，使人懷疑這些數據并非隨機偏差，而是產生于完全不同的機制。后來研究者們根據對異常存在的不同假設，發展了很多異常檢測算法，大體可以分為基于統計的算法、基于深度的算法、基于距離的算法、基于密度的算法，以及面向高維數據的算法等。

1.3 BP神經網絡算法

BP神經網絡是由非線性變換單元組成的前饋網絡，由輸入層、輸出層和隱含層組成。理論證明：對于任何一個閉區間內的連續函數可以用一個隱含層的BP網絡來逼近,因而一個三層的BP網絡可以完成任意的n維到m維的映射。

（1）BP神經網絡結構

圖1 BP神經網絡拓撲結構圖

BP神經網絡是基于BP誤差傳播算法的多層前饋網絡,多層BP網絡包含輸入節點、輸出節點,以及一層或多層隱含節點。三層BP網絡拓撲結構如圖1所示。各層神經元與下層所有的神經元連接,同層神經元之間沒有連接。

1.4 數據預篩選

使用異常處理算法對300條申請記錄進行預篩選，初步確定可能存在欺詐行為的申請者。

（1）確定異常范圍。在異常檢測節點的“模型”選項卡中，選擇訓練數據中大多數異常記錄的數目。

（2）查看異常檢測結果。使用表將異常結果進行呈現，結果顯示，經過數據預篩選判斷存在潛在欺詐可能的10條記錄，ID字段標識分別為:633，647，654，703，704，739，752，791，813，883。

2 建模分析與驗證

2.1 數據調查

首先，思考數據中可能存在的詐欺類型。一種可能是一塊田地同時出現多份財政補貼資助申請表。具體步驟如下：

（1）要檢查重復申請，需將分布節點連接至數據集，然后選擇姓名字段（假定該字段具有識別每塊田地的唯一值）。最終的分布圖將顯示一些進行了多次申請的田地。

（2）以上述步驟結果此為基礎，使用選擇節點放棄具有多個記錄的田地所對應的記錄。關注申請資助的單塊田地的特征。根據田地的大小、主要農作物類型、土壤類型等來評估該田地的期望收入。在導出節點中使用CLEM語言導出新字段。通過farmsize*rainfall *landquality這一簡單公式評估收入。

（3）調查偏離評估值的農民。需要導出另一個字段，對兩個值進行比較并返回一個百分比差值，該字段被稱為diff，繪制diff的直方圖。通過疊加申請類型來檢查其會不會影響評估收入之間的差距。

圖2 數據預篩選——異常檢測模型

2.2 訓練神經網絡

在最初的數據調查中，在考慮各種因素的情況下將實際申請金額與期望金額進行比較很有用。這就是神經網絡的意義所在。在數據中使用變量，神經網絡可以根據目標變量或相關變量來進行預測。通過這些預測變量，可以查明偏差的記錄或記錄組。步驟如下：

（1）建模準備過程中，應首先將類型節點添加到當前流中。由于要使用數據中的其他變量來預測申請值，可以使用類型節點將申請金額的方向設置為輸出。

（2）大多數案例的預期申請金額與實際申請金額都基本相符。導出另一個claimdiff字段（與之前導出的“收入差額”字段類似）。

（3）為了說明實際申請金額與預估申請金額之間的差異，使用claimdiff直方圖。了解申請金額比預估金額（由神經網絡判斷）高的人。

（4）通過在直方圖劃出區域，可以右鍵單擊劃出的區域，然后生成一個選擇節點以進一步調查claimdiff值相對較大（如大于50%）的人。這些申請有待進一步調查。

2.3 重訪異常檢測

作為使用“神經網絡”的一種備選方案，再次使用“異常檢測”，但此次僅檢測“神經網絡”模型中所用記錄的子集(claimtype=='arable_dev')。具體步驟如下：

（1）在與添加神經網絡節點相同的位置添加異常檢測節點（這樣兩個節點便同時成為相同類型節點的兩個分支）。在“模型”選項卡中，如前所述選擇訓練數據中大多數異常記錄的數目，然后輸入值10。

（2）執行此節點，將已生成模型添加到流，如前所述選擇相應選項以放棄非異常記錄。添加表節點，然后執行以查看結果。

最終建立如圖3所示的異常檢測與神經網絡對比模型。

圖3 異常檢測與神經網絡對比模型

3 挖掘結果分析

通過上節的分析，根據不同判斷規則，得出了相應的異常檢測結果。

3.1 數據調查

通過選擇姓名字段（假定該字段具有識別每塊田地的唯一值）輸出申請者name字段的分布表。最終的分布圖4顯示name618和name777兩個申請者有多條申請記錄，認為有較大可能存在潛在欺詐行為。

3.2 神經網絡與異常檢測結果

如圖5所示，是在“重訪異常檢測”后得到的判斷結果；圖6是訓練神經網絡得到的判斷結果。不難發現，其中ID為773、897和899在兩種分析模型中同時出現，可以認為上述3個申請者存在較大的欺詐可能。

圖4 name字段分布圖

圖5 重訪異常檢測結果

圖6 神經網絡檢測結果

同時綜合前面得到同一申請者有多條申請記錄的name618和name777，因此認為一共有5個申請者存在潛在的欺詐行為。

4 結語

使用“異常檢測”進行預篩選后，可以創建一個模型，將模型預測值與數據集中的現有值（關于田地收入字段）進行比較。從比較結果看出，偏差主要出現在某類財政補貼申請（耕地開發）中，然后選擇相應記錄進行進一步調查。通過訓練神經網絡模型，申請金額與田地大小、評估收入、主要農作物等之間建立了關系。與網絡模型預估金額相差較大（大于50%）的申請將檢測出來并有待進一步調查。當然，有可能所有這些申請都是有效的，但他們與標準數據存在偏差的事實值得引起人們的注意。

為了進行比較，將再次使用異常檢測節點，但此次只針對“神經網絡”分析中包含的耕地開發財政補貼使用該節點。除存在些微差別之外，此方法得到的結果與“神經網絡”方法幾乎相同。由于兩種方法均為勘察方法，這也在情理之中。

[1]董理.日本農業財政補貼政策及對中國的借鑒[J].世界農業，2012（12）：34-36.

[2]郭偉，張海風，苑連霞.美國農業財政補貼政策及對我國農業發展的啟示[J].對外經貿實務，2014（08）：35-38.

[3]杜晨雪.淺析中國農業財政補貼政策[J].商業文化(學術版)，2010（10）：82-83.

[4]高莉.欺詐偵測系統解決方案研究[J].金融電子化，2012（07）：65-67.

[5]李炎，李皓，錢肖魯，等.異常檢測算法分析[J].計算機工程，2002（06）：5-6.

[6]王建琦，李友年，陳星陽.基于BP神經網絡算法的自動駕駛儀設計[J].航空兵器，2007（04）：3-5.

Analysis of the Financial Fraud Screening Based on the Anomaly Detection and Neural Network

LAI Hua-liang，CHEN Jian-guo

（College of Mathematics and Informatics,South China Agricultural University,Guangzhou 510642）

As the country's emphasis on"three rural"issue,as an important part of the"three rural"policy,in recent years,the government gradually increases the intensity of agricultural subsidies.At the same time there are also appeared some subsidies fraud.Based on the virtual data provided by Clementine,analyses the fiscal subsidy application may occur in the case of fraud,by using the software of SPSS Clementine 11.1,uses two kinds of classification algorithms include anomaly detection and neural network,carries on the data mining analysis to the financial application fraudulent practice,digs out the possibility of applicants is fraud,finally digs out the applicants which with big possibility of fraudulent.

Financial Subsidies;Anomaly Detection;Neural Network;Data Mining

1007-1423（2016）33-0025-04

10.3969/j.issn.1007-1423.2016.33.006

賴華梁（1991-），男，廣東梅州人，碩士研究生，研究方向為數據挖掘、管理信息系統

2016-09-06

2016-10-30

陳建國（1963-），男，湖南岳陽人，博士研究生，教授，研究方向為工業工程