999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM的稅務(wù)稽查選案自動識別方法研究

2016-05-30 10:48:04趙嶺峰
江蘇理工學(xué)院學(xué)報 2016年2期
關(guān)鍵詞:機器學(xué)習(xí)

趙嶺峰

摘要:支持向量機是20世紀90年代中期發(fā)展起來的機器學(xué)習(xí)技術(shù),在眾多分類算法中,支持向量機因其出色的學(xué)習(xí)能力,成為機器學(xué)習(xí)界的研究熱點。著重于介紹支持向量機,先把采集來的企業(yè)申報數(shù)據(jù)隨機分為訓(xùn)練樣本和測試樣本,然后通過臺灣大學(xué)林智仁(Lin Chih-Jen)副教授開發(fā)設(shè)計的支持向量機工具LIBSVM,用訓(xùn)練樣本獲得SVM模型,并用這個SVM模型預(yù)測測試樣本企業(yè)是否有問題,通過已知結(jié)果得到模型預(yù)測的準確率。實驗結(jié)果說明該方法是一種有效的方法,完全可以作為稅務(wù)稽查選案的參考。

關(guān)鍵詞:稅務(wù)稽查選案;支持向量機;機器學(xué)習(xí)

中圖分類號:F810.42 文獻標識碼:A 文章編號:2095-7394(2016)02-0022-04

稅務(wù)稽查選案,即通過計算機、人工或兩者相結(jié)合的方法,對各類稅務(wù)信息進行歸集分類處理,在眾多納稅人、扣繳義務(wù)人中選定最有可能有問題的對象。稅務(wù)稽查選案目前廣泛應(yīng)用方法是以信息化手段調(diào)取指標偏差厲害的納稅人,然后逐戶分析可能存在的問題,通過人工篩選,依靠以往的稽查和征管工作經(jīng)驗,確定檢查方向和檢查對象。

在本文中我們將嘗試使用另一種方法(20世紀90年代中期發(fā)展起來的機器學(xué)習(xí)技術(shù)——支持向量機),來分析判斷企業(yè)是否存在問題。支持向量機是一種機器學(xué)習(xí)的方法,它從訓(xùn)練資料中學(xué)習(xí)并建立一個模型,并通過此模型推測新的實例,可以廣泛地應(yīng)用于統(tǒng)計分類以及回歸分析。目前,這一機器學(xué)習(xí)方法已在多個方向上得到應(yīng)用,如人臉檢測,汽輪發(fā)電機組的故障診斷,文本挖掘,手寫體相似字識別,巖爆預(yù)測的支持向量機等。

1 SVM簡介

支持向量機(Support Vector Machine,SVM)是Corinna Cortes和Vapnik8等于1995年首先提出的,它通過尋求結(jié)構(gòu)化風(fēng)險最小來提高學(xué)習(xí)機泛化能力,實現(xiàn)經(jīng)驗風(fēng)險和置信范圍的最小化,從而達到在統(tǒng)計樣本量較少的情況下,亦能獲得良好統(tǒng)計規(guī)律的目的。因為它在解決小樣本、非線性及高維模式識別中表現(xiàn)出的許多特有的優(yōu)勢,所以研究發(fā)展迅速,現(xiàn)在已經(jīng)在許多領(lǐng)域(生物信息學(xué),文本和手寫識別等)都取得了成功的應(yīng)用。

支持向量機是一種機器學(xué)習(xí)的方法,它從訓(xùn)練資料中學(xué)習(xí)并建立一個模型,并通過此模型預(yù)測任何可能出現(xiàn)的輸入的值的輸出。訓(xùn)練資料是由輸入(如企業(yè)申報數(shù)據(jù))和預(yù)期輸出(如稽查結(jié)果,有無問題)所組成。

SVM的主要思想可以概括為兩點:它是針對線性可分情況進行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能。它基于結(jié)構(gòu)風(fēng)險最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望風(fēng)險以某個概率滿足一定上界。

SVM是一種有堅實理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概率測度及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計方法。從本質(zhì)上看,它避開了從歸納到演繹的傳統(tǒng)過程,實現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡化了通常的分類和回歸等問題。

SVM的最終決策函數(shù)只由少數(shù)的支持向量所確定,計算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。而少數(shù)支持向量決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡單,而且具有較強的健壯性。例如增、刪非支持向量樣本對模型幾乎沒有影響,下面我們的實驗也會體現(xiàn)這一點。

2 實驗分析

2.1 實驗?zāi)康?/p>

驗證通過svm分類算法建立的企業(yè)模型,對未知企業(yè)是否有問題的預(yù)測準確性。

2.2 樣本來源

筆者通過便利條件,直接從數(shù)據(jù)庫按年抽取了某市2009到2012年所有稽查過的制造業(yè)企業(yè),同時匹配一些相關(guān)年度申報數(shù)據(jù)(如銷售收入,應(yīng)納增值稅稅額,存貨平均數(shù),主營業(yè)務(wù)利潤等),然后在這些企業(yè)中通過excel隨機函數(shù),隨機抽取了2000戶作為實驗樣本。實驗樣本數(shù)據(jù)如表1。

2.3 實驗涉及的工具說明

采用臺灣大學(xué)林智仁(Lin Chih-Jen)副教授等開發(fā)設(shè)計的軟件包LIBSVM,該軟件包提供了簡單易用和快速有效的SVM模式識別與回歸方法,這使得我們不必要花費大量的時間理解SVM算法的深奧數(shù)學(xué)原理和計算機程序設(shè)計。該軟件包可以在http://www.csie.ntu.edu.tw/-cjlin/免費獲得。

2.4 詳細實驗步驟

2.4.1 產(chǎn)生符合軟件要求的數(shù)據(jù)文件

將樣本隨機劃分為1500戶企業(yè)的訓(xùn)練樣本和500戶企業(yè)的測試樣本,并按照LIBSVM軟件要求將訓(xùn)練樣本和驗證樣本分別格式化成文件train和文件test。

按照LIBSVM軟件要求,將文件格式化成如下格式:

0 1:14 871 030.39,2:27 256.24。3:2 965 841.805.4:1 532 128.27

1 1:950 897.44,2:57 423.99,3:30 925.5,4:2 546.66

0 1:210 508 744.31.2:5454 538.9,3:15 784 275.23.4:1 130 826.74

1 1:2 802 448.68,2:102 103.41,3:86 128,4:136 084.47

0 1:21 472 084.19.2:1 101 170.56.3:3 204 356.755.4:118 902.49

0 1:6 275 138 578.79。2:-372 343 321.62,3:461 957 600.77.4:993 078 657.52

1 1:1 577 484.9,2:40 859.68,3:101 973.92,4:33 422.62

0 1:301 643 912.2,2:2 690 974.51,3:4 500 019.87.4:5 520 681.07

其中第一個數(shù)字,表示該稽查下來是否有問題,1代表有問題0,代表無問題。

冒號前的1,2,3,4代表序號,可以是不連續(xù)的。

1,2,3,4冒號后的值分別代表銷售收入,應(yīng)納增值稅稅額,存貨平均數(shù),主營業(yè)務(wù)利潤。

2.4.2 對數(shù)據(jù)文件進行縮放

為了避免一些特征值范圍過大而另一些特征值范圍過小,以及避免在訓(xùn)練時為了計算核函數(shù)而計算內(nèi)積的時候引起數(shù)值計算的困難,因此通常將數(shù)據(jù)縮放到[-1,1]或者是[0,1]之間。

本步驟通過svm-scale.exe訓(xùn)練樣本train自動產(chǎn)生縮放規(guī)則range和縮放后的訓(xùn)練樣本train.scale,然后通過縮放規(guī)則range產(chǎn)生縮放后的驗證文件test.scale。以下為實例命令:

svm-scale.exe-s range train>train.scale

svm-scale.exe-r range test>test.scale

2.4.3 獲得SVM模型

本步驟通過svm-train.exe實現(xiàn)對縮放后的訓(xùn)練樣本train.scale的訓(xùn)練,獲得SVM模型model。

svm-train.exe train.scale model

2.4.4 驗證模型預(yù)測的準確率

本步驟通過svm-predict.exe根據(jù)訓(xùn)練獲得的模型model,對縮放后的驗證樣本test.scale進行分析,生成結(jié)果集result。

svm-predict.exe test.scale model resuh

程序返回:Accuracy=81.2%f406/5001(classi-fication)

說明我們預(yù)測的準確率為81.2%。

2.5 實驗分析

在1 500戶企業(yè)的訓(xùn)練樣本和500戶企業(yè)的測試樣本下測試改變屬性值數(shù)量對分類的影響,4個屬性值時,反饋預(yù)測準確率81.2%,6個屬性值時,反饋預(yù)測準確率81%,8個屬性值時,反饋預(yù)測準確率81.2%,10個屬性值時,反饋預(yù)測準確率81.2%,可見屬性數(shù)量的增加確實會影響預(yù)測準確性,但是影響不大。數(shù)據(jù)分類屬性越多,問題的復(fù)雜程度就越厲害,SVM引入了核函數(shù)來應(yīng)付樣本的屬性數(shù),使得樣本的屬性可以很多,而且效率上面并沒有多大變化。

改變樣本數(shù)量,在測試樣本均為500企業(yè)情況下,訓(xùn)練樣本為300企業(yè),反饋預(yù)測準確率81.2%,訓(xùn)練樣本為600企業(yè),反饋預(yù)測準確率81.2%,訓(xùn)練樣本為1000企業(yè),反饋預(yù)測準確率81.2%,訓(xùn)練樣本為1500企業(yè),反饋預(yù)測準確率81.2%,實驗結(jié)果驗證了SVM的健壯性,增、刪非支持向量樣本對模型幾乎沒有影響,小樣本數(shù)據(jù)即可取得很好的效果。

3 結(jié)語

隨著信息化的快速發(fā)展,稅收分析在稅收工作中越來越重要。新技術(shù)的學(xué)習(xí)和使用是提高分析水平的重要途徑和手段之一,本文拋磚引玉,提出使用機器學(xué)習(xí)方法,利用支持向量機來分析判斷企業(yè)是否有問題,實驗結(jié)果表明識別準確率達到81.2%,完全可以作為稅務(wù)稽查選案的又一參考。

責(zé)任編輯 祁秀春

猜你喜歡
機器學(xué)習(xí)
基于詞典與機器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機在圖像分割中的應(yīng)用
主站蜘蛛池模板: 国产视频一区二区在线观看| 亚洲国产成人在线| 亚洲一道AV无码午夜福利| 无码内射在线| 中文字幕日韩视频欧美一区| 巨熟乳波霸若妻中文观看免费| 东京热高清无码精品| 97一区二区在线播放| 日韩在线播放欧美字幕| 亚洲精品少妇熟女| 欧美激情首页| 日韩在线视频网站| 日韩精品成人网页视频在线| 国产精品乱偷免费视频| 久久精品女人天堂aaa| 国产丰满大乳无码免费播放| 蜜桃视频一区| 欧美国产日本高清不卡| 久久一级电影| 9久久伊人精品综合| 黄色a一级视频| 国产精品污视频| 99偷拍视频精品一区二区| 国产va免费精品观看| 91小视频在线播放| 99热这里只有成人精品国产| 中文字幕伦视频| 国产性生大片免费观看性欧美| 亚洲日本中文字幕乱码中文| 久久网综合| 欧美国产精品不卡在线观看| 亚洲综合色婷婷| 亚洲成人福利网站| 精品在线免费播放| 波多野结衣的av一区二区三区| 97青青青国产在线播放| 亚洲欧洲日韩综合色天使| 十八禁美女裸体网站| 亚洲综合二区| 毛片视频网址| 国产网站在线看| a级毛片网| 日本免费福利视频| 亚洲综合婷婷激情| 国产成人无码播放| 国产h视频在线观看视频| 久久久久中文字幕精品视频| 欧美亚洲第一页| 92午夜福利影院一区二区三区| 久久99国产综合精品女同| 欧美一级一级做性视频| 亚洲成a人在线播放www| 波多野结衣一区二区三区AV| 国产91色| 国产在线精品99一区不卡| 欧美不卡二区| 99久视频| 亚洲天堂免费观看| 国产精品入口麻豆| 中文字幕调教一区二区视频| 毛片网站免费在线观看| 最新国产精品第1页| 精品国产免费第一区二区三区日韩| 欧美在线伊人| 久久无码av三级| 人妻中文久热无码丝袜| 美女内射视频WWW网站午夜| 凹凸精品免费精品视频| 色悠久久久| 五月六月伊人狠狠丁香网| 欧美激情视频一区| 无码有码中文字幕| 97青草最新免费精品视频| 三级视频中文字幕| a国产精品| 老司机久久精品视频| 国产日韩精品一区在线不卡| 亚洲精品视频免费| a欧美在线| 亚洲日本中文综合在线| 色婷婷电影网| 好久久免费视频高清|