999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析數據挖掘技術與稅務信息化建設

2008-12-31 00:00:00曹思思程國建
電腦知識與技術 2008年33期

摘要:介紹了數據挖掘技術在稅務信息化建設中的定位、目標和具體應用方法。分析了數據挖掘技術應用中存在的問題,指出了數據挖掘技術對稅務信息化建設的重要意義。

關鍵詞:數據挖掘;稅務;信息化

中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)33-1294-03

A Brief Analysis on the Data Mining Techniques for Taxation Informationization

CAO Si-si, CHENG Guo-jian

(School of Computer Science, Xi'an Shiyou University, Xi'an 710065, China)

Abstract: The position, goal and methods of data mining techniques for the taxation informationization were introduced. The problems on the application of data mining techniques were also analyzed and finally the important effect of data mining techniques on the taxation informationization were indicated.

Key words: data mining; taxation; informationization

1 引言

隨著信息技術飛速發展,我國稅務系統已基本實現了數據省級集中,國家稅務總局通過數據抽取的方式實現了征管數據的全國集中。全國國稅系統每年數據量以TB級的速度增長。這些數據如果不加以挖掘利用,無疑是巨大的浪費。數據挖掘技術恰好可以成為稅收信息化工作的一把利器,具有廣闊的應用前景[1-4]。

國際上,數據挖掘技術在稅務領域取得了不少成功[5]。如美國加州稅務在1998年就啟動了基于IBMDB2數據庫軟件的綜合逃稅人監察項目數據倉庫解決方案(INC)項目,使加州稅務能夠在超過2.2億項的獨立信息中利用商業智能技術進行業務分析。1996年美國國家稅務局利用數據挖掘技術追回補交稅款兩億筆,增收200億美元的稅金和罰款,并進行了120萬筆賬目審計。數據挖掘技術的重大意義不言而喻。

2 數據挖掘的概念

數據挖掘(Data Mining)技術是就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,是一種更深層次的數據分析[6-10]。

數據挖掘技術在自身發展過程中,涉及眾多學科技術,包括數據庫技術、統計學、機器學習、信息科學、數據可視化以及高性能計算、模式識別、神經網絡、人工智能、圖像與信號處理等其他科學。

3 數據挖掘在稅務信息化中的應用

3.1 數據挖掘的定位

根據稅收工作的實際情況,數據挖掘應從兩方面定位:

1) 從技術角度上看,數據挖掘是直接服務于數據分析工作的技術手段,它不僅是稅收數據分析的有力工具,而且代表著稅收分析的發展方向,即智能化與自動化的決策支持。

2) 從政策角度上看,稅收數據挖掘不僅是技術實現的過程,同時也是業務精細化與科學化的體現。數據挖掘是稅收工作的眼睛,它發現稅收征管的薄弱環節,成為稅收分析、納稅評估、稅務稽查、稅收監控這一良性互動機制的發動機和觸發器,直接關系到互動機制的運行質量。

3.2 數據挖掘的目標

根據稅收數據挖掘的定位,其主要目標應該包括:

1) 評價納稅行為。通過對納稅人納稅申報、辦理涉稅事項、發票使用等一系列數據實施監控,進行挖掘分析,建立稅源檢測數據模型,可以幫助稅務機關對納稅人的納稅行為進行合理的評價。

2) 監控執法過程。隨著征管數據的省級集中,有了對征管流程進行監控的數據基礎。通過梳理與整合,運用挖掘技術建立執法行為監控體系,監控稅務部門的執法行為,監督管理流程,對稅收執法疑點,做到事前、事中和事后的監控,規范執法行為。

3) 提供決策支持。數據挖掘技術不僅可發現稅收管理中的瑕疵,同時也為領導決策提供智能支持:通過數據的分類處理與分析,可全面分析宏觀稅負、行業稅負等指標,了解稅收收入總量增減的變化,科學判斷稅收收入增減的原因;通過數據概貌分析,可以得到一個地區稅收增減的總體狀況等等。

4) 優化納稅服務。運用現代數據挖掘手段,展開納稅服務數據的關聯性分析,可以了解納稅人涉稅事項的發生頻率以及涉稅事項之間的關聯程度,可以為辦稅服務廳的窗口設置、辦稅流程的設定提供數據支持,從而科學安排服務流程,提高服務水平。

3.3 數據挖掘的職能

稅務部門目前的機構設置具有職能導向型、綜合管理與專業管理相交叉的特點,目前還沒有明確相應的數據挖掘機構,數據挖掘工作存在多管齊下、職能交叉的混亂局面。而數據挖掘又是一項系統工程,需要多部門之間有機協調配合。因此,要明確相應機構的職能,規范工作流程,落實不同專長的人員分步實施。

數據挖掘要求高,難度大,既需要理論知識修養,也需要實踐經驗,從事數據挖掘的人通常都需要崗前培訓,成立專門的數據挖掘機構難以短時間發揮功能。本著因地制宜的原則可以采用下面的數據挖掘職能分工的辦法。

首先進行業務分析。業務分析的好壞直接影響著數據挖掘的整體成效,該職能由流轉稅、所得稅、進出口稅收、國際稅收部門與征管部門負責,他們將根據各業務對象提出用于數據定義和挖掘算法的業務需求。

其次是數據分析。數據的分析工作由稅收統計部門與數據處理部門聯合負責,該職能要求精通數據分析技術,并對數學工具有較熟練的掌握,有能力把業務需求轉化為數據挖掘的各步操作,并為每步操作選擇合適的數據技術。

再次是數據管理。信息中心負責數據的抽取和整理,該職能部門精通數據管理技術,熟悉數據預處理技術,能夠建立數據倉庫,并能根據要求從數據庫或數據倉庫中抽取數據以及對數據進行清洗與轉換。

最后是綜合協調。數據處理部門負責數據挖掘項目的統籌管理,編排項目時間表、制作挖掘任務書,協調各稅收部門間的事務,組織數據挖掘成果的應用。

3.4 數據挖掘的流程

數據挖掘是一個完整的過程,其基本流程如圖1所示。

1) 確定對象。要考慮該對象存在哪些問題,哪些工作可由挖掘系統自動完成、挖掘的目標是什么等等。清晰地定義出業務需求是數據挖掘的重要步驟,數據挖掘之前,就應當明確需要哪些稅收數據、數據是怎樣展現。

2) 數據準備。一是數據的選擇:根據挖掘目標從原始數據中選擇相關數據集,并將不同數據源中的數據集中起來。二是數據的預處理:研究數據的質量,確定將要進行的挖掘操作類型,對選擇的數據進行清洗,使其變成干凈的數據。三是數據的降維與轉換:降維是減少變量的數目,并設法將數據轉換到一個更容易找到的空間上。轉換的方法包括以期望的方式組織數據,把一種類型的數據轉換成另一種類型,最終目的就是將數據轉換成適于數據挖掘處理的形式。

3) 數據挖掘。這一階段需要根據前面的工作進行相應的完善,選擇合適的挖掘算法,并將挖掘算法應用于準備好的數據集,使用合適的數據挖掘算法進行數據分析。首先確定實現數據挖掘目標的數據挖掘功能,包括概念描述、分類、聚類、關聯規則等;其次選擇合適的模式搜索算法,包括模型和參數的確定,算法和數據挖掘目標的一致性保障等。

4) 結果分析。根據使用者的決策目的對數據挖掘的結果進行評價,將有用的結果以可視化的技術展示給使用者,讓使用者對挖掘結果做出解釋,同時評價模型的有效性。

5) 知識同化。將挖掘所得到的知識集成到稅收工作實際中,并跟蹤知識運用的具體成效。

3.5 數據挖掘的方法

數據挖掘需要使用不同的算法來完成不同的任務。不同的算法都是為了建立合適的數據模型,利用算法分析數據,并確定與所分析數據的特征最符合的模型。通常數據挖掘模型可分為預測型和描述型兩類。如圖2所示,每類模型都包含一些最常用的數據挖掘任務。

利用從不同數據中發現的已知結果,預測型模型對數據的值進行預測。預測型建模可能是基于使用其他的歷史數據。例如,一戶企業被歸入稅收欺詐隊列,可能不是因為該企業自己的歷史納稅數據信息,而是因為其納稅額增減周期與其他有欺詐行為的企業相似,而被歸入了欺詐隊列。預測模型能夠完成的挖掘任務包括分類、回歸、時間序列分析和預測。

描述型模型對數據中的模式或關系進行辨識,與預測型模型不同,描述型模型提供了一種探索被分析數據性質的方法,而不是預測新的性質。聚類、匯總(也叫特征化或泛化)、關聯規則和序列發現在本質上都通常被視為是描述型的。

以稅收預測為例,常用的具體方法有:

1) 一元線性回歸預測法。一無線性回歸預測是用一無線性回歸模型,對具有線性趨勢的稅收問題,只使用一個影響因素所作的預測。

2) 多元線性回歸預測法。多元線性回歸預測法是用多元線性回歸模型,對具有線性趨勢的稅收問題所作的預測。

3) 非線性預測法。非線性預測法是對利用非統性模型進行預測的一系列方法的總稱。最常用的非線性預測法有二次曲線預測法、指數曲線預測法等。二次曲線預測法是在確認稅收與某個經濟變量之間存在二次曲線趨勢時,利用二次曲線模型預測稅收收入的方法。指數曲線預測法是用指數曲線模型對呈固定速度增長的稅收問題預測的模型。

4) 指數平滑預測法。指數平滑是畫擬合曲線的一種方法,同時還可以對將來進行預測。指數平滑就是將最近的觀察數據賦予較高的權重,較早的數據賦予相對較低的權重,權重以一個常數的比率進行幾何遞減,使得較近的數據對將來的預測分析起的作用大一些。根據用戶選擇的參數不同,可以分為平穩時間序列指數平滑、趨勢時間序列指數平滑,和季節周期性指數平滑。

5) 神經網絡預測法。神經網絡近來越來越受到人們的關注,因為它為解決較大復雜度問題提供了一種相對來說比較有效的簡單方法。神經網絡可以很容易的解決具有上百個參數的問題。

圖1 數據挖掘的基本流程

圖2 數據挖掘模型分類

上述列出的預測方法在本質上也可以分為兩大類:一類是解釋性預測方法,即找出被預測量的各影響因素,建立回歸分析模型;另一類為時間序列分析方法,只依賴于被預測量的歷史觀測數據,通過序列分析,找出其順序變化計算機系統應用規律。

在稅收收入預測中采取的方法可以根據稅收收入和其它經濟因素之間的關系,用稅收歷史數據和各種經濟指標數據,建立稅收收入與GDP、工業增加值、商業增加值、消費、投資、價格、凈出口等相關經濟指標的多元回歸模型、非線性回歸模型、神經元網絡或其它模型;在建模過程中要不斷調整對因變量的選擇,以獲得一個比較好的模型。最后根據已知的數據來預測未來指定時間內的稅收收入的可能值及其變化趨勢。實際上為了得到滿足需要的結果,經常采取幾種方法的組合進行處理,回歸與神經元網絡的組合就是一種很好的選擇。

3.6 數據挖掘的應用

稅務行業在國民經濟中所處的重要位置是不言而喻的,而稅收業務最終都體現在數字上。根據現有的應用情況來看,主要表現在以下幾個方面:

1) 納稅評估:根據稅收征管中獲得的納稅人的生產經營、財務核算情況等主要指標信息,對納稅情況的真實性、準確性、合法性進行審核、分析和綜合評定。通過檢查或稽查,及時發現、糾正和處理納稅行為中的錯誤,并對異常申報等專項問題進行調查研究和分析評價,為征收、管理、稽查提供工作重點和措施建議,從而對征納情況進行全面、實時監控。

2) 納稅人納稅信用評估:為納稅人建立一個信用評估打分系統,然后結合稅務登記、納稅情況等信息建立一個納稅信用評估模型,對新辦登記的納稅人進行信用評估,得分較低者作為重點管理和檢查對象。

3) 稅務機關業績評估:考察稅務機關的業績通常涉及到很多指標,但有些指標互相重疊、互相依賴,如果將它們同等對待,考察結果可能有失公正。可以使用一些統計方法,將大量的指標變量壓縮到較少的幾個綜合性指標上去,并且這些綜合性指標能夠充分反映原來所有指標變量所反映的信息,然后使用這些綜合性指標對稅務機關進行業績評估。

4) 稅源預測:根據可能影響稅源的指標(如:本地區的國內生產總值、投資總額、社會消費品總額、工業附加值等)的歷史數據,利用統計方法預測下一年度的稅源,作為制訂稅收計劃的依據。

5) 稅收收入預測:在某地區前幾年稅收收入數據的基礎上,利用時間序列預測下一年度的稅收收入;或根據影響稅收收入的其他指標利用多元線性回歸預測下一年度的稅收收入。稅收收入的預測值可作為制訂下一年度稅收收入計劃的依據。

6) 納稅人偷稅行為預測:根據納稅人的登記信息、納稅信息、財務指標、以往的偷稅記錄等信息,創建預測納稅人可能有偷稅行為的分類模型,并以此模型作為稽查選案的依據。

7) 納稅人分類:根據納稅人的稅務登記、納稅情況、偷稅行為記錄等信息對納稅人進行分類,使同一類型中的納稅人盡可能相似,不同類型的納稅人盡可能有明顯的差異,征收管理人員可以根據每一種類型的特點和不同類型之間的差異,對納稅人實行不同的管理辦法,從而提高管理質量。

3.7 數據挖掘應用存在的問題

數據挖掘技術在稅收領域的應用無論是廣度還是深度都非常有限。欲使之在全行業范圍內廣泛應用,還需必須關注以下幾個問題:

1) 數據資源聚積面要有深度和廣度。除傳統的數據形式外,對文本、聲音、影像等一些數據資源,也必須廣泛搜集、設計、梳理,因為在政務行為評估中,這些數據是非常寶貴的。不同行業之間的數據共享是海量數據聚積的重要源泉。由于受我國信息化發展水平和業務壁壘的制約,行業之間甚至是同行業不同部門之間的數據信息還不能共享,信息孤島現象普遍存在。解決數據資源的“虛假匱乏”問題是一項基礎性的工作。

2) 數據挖掘人力資源嚴重缺乏。數據挖掘過程是分步實現的,每步需要有不同專長的人員。如果人力資源不夠完備,就難以保證數據挖掘的成功。

3) 對數據挖掘的認識亟待提高。對大多數人來說,數據挖掘是個很陌生的名詞,它對稅收業務有著什么樣的影響,還是知之甚少。有人認為數據挖掘就是數理統計,沒什么新內容;也有人認為數據挖掘就是數據庫在線查詢、聯機分析等。如果管理者對數據挖掘沒有較為清醒的認識,數據挖掘和數據分析就很難發揮應有的作用。

4 結束語

數據挖掘技術融合多學科知識,把數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。面對稅務部門不斷提出的業務新需求,數據挖掘技術還需要不斷探索、不斷完善、循序漸進。隨著稅務信息化逐步走向深入,數據挖掘技術在稅務部門的應用中將發揮更大的作用,具有廣闊的前景。

參考文獻:

[1] 葉向東. 數據挖掘.稅收分析與稅收決策的利器[J].安徽稅務, 2003, 9:38-39.

[2] 張峰. 數據挖掘在稅收分析中的應用[J].中國西部科技,2007,8:97-98.

[3] 李繼嵬, 劉書明, 李春平. 數據挖掘技術在稅收預測分析中的應用[J]. 計算機系統應用, 2006,9:61-64,68.

[4] 柯俊. 稅收數據挖掘五方構想[J]. 每周電腦報, 2007,13:24,26.

[5] 左春榮, 唐成成. 數據挖掘技術在稅收征管信息化中的應用[J]. 中國管理信息化(綜合版). 2007,1:61-63.

[6] Jiawei Han, Micheline Kamber(加)著, 范明,小峰等譯.數據挖掘概念與技術[M].2001.

[7] W.H.Inmon(美)著, 王志海, 林友芳等譯. 數據倉庫[M].機械工業出版社,2003.

[8] Mehmed Kantrdzic. DATA MINING-Concepts,Models,Methods and Algorithms[M]. 北京:清華大學出版社, 2003.

[9] 陳文偉, 黃金才, 趙新昱. 數據挖掘技術[M]. 北京: 北京工業大學出版社, 2002.

[10] 劉紅巖, 陳劍, 陳國青.數據挖掘中分類算法綜述 [J].清華大學學報(自然科學版), 2002,6:727-730.

主站蜘蛛池模板: 欧美午夜一区| 97精品久久久大香线焦| 国产va免费精品观看| 日韩国产黄色网站| 无码中字出轨中文人妻中文中| 亚洲成人黄色在线| 亚洲中文精品人人永久免费| 99热精品久久| 精品视频一区二区三区在线播| 免费看一级毛片波多结衣| 日本91视频| 国产av一码二码三码无码 | 色AV色 综合网站| 99久久精品视香蕉蕉| 国产极品美女在线| 亚洲三级成人| 亚洲免费毛片| 亚洲成人动漫在线观看| 成人综合网址| 欧美成一级| 国产成本人片免费a∨短片| 在线观看国产小视频| 欧美色图久久| 久久久精品无码一区二区三区| 久久精品这里只有国产中文精品| 人妻无码中文字幕第一区| 波多野结衣视频网站| 福利一区三区| 久久久噜噜噜久久中文字幕色伊伊| 欧美第一页在线| 亚洲av综合网| 国产剧情伊人| 午夜福利免费视频| 国产超碰在线观看| 国产麻豆福利av在线播放| 99热线精品大全在线观看| 国产成人区在线观看视频| 国产精品美人久久久久久AV| 本亚洲精品网站| 色婷婷综合在线| 久久久91人妻无码精品蜜桃HD| 亚洲经典在线中文字幕| 欧美啪啪精品| 激情六月丁香婷婷四房播| 国产视频一区二区在线观看| 国产精品任我爽爆在线播放6080| 国产精品国产三级国产专业不| 国产一区二区精品福利| 天天综合网色| 毛片免费在线视频| 色AV色 综合网站| 日本不卡视频在线| 国产成人免费视频精品一区二区| 亚洲AV无码久久天堂| 99re这里只有国产中文精品国产精品 | 国产欧美日韩精品综合在线| 国产女人18水真多毛片18精品 | 欧美性猛交一区二区三区| 免费AV在线播放观看18禁强制| 手机永久AV在线播放| 国产精品第5页| 日本尹人综合香蕉在线观看| 中文字幕亚洲精品2页| 激情在线网| 77777亚洲午夜久久多人| 玖玖精品在线| 精品第一国产综合精品Aⅴ| 久久无码av三级| 亚洲一级色| 黄网站欧美内射| 日韩专区欧美| 久久先锋资源| 日韩精品亚洲精品第一页| 国产第二十一页| 国产一区二区三区夜色| 亚洲欧美成人网| 凹凸精品免费精品视频| 欧美亚洲国产精品久久蜜芽| 精品少妇人妻无码久久| 欧美成人影院亚洲综合图| 五月婷婷伊人网| 国产免费好大好硬视频|