朱苑婷
(廣州建筑工程監(jiān)理有限公司,廣東 廣州 510000)
近年來,數(shù)據(jù)挖掘技術(shù)的發(fā)展速度日漸加快,同時,其應(yīng)用領(lǐng)域也越來越廣泛。為了推動稅務(wù)稽查信息化和智能化進(jìn)程,我國稅務(wù)機(jī)關(guān)在稅務(wù)稽查中也運(yùn)用了數(shù)據(jù)挖掘技術(shù),這對稅務(wù)工作者更好地制定稽查計劃有著重要幫助,同時,也在一定程度上提升了稅務(wù)稽查案件的針對性。在傳統(tǒng)的稅務(wù)稽查工作中,稅務(wù)稽查系統(tǒng)作用有限,無法對稅務(wù)稽查數(shù)據(jù)信息進(jìn)行充分、有效地利用。而應(yīng)用數(shù)據(jù)挖掘技術(shù)可以從多個方面和維度地綜合分析納稅戶數(shù)據(jù)信息,以此篩選稽查對象,經(jīng)過評估得出相對應(yīng)的稅務(wù)稽查處理方式。因此,研究數(shù)據(jù)挖掘技術(shù)在稅務(wù)稽查的應(yīng)用,對提升稅務(wù)稽查工作質(zhì)量及效率也將帶來一定助力。
數(shù)據(jù)挖掘技術(shù)最初被應(yīng)用于商業(yè)領(lǐng)域,隨后逐步在通訊、醫(yī)療服務(wù)等領(lǐng)域得到逐步應(yīng)用,但從行業(yè)準(zhǔn)則來看,不同領(lǐng)域應(yīng)用數(shù)據(jù)挖掘技術(shù)的行業(yè)準(zhǔn)則并不相同,尚未形成統(tǒng)一化的標(biāo)準(zhǔn)。一些專家學(xué)者嘗試對數(shù)據(jù)挖掘技術(shù)的行業(yè)準(zhǔn)則進(jìn)行了深入探索,逐步研究出適用范圍較大的數(shù)據(jù)挖掘技術(shù)行業(yè)準(zhǔn)則。該準(zhǔn)則不僅在商業(yè)領(lǐng)域可以應(yīng)用,還適用于國家稅務(wù)機(jī)關(guān),現(xiàn)在已經(jīng)形成了統(tǒng)一的行業(yè)準(zhǔn)則。
數(shù)據(jù)挖掘的行業(yè)準(zhǔn)則包含六個階段:第一階段,業(yè)務(wù)理解,是指準(zhǔn)確定位組織的目的;第二階段,數(shù)據(jù)選擇,按照最開始的數(shù)據(jù)對其重要性作出初步的判定,選擇有概率富含有價值信息的數(shù)據(jù)集;第三階段,數(shù)據(jù)準(zhǔn)備,將最初的數(shù)據(jù)轉(zhuǎn)變成可利用的模式;第四階段,數(shù)據(jù)挖掘,以探索為主要形式,符合實際情況的一種及多種數(shù)據(jù)的算法;第五階段,評估,指的是評估各種算法模型后,辨別出適合的模型種類和數(shù)據(jù)算法;第六階段,實施,通過模型輸出結(jié)果,運(yùn)用可視化技術(shù),制定決策供決策者作為數(shù)據(jù)參考。
數(shù)據(jù)挖掘包含多種技術(shù)方法,這里以聚類分析和Web 挖掘技術(shù)為例,對數(shù)據(jù)挖掘技術(shù)方法進(jìn)行探討。
1.聚類分析。
聚類分析方法主要是根據(jù)差異性來處理數(shù)據(jù)信息的,在分類分析的過程中,其建立的模型需要有已知的元素,而聚類分析則是對未知的數(shù)據(jù)信息加以分類,可以達(dá)到自動分類數(shù)據(jù)的效果。聚類分析方式包含了機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法還有統(tǒng)計方法。在統(tǒng)計方法方面,聚類分析是以幾何距離為基礎(chǔ)的,是較為全面的聚類分析。但是需要給定全面完備的數(shù)據(jù),無法增加其他的動態(tài)信息。在機(jī)器學(xué)習(xí)方面,不再是以幾何距離為基礎(chǔ),而是以研究對象的距離來衡量,性質(zhì)是概念描述。
2.Web 挖掘技術(shù)。
Web 挖掘技術(shù)可以從Web 數(shù)據(jù)信息庫中查找知識和所需要的數(shù)據(jù)。在完善有針對性系統(tǒng)服務(wù)的過程中,一般來說人們會利用Web 內(nèi)容挖掘分析網(wǎng)頁內(nèi)容。Web 挖掘技術(shù)可以分為:一是以代理為基礎(chǔ)的方法,二是數(shù)據(jù)庫方法。Web 挖掘技術(shù)可以對研究對象采取直接處理的方式,所以效果更為準(zhǔn)確可靠。
稅務(wù)稽查工作在開展過程中涉及多個流程,數(shù)據(jù)挖掘技術(shù)應(yīng)用于稅務(wù)稽查中時,需要與稅務(wù)稽查工作流程充分融合,這里從選案、實施、審理三個環(huán)節(jié)進(jìn)行分析,探討數(shù)據(jù)挖掘技術(shù)在其中的具體應(yīng)用。
1.建立選案指標(biāo)。
稅務(wù)稽查選案需要選擇和確定評價指標(biāo),在此過程中,可以利用結(jié)構(gòu)模型來縷清眾多稅務(wù)稽查納稅戶數(shù)據(jù)之間的關(guān)系,結(jié)構(gòu)模型可以表示數(shù)據(jù)信息之間的關(guān)聯(lián),從而分析出選案指標(biāo)的合理性。要想深入了解稅務(wù)稽查納稅戶數(shù)據(jù)間的相關(guān)性,還可以采用演算矩陣的形式。結(jié)構(gòu)模型和演算矩陣都屬于幾何模型,除此之外,在稅務(wù)稽查選案中還可以運(yùn)用到粗糙集理論。粗糙集理論的核心就是將數(shù)據(jù)簡化,利用粗糙集理論這種方式,可以簡化納稅戶的信息,讓選案系統(tǒng)更加清晰明了。
2.細(xì)分納稅群體。
與傳統(tǒng)的稅務(wù)稽查系統(tǒng)相比,數(shù)據(jù)挖掘技術(shù)的應(yīng)用,對提升稅務(wù)稽查系統(tǒng)處理數(shù)據(jù)能力較為有益。其具備以下優(yōu)勢,例如,可以快速查閱賬本、信息化高效處理數(shù)據(jù)、準(zhǔn)確篩查涉稅遺漏點,還可以以不同類型和不同領(lǐng)域的分析模型去歸納總結(jié)納稅戶的涉稅疑點。數(shù)據(jù)挖掘技術(shù)可以將對于有疑點納稅戶的處理意見進(jìn)行整理,然后推送給稅務(wù)稽查部門,精簡了工作步驟。通常而言,細(xì)分轄區(qū)內(nèi)納稅戶的方式有兩種:對納稅戶進(jìn)行分類或者聚類。
分類的方式,指的是人為提前按照納稅戶的指標(biāo)制定分類標(biāo)準(zhǔn),然后再歸類整合。如今,納稅人的分類有兩種:存在疑問的和不存在疑問的。這時候有很多數(shù)據(jù)挖掘算法可以被運(yùn)用,比如決策樹歸納法、神經(jīng)網(wǎng)絡(luò)模型等。有學(xué)者在研究數(shù)據(jù)挖掘技術(shù)在稅務(wù)稽查中的應(yīng)用時,根據(jù)神經(jīng)網(wǎng)絡(luò)模型,將納稅戶歸為兩種類別:分別是誠信納稅戶和非誠信納稅戶。采用了十九個財務(wù)屬性,建立了三層的結(jié)構(gòu)體系。因為對于解決非線性問題而言,神經(jīng)網(wǎng)絡(luò)模型具有突出的優(yōu)點,與統(tǒng)計分析的方法相比,它的判定效果要好很多。(然后再過渡到本篇文章如何應(yīng)用數(shù)據(jù)挖掘技術(shù)細(xì)分納稅群體)
分類的方式是將已知的數(shù)據(jù)按照分類標(biāo)準(zhǔn)進(jìn)行歸類整合,聚類有別于分類,聚類需要劃分的研究對象是不確定的。聚類純粹是按照數(shù)據(jù)的變化來取一個相似值。應(yīng)用聚類分析時,納稅戶群組之間的差異要小,這樣就能觀察到每個組別的相關(guān)特征,進(jìn)而分析出納稅戶的納稅狀況。聚類的方式是指系統(tǒng)辨別納稅戶的指標(biāo),讓組內(nèi)的納稅戶產(chǎn)生相似性,組間納稅戶產(chǎn)生不同性,自然生成聚類判別準(zhǔn)則,根據(jù)這個標(biāo)準(zhǔn)歸類各個納稅戶。將各行業(yè)及各稅種進(jìn)行整合,再進(jìn)行聚類分析,能夠分別歸納整理具有不同疑點的納稅戶信息,明確每種類別的基本特點和情況,在制定稽查計劃時就有了相對應(yīng)的決策理論基礎(chǔ),加強(qiáng)稽查工作的準(zhǔn)確性。
離納稅戶組群遠(yuǎn)的數(shù)據(jù)可以看作是孤立點,聚類分析時需要著重注意孤立點,挖掘孤立點有時會帶來意想不到的效果。聚類分析可以放大孤立點的影響,而孤立點和納稅戶的異常稅務(wù)行為可能存在一定的聯(lián)系。即使是相同的數(shù)據(jù),在聚類分析時也能采用不同的算法,從而得出納稅戶數(shù)據(jù)信息的潛在聯(lián)系和規(guī)律。
3.分析異常納稅戶。
針對稅務(wù)稽查積累的海量歷史數(shù)據(jù),可利用數(shù)據(jù)挖掘技術(shù)對其進(jìn)行篩選。在利用數(shù)據(jù)挖掘技術(shù)剔除完不相關(guān)的數(shù)據(jù)之后,還需要發(fā)現(xiàn)和分析異常數(shù)據(jù),然后進(jìn)行相關(guān)的評估和審核工作,這時我們就需要應(yīng)用到離群點。離群點是數(shù)據(jù)挖掘技術(shù)的核心問題之一,離群點不屬于任何分組,如果一個數(shù)據(jù)被識別劃分成離群點,那么該研究對象就可以被看作是異常。在稅務(wù)稽查工作中也是如此,利用數(shù)據(jù)挖掘技術(shù)中的離群點可以快速甄別納稅戶出現(xiàn)的異常信息。在聚類方法里,離群點就是那些無法歸類、散落在外的研究數(shù)據(jù)信息,數(shù)據(jù)挖掘技術(shù)中的離群點里也許包含著關(guān)鍵信息。稅務(wù)稽查部門在進(jìn)行稽查選案時,需要首先從數(shù)據(jù)信息庫中調(diào)取不同規(guī)模、不同行業(yè)、不同地區(qū)的納稅戶信息,然后再將利用數(shù)據(jù)挖掘技術(shù)調(diào)取納稅額異常的納稅戶信息,將這些納稅戶作為重點稽查對象。
4.“畫像”提取選案。
在大多數(shù)時候,稅務(wù)稽查部門需要得到如“該企業(yè)是否被選定為稽查對象”等直接明了的選案準(zhǔn)則,稅務(wù)稽查部門可以用企業(yè)“畫像”等輔助技術(shù)來加以篩選。以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),分析和應(yīng)用稅務(wù)的外部系統(tǒng)和內(nèi)部系統(tǒng),總結(jié)企業(yè)的經(jīng)營活動、貢獻(xiàn)價值、成長風(fēng)險、誠信合規(guī)等多維度的成像,對企業(yè)的大致情況、經(jīng)營模式、業(yè)務(wù)來往、納稅情況等方面加以查看和探索,這就是數(shù)據(jù)挖掘技術(shù)的企業(yè)“畫像”,方便稅務(wù)稽查部門在發(fā)現(xiàn)涉稅異常或有風(fēng)險時提取選案。
比如,在企業(yè)開發(fā)票這一成像的分析中,可以對開票這一動作進(jìn)行監(jiān)管并“畫像”,那么就可以監(jiān)管并識別企業(yè)虛開發(fā)票的行為。比如,稅務(wù)稽查部門在調(diào)查企業(yè)的關(guān)系結(jié)構(gòu)時,可能需要在多個系統(tǒng)進(jìn)行相關(guān)查詢,還要屢次更改查詢要素,而且還容易將重要信息遺漏。但是利用數(shù)據(jù)挖掘技術(shù)為企業(yè)“畫像”就可以避免這個困擾,在系統(tǒng)內(nèi)可以以圖譜的形式顯示企業(yè)的往來關(guān)系,可以進(jìn)一步深挖,將投資人、法人等關(guān)聯(lián)信息挖掘出來,提高稽查選案工作的效率。
在實施環(huán)節(jié),需要按照發(fā)現(xiàn)的問題的不同,來對納稅戶進(jìn)行針對性定性。在定性的過程中,根據(jù)違法違章類型的不同,處罰方式也有所不同。可以按照違法的稅款金額大小和《稅收征管法》來處罰納稅戶。一般來說,稅務(wù)稽查部門是按照自身的經(jīng)驗,或者根據(jù)對應(yīng)的法律文件來對最終的處罰作出決策,這樣一來比較麻煩,二來由于是經(jīng)驗占了主導(dǎo)地位,容易把稅務(wù)人員的主觀性帶入進(jìn)去,而造成客觀的不足。而利用數(shù)據(jù)挖掘技術(shù)可以有效解決處罰問題,這種方法是:將《稅收征管法》中的內(nèi)容進(jìn)行歸納整合,轉(zhuǎn)換成規(guī)則庫,將規(guī)則進(jìn)行不斷推理和匹配,最終總結(jié)出一個如何處罰的定性結(jié)果。
以案件為基礎(chǔ)的推理是用訪問案例庫中相同類型案例的方式,進(jìn)一步分析然后解決現(xiàn)階段問題的一種稽查方式,對以前的案例結(jié)果重復(fù)利用,按照最終結(jié)果審核、修正處理決定,改變了以往從頭開始推導(dǎo)的方式,這樣可以有效提升稅務(wù)稽查審理環(huán)節(jié)的工作效率。
以案件為基礎(chǔ)的推理過程是:當(dāng)發(fā)現(xiàn)一個新的疑點時,數(shù)據(jù)挖掘系統(tǒng)按照最顯著的特點,然后在原始案例數(shù)據(jù)庫里查找,直到找出與已知問題最接近的待選數(shù)據(jù)信息,再重復(fù)利用待選數(shù)據(jù)信息的解決方案。如果稅務(wù)稽查人員不滿意待選數(shù)據(jù)信息,可以修改待選數(shù)據(jù)信息,直到適應(yīng)所檢索的新案例數(shù)據(jù)信息,最后將改正后的案例數(shù)據(jù)變成新的案例數(shù)據(jù)收藏在數(shù)據(jù)庫中,如果今后遇到相似的問題可以方便查找。基于案件的推理過程以以往的案例數(shù)據(jù)為知識源泉,在知識獲取方面比較自然和直接,而且有一定的學(xué)習(xí)作用,本質(zhì)是類似的案例互相推理比較,也符合人類現(xiàn)有的思維和邏輯。之前的案例都可以為今后的稅務(wù)稽查工作提供范本,利用數(shù)據(jù)挖掘技術(shù)可以找到相似的案例數(shù)據(jù),對于新案例有一定的借鑒作用。
數(shù)據(jù)挖掘技術(shù)在稅務(wù)稽查中的應(yīng)用,可以實現(xiàn)更為深入的分析涉稅數(shù)據(jù)及信息,為稅務(wù)稽查帶來有價值的、重要的知識或者信息,有助于提升稅務(wù)稽查的信息化和智能化水平。與此同時,數(shù)據(jù)挖掘為稅務(wù)稽查帶來了新的思路和工作模式,在稅務(wù)稽查的選案環(huán)節(jié)、實施環(huán)節(jié)和審理環(huán)節(jié)都有著廣泛的用途,在今后也會在稅務(wù)稽查中發(fā)揮更為重要的作用,為稅務(wù)稽查工作注入新的活力。