張春瑜(陜西財經職業技術學院,咸陽,712000)
基于數據挖掘技術的中小企業納稅評估模型構建
張春瑜
(陜西財經職業技術學院,咸陽,712000)
本文構建了基于數據挖掘技術的中小企業納稅評估模型,解決對中小企業納稅問題的研究。
數據挖掘;納稅 ;評估模型
中小企業由于其自身規模與政策的限制,一般都不能保持長期穩定的發展狀態,這將會對投資人投資回報率的穩定性造成直接影響,所以,納稅人的生產經營情況在很大程度上影響著納稅人的決策。除此之外,納稅人多存在偷稅、漏稅的僥幸心理也是影響納稅決策的重要內因。
從納稅本身來講,它屬于一種對納稅人財產所有權進行強制轉移的一種行為,從表面上看似乎不是一種利益對等的行為,因此納稅人從自身利益出發,希望能夠減少稅負或者是表現出納稅不遵從的行為。在這種情況下,通過對中小企業的生產經營數據進行分析,并以此來預測納稅人納稅遵從行為是合理的,通過對納稅人“稅收遵從”或“稅收不遵從”的分類屬性進行分析,以此來提高納稅評估模型的準確度和納稅評估工作的效率。
納稅評估從稅務登記、發票管理、申報征收、行政審批環節及外部信息庫取得相關數據,并以此為依據來確定評估對象, 對納稅人扣繳義務人一定時期內申報繳納稅款的情況進行綜合評價并進行相應處理。主要工作流程包含四步,即確定評估對象工作流程,實施評估工作流程,評估結果處理工作流程和評估反饋工作流程。
隨著數據采集與存儲技術的不斷進步,人們擁有的數據量也在逐漸增加,透過這些數據為人們的決策提供了更多的參考,但是在越來越多的大量數據中如何尋找對決策具有決定性意義的數據是人們目前普遍關注的重點,數據挖掘技術的應用恰恰解決了這一難題,數據挖掘技術借助于數據倉庫,通過數據源的集成和選擇,將大量模糊、隨機的數據轉變為有序的數據,并通過對目標數據的多次處理和分析,產生知識模式,并最終表現為有價值的信息。納稅評估對象的選定過程本質上就是對納稅人的涉稅數據進行分析,進而得到納稅人分類,二者的總體邏輯框架是一致的,因此,運用數據挖掘技術優化納稅評估模型是完全可行的。
3.1 中小企業納稅評估數據倉庫的構建
納稅評估數據倉庫是數據挖掘實現的數據平臺,應該包含定性、定量分析過程中涉及的各類涉稅數據,數據倉庫體系結構如圖1所示。

圖1 數據倉庫結構
按照數據的覆蓋范圍可以分為集中式數據倉庫和數據集市。運用元數據和其它管理工具對數據倉庫進行組織和管理。
OLAP 服務器:對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發現趨勢。
前端工具:主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具以及各種基于數據倉庫或數據集市的應用開發工具。
數據倉庫的設計主要包括兩個部分:與操作型系統接口的設計和數據倉庫本身的設計。前者的設計主要指ETL 組件的設計,ETL 組件通過對操作型數據進行清洗、轉換、加載,把事務數據轉換成數據倉庫中的數據;后者的主要設計問題是:粒度、分區和適當設計。粒度問題是設計數據倉庫的最重要的方面,因為它會深刻影響存放在數據倉庫中的數據量的大小以及數據倉庫所能回答的查詢類型,要在數據量大小和所能回答查詢的細節級別間做出權衡,為此,擁有海量數據的企業往往采用多粒度級的設計。
3.2 數據挖掘技術的應用過程
數據挖掘技術的應用過程一般包括以下四步:
第一步,確定業務對象:在開始數據挖掘之前最基礎的工作就是理解數據和實際業務問題,在這個基礎上提出問題,并對目標進行明確的定義。認清數據挖掘的目的是數據挖掘的重要一步,因此必須清晰的定義出業務范圍。數據挖掘的最后結構是不可測的,但應對要探索的問題有預見性,為了數據挖掘而數據挖掘則帶有盲目性,一般不會成功。
第二步,數據準備:這一步是保證數據挖掘得以成功的先決條件,數據準備在整個數據挖掘過程中占的比重最大,大約是整個數據挖掘工作量的60%,數據準備包括數據選擇、數據預處理和數據轉換。
其中,數據選取的目的是確定發現任務的操作對象,即目標數據,是根據用戶的需要從原始數據庫中抽取的一組數據。數據預處理一般可能包括消除噪聲、推導計算缺值數據、消除重復記錄、完成數據類型轉換。當數據挖掘的對象是數據倉庫時,一般來說,數據預處理己經在生成數據倉庫時完成了。數據變換的主要目的是消減數據維數或降維,即從初始特征中找出真正有用的特征以減少數據挖掘時要考慮的特征或變量個數。
第三步,數據挖掘:數據挖掘就是對所得到的經過轉換的數據進行挖掘,除了選擇合適的挖掘方法外,其余工作可自動地完成。
第四步,結果分析與知識的同化:對挖掘結果進行解釋并評估。數據挖掘階段發現出來的模式,經過評估,可能存在冗余或無關的模式,這時需要將其剔除。也有可能模式不滿足用戶要求,這時則需要整個挖掘過程回退到前續階段,如重新選取數據、采用新的數據變換方法、設定新的參數值,甚至換一種算法等等。另外,由于數據挖掘最終是面向人類用戶的,因此可能要對發現的模式進行可視化,或者把結果轉換為用戶容易理解的其它表示形式,如把分類決策樹轉換為“if…then…”規則。知識的同化就是將分析做得到的知識集成到業務系統的制度結構中去。
4.1 選取訓練樣本集
為了評估模型的準確性,盡量避免納稅評估過程中評估人員的主觀經驗判斷,本文認為應該從已知納稅人的分類屬性中挑選訓練樣本集,以訓練樣本集的邏輯判斷驗證測試樣本集的分類屬性。因此,構建納稅評估模型首先應該選擇訓練樣本集,樣本集中的每一個元素都已知其分類屬性,且樣本中所含元素越多越好,樣本集合應包括如表1所示的內容。

表1 中小企業納稅評估模型樣本集
在表1中, 0l、02是對7項業務指標屬性和樣本元素分類屬性的定量表示。其中,業務指標若為01,表示業務指標“正常”,02表示“異常”;樣本元素的分類屬性D若為01,表示納稅人“稅收遵從”,若為02,則表示“稅收不遵從”。
4.2 計算兩種分類的先驗概率
對訓練樣本集中的“分類屬性”進行統計,得到分類屬性為O1的樣本總數C-D1和屬性為02的樣本總數C-D2,并計算“稅收遵從”和“稅收不遵從”的先驗概率P(D1)=C-D1/(C-D1+C-D2),
P(D2)=C-D2/(C-D1+C-D2)
4.3 計算業務指標的條件概率
以分類屬性為界限,再次對訓練樣本集的業務指標進行樣本數統計,得到分類屬性D為“納稅遵從”情況下稅負率差異幅度Z1“正常”的樣本數C-Z1-N1-D1、“異常”樣本數C-Z1-N2-D1,分類屬性D為“納稅不遵從”情況下稅負率差異幅度Z1“正常”的樣本數C-Z1-N1-D2、“異常”的樣本數C-Z1-N2-D2,并據此得到所有業務指標的相關信息。
判定完納稅人的分類屬性之后,稅務機關可挑選“納稅不遵從”對象,利用評估分析、詢問核實、評定處理等一系列程序,完成納稅評估工作。
綜上所述,本文在對數據挖掘技術進行分析的基礎上,運用數據挖掘技術優化納稅評估模型,構建了基于數據挖掘技術的中小企業納稅評估模型,將納稅評估的對象選定工作置于科學的邏輯框架下,以提升納稅評估的效率。
胡艷容.中小企業納稅遵從成本影響因素研究[D].江西農業大學,2013.
張春瑜,女,1982—,河北南宮人,講師,研究方向:稅收、會計、金融
Construction of SME tax assessment model based on data mining technology
Zhang Chunyu
(Shaanxi Vocational College of Finance and Economics,Xianyang,712000)
This paper constructs a data mining technology based small and medium enterprises tax assessment model, to solve the problem of the research on small and medium-sized enterprise tax.
data mining;tax;assessment model