999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在稅務系統數據分析上的應用

2010-11-15 01:32:36
巢湖學院學報 2010年6期
關鍵詞:數據挖掘分析系統

曹 騫 許 磊

(1巢湖學院計算機系,安徽 巢湖,238000)

(2中國科技大學計算機學院,安徽 合肥,230000)

(3巢湖學院物理系,安徽 巢湖,238000)

數據挖掘技術在稅務系統數據分析上的應用

曹 騫1,2許 磊3

(1巢湖學院計算機系,安徽 巢湖,238000)

(2中國科技大學計算機學院,安徽 合肥,230000)

(3巢湖學院物理系,安徽 巢湖,238000)

本文主要介紹了巢湖市地稅局稅務系統的系統結構和關鍵技術。該系統主要運用數據倉庫、ETL、數據挖掘等關鍵技術。

數據分析系統;數據倉庫;ETL

1 引言

巢湖市地稅局稅務系統管理中心以稅務處理系統為基礎,開發了一系列的增值業務。隨著稅務系統的運行,納稅企業稅單越來越多,系統累積的各種數據規模越來越大,累積的數據中包含著豐富的有價值信息,能夠幫助巢湖市地稅局更好的處理稅務的征收,與稅務的稽查。因此,在管理中心的日常業務中,對稅務系統中各種數據的各種分析需求已經逐漸顯露出來。

目前解決分析需求的辦法是,需要有專門的技術人員對最底層的核心數據庫進行手工操作,,用手工導出大量的相關的用戶數據,稅務記錄數據,然后通過相應的工具軟件制作相應的報表。這樣是能找出大量的數據,但是無法對取得的數據進行全面深入的分析,很難在海量的數據中找到潛在的有價值的信息,同時操作復雜繁瑣,數據間的相關性很難找到,響應時間長,報表制作周期長,容易出錯,而且由于直接對底層數據庫進行操作,對于數據的安全性和系統的安全性是一種潛在的威脅。怎樣解決目前的問題呢?方法是稅務系統的基礎上,構建一個能提供多種對數據深入分析方法,擴展當前系統使之具有靈活簡單的報表定制功能,同時為系統平臺的安全性提供完整的解決方案,為數據建立綜合的稅務分析平臺。找出相關的數據的邏輯性,與關聯性,為稅務的核查,提供相應的幫助,本文主要從總體設計、數據倉庫建模、ETL、系統功能等方面來論述,將系統建設重點放在內層數據倉庫建設,并在數據倉庫分離分析和業務環境的基礎上,建立一個基于Web的B/S架構的企業級數據分析框架,滿足本稅務征收和稅務稽查等部門的工作業務分析需求。

2 總體設計

2.1 體系結構

稅務系統綜合數據分析平臺采用了基于瀏覽器的三層結構(B/S架構),體系結構如圖1所示。系統需要定期(每周/月/季度/年)從業務系統(稅務系統、稅務部門網站服務器、系統日志等)里抽取分析平臺所需要的分析數據,增量式地更新稅務系統綜合數據倉庫SMMAIL-DW,這部分抽取工作對底層的原始數據的視圖進行操作。保護了原始數據的安全性。SMMAIL-DW存儲了以客戶為中心的特征數據和行為數據,以網頁為中心的web訪問數據等,應用服務器定期(每周/日/年)對這些數據進行處理(匯總、聚合、統計、分類等),同時應用服務器提供還提供相應的查詢和分析的接口,對分析結果數據提供基于WEB的展示的接口,最后應用服務器定期(每周/日/年)生成各類數據分析報表。WEB服務器端通過ASP.Net程序調用應用服務器的各種功能,用戶通過瀏覽器直接訪問本系統。

圖1

2.2 系統組成

根據上述體系結構,的整個系統組成如下所示:

1)ETL:包括原始數據 ETL、參數設置、系統檢錯等功能;

2)業務邏輯:包括數據處理、查詢分析、數據挖掘建模、結果顯示等功能;

3)前端應用:包括納稅企業分析、稅務分析、Web分析、系統運行分析、系統管理等功能。

3 關鍵技術

3.1 數據倉庫設計

數據倉庫總體結構如圖2:

圖2

原始稅務業務數據視圖通過ETL程序自動導入到數據倉庫中的事實表中。除了事實表,數據倉庫中還包括了企業信息、稅單信息,賬單信息等維表。在數據倉庫的基礎上,為了滿足各種數據分析需求,再為不同的分析主題中建立相應的數據集市。

對于數據倉庫中的按月匯總的明細事實數據,由于其數據量會非常大,可以按照保持一個時間周期(比如一年)之后自動按上一級時間粒度匯總的策略來保存歷史數據,這樣在明細表中就可以始終保持一個時間周期的細節數據。如圖3所示:

圖3

4 ETL設計

4.1 ETL高層設計

ETL高層設計是指將數據倉庫中的數據模型與其涉及到的OLTP系統中的相關數據表建立起對應關系,設計表級數據的初始導入及增量導入規則,將訂納稅企業信息、稅單的處理、企業的地理信息、系統日志、、網站內容訪問數據等以視圖的方式導入。

4.2 聚合策略設計

聚合是指在某一周期(如一個月,一年等)對事實表中的數據做按照一定規則的匯總,以減小數據量,提高絕大部分查詢的速度;同時將歷史數據中最能體現信息,最有保存價值的數據做保留,提高數據庫的使用效率。

在聚合維度的選取上我們要遵循的原則:維度頻度頻繁訪問原則:只有那些被經常需要使用到的維度,才有做聚合的意義;可選度小原則:指維度中可選用的值較少,只有這樣,聚合后才可能大規模的減小數據量。

具體實施中,我們將用軟件對各個事實表的數據量進行一個大致的計數,然后根據以上原則自動調用事先寫好的聚合的相應具體算法策略。

4.3 ETL異常處理機制

當ETL執行過程中發生異常時,ETL程序要記錄發生異常的詳細錯誤信息,發生錯誤的文件,錯誤的SQL語句,錯誤數據所在的行和列和發生錯誤的時間,同時根據數據的類型,根據提前指定的軟件糾錯機制,程序自動執行相應的操作,保證系統的運行,對于沒有預測到的錯誤,系統會將錯誤記錄分別歸類成異常數據文件,異常數據文件按照不同的數據類別進行分類存放。這樣用戶就可以快速的定位到有錯誤的數據,同時制定相應的解決方案,使之方便對異常數據文件進行集中處理。

在定位到錯誤位置并找出錯誤原因以后,通過修改源數據,增加糾錯程序方案,再次通過ETL程序增量導入到數據倉庫中。

4.4 ETL流程設計

ETL流程包括初始化導入和增量導入。初始化導入包括手工維護維度裝載、緩慢變化維表數據裝載、事實表數據裝載。增量導入包括緩慢變化維表數據裝載、事實表數據裝載階段、數據匯總和聚合以及異常情況處理。

5 系統功能

5.1 納稅企業分析

首先要提供一個統一的納稅企業數據視圖,通過這個視圖,可以對一個那納稅企業的多個層次信息同時進行反映,包括基本信息、企業相關的各種賬務報表信息。

在統一的納稅企業數據視圖基礎上,平臺能夠提供多種可視化查詢和多維分析手段,對納稅企業數據進行查詢、切片、旋轉、鉆取等操作,從多個不同的角度查看數據。

在查詢和多位分析的基礎上,平臺提供更深入的數據挖掘技術對納稅企業進行深入分析,包括根據企業基本信息和稅單信息進行企業細分,需要稽查的潛在企業分析,根據企業財務報表信息進行企業分析。有分析數據作出企業大致的經營情況為稅務的稽查,提供一定的范圍的幫助。

所有統計、查詢和數據挖掘分析的結果都能夠生成基于Web的報表,包括固定格式報表和用戶自定義報表兩種形式。

5.2 權限管理

本平臺的用戶基本分為三個層次:稅務管理層面;稅務和稽查局長;技術部工程師,不同層次的用戶具有不同的操作權限。因此系統要提供完整的“操作許可(Permission)-角色(Role)-用戶(User)-機構(Group)”的四層權限模型。 首先提供用戶管理功能,可以增加、刪除、修改用戶信息;其次建立所有的操作許可;然后在操作許可上建立不同的角色,一個角色可以有多個不同的操作許可;最后將角色分配給用戶。保障系統原始數據的安全與保密性。

5.3 系統監控

從實時系統運行日志和網絡設備日志數據中采集標志性數據,從而反映整個系統運行的情況,比如所有納稅企業、當前以納稅企業,需要納稅企業,減稅企業等等。系統提供用戶可定制的基于Web的系統監控報表;

在系統運行數據采集和查詢的基礎上,需要進一步對系統運行狀態進行預測分析,即根據采集到的系統日志、網絡設備日志等數據,對系統的運行狀態建立預測模型,從而在檢查系統運行狀態的同時,能夠對系統下一步可能出現的情況進行預測分析。對于所有的預測模型,平臺能夠自動定時的根據采集的日志數據進行重新訓練和優化,從而不斷提升模型精度。

6 小結

巢湖市地稅局稅務分析系統根據上述系統框架,基于數據挖掘等關鍵技術開發而成。數據倉庫設計采用PowerDesigner 6.0,構件技術采用基于COM的標準,數據分析采用了復旦德門DMiner智能分析平臺提供的二次開發函數DMiner SDK,開發語言采用ASP.Net1.1。

目前該系統已經在巢湖市地稅局正式上線運行,運行狀態良好,稅務工作人員通過該信息分析平臺獲得很多有用的信息。

[1]王志海等譯.數據倉庫[M].北京:機械工業出版社,2000.

[2]Jiawei Han,Micheline Kamber著,Data Mining Concepts and Techniques[M].北京:機械工業出版社,2006.

[3]Kim J.Iterated grid search on unimodal criteria[D].PhD dissertation,Department of Statistics,Virginia Tech,1997.

[4]Keogh E,Chakrabarti K,Pazzani M&Mehrotra.Dimenslonality reduction for fast similarity search in large time series databases[J].Journal of Knowledge and Information Systems,2000:263-286.

THE APPLICATION OF DATA MINING ON THE INFORMATION ANALYSIS OF CHAOHU BUREAU IN THE TAX SYSTEM

CAO Qian1,2XU Lei3
(1 Department of Computer,Chaohu University,Anhui Chaohu 238000)
(2 School of Computer,University of Science and Technology of China,Anhui Hefei 230000)
(3 Department of Physics,Chaohu University,Anhui Chaohu 238000)

This article mainly introduced the system of tax bureau chaohu system structure and key technology of this system is mainly used.Data warehouse and data mining,the ETL key technology.

Data Analysis System;Data Warehouse;ETL

TP311

A

1672-2868(2010)06-0017-04

2010-08-20

巢湖學院自然科學研究資助項目(XLY-201012)

曹騫(1981-),男,安徽安慶人。巢湖學院計算機系教師,研究方向:數據挖掘。

責任編輯:陳 侃

猜你喜歡
數據挖掘分析系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統及其自動化發展趨勢分析
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产精品思思热在线| 97se亚洲综合在线天天| 欧美激情视频一区| 国产成人a在线观看视频| 精品精品国产高清A毛片| 久热re国产手机在线观看| 亚国产欧美在线人成| 97国产一区二区精品久久呦| 久久久久夜色精品波多野结衣| 国产91精品调教在线播放| 日本免费福利视频| 天堂va亚洲va欧美va国产| 国产尤物jk自慰制服喷水| 91亚洲视频下载| 伊人久久精品无码麻豆精品| 亚洲欧美日韩另类| a亚洲天堂| 一级毛片在线免费视频| 91在线国内在线播放老师| 亚洲精品在线影院| 久久6免费视频| 久热精品免费| 国产福利2021最新在线观看| 思思99思思久久最新精品| 国产va免费精品观看| 国产精品浪潮Av| 小说 亚洲 无码 精品| 久久99热66这里只有精品一| 欧美三级不卡在线观看视频| 91毛片网| 白浆免费视频国产精品视频| 欧美精品v| 最新精品久久精品| 玖玖精品在线| 中文字幕自拍偷拍| 波多野吉衣一区二区三区av| 亚洲成AV人手机在线观看网站| 亚洲国产日韩一区| 欧美性天天| 亚洲自偷自拍另类小说| 91在线播放国产| 国产精品一区二区久久精品无码| 日韩精品欧美国产在线| 国产精品美女在线| 欧美一区二区三区国产精品| 国产亚洲精品91| 国产成本人片免费a∨短片| 99re热精品视频中文字幕不卡| aa级毛片毛片免费观看久| 欧美日韩在线亚洲国产人| 激情乱人伦| 亚洲欧美日韩久久精品| 永久免费无码成人网站| 亚洲午夜天堂| www.国产福利| 国产人人射| 99精品在线看| 国产自视频| 熟妇无码人妻| 亚洲精品动漫| 欧美亚洲国产视频| 亚洲国产欧美国产综合久久| 白丝美女办公室高潮喷水视频| 人妻中文字幕无码久久一区| 97精品伊人久久大香线蕉| 久久激情影院| 激情在线网| 色综合久久88色综合天天提莫| 国产精品短篇二区| 亚洲一区无码在线| 精品無碼一區在線觀看 | 91年精品国产福利线观看久久 | 国产成人AV男人的天堂| 情侣午夜国产在线一区无码| 日本三区视频| 免费无码AV片在线观看国产| 日本妇乱子伦视频| 亚洲精品自在线拍| 国产一区二区三区在线观看免费| 国产精品亚洲αv天堂无码| 亚洲区一区| 国产男女XX00免费观看|