摘要:本文介紹了數據倉庫、知識發現以及數據挖掘的概念。淺析了稅務信息化的現狀和存在的問題、建立稅務數據倉庫的意義及其基本構想。
關鍵詞:稅收;分析預測;數據倉庫;數據挖掘
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)17-21384-03
1 前言
隨著稅務信息化的快速發展,大量數據產生于業務處理系統中,并且正在以成倍的速度增長。但是數據零散,集中整合度低,不能適應稅收決策和數據分析的需要。數據倉庫和數據挖掘技術的出現,為分析人員提供了強有力的信息支持,幫助分析人員進行正確的判斷,做出科學的決策。將數據倉庫技術運用到稅收工作中來以支持稅收決策和數據分析,提高工作的效率和質量已成為現實的需要。
2 數據倉庫系統結構
數據倉庫系統通常由數據倉庫、管理部分和分析工具三個部分組成,這三個部分之間的關系如圖1所示。
圖1 數據倉庫系統
2.1 數據倉庫
20世紀90年代初期,著名的數據倉庫專家W. H. Inmon首先提出數據倉庫的概念:數據倉庫DW(Data Warehouse)是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策。對于數據倉庫的概念我們可以從兩個層次予以理解,首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。
2.2 管理部分
管理部分包括對數據的安全、歸檔、備份、維護及恢復等工作。其功能主要是完成數據倉庫的定義,數據抽取、轉換、裝載數據歸檔、備份、維護、恢復及元數據管理等功能。它有以下3部分組成:
1)定義部件——用于定義和建立DW
a、設計和定義數據倉庫的數據庫。
b、定義數據源。
c、確定數據源向數據倉庫復制數據的轉換、清理規則。
2)數據獲取部件
a、裝載DW。依據數據定義部件定義的規則從數據源中將數據抽取到數據倉庫中,完成清洗、變換和集成工作,將數據裝填到數據倉庫中。
b、定期清理DW。定期清理數據倉庫,清除數據倉庫與數據源數據庫的不一致,清除失效數據。數據獲取一般用通用工具或特制的工具完成數據獲取工作。
3)管理部件:對DW中數據的維護、安全、備份、恢復、日志等工作。這些工作要借助DBMS的功能實現。
2.3 數據倉庫工具集
數據倉庫工具集主要由一些分析工具組成,主要包括檢索查詢工具,多維數據的OLAP分析工具、統計分析及數據挖掘工具等。
DW應用是一個典型的C/S結構,其客戶端的工作主要包括客戶交互、格式化查詢、可視化以及數據報表生成等;服務器端完成多種輔助的查詢、復雜的計算和各類綜合功能等。
3 建立數據倉庫的意義
3.1 國稅信息系統現狀及存在的問題
稅務部門信息化建設經過多年的發展,開發設計了多種信息系統,這些系統的投入和運行大大提高了稅務機構的整體運行效率,在加強稅收管理和監控、打擊偷逃騙稅方面等取得了明顯成效。但是從一體化建設的總體要求來看,還存在以下問題:
1)從技術角度看,由于稅收業務的復雜性和多樣性以及一些歷史原因,稅務系統內部存在許多面向不同業務的OLTP(聯機事務處理系統),這些系統之間缺乏集成,各自為政,支離破碎,形成了一個個信息孤島,很難為決策者提供綜合的、高效的輔助決策信息。
2)從用戶需求角度看,隨著稅收信息化工作的深人發展,如何幫助決策者在面臨半結構化或結構化比較差的問題時進行決策,是稅收信息化面臨的重大課題。
隨著稅收信息化的深人,各級稅務機關積累了大量的業務數據,但由于缺乏有效的技術手段,面對大量分散的數據資源,各級管理者特別是高層決策者卻難以得到及時、準確、綜合而適用的信息,這對于提高工作效率,適應瞬息萬變的需求,提高稅收質量是不利的。
3.2 建立稅務數據倉庫的意義
數據倉庫項目的啟動,意欲將原有業務系統查詢、報表統計及分析等方面的應用,轉移到新建的數據倉庫系統中,從而減輕原有業務系統的壓力;另外,還將實現稅務部門內部數據的整合,將原有業務系統分布在不同地點、不同數據平臺存放的數據進行集中,成為今后稅務部門的數據中心?;跀祿}庫的數據挖掘技術和聯機分析處理(OLAP)從海量數據中提取隱含在其中的有用信息,幫助稅務部門對數據進行微觀、中觀和宏觀的統計分析,加強稅源監控,預測稅收收入,科學而高效地進行決策。
4 建立稅務數據倉庫的基本構想
4.1 數據倉庫體系結構的提出
面向國稅分析預測的省國稅級數據倉庫體系結構如圖2所示:從圖中可以看出,區國稅局作為底層數據源,將提供大量事務性的細節數據,這些數據通過數據轉換和集成程序,加載入數據倉庫。這個數據倉庫建立在省一級,數據倉庫內將存儲從區收集上來的大量細節性數據,同時還將存儲綜合級別的數據,即對細節性數據進行初步匯總、聚合后得到的數據。通過以上步驟之后,在數據倉庫中存儲的將是國稅分析預測所需的大量信息,在此基礎之上,國稅分析預測人員將通過OLAP工具,數據挖掘,DSS(決策支持系統)分析工具對數據倉庫中的信息加以充分利用,以進行更加有效的國稅分析預測。
4.2 數據倉庫的設計
數據倉庫的設計不同于傳統的數據庫的設計。其設計是數據驅動的,開發是一個不斷循
環、反饋、完善的過程??紤]到稅務行業技術復雜、業務種類繁多的特點,采用“自底向上”的方法進行設計比較合適。
1)區國稅局基礎系統網絡
該網絡分兩層:一層為省局的網絡數據庫服務中心;另一層為各地市局的局域網。它需要為數據倉庫的建立提供完整的技術支持手段,包括實現網絡連接、數據庫互連和訪問等。
2)數據轉換與抽取
由于數據源的多樣性和異構性,數據采集系統要按數據倉庫的設計要求從應用數據庫中提取數據,重整后存放在數據倉庫中。各業務數據庫的數據類型通常不同,因此必須進行數據轉換,確保數據的一致性和可用性。
3)數據倉庫
數據建模對數據倉庫至關重要,與傳統的數據庫建模技術相比,星型模式能夠在用戶查詢和收集時對大量指標實體進行篩選,以減少數據倉庫的最終容量,因此較適合于以查詢為基礎的數據倉庫模型設計。數據倉庫中的數據結構需在現有業務系統數據結構基礎上,針對管理信息的特征(時間特性和匯總特性,對數據的名稱、類型、描述及關聯)進行重新定義,主要包括:同意數據類型、調整數據長度和增加時間屬性。
5 結論與展望
這種基于數據倉庫,實現輔助稅務行業決策支持的構想,將數據倉庫技術、聯機分析處理、數據挖掘技術引入系統,解決了傳統DSS系統忽視歷史數據和數據管理難度大等問題,對于我國稅務事業的發展具有重要的意義。
參考文獻:
[1] 夏火松.數據倉庫與數據挖掘技術[M].北京:科學出版社,2004.
[2] 王珊.數據倉庫技術與聯機分析處理[M]. 北京:科學出版社,1998.
[3] 哈默·格蘭.數據倉庫技術[M]. 北京: 中國水利水電出版社,1998.
[4] 陳京民. 數據倉庫與數據挖掘技術[M]. 北京:電子工業出版社,2002.
[5] 彭木根.數據倉庫技術與實現[M]. 北京:電子工業出版社,2002.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文