趙慧
摘 要:社會經濟的迅猛發展,使得統計工作越來越重要。面臨龐大的統計數據量和提升數據質量的要求,結合數據挖掘的功能、特點和優勢,使得數據挖掘技術應用到統計工作中將發揮更多潛在的功能價值,因此將數據挖掘技術應用到統計工作中就顯得尤為必要。該文主要分析了數據挖掘與統計學的關系,闡述了統計工作中應用數據挖掘技術的適應性,對數據挖掘技術在統計工作中的應用前景進行了相關研究。
關鍵詞:數據挖掘技術 統計工作 應用
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1672-3791(2017)05(b)-0007-02
隨著信息社會的高速發展,大數據、物聯網、云計算的興起與普及,信息產生和傳播的速度與數據量迅速增快,在政府統計工作中,能夠通過信息手段從龐大的數據量中獲取更多更有效的信息,成為一個國家提升國民競爭力與國民素質的重要手段之一。
信息社會經濟的迅猛發展離不開統計。在整個政府的體系結構中,統計部門起著舉足輕重的作用,統計部門的數據將作為整個政府決策的一種依據。在當前信息技術迅猛發展的變革中,將日趨完善的信息技術應用到統計工作中,例如:數據挖掘技術,可以使統計工作在信息社會的發展進程中,發揮出更強大的作用,為政府決策提供更為有利的依據。
1 數據挖掘與統計學
數據挖掘是一個年輕的領域。從技術上講,數據挖掘集人工智能、統計學、數據庫管理、數據倉庫、可視化、并行計算、決策支持為一體,利用數據庫、數據倉庫技術存儲和管理數據,利用統計學方法和人工智能分析數據[1]。對數據挖掘技術在統計工作中應用的研究,可以使統計學適應大數據時代數據量的變化,挖掘出更多更有意義的數據信息。
1.1 數據挖掘是智能化統計
由于計算機技術的迅猛發展,數據存儲能力的無線增加及大數據的推廣應用,統計學方法也得到了迅速發展和完善。與此同時,各行各業都面臨“數據爆炸”與“知識匱乏”并存的嚴峻形勢,數據挖掘技術使得統計學與計算機技術相結合,從而從數據海洋中獲取更多的信息。數據挖掘與統計學都是研究處理數據的藝術,具有相通性。統計學通過建模等從數據的特征出發去研究和發現其中有用的信息,而數據挖掘也是挖掘數據的特性,以期挖掘出更多更有意義的數據,因此,統計工作中應用數據挖掘是十分有必要的,數據挖掘可以說是統計工作借助于信息技術的發展延伸[2]。
1.2 數據挖掘的新特征推動統計學進一步發展
在數據的基礎上建立模型并對模型分析是統計學家的主要工作,但是,對模型的闡述和分析并不深入,建立模型之后再進行數據分析是極為重要的。而數據挖掘的出現,可以對數據集采用不同的數據挖掘技術,可以是決策樹或者神經網絡或者聚類分析,從而處理數據集達到更好地預測效果。數據挖掘處理數據有以下特征:數據量大且維數高、數據結構復雜化、數據類型多樣化等,數據挖掘的各種特征推動統計工作結合計算機技術進一步發展。
2 統計工作中應用數據挖掘技術的適應性分析
(1)綜合應用型強。數據挖掘技術是一種能滿足統計數據者特性數據需要的、綜合應用型強的技術手段,不斷促進統計工作向應用深度和范圍廣度上擴展。
(2)實際有效性高。數據挖掘具有穩定的工作性能,是一種目的明確的數據深加工技術,不僅能對統計工作的數據進行分析整理,更能通過聚類分析、神經網絡等技術手段挖掘更深層次更有用的信息,在實際的統計工作應用中展現出的實際有效性很高。
(3)技術適用性高。統計工作需要強大的數據庫,這為數據挖掘技術應用在統計工作中提供了平臺,數據挖掘技術在此整合,保證統計工作信息的有效性、精確性,可以獲得更深層次的信息資源。
3 數據挖掘技術在統計工作中的應用前景
數據挖掘的功能主要有自動預測趨勢和行為、關聯分析、粗糙集分析、聚類分析、概念描述、變化和偏差檢測(孤立點檢測)、回歸分析等[3]。所以,非常有必要將日趨完善的數據挖掘技術應用到統計工作中,更深層次更合理地處理統計數據信息。數據挖掘技術在統計工作中的應用主要有以下幾個方面。
3.1 開發數據挖掘系統
統計部門使用的數據格式多種多樣,各個數據挖掘系統不可能對各式各樣的數據庫都具有通用性。同時,統計工作涉及到社會的方方面面,指標多、數據量大,沒有一種完美的數據挖掘系統可以適用各種統計工作的需求,因此,要根據統計工作的實際需要開發出適合的數據挖掘系統,以適應其工作需求。可以開發多維數據挖掘系統、關系數據挖掘系統、空間數據庫挖掘等。例如:基于數據倉庫的數據挖掘系統,其算法能夠解決在數據挖掘中對數據進行預處理耗時的缺點[4]。通過建立數據倉庫能夠避免每次對數據進行抽取、清洗、轉換和裝載的過程,按主題組織存放數據庫,為數據挖掘技術選擇恰當的數據源提供了便利。
3.2 提升數據挖掘質量
統計工作中,數據的質量尤為重要。政府進行科學決策和現代化管理需要準確的統計數據作為依據。在獲取數據來源的質量問題上,國家統計部門極為重視,因此,統計部門的數據集的質量問題就可以很好地保證,這就需要在數據挖掘技術上減少問題,提升數據挖掘效果,從而為決策者提供更為可靠的依據。數據挖掘技術的不斷改進可以提升挖掘信息的有效性和適用性。通過數據挖掘技術在統計工作中的應用挖掘出來高質量的信息,同時又能運用于實際的統計領域。例如:交互式數據挖掘能夠準許用戶對數據進行精確挖掘,數據焦點具備動態改變的特點,從多個角度多個抽象的層次靈活的收集數據、挖掘數據[5]。
3.3 簡化數據挖掘結果
政府統計機構是使用數據的關鍵部門,這也暗示著政府統計工作的新的發展方向,結合數據挖掘技術挖掘出更適合決策幫助的數據信息。數據挖掘出來的結果最終使用者并非是數據挖掘的專家,而是各統計部門的相關人員,因此數據挖掘結果要簡化易懂。
3.4 數據挖掘的保密性和安全性
在數據挖掘的引用中,世界上許多國家的官方統計機構已有研究計劃。比如:由歐洲國家的政府機構設計的SODAS,KESO和SPIN,這些計劃研究提供特定的軟件,開發出具體的數據挖掘工具應用在官方統計中[6]。為充分發揮數據挖掘在政府統計工作中的潛在效益,我國政府統計部門也在研究數據挖掘技術的引入與結合。由于政府統計工作的特殊性,為避免數據泄露,要加強數據挖掘技術應用過程和結果的安全性和保密性。
4 結語
在國家的經濟發展中,統計工作至關重要,隨著數據挖掘技術在政府統計工作中應用的不斷深入,對數據的統計分析也有更高的標準和更高的質量要求。對此,在統計工作中,要提升數據挖掘技術的應用效果,以獲得更高的統計質量結果,進而為統計部門或者政府部門決策提供更為有力的決策依據。在統計工作中充分利用數據挖掘技術,將帶來巨大的經濟效益和社會效益。
參考文獻
[1] 徐雪琪.基于統計視角的數據挖掘研究[D].浙江工商大學,2007.
[2] Pang-Ning Tan,Michale Steinbach,Vipin Kumar. Introduction to Data Mining[M].人民郵電出版社,2006.
[3] 董靜.試析數據挖掘技術在經濟統計中的應用[J].商,2015(31):227-228.
[4] 王恂.基于數據挖掘技術的統計工作創新研究[J].無線互聯科技,2015(4):142-143.
[5] 岳悅.淺談數據挖掘技術在經濟統計中的應用[J].經營管理者,2015(30):198.
[6] 行智國.數據挖局及其在官方統計中的應用前景[J].統計科學與實踐,2003(2):10-12.