王曉麗
摘 要 我國的社會經濟正在快速發展,經濟統計可以表現出整個經濟的發展狀況,為未來的發展和調控給予有效的數據支持。經濟統計的數據通常都比較大,而且部分數據可能存在問題,以前的統計只是進行表面的計算,并沒有深入分析。而現代經濟統計的發展是快速的,本文主要對經濟統計方法中數據挖掘技術的優勢進行分析,并且概述了其應用情況。
關鍵詞 經濟統計 數據挖掘 統計方法
經濟統計需要對龐大數據庫內的信息進行整理和分析,但是由于數據較多、比較復雜,簡單的統計方法沒有辦法實現全面的數據分析,無法將所有的數據進行準確的分析。數據挖掘技術可以對數據進行深度的整理和分析,提高數據的真實性和質量,還能更加輕易地找出實用性的信息,對相關單位有十分大的意義。
一、數據挖掘技術的概念及功能
數據挖掘(Data Mining),就是從大量復雜的數據信息中挖掘出有利用價值的信息。通常,這些大量的復雜的數據信息都被認為是隨機的、模糊的、不完全的、有噪音的,完全沒有進行處理的信息。然而經過挖掘之后,這些原本看似沒有任何利用價值的信息,就會呈現出一種新穎、有效、潛在有用的狀態,最終為人們的生活與生產提供便利。這種信息數據的處理變化過程,就常常被稱作數據挖掘。它也可以理解成是在一些觀察數據或事實的集合中找正確模式的決策支持過程。數據挖掘是一門涉及面極其廣的交叉學科,可以簡單地將它認為是經濟信息轉換的一個過程,同時它還包含了機器學習、模式識別、數據庫、數理統計、神經網絡、模糊數學等相關技術。
數據挖掘主要功能有:預測模型、分類、數據聚類、數據總結、關聯規則發現、依賴關系或依賴模型發現、序列模式發現等。根據數據挖掘技術的作用和特點來看,它具備的優點是:具有自動找出有價值的數據信息的功能;能夠處理大量的數據信息;反映數據信息快速有效;能夠有效地對數據信息進行分析與評判,描繪過去和未來。
二、經濟統計中數據挖掘技術的優勢
(一)數據有效性高
數據挖掘技術可以實現對整體數據的深層次加工,而且使用者可以根據自身的要求和目的,在長期積累的數據庫中找到有用的數據信息。通常情況下表現為兩種形式,一種是對原有的數據庫進行有效的管理,另外一種是對現有形成的數據進行實際的分析。分析的方式也有所不同,可以從數據管理的形式出發,在這個過程中對所有的數據進行歸類,將原本復雜而又混亂的數據信息進行正確的管理,保證數據統計的安全性和使用數據時的搜索便利性。
(二)較強的綜合應用性
數據挖掘技術是一個系統化的工具,可以滿足人們對數據的各種需求,由于各個經濟部門所管理的領域不同,方式和目的都存在較大的差異,所以對需求的數據形式和方式都會存在差異,需要進行不同的數據處理,這也是數據挖掘技術的優勢之一,不僅可以使不同的經濟統計部門滿足自己的需求,得到自己所需要的信息,而且可以用不同的形式表達統計后的數據,還可以通過對數據的來源和統計方式進行評估,判斷是否有足夠的正確性。而且這些數據還可以自動進行格式的轉換,滿足實際的格式要求,可以進行正常的錄入,保證經濟統計的正常進行。
(三)較強的數據整合性
很多經濟統計部門都還在使用傳統的方法,收集數據和分析數據都存在一定的局限,不能夠觸及數據的整體,可能會重復分析一些數據,降低統計的質量和效率。數據挖掘技術可以整合整個統計數據系統,使所有的信息都可以被分析。特別是在一定的宏觀數據的基礎上,保證各數據的準確性,在整合過后有更加充分的資源。
三、數據挖掘技術在經濟統計中的應用
(一)預處理技術
在實行經濟數據的統計過程中,最初期的方法就是預處理技術,對所有的數據進行一定的初步處理。數據挖掘技術也是一種分析和整合基礎信息的技術,會受到基礎信息本身很大的限制,不可能隨意對數據信息進行處理。所以在進行全面性的主要過程之前,必須首先對所有的數據信息進行預處理,才能使數據挖掘技術實施得更加完美。具體的預處理應該包括數據中的不準確、不真實的數據,以及不同的數據之間可能存在的較大差異等,這都會對數據分析產生影響。在預處理中實行數據清理就是對有問題的數據進行處理,也包括不同的方法、不同的形式,要結合實際的情況和實際的數據需求選擇最合適的處理方法,分析出最高質量的數據。
(二)決策樹技術
決策樹技術是數據挖掘技術在經濟統計中一種十分常見的方法,通過對數據建立合適的決策樹,從而可以直接、迅速地反映整個數據的具體分布情況。完成一個全面的決策樹通常分兩步,首先要根據大致的信息建立一個簡單的決策樹,并配置一個模型,能夠實現簡單的輸出分析。然后對構建完成的決策樹進行完善,對不同的數據進行分類,根據不同數據的特點和狀態,從樹的根部到枝干,依次輸入不同的數據,直到輸完所有的數據完成分類后停止。當出現所有的數據都屬于同一類或者沒有辦法進行分類時就要立即停止分類,然后進行下一步的工作。在建立和完善整個決策樹的模型后,就要根據使用者實際使用的數據信息和要求對數據進行剪切,將不必要的數據或者無用的信息丟掉,從而再進行數據分析時可以更加快速,可以更加準確地得到所需要的信息,減少因為數據過多而在數據輸出時出現問題的可能性,降低其產生的起伏影響。
(三)遺傳算法
它是一種根據生物遺傳機理和自然選擇的隨機搜索算法,其主要思路是依據特定的社會問題,然后在指定對象中去采集相關信息,最后通過歸整、分析隱含的信息,進而得到結果。經濟問題不是固定不變的,相反它是一個不斷發展變化的問題,內部的聯系千絲萬縷,改變其中一項其他的也會相應改變。按照遺傳算法的步驟,從源頭開始,一步步向下探索,去提取信息數據,對整體進行分析,這樣就能把經濟問題目標化、具體化、直接化,使得在研究問題時可以更加直觀,把隱性的信息表現出來,使得經濟統計工作更加直白、簡單。
(四)神經網絡法
神經網絡法是一種高強度模擬人腦加工信息過程的智能現代信息技術。它和人的神經運動過程一樣,首先進行數據的輸入,然后進行精準的分析,最后輸出。其在經濟統計過程中得到了實際的應用。神經網絡法提供了一種準確的、完整的處理經濟統計的過程,使得經濟運行模式和人在處理信息的過程很相像,一樣實用化、形象化、具體化,使經濟過程中各個部分之間能取得更好的聯系,從而獲得對經濟統計問題的處理辦法。
四、結語
數據挖掘技術在現代經濟統計中占有重要的地位,也是未來統計工作的一種趨勢。它可以實現對數據更深的分析處理,提升分析數據的質量,可以幫助決策者做出更好、更穩定的發展決策,帶來更大的效益。我們一定要及時更新傳統的經濟統計方法,擴大數據挖掘技術的使用范圍,從而提高統計的效率,減少統計時的成本支出。
(作者單位為汾西礦業集團中興煤業公司)
參考文獻
[1] 王思懿.數據挖掘技術在經濟統計中的應用管窺[J].商,2015(18):216.
[2] 崔丹.數據挖掘技術在經濟統計中的應用探索[J].財經界,2014(5):149.
[3] 張紅軍.談談數據挖掘技術及其應用[J].廣西梧州師范高等專科學校學報,2013 (3):23-25.endprint