田長磊
(山東省濟寧市汶上縣統(tǒng)計局,山東 濟寧 272500)
對經濟統(tǒng)計工作來講,需要對數據信息進行有效的收集和整合,但由于數據存在一定的不完整性和模糊性,使得經濟統(tǒng)計工作的質量受到嚴重影響。為了對其進行有效的改變,需要將數據挖掘技術引入其中。本文從以下方面對其進行詳細的闡述。此次研究對豐富數據挖掘技術方面的知識具有理論性意義。
數據挖掘指的是數據的深加工,即數據信息精細化處理的過程。數據挖掘技術的作用體現在,對大量的數據進行深層次的開發(fā),并在數據庫中整理自身需要的數據,同時,將零散數據進行完整化處理。由于數據的隨機性和噪聲性相對突出,因此,使模糊數據出現概率明顯增加。在數據挖掘技術的基礎上,能夠對數據中的可用信息進行深度挖掘,并進行有效的提取和整理,從而使數據的清晰度和實用性得到顯著的提升。為了使數據挖掘技術能夠對信息進行有效處理,需在經濟數據轉換的基礎上進行,并利用統(tǒng)計學、神經網絡學等技術進行有效的輔助,因此,數據挖掘技術是學科交叉技術的一種。在統(tǒng)計學科中應用數據挖掘技術,可以對數據進行有效的統(tǒng)計分析,這樣不僅可以使數據分析效率得到顯著的提升,而且能夠使數據分析過程得到明顯的簡化。
數據挖掘技術的特點主要體現在以下方面:第一,有效信息包含在數據本身之中,但是會被其他數據信息所隱藏。因此,在對數據挖掘技術進行使用時,其需要對海量信息進行處理,一般情況下,利用TB或GB對大數據進行表示;第二,當數據庫構建完成之后,利用關聯詞的方式來對有用數據進行搜索,這樣不僅可以使自身所需信息被有效找到,而且可以使搜索范圍被有效縮小,從而使數據收集的效率顯著提升;第三,隨著經濟社會信息的不斷擴充,信息庫中儲存的信息量也隨之增加。因此,信息庫需要對容量進行不斷的擴大,這樣可以使生產信息的需求得到滿足。除此之外,為了讓使用者對所需信息進行快速找尋,需要對信息搜索的精準性進行有效的提升。
數據挖掘技術的優(yōu)勢主要體現在以下方面:第一,其能夠對海量信息進行有效處理,從而使工作效率得到明顯提升。數據挖掘技術能夠對大量數據信息進行快速處理,在經濟統(tǒng)計工作中應用數據挖掘技術,可以使其工作效率得到明顯的提高。另外,面對復雜程度較高的海量數據信息時,數據挖掘技術能夠對其進行有效的整合,工作人員在數據規(guī)律的基礎之上,對其進行有效的深度分析;第二,對搜索和實時預測進行有效支持,為市場決策提供一定的協(xié)助作用。在數據挖掘技術的基礎上,使用者可以通過關鍵詞輸入的方式來完成聯想搜索,這樣可以使搜索信息的速度明顯提升,以此來使工作效率得到大幅度的提高。與此同時,相關統(tǒng)計人員可以對信息進行有效的分析和整合,并對其存在的關聯性進行有效構建,從而來合理預測未來經濟的發(fā)展趨勢;第三,綜合性相對較強,能夠對多方經濟工作進行有效的協(xié)調。數據挖掘技術能夠對復雜、亂序的信息進行有效整合,使其能夠轉換成有效信息,這樣可以為部門工作提供重要的數據支撐,從而使不同部門數據信息的需求得到有效滿足;第四,有效性相對突出,安全性相對較高。在經濟統(tǒng)計中應用數據挖掘技術,相關工作人員不僅可以對數據進行系統(tǒng)的了解和掌握,而且能夠對數據進行深度分析和整合,這樣可以使其工作效率得到大幅度的提升。除此之外,對數據庫技術進行合理化的應用,使其能夠長期儲存海量經濟信息,從而為后續(xù)工作的開展提供有效保障。
對經濟統(tǒng)計來講,由于數據本身存在一定的特殊屬性,如復雜多樣性、不完整性等,在利用數據之前,需要對其進行必要的預處理策略。對數據預處理來講,其為處理方式的一種,主要由以下方面構成:第一,數據清理,數據清理指的是對無效信息進行清除,常用的方法為預測法、平滑法等。對原始數據來講,其通常存在不完整性、模糊以及隨機等特點,這使得原始數據存在明顯的局限,從而使其無法直接的進行應用,需要對其進行處理,將其中包含的無效信息進行清除,如空值、含有噪聲的數據等,這樣可以使數據的準確性和有效性得到保障;第二,數據集成,數據集成指的是有效整合原始數據中的不同數據,使其能夠以整體的形式存在。在對數據進行整合的過程中,不僅要使數據集合的可操作性得到保障,而且需要使數據集合的準確性得到保障;第三,數據變換,數據變換也稱之為數據轉化,其主要對不同的方法進行使用,使其能夠對數據進行轉化,從而為數據規(guī)模化和數據泛化的有效實現提供基礎保障。
決策樹方法是快速分類法的一種,在經濟數據統(tǒng)計中運用決策樹方法,能夠以直觀的方式對數據進行呈現。對收集的經濟數據來講,需要對其有用價值進行深入挖掘,因此,需要對系統(tǒng)分析進行有效應用。利用決策樹方式對經濟數據進行分析時,需要對決策樹結構進行合理化的構建,主要從以下兩方面入手:一方面,對分析輸出的基本模型進行有效構建,并在訓練集的基礎上,對決策樹進行有效構建;另一方面,對已構建完成的決策樹來講,需要對其進行數據分類,分類工作是由下及上,即由根部向樹枝方向發(fā)展,當數據輸入符合相關設置時,才會停止。該種方式是遞歸的過程,需要和樹枝開展同步進行。在對決策樹進行使用的過程中,想要使決策樹有效停止,需要滿足以下條件:第一,節(jié)點上數據全都屬于同一類別,使得數據會出現停止現象;第二,并沒有分類屬性,但對數據依舊進行二次分割。
在學術領域中,遺傳算法指的是生物自然和遺傳機理進行有效結合,在數據處理過程中,對算法進行隨機選擇。對經濟統(tǒng)計工作來講,相關統(tǒng)計人員需要將社會現狀考慮其中,對特定人群數據進行收集,并對數據中含有的信息進行全面分析,以此來對最終分析結果進行有效獲得。遺傳算法的隱含特征得到突出表現,在該特征的基礎上,相關統(tǒng)計人員將遺傳算法和數學模型進行結合,對其中隱含的數據進行全面采集,并對數據挖掘技術進行有效應用,使其能夠對隱藏的價值信息進行全面挖掘。
綜上所述,在經濟統(tǒng)計中應用數據挖掘技術具有重要的意義,其不僅能夠使數據的完整性和真實性得到保障,而且能夠使數據潛在價值被有效挖掘,因此,需要對其進行不斷深入探討,從而使其作用得到有效凸顯,進而使統(tǒng)計經濟數據的價值得到充分發(fā)揮。