張振普
引言:斗轉星移,歷史變遷。經濟不斷進步中,我國經濟統計數據中一些問題凸顯,如果沿用舊的的經濟統計數據方式,對經濟發展探索和決策極為不利。不能深層次開展統計數據的分,使得經濟數據中的潛在關系,沒有辦法發掘。所以,在傳統的統計數據中下使得處理方式不斷更新,實現經濟的決策促進,有著重要意義。本文主要對數據挖掘技術概念和產生進行了闡述,并且對在經濟統計方面的應用展開了詳細的分析。
經濟統計工作雖然一直在進行,但是其中存在著多反面的問題。在經濟統計分析方面有著數字匯總簡單羅列的問題,非常不利于統計部門依照統計結果做出科學的決策。這就要求新形勢下的經濟統計工作進行深度的數據挖掘,不斷適應新的經濟統計分析需要。
一、數據挖掘技術內涵
經濟社會的發展,使得經濟工作中,需要分析的經濟數據增多。在對經濟分析需求增大的條件下,數據挖掘技術營運而生。經濟統計工作中的數據挖掘技術,是一種在不全面的、
模糊的、隨機經濟數據中,分析得到潛在信息,接著對獲取的數據展開分析和轉換。這些數據在經過專門處理之后,應用于企業和者政府相關的決策。這種經濟統計扥西方法,適應了社會中采集的數據量變大,處理信息量變大的現實。數據挖掘,實質是研究交叉的、比較復雜的學科。數據挖掘包括:知識獲取、統計學、知識庫系統、數據庫技術、模式識別等。數據挖掘技術在發展方面經過了一個長時間的過程::數理統計階段、人工智能階段、機器學習階段。
在社會發展過程中,經濟統計數據規模越來越大,人們、企業以及政府由于對經濟發展的需要,所以對其質量要求比較高。但是傳統的經濟分析方法存在著明顯的弊端。由于傳統的數據統計方法里,數據之間之間的潛在關系沒有涉及分析,所以無法為企業和政府經濟決策實現關鍵有效決策提供關鍵信息。因為傳統的統計分析方法中,使用的是效率比較低的計算方法,無法滿足社會發展中的需要,并且分析的質量也沒有辦法得到保證。現實中存在的問題,也沒有辦法得到有效解決,數據挖掘的方式通過信息技術的分析,可以發現數據中的潛在關系,分析出人們無法單憑感官不能實現的數據和信息之間的關系。實現了傳統數據分析中的問題解決,數字挖掘技術正是為了克服上述問題而產生并發展的,利于政府和企業進行經濟的決策。并且在信息技術不斷發展的今天,數據挖掘技術水平也在不斷提高和發展。
二、數據挖掘技術的應用
1、預處理
實際工作中,數據可能在收集的過程中有缺漏,關鍵信息不完整。所以在進行挖掘分析之前,對數據進行有效地預處理,對于減少分析的偏差有著重要作用。總的來說,數據的預處理有四個部分。
1.1數據的完善
數據的完善,主要是把數據中存在不一致、缺損和噪聲清除掉,目的是提升數據在整體有效性方面的質量。通常使用的方法是——預測法、平滑法、均值法等統計法,主要根據實際情況中的差異,來抉擇使用的方法。預測法,使用在推斷噪聲的數據和空值中,能夠得到最有效的統計數據,目的是處理數據缺損。平滑法講究將n個數據,在經過加權平均后得到的數值,作為替換數據。均值法是將n個不為空的數據,在經過數值的平均計算后的平均值,作為最終數據。平滑法和均值法也作為數據的降噪使用[1]。
1.2數據集合
數據的集合就是數據集成過程。一般的數據在收集的時候,主要是由地方統計局收集通過各種途徑收集,在收集之后要對這些多重多樣的數據進行集成。因為這些數據挖掘的范圍不同,需要通過一定的手段,使其成為一個有效地整體。在數據集合的過程中,會產生一些問題。例如,不同數據源數據中的互相匹配問題,也就是數據的模式集成問題。除此之外,不同數據之間還會產生一些差異導致的互相排斥,這些數據中的沖突需要消除。還有數據的
冗余問題,也就是假使一部分的屬性可以被其他數據庫中數據屬性推斷的得到,數據集成中就出現了冗余的問題。
1.3數據的變換
數據的變化,主要是采用一定方式,把數據變換成和其相當,并且將適合信息挖掘出來的形式。具體變換有兩種,一種是規范化,一種是泛化[2]。規范化,主要構成是零均值的規范化、最大最小情況的規范。泛化,就是把數據層和層次使用較高層次概念將其替代。
1.4數據的概念分層
現實中的數據有著一些明顯的特點,連續性就是其一。但是在愛實際已經應用的算法中,能后對連續性數據處理的還較少數據的離散化,也就是采用區間的劃分,來代替某一些實際數據,得到真實的連續數據。概念分層的意思主要是使用有效的高層概念來代替一些收集量較少的數據[3]。
2、關聯規則和決策
2.1關聯規則
在實際的數據挖掘領域中,整個過程采用對集合里的關聯、頻繁模式和因果結構開展查找,目的是找到那些不被注意,或與人們日常認知習慣背離的事件。在經濟統計中,數據關聯的挖掘,可以分析出一個大概的范圍(例如,國家范圍、省范圍、市范圍)關系比較密切一些行業。在進行數據分析的過程中,不少的屬性之間實際的關系被人們所知曉。這些屬性被稱作平凡規則。例如,工業總產值的提升,帶來了生產總值的提升。利用關聯性原則,可以使不同屬性的數據,通過分析之后,得到相關聯系屬性。
2.2決策
數據分類構成是兩個步驟:第一,決策樹模型的形成,也就是采用訓練集來得到一棵決策樹,來實現經濟統計數據決策的構建和精化。第二,把輸入的數據在決策樹的指導下,開展分類的處理。在數據輸入決策樹的時候,數據會由根節點,在屬性值依次開展測試。最后到達葉子終端的節點,來達到尋找記錄所在類的類別[4]。總的來書,決策樹算法基本是遞歸過程的一種,數據的分類一直可以延續到終止條件結束。
結語
經濟的快速發展,使得經濟統計工作各部分之間關系密切,使得經濟統計分析的難度加大,數據挖掘能夠分析出事物內部之間的聯系,并且揭示出隱含的、未知信息。數據挖掘統計分析在使得經濟統計工作更加科學和有效,獲得不斷的進步,為我國社會經濟發展,以及國家財富積累發揮積極作用。技術就是通過發覺而使得經濟統計工作能夠得以有效運行。
參考文獻
[1]崔丹.數據挖掘技術在經濟統計中的應用探索[J].財經界,2014,(5).
[2]畢春杰.數據挖掘技術在經濟統計中的應用探究[J].經濟視野,2013,(24).
[3]韓秀榮.試論數據挖掘技術在經濟統計中的應用[J].商品與質量·學術觀察,2013,(12).
[4]王康.關于數據挖掘技術在經濟統計中的應用[J].財經界,2011,(10).
(作者單位:河北唐山市燃氣集團有限公司)