崔丹
摘要:如今,經(jīng)濟統(tǒng)計尚且普遍存在數(shù)據(jù)庫龐大、復雜且數(shù)據(jù)質量低下等亟待解決的問題。究其根本,對于數(shù)據(jù)的統(tǒng)計、處理方法仍然停留于報表分析統(tǒng)計的層面,深層次的智能性處理分析十分缺乏,使得潛在于數(shù)據(jù)間的聯(lián)系及價值易被忽略,同時虛假數(shù)據(jù)鑒別水平較低。針對這些問題,我們探討了數(shù)據(jù)挖掘技術在經(jīng)濟統(tǒng)計中的相關應用,旨在為相關引用提供一定借鑒。
關鍵詞:數(shù)據(jù)挖掘技術 經(jīng)濟統(tǒng)計 應用探索
傳統(tǒng)數(shù)據(jù)處理利用的主要是數(shù)理統(tǒng)計學知識及軟件,對經(jīng)濟統(tǒng)計數(shù)據(jù)庫中數(shù)據(jù)的開發(fā)利用形式相對單一、深度有限,遠不能滿足如今經(jīng)濟數(shù)據(jù)的分析利用要求。而相比之下,數(shù)據(jù)挖掘技術一方面能夠在已有統(tǒng)計水平的基礎上剔除虛假數(shù)據(jù)、改善數(shù)據(jù)質量,另一方面能夠深層次挖掘數(shù)據(jù)之間聯(lián)系、充分利用數(shù)據(jù)。因此,對于相關方面的探索十分具有必要性。
一、數(shù)據(jù)的預處理
沒有高質量數(shù)據(jù),必然沒有高質量數(shù)據(jù)挖掘的結果,而在實際數(shù)據(jù)挖掘的過程中,由于收集到的數(shù)據(jù)難免會存在有缺漏、重要數(shù)據(jù)不全、不一致及含有噪聲等問題,因此對于數(shù)據(jù)的預處理是首要而關鍵的步驟。對于數(shù)據(jù)的預處理主要包括以下四個部分。
(一)數(shù)據(jù)清理
顧名思義,數(shù)據(jù)清理的目的即通過適當?shù)姆椒▽⑵渲腥睋p、不一致及噪聲清除掉,以此提升數(shù)據(jù)的整體質量。通常采用的方法包括均值法、平滑法、預測法及頻率統(tǒng)計法。不同的方法所對應的實際情況不同,若數(shù)據(jù)為噪聲數(shù)據(jù)或是空值,所要采用的方法為均值法或平滑法,相比于均值法,平滑法講求將k個不為空的數(shù)據(jù)取加權平均值作為替換(均值法以k個不為空的數(shù)據(jù)的平均值作為替換);預測法用于推斷噪聲數(shù)據(jù)或空值得最可能取值;預測法主要用于數(shù)據(jù)的缺損處理。
(二)數(shù)據(jù)集成
通常情況下,數(shù)據(jù)是自不同數(shù)據(jù)源挖掘的,而我們在實際處理、分析及應用過程中,便要將它們集合成為一個整體,這便是數(shù)據(jù)集成的過程。在實際中,統(tǒng)計部門先由各地方統(tǒng)計局進行經(jīng)濟數(shù)據(jù)的廣泛收集,其次要做的便是數(shù)據(jù)集成,不可避免的會帶來若干問題,如模式集成問題,即怎樣確定來自不同數(shù)據(jù)源的數(shù)據(jù)能夠互相匹配;冗余問題,即假使一個數(shù)據(jù)的屬性能夠由另外數(shù)據(jù)庫中數(shù)據(jù)的屬性推論得出,則出現(xiàn)冗余問題;另外,還有數(shù)據(jù)沖突甚至消除,這一問題指的是來自于不同數(shù)據(jù)源的數(shù)據(jù)可能出現(xiàn)因差異導致的相互排斥。
(三)數(shù)據(jù)變換
通過一定方式將數(shù)據(jù)變換成與之相當,且適合信息挖掘的形式,即數(shù)據(jù)變換,主要包括數(shù)據(jù)的規(guī)范化和泛化。數(shù)據(jù)的規(guī)范化,主要包括零均值規(guī)范化、最大最小規(guī)范化等;而數(shù)據(jù)的泛化則是將低數(shù)據(jù)層或層次的數(shù)據(jù)用高層次概念取而代之。
(四)數(shù)據(jù)的離散化及概念分層
現(xiàn)實中的數(shù)據(jù)具有連續(xù)性,而在已發(fā)現(xiàn)的處理算法中能處理連續(xù)性數(shù)據(jù)的還較少。數(shù)據(jù)的離散化即通過區(qū)間的劃分來用標號代替某一實際數(shù)據(jù),達到數(shù)據(jù)的解連續(xù)。概念分層是通過提高數(shù)據(jù)層次概念來減少數(shù)據(jù)的收集量。
二、關聯(lián)規(guī)則及決策樹
(一)關聯(lián)規(guī)則
在數(shù)據(jù)挖掘領域中,關聯(lián)規(guī)則挖掘具有高度的靈活性和重要性,主要是對數(shù)據(jù)集合中數(shù)據(jù)屬性的相關性聯(lián)系進行反映,整個過程通過對集合中的關聯(lián)、頻繁模式及因果結構進行查找,以查找容易被忽略或與人們熟知相背離的事件。經(jīng)濟統(tǒng)計中數(shù)據(jù)關聯(lián)規(guī)則的挖掘,能夠分析出大范圍(如整個地區(qū)、甚至國家)內關系密切聯(lián)系的行業(yè)。能夠借助于不同屬性的數(shù)據(jù),來找尋具有相關聯(lián)系的屬性。在實際運用當中,很多屬性之間所存在的關系為人們所知曉,被稱為平凡規(guī)則,如提升工業(yè)總產(chǎn)值能夠帶來生產(chǎn)總值的增加。通過平凡規(guī)則,我們能夠對數(shù)據(jù)質量的高低進行判斷,這一過程便是我們經(jīng)常說的通過熟知的關聯(lián)關系來確定數(shù)據(jù)是否與集合具有一致性,以此達到消除虛假數(shù)據(jù)的目的。
(二)決策樹
決策樹算法十分直觀、常用,這一過程的關鍵是決策樹的有效構建,主要分為建樹及剪枝階段。通過決策樹對數(shù)據(jù)分類主要由兩個步驟組成:其一,決策樹模型的構建,即通過訓練集實現(xiàn)一顆決策樹的構建及精化;其二,將輸入的數(shù)據(jù)通過決策樹進行分類處理。當將數(shù)據(jù)輸入決策樹時,會由根節(jié)點對屬性值依次進行測試并記錄,然后到達葉子節(jié)點,來實現(xiàn)尋找記錄所在類。從整體來看,決策樹算法屬于遞歸過程,一直進行到滿足終止條件為止。分割停止要滿足兩個條件:其一為某一個節(jié)點上數(shù)據(jù)都同屬一類;其二是能夠進行數(shù)據(jù)分割的點已經(jīng)耗盡。這一過程主要用于解決數(shù)據(jù)挖掘的預測及分類方面問題。
三、結束語
數(shù)據(jù)挖掘在未來的經(jīng)濟統(tǒng)計中具有十分可觀的應用前景,能夠深層次分析處理數(shù)據(jù),使數(shù)據(jù)質量提高,幫助政府及企事業(yè)單位有效進行政策制定、計劃擬制及行政事務的管理,創(chuàng)造更大經(jīng)濟效益和社會價值。本文主要從數(shù)據(jù)的預處理和關聯(lián)規(guī)則和決策樹兩個方面對數(shù)據(jù)挖掘技術在經(jīng)濟統(tǒng)計中應用進行淺析和探索,旨在為行業(yè)提供一定的借鑒。
參考文獻:
[1]行智國,呂斌.數(shù)據(jù)挖掘及其在官方統(tǒng)計中的應用前景[J].江蘇統(tǒng)計;2010年02期:11-12
[2]王斌會,曲穎.數(shù)據(jù)挖掘技術及其應用現(xiàn)狀[J].統(tǒng)計與決策;2010年10期:22-23
[3]韓江,鄒建民.數(shù)據(jù)挖掘——極具發(fā)展?jié)摿Φ男骂I域[N].蘇州市職業(yè)大學學報;2010年01期:27-28endprint