摘 要:各行各業目前都面臨著海量數據的困擾,如何在浩瀚的數據海洋中尋找有用的信息成了人們普遍關心的問題。本文探討數據挖掘在進行海量數據搜索中遇到的問題以及如何進行數據的選擇。
關鍵詞:數據挖掘;數據清洗;噪聲數據
中圖分類號:TP311 文獻標識碼:A 文章編號:1674-7712 (2013) 18-0000-01
當下無論是科研機構又或者是我們工作生活的各個領域幾乎都被數據這個海洋所覆蓋了。比如跟每個人都打交道的銀行,就積累了大量的業務數據,這些數據大多存在于不同的操作環境下,數據的屬性都不盡相同,伴隨著不同的業務處理流程,有著不同的數據處理過程,而處理過程又是面向以事務處理為主的聯機處理系統的應用。經營活動存下的數據存在大量不完整的、含噪聲的和不一致的數據,有些是數據挖掘直接相關的,有些則是無用的噪聲數據,因此針對不同的數據源,選擇合適的數據采集點和數據,再對數據進行精心的準備,對數據挖掘的結果有深遠的影響。
數據準備是數據挖掘的重要工作,為了搜索所有與業務對象有關的數據,并從中選擇出合適的數據進行挖掘應用。數據挖掘的對象是數據,所以必須對數據充分了解之后再進行數據挖掘,數據準備的過程就是要理解、熟悉數據,從而有針對性的開展數據挖掘。我們剛剛提到的銀行就需要通過對每個客戶行為數據和屬性數據進行分析研究,確定每個客戶資金分配的規律,從而為銀行提供恰當的營銷方案和策略,推薦他們適合的業務種類或理財產品,更大程度的提高客戶的資金價值。在進行數據挖掘之前最重要的工作也是必須做的就是確定目的和范圍。沒有明確項目目的,一切都是徒勞的,做出的成果對實際操作也沒有任何意義。先定義一個需求說明,需求說明里要求標識出需求來源并描述對其操作意圖。目的特征抽取成功了,才有可能確定建模內容,或者叫做數據模型覆蓋范圍[1][2]。模型覆蓋的范圍確定模型中應包括管理系統的哪些部分、不應包括哪些部分。這一步定義的需求和選定的范圍,在后面的數據分析以及迭代遞增式的建模方式中需要不斷修正和完善。想要確定數據的目標和范圍,就必須對業務流程有清晰和較好的認識理解,再從不同的業務流程中提取有用的業務數據,剔除無關的噪聲數據。
進行數據選擇時如果將不相關的屬性或關聯性很小的屬性用于數據挖掘,不僅會使數據倉庫過于復雜和龐大,而且數據挖掘的計算代價成幾何倍數增加,所以我們需要的是能夠很好的對各種情況進行分析以便更合理地采取合適的方案,那些對情況分析不起作用或作用很小的屬性應該在數據準備階段就將其剔除。當然我們分析數據時,會涉及到許多歷史資料,于是所需數據有靜態和動態的。所謂靜態和動態,還用銀行業舉例,靜態數據比如客戶的名稱,聯系電話等,動態數據例如客戶在日常經營活動中的月均結算量,閑置資金,日均存款等信息。由此可見,動態數據是主要的歸類特征,成為主要數據,直接影響數據挖掘的結果,靜態數據是輔助的特征,對主要數據進行關聯,有了這部分數據的支持,數據的完整性得以實現,而分類作用就不是那么明顯了。
接下來就是數據的清洗與變換了。我們都知道在現實世界的大型數據庫通常存在大量的不完整、含噪音的和不一致的數據。由于數據質量不高將導致挖掘結果的質量也不好,數據倉庫需要頻繁地從各種源數據中裝載和刷新,然而這些數據不可避免的存在許多異常,錯誤數據約占到總數據量的5%[4][5],這些源數據的結構和規則可能不同,這樣就會導致原始數據的雜亂、不可用,而且即使在同一個數據庫中,也可能存在重復、不完整的數據信息。那么我們來看看數據清洗的目的吧,它是為了檢測出數據中存在的錯誤和不一致,然后消除并改正它們,以此來提高數據質量[3]。清洗過程包括子數據集的選擇和缺失值的處理。因為數據挖掘對數據質量要求較高,在數據清洗過程中對大多重要字段進行數據質量檢查也是很必要的。例如在數據庫管理時會有大量的空值情況出現,無法保證數據的完整性,這樣會影響數據挖掘結果的正確性。對于此類問題的處理我們可以:忽略缺失值的數據屬性;刪除帶有缺失值的記錄;使用同類樣本平均值代替缺失值。
對數據進行了屬性選擇和清洗后,會得到了一個比較適合數據挖掘的數據集,可是數據量的增長是驚人的,因此在進行復雜數據挖掘時,是對系統資源的大考驗,耗時較長,我們可以在不影響數據挖掘結果,保證原數據完整性的情況下,對數據集進行統計性完善,得到一個較適合進行數據挖掘的統計性數據表。
參考文獻:
[1]沈兆陽.SQL Server 2000 OLAP 解決方案:數據倉庫與Analysis Services[M].北京:清華大學出版社,2001,9.
[2]劉爽英,張靜.基于SQL Server 2000的數據倉庫和數據挖掘[J].華北工學院學報,2004,Vol.25(5):322-323.
[3]談恒貴,王文杰,李游華.數據挖掘分類算法綜述[J].微型機與應用,2005,No2:4.
[4]Chaudhuri,S,Dayal, U An Overview of data Warehousing and OLAP Technology.ACM SIGMOD Record,26(1),1997.
[5]Redman,T.The Impact of Poor Data Quality on the Typical Enterprise[J],CACM,1998,41(2):78-82.
[作者簡介]邢培(1977.6-),天津渤海職業技術學院信息工程系,講師,從事軟件開發、數據庫管理技術等方向的研究和教學工作。