張治斌
摘要:數據挖掘技術已經具有非常廣闊的應用領域和發展前景,今天數據挖掘技術廣泛的應用在電子商務、電信、保險、醫學、氣象等各個領域, SPSS Modeler軟件已經成為諸多數據挖掘應用軟件之首,備受關注,本文將以一個簡單實例介紹數據挖掘的基本過程。
關鍵詞:SPSS Modeler;數據挖掘;過程
中圖分類號:TP39 文獻標識碼:A 文章編號:1007-9416(2017)09-0072-02
1 數據挖掘的基本過程介紹
數據挖掘也叫做資料勘探或數據采礦,從宏觀上定義為從海量的各類數據中通過某種算法探索隱匿的信息和知識的過程,數據挖掘通常作為數據庫知識發現的一個步驟;從另一個層面,許多人把數據挖掘視為數據庫知識發現(KDD)的同義詞。數據挖掘通常與傳統的統計分析學、數學、計算機科學相關,通過統計、在線分析處理、機器學習和模式識別等諸多哦方法針對采集的數據進行分析挖掘。知識發現過程主要包括以下幾個步驟:
(1)數據清理與集成:這一步驟可以作為在數據收集和提取之前完成,也可以在數據庫中完成。在這一階段主要任務是將各種數據源加以集成到一起,并針對噪聲和不一致數據加以刪除,對數據進行合法性檢查并清理含有錯誤的數據。
(2)數據選取與變換:本階段針對定義的問題收集選取有關數據,匯總或聚集操作,把數據變換和統一成適合挖掘的形式,在這里可以利用數據倉庫的查詢功能已加快數據的提取速度,同時針對數據進行再加工,剔除冗余屬性、對數據的表達方式進行轉換以適用于學習算法。
(3)數據挖掘:在這一步驟主要的工作是根據業務需求和數據選擇合適的數據挖掘算法,并確定如何將該算法應用于數據上,并進行對應數據挖掘算法進行模式提取,確定適用于描述和解釋的表現形式。
(4)模式評估與表示:最后使用可視化和知識表示技術,向用戶提供挖掘的知識,并通過模式評估對學習結果的新穎性和有效性進行評價。
我們可以把數據挖掘看做是KDD過程的一個基本步驟.它包括特定的從數據庫中發現模式的挖掘算法。KDD過程使用數據挖掘算法根據特定的度量方法和閾值從數據庫中提取或識別出知識,這個過程包括對數據庫的預處理、樣本劃分和數據變換。那么如何使用合適的挖掘工具完成數據挖掘任務呢。
2 SPSS Modeler軟件介紹
SPSS Modeler是IBM公司將SPSS統計分析軟件與Clementine數據挖掘軟件進行整合,并推廣到全球市場。該軟件集成了諸多計算機機器學習的優秀算法,以及行之有效的統計分析方法,充分利用計算機的運算處理能力和圖形展現能力,將應用、方法與工具有效結合,目前已經成為內容全面、功能強大、使用最為廣泛的數據挖掘軟件。下面我們以一個簡單的實例介紹基于SPSS Modeler的數據挖掘過程。
3 基于SPSS Modeler工具的挖掘過程
我們以學生參加某次社會公益活動的數據為例(文件名為Student.xls),其表的基本信息內容如圖1所示。利用C5.0算法研究哪些因素顯著影響學生是否參與社會公益活動。
(1)數據集成與清理。
由于Students文件中包含兩個表分別是老生表(Students.xls)和新生表(NewStudents.xls)。所以需要將這兩個表的數據進行合并。首先在數據流編輯區插入兩個【源】選項卡中的【Excel】節點,分別導入兩張表格數據,然后在【記錄選項】選項卡中的【追加】節點添加到兩個【Excel】節點后面,完成兩張表格數據的合并。接下來,選擇【字段選項】選項卡中的【類型】追加到【追加】節點后面,并將“是否參加”設置為目標變量,將“編號”以外的變量設置為輸入變量。
(2)數據選取與變換。
從圖1中不難看出,在是否無償獻血列的取值不規范,應該將取值1和0分別調整為Yes和No??梢允褂谩咀侄芜x項】選項卡中【重新分類】節點進行變量類別的調整,將該節點添加到【追加】節點后面數據流的對應位置,并對【編輯】選項進行設置;同時,針對在校綜合評價指數進行標準化處理,使其能夠以百分制只管反映學生在校綜合表現水平。這里使用【字段選項】選項卡中的【填充】節點完成,使用——(在校綜合評價指數-61)/ (138-61)*100公式完成對原始數據的替換。
(3)數據挖掘:根據本任務的需求,采用決策樹的C5.0算法實現對哪些因素顯著影響學生是否參與社會公益活動。選擇【建?!窟x項卡中的【C5.0】節點添加到數據流的恰當位置上,并進行對應參數設置,此處可以選擇默認設置。
(4)模式表示與評估:運行并在流管理器的【模型】選項卡中【瀏覽】挖掘結果,可以看到挖掘結果以文字和圖形兩種形式分別顯示在【模型】和【查看器】選項卡中,如圖2所示;此外可以使用【輸出】選項卡中的【分析】節點連接到輸出模型后的數據流中,查看該挖掘模型的準確率。
(5)結果分析:從分析的結果可以看出:如果家長不鼓勵(49)個觀測值,則不參加社會公益活動,置信度為91.8%;如果家長鼓勵(51個觀測值),且在校綜合評價指數小于等于48分,則不參加社會公益活動,置信度為77.8%;如果家長鼓勵(51個觀測值),且在校綜合評價指數大于等于48分,則參加社會公益活動,置信度為75.8%。總之,家長鼓勵是學生參與社會公益活動最關鍵的因素,其次是學生在校的綜合評價指數。學生的家庭人均收入、是否無償獻血沒有進入決策樹,對是否參與社會公益活動的影響很小。
4 結語
以上對基于SPSS Modeler的數據挖掘基本過程中的數據選取、過濾和挖掘過程進行了簡要介紹,由于篇幅原因具體設置界面未提供,目前,具備基本計算機操作能力已經不是問題,數據挖掘的過程與方法是后續學習關注的主體和要點。
參考文獻
[1]薛薇.基于SPSS Modeler的數據挖掘[M].中國人民大學出版社,2014.endprint