使用數(shù)據(jù)挖掘工具Ｗｅｋａ

2008-01-01 00:00:00陸遠蓉

電腦知識與技術 2008年6期

摘要:當今社會，數(shù)據(jù)無處不在，數(shù)據(jù)挖掘技術作為一種新的信息處理技術，從海量的數(shù)據(jù)中找出有潛在價值的數(shù)據(jù)規(guī)律或數(shù)據(jù)模型#65377;用人工的方式難以實現(xiàn)這個目標，Weka是一種可用于數(shù)據(jù)挖掘的工具，數(shù)據(jù)挖掘用戶可使用Weka執(zhí)行數(shù)據(jù)預處理，分類，回歸，聚類，關聯(lián)規(guī)則等任務#65377;以Weka自帶的數(shù)據(jù)集為例，詳細介紹作為易于使用的數(shù)據(jù)挖掘工具Weka的使用#65377;

關鍵詞:數(shù)據(jù)挖掘工具Weka

中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)06-10000-00

Using Weka as Data Mining Tool

LU Yuan-rong

(GuangDong Polytechnic College，Department of Computer.， GuangZhou 510520， China)

Abstract: As a knowledge discovery technology that Data Mining extracts valuable rules or models from huge raw data around us. Using tools can contribute to the achievement of this goal. WEKA is a comprehensive tool bench for data mining. Data Preprocessing， Classification， clustering algorithms and Association Rules have been implemented in Weka. This paper introduces how to use this data mining tools by using the dataset within Weka.

Key words: data mining; tool; Weka

1 引言

Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis)，是一個開放源碼的數(shù)據(jù)挖掘軟件#65377;Weka也是新西蘭獨有的一種鳥名，而Weka的主要開發(fā)者來自新西蘭的Waikato大學#65377;數(shù)據(jù)挖掘用戶可通過Weka集成的大量算法，使用Weka執(zhí)行數(shù)據(jù)預處理，分類，回歸，聚類，關聯(lián)規(guī)則，數(shù)據(jù)可視化等任務#65377;而開發(fā)者則可使用Java語言，利用Weka的架構上開發(fā)出更多的數(shù)據(jù)挖掘算法#65377;

使用Weka可以輕松地進行數(shù)據(jù)挖掘，可以在數(shù)據(jù)集上運用數(shù)據(jù)挖掘算法和進行數(shù)據(jù)預處理，下面介紹如何利用Weka自帶的數(shù)據(jù)集，從頭開始進行數(shù)據(jù)挖掘#65377;

2 軟件安裝

(1)下載并安裝JDK5

JDK5的下載地址:http://java.sun.com/javaee/downloads/index.jsp，下載完畢雙擊文件jdk-1_5_0_13-windows-i586-p.exe，按照提示操作即可#65377;

(2)下載并安裝WEKA3.4.12

WEKA下載地址:http://www.cs.waikato.ac.nz/ml/weka/，下載完畢雙擊文件weka-3-4-12jre.exe，按照提示操作即可#65377;

安裝完畢，運行WEKA#65377;

3 啟動WEKA

(1)WEKA存儲數(shù)據(jù)的格式是ARFF(Attribute-RelationFileFormat)文件，這是一種ASCII文本文件#65377;

(2)啟動WEKA，單擊【Explorer】/【Openfile…】，打開一個.arff文件，在本例中，使用的是在WEKA安裝文件夾【date】子文件夾中自帶的soybean.arff進行數(shù)據(jù)挖掘，在圖1中顯示的是預處理界面，在其中顯示了該文件的一些屬性，例如:關系名稱為“soybean”，一共有683個實例，36個屬性#65377;

圖1 預處理(preprocess)界面

(3)單擊【Edit…】，可以看到WEKA所處理的WEKA所處理的數(shù)據(jù)集是如圖2所示的二維表格#65377;表格里的一個橫行稱作一個實例(Instance)，相當于數(shù)據(jù)庫中的一條記錄#65377;豎行稱作一個屬性(Attrbute)，相當于數(shù)據(jù)庫中的一個字段#65377;這樣一個表格表現(xiàn)的屬性之間的一種關系(Relation)#65377;

圖２以二維表格形式顯示的

4 數(shù)據(jù)預處理(DataPreprocessing)

(1)數(shù)據(jù)預處理能夠幫助改善數(shù)據(jù)的質(zhì)量，進而幫助提高數(shù)據(jù)挖掘進程的有效性和準確性#65377;數(shù)據(jù)預處理主要包括:數(shù)據(jù)清洗#65380;數(shù)據(jù)集成#65380;數(shù)據(jù)轉換和數(shù)據(jù)消減#65377;

(2)在WEKA中，有預處理模塊，這個模塊就是在圖1中所示的界面#65377;在本例中，單擊圖3所示的【choose】按鈕，然后按照圖4所示，選擇【Normalize】算法過濾數(shù)據(jù)，相當于對數(shù)據(jù)進行了預處理#65377;

圖３選擇過濾算法

圖４選擇過濾算法

（３）單擊圖１中的【Ａｐｐｌｙ】按鈕，得到數(shù)據(jù)預處理的結果，如圖５所示。

圖５數(shù)據(jù)預處理結果

5 分類(Classification)

(1)分類就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù))，以便能夠分類識別未知數(shù)據(jù)的歸屬或類別，即將未知事例映射到某種離散類別之一#65377;

(2)切換到【Classify】選項卡，單擊【Choose】按鈕后，在樹型框里選擇DecisionTable這個分類算法，算法的設置參數(shù)采用默認值#65377;

(3)單擊【Start】按鈕

(4)分類結果在窗口右邊顯示出來#65377;

(5)操作過程如圖6所示

圖６數(shù)據(jù)分類的操作

6 聚類分析(ClusterAnalysis)

(1)聚類分析是一個將數(shù)據(jù)集劃分為若干組或類的過程，并使得同一個組內(nèi)的數(shù)據(jù)對象具有較高的相似度;而不同組中的數(shù)據(jù)對象是不相似的#65377;

(2)在本例中，選擇K均值這種聚類分析方法#65377;

(3)切換【Cluster】選項卡

(4)單擊【Choose】按鈕選擇【SimpleKMeans】，點擊旁邊的文本框，修改【numClusters】為5，即把683個實例聚成5類，即K=5#65377;【seed】數(shù)設為10#65377;

(5)單擊【Start】

(6)聚類結果在窗口右方顯示出來#65377;

(7)觀察可視化的聚類結果#65377;在左下方【Resultlist】列出的結果上右擊，選擇【Visualizeclusterassignments】彈出的窗口給出了各實例的散點圖，如圖7所示#65377;

圖７可視化聚類結果

7 關聯(lián)規(guī)則(AssociationAnalysis)

(1)關聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價值描述數(shù)據(jù)項之間相互聯(lián)系的有關知識#65377;在本實驗中，選擇Apriori算法

(2)切換到【Associate】選項卡

(3)單擊【Choose】按鈕選擇【Apriori】，選擇默認的參數(shù)設置

(4)單擊【Start】

(5)結果在窗口右方顯示，其中可以看到WEKA找到了10條關聯(lián)規(guī)則#65377;

8 結束語

經(jīng)過上述的實際操作，數(shù)據(jù)挖掘的初學者將會對利用WEKA進行數(shù)據(jù)挖掘有初步了解，也對整個數(shù)據(jù)挖掘的流程加深了認識，知道可以怎樣用和如何用數(shù)據(jù)挖掘的理論知識#65377;要更好地使用WEKA，需要加強對數(shù)據(jù)挖掘算法的理解，才能更好地選擇數(shù)據(jù)#65380;設置算法的參數(shù)，繼而設置符合自己需要的算法，最后能夠根據(jù)挖掘出來的結果，進行分析，提高業(yè)務的績效#65377;

參考文獻:

[1]Pang-NingTan，MichaelSteinbach，VipinKumar，IntroductiontoDataMining[M]，北京，PostsTelecomPress，2007.

[2]JiaweiHan，MichelineKamber，DataMiningConceptsandTechniques(2ndEdition)[M]，北京，ChinaMachinePress，2006#65377;

[3]Weka中文站點，http://wiki.wekacn.org/index.php/Weka

[4]Weka英文站點，http://weka.sourceforge.net/wiki／index.php／Frequently_Asked_Questions

[5]AlexK.Seewald，tousingWeka3.4.6fromthecommandline，http:／／weka.sourceforge.net／wekadoc／index.php／en%3APrimer

[6]王木林.基于關聯(lián)規(guī)則數(shù)據(jù)挖掘技術在教學管理中的應用.電腦知識與技術[J].2007:525-527

收稿日期:2008-01-12

作者簡介:陸遠蓉(1971-)女，廣東省人，講師#65380;多媒體應用設計師，碩士，研究方向為信息管理#65380;教育技術#65377;

電腦知識與技術2008年6期

電腦知識與技術的其它文章: 電大計算機課程教學創(chuàng)新若干問題探討; 軟件工程教學方案設計; “刷新”《計算機文化基礎》教學體系的思考; 職業(yè)技術學院計算機專業(yè)課程教學過程中的問題思考; 淺析Ｗｅｂ２．０與電子商務２．０相結合模式及其應用; 剖析打印機語言ＰＣＬ與ＰｏｓｔＳｃｒｉｐｔ