999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

使用數(shù)據(jù)挖掘工具Weka

2008-01-01 00:00:00陸遠蓉
電腦知識與技術 2008年6期

摘要:當今社會,數(shù)據(jù)無處不在,數(shù)據(jù)挖掘技術作為一種新的信息處理技術,從海量的數(shù)據(jù)中找出有潛在價值的數(shù)據(jù)規(guī)律或數(shù)據(jù)模型#65377;用人工的方式難以實現(xiàn)這個目標,Weka是一種可用于數(shù)據(jù)挖掘的工具,數(shù)據(jù)挖掘用戶可使用Weka執(zhí)行數(shù)據(jù)預處理,分類,回歸,聚類,關聯(lián)規(guī)則等任務#65377;以Weka自帶的數(shù)據(jù)集為例,詳細介紹作為易于使用的數(shù)據(jù)挖掘工具Weka的使用#65377;

關鍵詞:數(shù)據(jù)挖掘工具Weka

中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)06-10000-00

Using Weka as Data Mining Tool

LU Yuan-rong

(GuangDong Polytechnic College,Department of Computer., GuangZhou 510520, China)

Abstract: As a knowledge discovery technology that Data Mining extracts valuable rules or models from huge raw data around us. Using tools can contribute to the achievement of this goal. WEKA is a comprehensive tool bench for data mining. Data Preprocessing, Classification, clustering algorithms and Association Rules have been implemented in Weka. This paper introduces how to use this data mining tools by using the dataset within Weka.

Key words: data mining; tool; Weka

1 引言

Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),是一個開放源碼的數(shù)據(jù)挖掘軟件#65377;Weka也是新西蘭獨有的一種鳥名,而Weka的主要開發(fā)者來自新西蘭的Waikato大學#65377;數(shù)據(jù)挖掘用戶可通過Weka集成的大量算法,使用Weka執(zhí)行數(shù)據(jù)預處理,分類,回歸,聚類,關聯(lián)規(guī)則,數(shù)據(jù)可視化等任務#65377;而開發(fā)者則可使用Java語言,利用Weka的架構上開發(fā)出更多的數(shù)據(jù)挖掘算法#65377;

使用Weka可以輕松地進行數(shù)據(jù)挖掘,可以在數(shù)據(jù)集上運用數(shù)據(jù)挖掘算法和進行數(shù)據(jù)預處理,下面介紹如何利用Weka自帶的數(shù)據(jù)集,從頭開始進行數(shù)據(jù)挖掘#65377;

2 軟件安裝

(1)下載并安裝JDK5

JDK5的下載地址:http://java.sun.com/javaee/downloads/index.jsp,下載完畢雙擊文件jdk-1_5_0_13-windows-i586-p.exe,按照提示操作即可#65377;

(2)下載并安裝WEKA3.4.12

WEKA下載地址:http://www.cs.waikato.ac.nz/ml/weka/,下載完畢雙擊文件weka-3-4-12jre.exe,按照提示操作即可#65377;

安裝完畢,運行WEKA#65377;

3 啟動WEKA

(1)WEKA存儲數(shù)據(jù)的格式是ARFF(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件#65377;

(2)啟動WEKA,單擊【Explorer】/【Openfile…】,打開一個.arff文件,在本例中,使用的是在WEKA安裝文件夾【date】子文件夾中自帶的soybean.arff進行數(shù)據(jù)挖掘,在圖1中顯示的是預處理界面,在其中顯示了該文件的一些屬性,例如:關系名稱為“soybean”,一共有683個實例,36個屬性#65377;

圖1 預處理(preprocess)界面

(3)單擊【Edit…】,可以看到WEKA所處理的WEKA所處理的數(shù)據(jù)集是如圖2所示的二維表格#65377;表格里的一個橫行稱作一個實例(Instance),相當于數(shù)據(jù)庫中的一條記錄#65377;豎行稱作一個屬性(Attrbute),相當于數(shù)據(jù)庫中的一個字段#65377;這樣一個表格表現(xiàn)的屬性之間的一種關系(Relation)#65377;

圖2 以二維表格形式顯示的

4 數(shù)據(jù)預處理(DataPreprocessing)

(1)數(shù)據(jù)預處理能夠幫助改善數(shù)據(jù)的質(zhì)量,進而幫助提高數(shù)據(jù)挖掘進程的有效性和準確性#65377;數(shù)據(jù)預處理主要包括:數(shù)據(jù)清洗#65380;數(shù)據(jù)集成#65380;數(shù)據(jù)轉換和數(shù)據(jù)消減#65377;

(2)在WEKA中,有預處理模塊,這個模塊就是在圖1中所示的界面#65377;在本例中,單擊圖3所示的【choose】按鈕,然后按照圖4所示,選擇【Normalize】算法過濾數(shù)據(jù),相當于對數(shù)據(jù)進行了預處理#65377;

圖3選擇過濾算法

圖4選擇過濾算法

(3)單擊圖1中的【Apply】按鈕,得到數(shù)據(jù)預處理的結果,如圖5所示。

圖5 數(shù)據(jù)預處理結果

5 分類(Classification)

(1)分類就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類識別未知數(shù)據(jù)的歸屬或類別,即將未知事例映射到某種離散類別之一#65377;

(2)切換到【Classify】選項卡,單擊【Choose】按鈕后,在樹型框里選擇DecisionTable這個分類算法,算法的設置參數(shù)采用默認值#65377;

(3)單擊【Start】按鈕

(4)分類結果在窗口右邊顯示出來#65377;

(5)操作過程如圖6所示

圖6 數(shù)據(jù)分類的操作

6 聚類分析(ClusterAnalysis)

(1)聚類分析是一個將數(shù)據(jù)集劃分為若干組或類的過程,并使得同一個組內(nèi)的數(shù)據(jù)對象具有較高的相似度;而不同組中的數(shù)據(jù)對象是不相似的#65377;

(2)在本例中,選擇K均值這種聚類分析方法#65377;

(3)切換【Cluster】選項卡

(4)單擊【Choose】按鈕選擇【SimpleKMeans】,點擊旁邊的文本框,修改【numClusters】為5,即把683個實例聚成5類,即K=5#65377;【seed】數(shù)設為10#65377;

(5)單擊【Start】

(6)聚類結果在窗口右方顯示出來#65377;

(7)觀察可視化的聚類結果#65377;在左下方【Resultlist】列出的結果上右擊,選擇【Visualizeclusterassignments】彈出的窗口給出了各實例的散點圖,如圖7所示#65377;

圖7 可視化聚類結果

7 關聯(lián)規(guī)則(AssociationAnalysis)

(1)關聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價值描述數(shù)據(jù)項之間相互聯(lián)系的有關知識#65377;在本實驗中,選擇Apriori算法

(2)切換到【Associate】選項卡

(3)單擊【Choose】按鈕選擇【Apriori】,選擇默認的參數(shù)設置

(4)單擊【Start】

(5)結果在窗口右方顯示,其中可以看到WEKA找到了10條關聯(lián)規(guī)則#65377;

8 結束語

經(jīng)過上述的實際操作,數(shù)據(jù)挖掘的初學者將會對利用WEKA進行數(shù)據(jù)挖掘有初步了解,也對整個數(shù)據(jù)挖掘的流程加深了認識,知道可以怎樣用和如何用數(shù)據(jù)挖掘的理論知識#65377;要更好地使用WEKA,需要加強對數(shù)據(jù)挖掘算法的理解,才能更好地選擇數(shù)據(jù)#65380;設置算法的參數(shù),繼而設置符合自己需要的算法,最后能夠根據(jù)挖掘出來的結果,進行分析,提高業(yè)務的績效#65377;

參考文獻:

[1]Pang-NingTan,MichaelSteinbach,VipinKumar,IntroductiontoDataMining[M],北京,PostsTelecomPress,2007.

[2]JiaweiHan,MichelineKamber,DataMiningConceptsandTechniques(2ndEdition)[M],北京,ChinaMachinePress,2006#65377;

[3]Weka中文站點,http://wiki.wekacn.org/index.php/Weka

[4]Weka英文站點,http://weka.sourceforge.net/wiki/index.php/Frequently_Asked_Questions

[5]AlexK.Seewald,tousingWeka3.4.6fromthecommandline,http://weka.sourceforge.net/wekadoc/index.php/en%3APrimer

[6]王木林.基于關聯(lián)規(guī)則數(shù)據(jù)挖掘技術在教學管理中的應用.電腦知識與技術[J].2007:525-527

收稿日期:2008-01-12

作者簡介:陸遠蓉(1971-)女,廣東省人,講師#65380;多媒體應用設計師,碩士,研究方向為信息管理#65380;教育技術#65377;

主站蜘蛛池模板: 亚国产欧美在线人成| 亚国产欧美在线人成| 日韩中文无码av超清| 中文字幕资源站| 91小视频在线观看免费版高清| 在线观看免费人成视频色快速| 在线观看国产黄色| 欧美色伊人| 国产一二三区在线| 曰韩免费无码AV一区二区| 五月激情综合网| 国内精自线i品一区202| 国产偷国产偷在线高清| 色婷婷亚洲十月十月色天| 久久一级电影| 四虎影院国产| 91在线激情在线观看| 一级毛片在线播放免费观看 | 欧美色视频在线| 成人伊人色一区二区三区| 精品福利国产| 国国产a国产片免费麻豆| 精品久久久久成人码免费动漫| 丁香五月激情图片| 亚洲无码37.| 亚洲日产2021三区在线| 人妻中文久热无码丝袜| 一区二区三区在线不卡免费| 国产高颜值露脸在线观看| 国产成人调教在线视频| 秘书高跟黑色丝袜国产91在线 | 国产欧美专区在线观看| 老色鬼欧美精品| 老熟妇喷水一区二区三区| 九色在线观看视频| 999福利激情视频| 亚洲一级毛片在线观播放| 五月激情综合网| 伊人久久婷婷五月综合97色| 全部毛片免费看| 99在线小视频| 国产精品免费p区| 国产欧美精品午夜在线播放| 天堂网亚洲综合在线| 看你懂的巨臀中文字幕一区二区| v天堂中文在线| 国产精品无码AV中文| 国产成人精品一区二区三区| 欧美黄色a| 久久久受www免费人成| 免费人成黄页在线观看国产| 国产精品所毛片视频| 欧美国产在线看| 影音先锋丝袜制服| 国产成人喷潮在线观看| 久久亚洲国产一区二区| 伊人大杳蕉中文无码| 欧美另类第一页| 成人欧美在线观看| 99热这里只有免费国产精品 | 手机成人午夜在线视频| 国产成人精品一区二区三在线观看| 伊人蕉久影院| 99热最新网址| 最新亚洲人成网站在线观看| 国产在线91在线电影| 久久青草免费91线频观看不卡| 91偷拍一区| 亚洲床戏一区| 永久免费精品视频| 国产91av在线| 日韩成人午夜| 亚洲天堂网视频| 视频二区中文无码| 亚洲欧美日韩中文字幕在线| 日韩欧美中文字幕在线精品| 国产成年无码AⅤ片在线 | 亚洲日韩在线满18点击进入| 国产中文一区a级毛片视频 | 一本视频精品中文字幕| 九九这里只有精品视频| 91精品国产福利|