【摘要】 實驗中討論了在中草藥數據分類應用中兩種分類器算法multiclassclassifier和adaboostM1的分類性能的問題,在weka平臺上實驗可知,這兩種分類器算法中adaboostM1的分類精度比較高。
【關鍵詞】 中草藥 AdaBoostM1 weka
一、概述
AdBoostM1算法是目前一種流行的組合分類器算法,把它用在傳統的分類器算法上,并應用于中草藥分類,使傳統的分類器性能得到進一步提升。而在實驗平臺WEKA上的multiclassclassifier算法也是一種分類器算法,是元學習算法中的一種。
本文在實驗中首先在weka平臺上用兩種算法對草藥數據集進行分類,然后再對這兩種算法的分類精度進行對比,實驗表明:在實驗數據集為輸入樣本集的情況下,AdaboostM1算法的分類精度比較高。
二、平臺WEKA簡介
WEKA全稱Waikto Environlnent for Knowledge Analysis,即懷卡托智能分析環境的縮寫,是一款免費的非商業化的機器學習和數據挖掘軟件[1]。該平臺是用JAVA語言編寫,故有很好的可移植性,研究人員可以根據自己的研究對平臺里面已經存在的傳統的經典算法進行修改,使得修改后的算法適合自己的研究領域。
該平臺對所有的機器學習及數據挖掘分析領域的研究愛好者開放,經過這些研究者和愛好者的補充,WEKA平臺的內容及里面的經典算法在原有的基礎上得到了很大的擴充,特別是優秀的算法在Weka上基本上都能找的到,為研究者提供了良好的實驗條件。
三、在Weka上用AdaBoost算法及幾種單分類算法對草藥數據進行分類
本文所進行的實驗在Weka3-7-1平臺上完成,用三種草藥三七、人參、西洋參的指紋圖譜數據作為實驗的數據集。
本實驗對數據集采用5重交叉驗證,然后取其分類精度做為最終的分類性能,則其分類精度體現了它的分類性能,分類精度越高表示分類性能越好。
multiclassclassifier的參數設置如下:
基分類器為decisionstump,randomwidthfactor是2.0,seed為1,其他的為默認參數設置。
AdaboostM1的參數設置如下:
基分類器為decisionstump,numiteration為10,seed為1,weightThresold為100。
之后執行RUN界面的START指令,再進入ANALYSE界面載入文件選擇分析分類精度,可得到這些算法的平均分類精度如表1所示。
四、實驗結果與分析
從表1可以看出,在實驗的中草藥數據集中,AdaBoostM1算法的分類精度大于multiclassclassifier算法的分類精度。
五、結論
綜上所述,在中草藥分類領域,在與multiclassclassifier算法比較下,可以利用AdaBoostM1算法來提高傳統分類器算法的分類精度,使用AdaBoostM1算法來進行草藥數據集的分類以達到高的精度。
參 考 文 獻
[1] Witten,1.H.and Frank,E.Data Mining practical machine leaning tool sand techniques,second edition. 北京,機械工業出版社,2006