

摘 要:文章分析了基于Stacking的算法框架,提出了一種基于Stacking的集成學習算法,在兩種疾病數據集上,實驗結果表明,該方法性能良好。
關鍵詞:集成學習;隨機森林;堆棧
1 ? ?分類挖掘技術在疾病輔助診斷上的應用
近年來,越來越多的學者將分類挖掘技術應用于疾病的輔助診斷上,如劉文博等[1]提出了一種迭代隨機森林算法,對糖尿病數據進行預測。金強等[2]提出,應用改進的BP神經網絡算法,提高乳腺癌診斷準確率。本文提出了一種基于堆棧的集成學習算法,應用于肝臟疾病和皮膚疾病數據的分類預測,為臨床診斷、個人健康提供有效的決策依據與幫助。
2 ? ?基于Stacking的集成學習算法
Stacking通常是一個兩層結構:0層和1層。0層在底層,選擇訓練多個不同類型的基礎分類器生成元級數據;1層應用元級數據訓練形成元分類器。元數據通過K折交叉驗證的過程生成,由基礎分類器對輸入實例的預測結果和實例的真實類標號組成。其中,基礎分類器的輸出有兩種方式:類標號、類概率分布。研究證明,基于類概率分布的Stacking算法性能比較好。學者們提出了許多基于類概率分布的Stacking算法,如Stacking-MLR等[3]和Stacking-MDT等[4]。本文選擇基礎分類器輸出的類概率分布作為元數據的組成部分,并選擇Randomforest(RF)作為元分類器,構建集成算法Stacking-RF。
3 ? ?數據集與評價準則
實驗在兩個公共數據集上進行,包括肝臟疾病數據集(Hepatitis)和皮膚疾病數據集(Dermatology)。兩個實驗數據集信息如表1所示。
實驗采用準確率衡量集成算法的性能。準確率表示正確分類實例數與全體實例數的比值。
4 ? ?實驗與分析
實驗選擇的3個基礎分類器:NaiveBasye(NB),SimpleLogistic(SL)和J48,元分類器為Randomforest(RF),實驗數據如表2所示。
從表2可以看出,本文提出的集成算法Stacking-RF在準確率性能指標上,均優于3個個體分類器NaiveBasye,SimpleLogistic和J48。如在Hepatitis,Stacking-RF優于準確率最高的個體分類器SimpleLogistic 0.8%。同樣,在數據集Dermatology,Stacking-RF均優于3個個體分類器。因此,本文提出的集成算法Stacking-RF在兩種疾病數據集上表現了良好的性能。
5 ? ?結語
首先,本文詳細分析了基于Stacking的算法框架;其次,提出了一種基于Stacking的集成學習算法;最后,在兩種疾病數據集上進行實驗,結果表明,本文提出的集成算法性能表現良好。
[參考文獻]
[1]劉文博,梁盛楠,秦喜文,等.基于迭代隨機森林算法的糖尿病預測[J].長春工業大學學報,2019(6):604-611
[2]金強,高普中.人工神經網絡在乳腺癌診斷中的應用[J].中國普外基礎與臨床雜志,2019(5):625-630.
[3]TING K M,WITTEN I H.Issues in stacked generalization[J].Journal of Artificial Intelligence Research,1999(10):271-289.
[4]TODOROVSKI L,DZEROSKI S.Combining multiple models with meta decision trees[C].Paris:4th European Conference on Principles of Data Mining and Knowledge Discovery,2000.
[6]袁梅宇.數據挖掘與機器學習-WEKA應用技術與實踐[M].北京:清華大學出版社,2010.
作者簡介:丁偉民(1979— ),男,漢族,山東濰坊人,講師,碩士;研究方向:計算機應用技術。