摘要:關聯分類具有較高的分類精度和較強的擴展性,但是由于分類器是由高置信度的規則構成,因此有時會出現過擬合。因此考慮在fp-growth挖掘頻繁項的基礎上,計算頻繁項與測試數據間的最小差異度,即分類規則與測試數據的匹配程度。將最小差異度最小的類標號賦予測試數據。實驗結果表明,該算法較先前算法有較高的精確度,如CBA(chssification-Based Association),CMAR(Classifircation based on Multiple Associadon Rules),CPAR(Classificadon based on Preldictive AssociadOn Rules)。但是不足之處是精確度提高的代價是存儲頻繁項的矩陣過于龐大,系統開銷不小。
關鍵詞:頻繁項;矩陣;最小差異性;匹配;分類
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2009)01-0177-03