摘要:為了克服現有決策樹分類算法在大數據集上的有效性和可伸縮性的局限,提出一種新的基于粗糙集理論的決策樹算法。首先提出基于代表性實例的原型抽象方法,該方法從原始數據集中抽取代表性實例組成抽象原型,可縮減實例數目和無關屬性,從而使算法可以處理大數據集;然后提出屬性分類價值量概念,并作為選擇屬性的啟發式測度。該測度描述了屬性對分類的貢獻價值量的多少,側重考慮了屬性之間以及實例與分類之間的關系。實驗表明,新算法比其他算法生成的決策樹規模要小,準確率也有顯著提高,在大數據集上尤為明顯。
關鍵詞:決策樹;粗糙集;大數據集;代表性實例;原型抽象;屬性分類價值量
中圖分類號:TP18 文獻標志碼:A 文章編號:1001-3695(2010)08-2899-03