王自強(qiáng) 馮博琴
摘要:為了高效地從數(shù)據(jù)庫(kù)中挖掘分類規(guī)則,提出了一種基于免疫算法的分類算法.該算法的核心思想為:對(duì)規(guī)則的前件進(jìn)行固定長(zhǎng)度編碼,適應(yīng)度函數(shù)的計(jì)算由分類規(guī)則的較小分類錯(cuò)誤率、簡(jiǎn)潔性、一致性和訓(xùn)練實(shí)例的覆蓋性構(gòu)成,通過(guò)把適應(yīng)度最小的個(gè)體作為先驗(yàn)知識(shí)來(lái)修改個(gè)體的某些分量的方法進(jìn)行疫苗接種,并通過(guò)檢測(cè)個(gè)體是否出現(xiàn)退化和模擬退火來(lái)實(shí)現(xiàn)免疫選擇,同時(shí)還采用了基于信息增益的規(guī)則剪枝策略.在美國(guó)加州大學(xué)標(biāo)準(zhǔn)數(shù)據(jù)集中的5個(gè)數(shù)據(jù)集上將該算法與RISE和OCEC算法進(jìn)行了實(shí)驗(yàn)比較,結(jié)果表明該算法不僅具有更快的收斂速度,而且獲得了更高的預(yù)測(cè)準(zhǔn)確率及更小的規(guī)則集.
關(guān)鍵詞:數(shù)據(jù)挖掘;分類規(guī)則;免疫算法;信息增益
中圖分類號(hào):TP18文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):0253—987X(2005)02—0111—04