(福建江夏學(xué)院 電子信息與科學(xué)學(xué)院, 福建 福州 350108)
離群點(diǎn)數(shù)據(jù)被認(rèn)為是與其他觀測(cè)值有較大差別、懷疑由不同機(jī)制產(chǎn)生的異常觀測(cè)值,這些異常數(shù)據(jù)可能來源于不同的類、自然變異,以及數(shù)據(jù)測(cè)量或收集誤差。現(xiàn)實(shí)生活中,由于異常事例常常隱藏著有價(jià)值和出乎意料的知識(shí),挖掘異常事例及離群數(shù)據(jù)往往比常規(guī)情況更加令人關(guān)注。離群點(diǎn)的檢測(cè)作為目前數(shù)據(jù)挖掘技術(shù)中重要的研究領(lǐng)域,廣泛應(yīng)用于包括信用卡欺詐發(fā)現(xiàn)、網(wǎng)絡(luò)安全入侵檢測(cè)、生態(tài)系統(tǒng)失調(diào)預(yù)測(cè)、犯罪行為發(fā)現(xiàn)及預(yù)防醫(yī)療檢查等眾多行業(yè)領(lǐng)域研究[1]。此外,離群點(diǎn)檢測(cè)也常用于檢測(cè)數(shù)據(jù)集中的異常樣本,剔除“臟數(shù)據(jù)”以提高如聚類和分類計(jì)算的數(shù)據(jù)分析質(zhì)量。
目前異常檢測(cè)數(shù)據(jù)挖掘主要包含基于模型、密度、聚類和距離等技術(shù)。基于模型(distribution-based)的檢測(cè)技術(shù)通過估計(jì)概率分布的參數(shù)來創(chuàng)建數(shù)據(jù)分布模型,不能很好地與模型相擬合的對(duì)象則被判別為異常數(shù)據(jù)。該技術(shù)不適用于數(shù)據(jù)的統(tǒng)計(jì)分布事先未知或沒有訓(xùn)練數(shù)據(jù)可用的情況。基于密度(density-based)的檢測(cè)技術(shù)通過計(jì)算每個(gè)數(shù)據(jù)對(duì)象的密度評(píng)估值,將低密度區(qū)域中的數(shù)據(jù)對(duì)象檢測(cè)為離群點(diǎn),如LOF算法[2]、MDEF[3]、COF[4]和NLOF[5]等算法,這些算法可適用于具有不同密度區(qū)域的數(shù)據(jù)集,但對(duì)初始參數(shù)的選擇非常敏感。基于聚類(clustering-based)的檢測(cè)技術(shù)通過執(zhí)行聚類操作,將遠(yuǎn)離其他簇的小簇標(biāo)識(shí)為離群對(duì)象,或使用目標(biāo)函數(shù)來評(píng)估對(duì)象屬于簇的程度,根據(jù)離群點(diǎn)評(píng)估值隔離異常數(shù)據(jù)。……