白 洋,王志海,孫艷歌,2
(1.北京交通大學 計算機與信息技術學院,北京100044; 2.信陽師范學院 計算機與信息技術學院,河南 信陽 464000)
基于圖的概念重現發現與預測
白 洋1,王志海1,孫艷歌1,2
(1.北京交通大學 計算機與信息技術學院,北京100044; 2.信陽師范學院 計算機與信息技術學院,河南 信陽 464000)
概念漂移是數據流挖掘中具有挑戰性的問題.當概念漂移發生后,原有分類模型的分類正確率會顯著下降,因此需要及時發現并調整模型以適應這些改變.概念重現是概念漂移的特殊情況,然而已有的算法大多未能充分考慮這種狀況.為此,提出一種能夠處理重現的概念檢測方法.試驗結果表明,該方法能夠以較低的延遲和較低的誤報率檢測到概念漂移,并且可以識別重現的概念,很大程度上提升了分類器的分類正確率.
數據流;數據挖掘;概念漂移;漂移檢測;概念重現
數據挖掘的基本問題是處理隨時間增長的大量數據,待處理的海量數據都以高速有序的形式到達,此類數據稱為數據流[1].在動態變化和不平穩的環境中,數據分布會隨著時間改變從而產生概念漂移現象[2].在這里概念就是指分類問題中輸入變量X和目標變量y之間的聯合概率.那么,概念漂移就是指輸入變量和目標變量之間聯合概率的變化[3],如下式所示:

(1)
式(1)定義了時間t0和t1之間的概念漂移.其中可能是P(y)發生了改變,也可能是P(X|y)發生了改變.現實生活中有許多關于概念漂移的例子.例如,在垃……