李志云
離群點檢測(又稱為異常檢測)是找出其行為很不同于預期對象的過程。這種對象稱為離群點或異常。除欺詐檢測外,離群點檢測在許多應用中都是重要的,如醫(yī)療處理、公共安全、工業(yè)損毀檢測、圖像處理、傳感器/視頻網(wǎng)絡監(jiān)視和入侵檢測。
離群點檢測和聚類分析是兩項高度相關的任務。聚類發(fā)現(xiàn)數(shù)據(jù)集中的多數(shù)模式并據(jù)此組織數(shù)據(jù),而離群點檢測則試圖捕獲那些顯著偏離多數(shù)模式的異常情況。離群點檢測和聚類服務于不同的目的。
假定使用一個給定的統(tǒng)計過程來產(chǎn)生數(shù)據(jù)對象集。離群點(outlier)是一個數(shù)據(jù)對象,它顯著不同于其他數(shù)據(jù)對象,好像它是被不同的機制產(chǎn)生的一樣,如圖1所示:

圖1 區(qū)域R中的對象是離群點
大部分對象都粗略地服從高斯分布。然而,區(qū)域 R中的對象顯著不同。它不太可能與數(shù)據(jù)集中的其他對象服從相同的分布。因此,在該數(shù)據(jù)集中,R中的對象是離群點。
離群點不同于噪聲數(shù)據(jù)。噪聲是被觀測變量的隨機誤差或方差。一般而言,噪聲在數(shù)據(jù)分析(包括離群點分析)中不是令人感興趣的。離群點是有趣的,因為懷疑產(chǎn)生它們的機制不同于產(chǎn)生其他數(shù)據(jù)的機制。因此,在離群點檢測時,重要的是搞清楚為什么檢測到的離群點被某種機制產(chǎn)生。通常這樣做,在其余數(shù)據(jù)上做各種假設,并且證明檢測到的離群點顯著違反了這些假設。離群點通常可以分成3類:全局離群點、情境(或條件)離群點和集體離群點。離群點檢測方法可以分為兩類:一類是根據(jù)用于分析的數(shù)據(jù)樣本是否具有領域?qū)<姨峁┑摹⒖梢杂脕順?gòu)建離群點檢測模型的標號,對離群點檢測方法進行分類;一類是根據(jù)各方法關于正常對象和離群點的假定,對各方法分組。如果可以得到專家標記的正常和離群點對象實例,則可以使用它們建立離群點檢測模型,所使用的方法可以劃分成監(jiān)督方法、半監(jiān)督和無監(jiān)督方法。如果對離群點檢測方法對離群點與其余數(shù)據(jù)做出假定,根據(jù)所做的假定,可以把離群點檢測方法分為3類:統(tǒng)計學方法、基于鄰近性的方法和基于聚類的方法。本文就統(tǒng)計學方法提出一種非參數(shù)方法檢測離群點。
非參數(shù)方法并不假定先驗統(tǒng)計模型,而是試圖從輸入數(shù)據(jù)確定模型。非參數(shù)方法通常假定參數(shù)的個數(shù)和性質(zhì)都是靈活的,不預先確定。
可以使用直方圖作為非參數(shù)統(tǒng)計模型來捕獲離群點。使用直方圖表示了每個顧客事務的購買金額,圖中60%事務的購買金額為0~1000美元。按直方圖所示,一個購買金額為7500美元的事務可能被視為離群點,因為只有 1-(60%+20%+10%+6.7%+3.1%)=0.2%事務的購買量超過5000美元。另一方面,購買量為385美元的事務可以看做正常的,因為它落入包含60%事務的箱中,如圖2所示:

圖2 每個事務購買量的直方圖
使用直方圖檢測離群點的步驟如下:
第一步:構(gòu)造直方圖。使用輸入數(shù)據(jù)構(gòu)造一個直方圖,該直方圖可以是一元的,也可以是多元的。
第二步:檢測離群點。為了確定一個對象o是否是離群點,可以對照直方圖檢查它。在最簡單的方法中,如果該對象落入直方圖的一個箱中,則該對象被看做正常的,否則被認為是離群點。
使用直方圖作為離群點檢測的非參數(shù)模型的一個缺點是,很難選擇一個合適的箱尺寸。一方面,如果箱尺寸太小,則許多正常對象都會落入空的或稀疏箱,因而被誤識別為離群點。這將導致很高的假正例率和低精度。另一方面,如果箱尺寸太大,則離群點對象可能滲入某些頻繁的箱中,因而“假扮”成正常的。這將導致很高的假負例率和低召回率。
為了解決這些問題,可以采用核密度估計數(shù)據(jù)的概率密度分布。把每個觀測對象看做一個周圍區(qū)域中的高概率密度指示子。一個點上的概率密度依賴于該點到觀測對象的距離。使用核函數(shù)對樣本點對其鄰域內(nèi)的影響建模。核函數(shù)K()是一個非負實數(shù)值可積函數(shù),滿足如下兩個條件,如公式(1)、公式(2)

一個頻繁使用的核函數(shù)是均值為0,方差為1的標準高斯函數(shù):

設x1,…,xn是隨機變量f的獨立的、同分布的樣本。該概率密度函數(shù)的核函數(shù)近似為:

其中,K()是核函數(shù);h是帶寬,充當光滑參數(shù)。
一旦通過核密度估計近似數(shù)據(jù)集的概率密度函數(shù),就可以使用估計的密度函數(shù) f來檢測離群點。對于對象 o,f(o)給出該對象被隨機過程產(chǎn)生的估計概率。如果f(o)大,則該對象可能是正常的;否則,o可能是離群點。這一步通常與參數(shù)方法的對應步驟類似。
離群點檢測的統(tǒng)計學方法由數(shù)據(jù)學習模型,以區(qū)別正常的數(shù)據(jù)對象和離群點。使用統(tǒng)計學方法的一個優(yōu)點是,離群點檢測可以是統(tǒng)計上無可非議的。當然,僅當對數(shù)據(jù)所做的統(tǒng)計假定滿足實際約束時才為真。通常,非參數(shù)方法對數(shù)據(jù)做較少的假定,因而在更多情況下都可以使用。
[1]Jiawei Han,Micheline Kamber等. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機械工業(yè)出版社,2012
[2]潘章明,陳尹立. 基于共享反K近鄰的局部離群點檢測算法[J]. 計算機仿真.2013(2)269-271
[3]劉耀宗,張宏等. 基于小波密度估計的數(shù)據(jù)流離群點檢測[J]. 計算機工程.2013(2)178-179
[4]古平,劉海波等. 一種基于多重聚類的離群點檢測算法[J]. 計算機應用研究.2013(3)751-753
[5]趙潔. 統(tǒng)計模型中幾種異常點檢測方法簡介[J].吉林教育. 2013(14)10-12
[6]李龍姣,程國達. 基于直方圖和 FP增長的高維空間離群點挖掘[J].計算機與現(xiàn)代化.2013(1)47-49
[7]王玉琳,薛安榮. 基于橢球模型的無線傳感器網(wǎng)絡的局部離群點檢測[J].計算機應用研究.2013(2)547-549