廣東工業大學自動化學院 朱鴻斌
變點檢測方法普遍應用于各個工程領域,但是,傳統的變點檢測方法使用的是參數法,該方法在復雜環境下存在一定的局限性。為克服該問題,本文介紹一種基于AUC統計量非參數變點檢測方法。ROC曲線下的區域(AUC)指標可用于描述二分類器性能,數據信號的分離程度。其中,AUC統計量和Mann-Whitney U(曼-惠特尼)統計量是等價的。因其具有簡單,計算方便等優點,因此本文將介紹該指標在變點檢測中問題的應用。實驗結果表明,該方法具有一定的有效性和實用性。
ROC分析起源于20世紀50年代初期,目前已成為一種重要的工具,并廣泛應用在不同的科學工程領域,包括機器學習、計算機視覺、信號處理、生物信息學和能源探測器信號處理中的一些未解決的問題等。ROC曲線是由在不同判決門限下真陽性率和假陽性率所構成的,接收機工作特性曲線下的面積(Area Under the Curve,以下簡稱AUC)可以評估分類器能否有效地將特定問題中的陽性類樣本和陰性類樣本區分出來,也可用來判斷兩類樣本是否存在差異。若AUC的數值越大,說明兩類樣本的重合度越低,這也意味著分類器的分類性能越好,或者兩類數據分離程度較高。
變點在工程上也被稱為異常點,指一個信號或者模型突然發生變化的點。變點檢測是判斷信號或數據序列是否發生變化,以及突變的時刻。變點檢測技術目前已經廣泛應用于工程領域中。比如:工業故障檢測、氣候方面的突發事件分析、人工智能領域的圖像的邊緣檢測和分割技術以及語音辨析技術等。傳統的變化點檢測方法可分為離線檢測方法和在線檢測方法。相比離線檢測,在線檢測需要考慮眾多的因素,例如:數據流的到達的頻率。本文主要研究離線情況下變點檢測。若將突變點前后的數據看作二類問題,曼-惠特尼統計量將可以對二類問題進行分析,并且判斷是否出現變點,以及變點出現的時刻。
令獨立同分布的樣本序列X1,X2,……Xm和Y1,Y2,……Yn分別服從于累積概率密度函數FX、FY。從D.Bamber,“The area above the ordinal dominance graph and the area below the receiver operating characteristic graph”可知,計算AUC的經驗無偏估計量為:

其中:

由上式可知,當X1,X2,……Xm與Y1,Y2,……Yn完全分離時,AUC的估計值為0或者1;當X與Y完全重疊時,AUC的估計值為0.5。
令Z為長度等于K的隨機時間序列,即Z=[Z1,Z2,..,ZK],且服從以下分布:

式中,μ,δ2分別為序列的均值和方差。本文僅研究均值突變的情況,即δ2保持不變。
若在某一時刻,序列Z的均值發生突變,其數學模型可以表示為:

而Δ指的是序列均值突變的幅度。
為驗證本文所介紹方法的有效性,在本實驗中,我們產生一個長度K=1000的序列,該序列由均值分別為0、5,方差為1的隨機數據組成,其中,突變的區間范圍為[600,100]。
(2)逐步增加q,即讓窗口由左向右滑動。此時,我們可以獲得各個時刻的θq的估計值,如圖1所示。

圖1 基于滑窗方法的AUC統計序列圖
如圖1所示,當兩個窗口的數據不存在均值突變時,即Δ=0,此時θq的值的變化不明顯,且僅在一定的范圍內波動;當窗口y中的一部分數據進入突變后區域,此時θq的值會逐漸增大;當窗口x完全處于突變點之前、且窗口y完全處于突變點之后,θq的值將達到最大;此后θq的數值將會隨著窗口x進入突變后的區域而逐漸減小。
本文主要介紹了如何將曼-惠特尼統計量應用于變點檢測問題,并且做了均值突變的實驗。實驗結果表明,當數據序列發生均值突變時,使用曼-惠特尼統計量進行分析能夠判斷數據序列是否出現變點,因此,本文的方法具有一定的合理性和實用性。然而,本文尚存在一些不足,對閾值設定和窗口大小的選取還沒有系統的理論方法,因此還能夠從以下幾個方面進一步改進,例如:閾值的選取、滑窗大小的設定、多變點檢測以及變點發生的時刻的估計等。