宋玉林,訾雪旻
(天津職業技術師范大學理學院,天津300222)
一種高維數據流的穩健監控方法
宋玉林,訾雪旻
(天津職業技術師范大學理學院,天津300222)
基于高維數據流在實時檢測問題中的重要性,將EWMA統計量與擬合優度檢驗及異質混合物檢驗相結合,提出一種監控高維數據流的新方法。經過大量模擬和研究發現,該方法不僅實用,且監控比較穩健。
高維數據流;擬合優度檢驗;EWMA;統計過程控制
隨著經濟發展和社會進步,在工業、制造業及流行病等領域,高維數據流的監控問題被廣泛關注和研究,尤其是整體監控相獨立的高維數據流問題,如文獻[1]中的多用傳感器變點檢測問題、監控多階段的汽車車身裝配問題等。在監控時,人們希望快速檢測出突發事件,但一般情況下無法得知數據流中哪些數據流受到影響、哪些不受影響。針對此問題,本文將EWMA控制圖與混合物異質性檢驗問題及擬合優度檢驗問題相結合,提出一種高維數據流檢測的新方法。
本研究監控p個數據流,隨時間t(t=1,2,…)變化,設其中第k個數據流為Xkt。與此同時假設數據流相互獨立且同分布,其中μ0k=0,。備擇假設下,那些受影響數據流的均值都在τk處發生變化,漂移為μk,受到影響和未受到影響的數據流的集合分別是Aa和,pa是Aa的基(即pa是受到影響數據流的個數)。
監控系統:關于觀測的數據流序列Xt={X1t,…,Xpt}t≥1,在s階段由2部分組成,即報警統計量和報警線g(s),那么定義

T=s意味著在時間s時,s個觀測值的某個未知點發生變化且報警。
2.1Tmax與Tsum監控統計量


文獻[4]中提出一種方法,該方法建立在局部CUSUM統計量和的基礎上,且滿足

不論是Tmax還是Tsum都有局限性,因為當p很大時,計算復雜度提高,不符合實際應用。
2.2Tnew統計量的構造
本文結合異質混合物檢驗與擬合優度檢驗進行新的統計量的構造。文獻[5]中的異質混合物檢驗監控問題與本文監控的高維數據流問題相近。異質混合物檢驗問題的關鍵是找到檢驗分界,檢驗分界可以分離可測區域和不可測區域。在可測區域,可采用似然比檢驗(likelihood ratio test,LRT)檢查出影響事件的出現,而不可測區域則沒有方法用于檢測。文獻[5]提出了最優檢驗統計量higher criticism即HCn*,該統計量對模型參數沒有要求,則最優檢驗統計量的表達式為:

文獻[6]研究HCn*與已知的擬合優度檢驗(goodness of fit test,GOF)的近似性,并找到一些適合檢驗異質混合物的GOF統計量。文獻[7]介紹了構建GOF檢驗的方法,該方法是建立在似然比統計量的基礎上,似然比統計量為:

式中:Fn(u)為樣本{X1,…,Xn}的經驗累積分布函數;Φ(u)為標準正態的累積分布函數。

本文需要取一個單邊統計量,式(6)中的ZC等價于[7]:

該統計量與HCn*有相同的檢測分界,且對模型參數沒有要求。
由于EWMA控制圖相較于CUSUM控制圖監控穩健,構造簡單,且既考慮歷史數據又考慮當前觀測值,所以本文中使用EWMA控制圖代替原來方法中的CUSUM控制圖來監控單個的數據流。這里給出的EWMA統計量滿足下面的遞推公式:

在前文討論的基礎上,結合文獻[8]給出了結合異質性檢測和擬合優度檢驗的EWMA控制圖統計量為:

式中:U((1)t)≤…≤U(p()t)為(U(1t),…,U(pt) )的次序統計量,U(it)=H(tZ(it),μ)i;H(t·,μ)為可控狀態下Z(it)的累積分布函數。同時給定新的報警,停止時間為:

式中:L>0為控制線(L的確定用于實現一個特定可控(IC)的平均運行長度)。該統計量通過以上步驟進行監控。
過程監控中比較重要的一步就是在軟件中進行模擬監控,需要通過模擬監控來確定控制圖的好壞。文獻[9]指出ARL是當前度量一個控制圖穩健性的重要指標之一,是指制圖從監控開始到發現問題后報警為止所抽取的平均樣本數。在發生漂移后,步長越小,說明報警越快,則控制圖越好。Tnew的EWMA控制圖監控流程如圖1所示。由圖1可知,2個for循環為生成p×t的矩陣,τ為一個變點。在第1部分的模擬中求出控制線L,之后將L運用到模擬監控中。
為進一步分析Tnew的EWMA控制圖監控效果,將Tmax、Tsum、Tnew控制圖的ARL對比值進行比較,比較結果如表1所示。其中,ARL0是過程可控狀態下的平均運行步長。
由表1可知,Tnew的監控明顯比其他方法有優勢,當λ=0.2、ARL0=200時,Tnew的ARL值最小,說明其報警最快;當λ=0.02時,Tnew控制圖在ARL0在取值為200、370和500的情況下,其監控依然很靈敏,實現更快的報警效果。

圖1 EWMA樣本流程圖

表1 Tmax、Tsum和Tnew控制圖的ARL對比值
高維數據流的監控問題是當今研究領域的熱門問題,由于在實踐中數據流變化存在不確定性,本文針對該問題將異質混合物檢測和擬合優度檢驗相結合,提出新的EWMA控制圖對其進行監控。實驗表明,與以往方法相比,該方法更加實用方便,且控制圖更加穩健,適合社會科技發展對高維數據流監控的高要求。
[1]TARTAKOVSKY A G,VEERAVALLI V V.Asymptotically optimal quickest change detection in distribution sensor systems[J].Sequential Analysis,2008(27):441-475.
[2]MOUSTAKIDES G V.Optimal stopping times for detecting changes in distributions[J].The Annals of Statistics,1986,14:1379-1387.
[3]TARTAKOVSKY A G,ROZOVSKII B L,BLAZEK R B,et al. Detection of intrusions in information systems by sequential change-point methods[J].Statistical Methodology,2006,3:252-340.
[4]MEI Y.Efficient scalable schemes for monitoring a large number of data streams[J].Biometrika,2010,97(2):419-433.
[5]DONOHO D,JIN J.Higher criticism for detecting sparse heterogeneous mixture[J].The Annals of Statistics,2004,32(2):962-994.
[6]ANDERSON T W,DARLING D A.Asymptotic theory of certain“goodness of fit”criteria based on stochastic processes[J].The Annals of Mathematical Statistics,1952,23(2):193-212.
[7]ZHANG J.Powerful goodness-of-fit tests based on likelihood ratio[J].Journal of the Royal Statistical Society:Series B,2002,64(2):281-294.
[8]ZOU C L,WANG Z J,ZI X M,et al.An efficient online monitoring method for high-dimensional data streams[J].Technometrics,2014,57(3):374-387.
[9]魏文.一種與分布無關的自適應多元EWMA控制圖[D].天津:天津職業技術師范大學,2014.
Robust monitoring method of high-dimensional data streams
SONG Yu-lin,ZI Xue-min
(School of Science,Tianjin University of Technology and Education,Tianjin 300222,China)
Based on the importance of high-dimensional data streams in real-time detection,in this paper,we will connect the heterogenous mixture detection,goodness-of-fit and the EWMA control chart,and then use the new method to monitor the high-dimensional data streams.Through the lots of simulations and studies,the monitoring is not only practical but also robust.
high-dimensional data streams;goodness-of-fit;EWMA;statistical process control
TP311.13
A
2095-0926(2016)02-0057-03
2016-03-23
國家自然科學基金資助項目(11271205).
宋玉林(1992—),女,碩士研究生;訾雪旻(1977—),女,副教授,碩士生導師,研究方向為數理統計和統計過程控制.