王志堅,鄭健松
(1.華南師范大學 經濟與管理學院,廣州510631;2.廣東財經大學 統計與數學學院,廣州 510320)
控制圖是有效偵測變異的方法之一。常規控制圖因其簡單實用且檢出能力較強,故一開始就被用于工業生產中。而今,在眾多學科領域都會使用控制圖方法進行系統控制,但使用最多的還是休哈特常規控制圖。然而,構造常規控制圖的統計量大都缺乏抗干擾性,是敏感的和不穩健的。常規休哈特控制圖由上控制限(UCL)、下控制限(LCL)和中心線(CL)和時序數據組成。其控制限的表達式為(通常取控制參數k=3),其中樣本均值?和標準差?顯然是不穩健。因此,異常值的存在通常會擴大控制限的間距,同時改變控制中心線的位置,導致控制圖漏發或虛發報警,從而在產品質量監控過程中會嚴重干擾人們對產品合格率的判斷。故在大數據時代,有必要對傳統控制圖進行穩健改進。
通過梳理文獻可以發現過去學者們多是從不同角度給出了控制限的穩健估計,但大多沒有考慮控制中心的穩健性;在穩健估計方法上,學者們也鮮有從權函數的視角來同時研究控制中心及控制限的穩健性。鑒于此,本文嘗試分別采用均值、標準差的傳統穩健估計量不同組合及基于Hampel權函數的加權三均值及加權標準差構建出幾種穩健休哈特控制圖,并比較其監控效果。
常規休哈特控制圖是針對隨機過程yt=μ+et來進行監控,其中et~N(0,σ2),μ=E(yt)。其對應的中心線(CL)、上控制限(UCL)、下控制限(LCL)通常表示如下:

基本原理是利用正態分布的3σ原則。下面通過模擬來說明離群值對控制限的影響,隨機模擬產生50個均值?=0,標準差?=1的隨機數,構造一個值為3.65的離群值(注:這里只需構造一個超出常規控制圖上限或下限的值即可作為離群值,下同)。下面分別用不含離群值和含有離群值的數據來分別構建控制圖,如圖1所示:

圖1 離群值對常規控制圖的影響
圖1是不存在離群值和存在離群值的常規過程控制圖,圖中“虛線”表示不存在離群值的控制限,“實線”表示含有離群值的控制限。顯然,從圖中可以看出,控制圖受到了離群值影響,離群值拉大了控制限的間距,使得異常情況沒有被檢測到。由此可見,離群值的存在導致了控制圖漏發報警。
本文提出采用Huber的M估計類方法來構建穩健控制圖,該方法的關鍵在于選擇合適的權函數作為目標函數。過去學者們通常傾向于先對序列建立一個模型,由模型得出殘差,殘差越大權重越小,權重取值只有0或1。給定一個閾值,當殘差值超過閾值就定義該原始數據權重為0,當殘差值不超過閾值就定義該原始數據權重為1,顯然該方法能夠降低或減少異常值對控制限的影響,但也存在不足之處。主要表現在:其一,權重只取0或1會損失原樣本大部分信息;其二,模型的建立是依賴于原始數據,用含有異常值的原始數據構建模型,顯然該模型是不可靠的,用不可靠的模型得出的殘差,再基于殘差給出權重顯然是不科學的。為克服以上不足,本文借鑒Huber的M估計理論,選取Hampel權函數對原序列進行變換,再用變換后的序列來構建控制中心和控制限。Hampel權函數的表達式如下:

一般取值,a=1.5,b=3.0,c=4.5;顯然Hampel權函數對權重進一步細化,把權重分為4部分,殘差越大權重越小,殘差越小權重越大,從而削弱異常值對控制限的影響。前文指出,三均值、中位數、切尾均值和縮尾均值等是常用的均值穩健估計量;中位絕對離差和平均絕對離差是常用的標準差的穩健估計量。下面對含離群值的獨立同分布序列用不同組合的穩健統計量對常規控制圖控制中心及控制限進行改進并進行模擬比較。
隨機產生50個均值為0、標準差為1的正態分布隨機數,為簡單起見,在此,本文只考察當序列中含有一個離群值時對控制中心及控制限的影響,全文用R語言進行統計分析。為構造一個離群值,在50個隨機數中隨機抽取一個數再用4去替換之,即用4作序列離群值。需要說明的是,本文所構造控制圖中所有的“虛線”表示無離群值的常規控制圖,“實線”表示有離群值的穩健控制圖。

圖2 常規控制圖與基于三均值及標準差的穩健控制圖
圖2中的“實線”是均值采用三均值、標準差用普通標準差得到的穩健控制圖,圖中顯示穩健控制圖能夠對離群值發出警報,并且沒有出現漏發、虛發報警的現象,但離群值的存在拉大了控制限間距,使得穩健控制限與常規控制限相距較遠,說明該穩健控制圖的穩健改進效果欠佳。圖3中穩健控制圖中心線及上下限是均值采用中位數,標準差采用平均絕對離差得到的,圖中常規控制圖與穩健控制圖控制中心線幾乎重合,但穩健控制限間距較常規控制限間距要小,說明所選的穩健統計量過于穩健而導致把穩健控制限拉的過緊,使得有一個正常點剛好“踩線”,被發出虛假警報。因此,該穩健控制圖的穩健改進是不可靠的。

圖3 常規控制圖與基于中位數及平均絕對離的穩健控制圖

圖4 常規控制圖與基于截尾均值及平均絕對離差的穩健控制圖

圖5 常規控制圖與含基于縮尾均值及中位絕對離差的穩健控制圖
圖4中穩健控制圖中心線及上、下限是均值采用截尾均值,標準差采用平均絕對離差得到,圖中常規控制圖與穩健控制圖控制中心線幾乎重合,但控制上、下限卻相差很大,穩健控制限較常規控制限間距更小,使得從圖中可以看出至少有5個點被發出虛假警報。因此,該穩健控制圖的穩健改進效果不理想。圖5穩健控制圖中心線及上、下限是均值采用縮尾均值,標準差采用中位絕對離差得到,圖中常規控制圖與穩健控制圖控制中心線幾乎重合,但控制上、下限卻相差很大,說明所選的穩健統計量過于穩健而導致把控制限拉的過緊,使得至少有7個點被發出虛假警報。因此,該穩健控制圖的穩健改進效果不理想。

圖6 常規控制圖與基于加權三均值及加權標準差的穩健控制圖
圖6將Hample函數加權后的序列用三均值法求得均值,得到控制中心的值,得到的序列再對標準差用傳統方法構建出穩健控制圖。從圖中看出,常規控制圖與穩健控制圖的中心限及控制上下限基本是重合的。并且穩健控制圖沒有出現虛假報警及漏報警的現象,說明穩健改進效果很好。將各穩健估計方法對控制圖的中心線及控制限改進的結果與不含離群值的常規控制圖的中心及控制限進行對比,結果如表1所示。

表1 各穩健估計方法對控制中心及控制限估計結果對比
從表1中也可以看出,最接近不含離群值常規控制圖的中心及控制限穩健估計方法是本文提出的加權的三均值法及加權的標準差法,相差最大的是縮尾均值及中位絕對離差法。因此對于含有離群值的獨立同分布序列穩健控制圖的構造,本文提出的加權穩健估計方法最優。故在構造穩健控制圖過程中對于穩健統計量的選取須持謹慎態度。
下面比較幾種穩健控制圖對離群值的監控效果。本文以2016年6月13日至2016年11月17日的美國國際集團(AIG)的收益率數據為樣本數據,共有112個。為了解數據的分布狀況,將該數據的收盤價圖、收益率圖、收益率Q-Q圖和直方圖進行探索性分析,如圖7所示:

圖7 AIG數據的探索性數據分析圖
從圖7左上圖可以看出,右上角收益率圖很明顯可以看出有多個離群值;左下角和右下角圖均說明收益率序列已偏離正態分布。同時收益率序列的正態性檢驗結果為p-value=7.889e-10,即p-value非常小,說明收益率序列不服從正態分布。因此可以推測序列中存在異常值。
本文用時間序列異常值穩健檢測方法對AIG股票對數收益率進行離群值檢測,共檢測到6個離群值,其中革新型離群值(IO)3個,可加性離群值(AO)3個。下面對AIG股票對數收益率分別采用不同的穩健控制限方法構造穩健控制圖來對收益率序列進行監測。

圖8 常規控制圖與基于加權三均值及加權標準差的穩健控制圖
圖8是采用本文提出的加權三均值及加權標準差構造控制限的穩健控制圖,從圖中可以看出穩健控制中心與常規控制中心基本重合,而穩健控制限較常規控制限間距要小,穩健控制圖檢測到6個離群值,而常規控制圖有4個,很顯然常規控制圖受到離群值影響,拉大了控制限間距,出現漏報警。

圖9 基于三均值及標準差的穩健控制圖

圖10 基于中位數及平均絕對離差穩健控制圖
圖9是采用三均值及標準差構造控制限的穩健控制圖,從圖中可以看出穩健控制中心與常規控制中心基本重合,而穩健控制限較常規控制限間距要大,穩健控制圖檢測到2個離群值。圖10是采用中位數及平均絕對離差構造控制限的穩健控制圖,從圖中可以看出穩健控制中心與常規控制中心基本重合,而穩健控制限較常規控制限間距要小,穩健控制圖檢測到8個離群值。
圖11(見下頁)是采用截尾均值及平均絕對離差構造控制限的穩健控制圖,從圖中可以看出穩健控制中心與常規控制中心基本重合,而穩健控制限較常規控制限間距要小,穩健控制圖檢測到8個離群值。圖12(見下頁)是采用縮尾均值及中位絕對離差構造控制限的穩健控制圖,從圖中可以看出穩健控制中心與常規控制中心基本重合,而穩健控制限較常規控制限間距要小很多,使得穩健控制圖檢測到16個離群值。下面將各穩健控制圖與常規控制圖對離群值檢測結果列于表2,由于控制圖中會存在漏報警及虛報警現象,在此,本文對控制圖中離群值檢測的報警正確率定義如下:


圖11 基于截尾均值及平均絕對離差的穩健控制圖

圖12 基于縮尾均值及中位絕對離差穩健控制圖

用報警正確率來度量個控制圖的監控效果。

表2 各穩健控制圖與常規控制圖對離群值檢測結果對比
從表2可看出,用本文提出的加權三均值及加權標準差構造的穩健控制圖對離群值的監控效果最優,報警正確率為100%;其次為中位數、截尾均值分別與平均絕對離差構造的穩健控制圖,報警正確率均為75%;最后的是三均值與標準差構造的穩健控制圖,報警正確率只有16.7%,顯然這是由于該穩健控制圖中只有位置參數是穩健估計量,而尺度參數是不穩健引起的。
針對常規休哈特控制圖中控制限的不穩健性,本文首先從控制圖的構造原理及一個模擬例子分析了傳統控制圖的不穩健性;其次隨機產生50個均值為0、標準差為1的正態分布隨機數,并構造一個離群值,以中位數、截尾均值、縮尾均值、三均值及本文提出的權函數三均值作為位置參數的穩健估計量,以平均絕對離差、中位絕對離差及本文提出的加權標準差作為尺度參數的穩健估計量來構造穩健控制限,從而構建出幾種不同的穩健控制圖,模擬和實證研究均表明本文提出的基于Hampel權函數的加權三均值及加權標準差構造的穩健控制圖監控效果優于傳統位置、尺度穩健估計量構建的控制圖。