盧元磊,何佳洲,安 瑾,苗高潔
(江蘇自動化研究所,江蘇 連云港 222006)
在目標預測中,由于目標測量數據采集過程受傳感器、轉換器以及無線電傳輸過程中的干擾,使得接收數據中經常會產生異常跳變點,這種偏離被測信號變化規律的數據點被稱為野值[1[。如果在數據預處理階段不將野值剔除,那么這些野值將會嚴重影響目標預測的精度,甚至會導致目標預測的發散。因此,如何剔除野值成為目標預測中的首要問題。本文分析了目標預測中的野值剔除問題,介紹了誤差理論中幾種常用的野值剔除準則,并通過仿真分析了它們對野值的剔除能力及對目標預測精度的影響。
野值的定義有很多種,一種比較公認的且與目標預測中的野值剔除比較貼切的定義是 Barnett 和Lewis在1984年給出的定義:野值就是一個觀測數據集中與其他數據表現不一致的一個或多個觀測點組成的子集[2]。
目標預測中的野值剔除和常規誤差理論中的野值剔除是有區別的。在常規的誤差理論中,野值剔除是進行重復多次測量,然后對觀測數據的事后處理。在目標預測中,目標狀態不斷變化,每個狀態都是單次測量,而且要求數據的處理是實時的、在線的,隨著目標的運動,測量環境和精度也是發生變化的。因此,這對兩種情況的處理方法也是有區別的。在常規的誤差理論中通常取多次測量的均值來替代目標的真實狀態,且大多數情況下是可行的。但在目標預測中,我們必須通過一定的手段對目標當前狀態進行估計來求取觀測誤差。
除了目標狀態的估計會影響目標預測中的野值剔除性能,不同的野值剔除準則也會影響野值剔除的性能。例如,在某些情況下,即使一些比較公認的野值判別準則有時也會把一些非野值點誤判為野值,相反在另外一些情況下這些準則對一些野值點反而不能有效地剔除[3[。比較實用的準則是根據具體的情況,選擇合適的判別準則使得在野值的剔除率和誤剔除率之間取得一個較好的平衡。
目標觀測中野值分為孤立型野值和斑點型野值。孤立型野值是指野值點不是連續出現的,斑點型野值點是指野值成片出現的野值。本文主要針對孤立型的野值點。
目標預測中最常用也是最簡單的判別野值的準則是萊特準則,也稱3σ準則。
對于某一量測列,若量測只含有隨機誤差,則根隨機誤差的正態分布規律,其殘余誤差落在±3σ以外的概率約為 0.3%,若發現有大于3σ得殘余誤差的量測值,則可以認為該點是一個野值點,應予剔除。但存在如下一些問題:
1)3σ準則假定所有的觀測樣本的服從于同一個正態分布,在測量次數充分大的情況下,通過大量的樣本所求的樣本標準差s近似等于測量誤差的標準差σ。但是,在目標跟蹤中,存在兩個主要的因素導致實際情況不能滿足該前提條件。
在目標預測中,由于目標的運動可能導致觀測距離和觀測環境會發生改變,觀測的精度就會發生變化。所以,傳感器的觀測誤差的標準差可能是變化的,在不同時間段可能服從不同的分布。另一個原因是,目標當前時刻的狀態估計是不準確的。例如,在相同的觀測精度下,在目標勻速直線運動階段,狀態估計相對更準確,這一過程統計的標準差就會相對小。而目標發生機動時,狀態估計可能會以某種規律存在一個規律性偏差,那么這一階段統計的樣本標準差可能會比較大。因此,3σ準則在目標跟蹤中的應用只是一個近似的準則。
2)標準的3σ準則判別公式為

目前在目標跟蹤中3σ準則的應用形式為


式中,σ為已知的觀測誤差總體標準差。
奈爾推導證明出統計量r的分布函數為

奈爾檢驗的臨界值見文獻[4]。選定顯著性水平α,由n查表確定臨界值R(α,n),可以得到

因此有如下的判別準則:若統計量

則認為對應的觀測值xi為野值,應予剔除;否則為正常值,保留在觀測數據中。
由于目標的運動是連續的,因此在一段時間tm內,觀測環境可以近似認為是不變的。雷達的觀測精度也可近似認為是恒定的。在時間tm內,雷達的觀測誤差可認為服從同一個概率分布。如果用tm時間內的樣本來統計樣本標準差,則能夠更真實地反映當前時刻的觀測誤差標準差。
而在小樣本情況下,觀測誤差已經不再服從正態分布。下面格拉布斯[5]推導出了在小樣本條件下,觀測誤差的概率分布情況。

式中,

格拉布斯推導出了統計量g的理論分布[1]。
格拉布斯的臨界表可參見文獻[4]。選定顯著性水平α,由樣本數n查表確定臨界值G(α,n),可以得到

格拉布斯判別準則如下:若統計量

則認為對應的觀測值xi為野值,應予剔除;否則為正常值,保留在觀測數據中。
統計分析表明:對于測量樣本在n=30~50時,用格拉布斯準則效果較好,可靠性較高[6]。樣本標準差s只用最近n個濾波值進行統計,然后根據樣本數和顯著性水平α確定判別門限。
在實際工程應用中,由于濾波器的性能和雷達的探測精度等因素的不同,統計的樣本數n和顯著性水平α可以根據實際情況而確定。
狄克遜準則[8]是直接根據測得值的順序統計量,采用極差比的方法里判別可疑數據是否為異常值的,避免了數據列的算術平均值、殘余誤差和標準差反復計算。在本文中,我們選擇觀測樣本數n=20,則有觀測誤差序列:
首先對觀測誤差序列進行從小到大排序,形成新的觀測誤差序列:按照判斷待檢驗觀測誤差是否是最大值或最小值。
如果待檢驗的觀測誤差是最大值,則構造統計量:

如果待檢驗的觀測誤差是最小值,則構造統計量

狄克遜推導出了這些統計量的分布函數[10],并給出了計算的臨界表[4]。查表得到狄克遜準則的臨界值D(α,n),則

狄克遜準則的判別公式如下:若統計量

則認為對應的觀測值xi為野值,應予剔除;否則為正常值,保留在觀測數據中。
在標準差已知時,通常采用奈爾準則;標準差未知時,采用3σ準則、格拉布斯準則、狄克遜準則和精細準則;格拉布斯布斯準在在測量樣本n=30~50時效果較好,可靠性較高;若需要迅速判別野值,可以選用狄克遜準則[4[。
針對單部雷達觀測空中目標的情況進行目標航跡預測,雷達的探測精度設置為80m和0.5deg。劇情一:目標在距離雷達50km處以300m/s的速度做運動半徑為10km圓弧運動;劇情二:目標先勻速直線運動,在距離觀測雷達10km處開始比例導引運動。
每條觀測航跡中隨機地加入5個野值點。假設觀測誤差服從正態分布,根據正態分布的統計特性可知,觀測誤差大于 3倍標準差的觀測值出現的概率只有0.27%。從統計學的角度而言,這是一個小概率事件,基本上不會發生,一旦發生可認為該觀測值為野值。本文隨機的選擇五個真實狀態,在其上加或減 3~10倍的標準差作為觀測值,則這5個觀測點即是觀測數據中的野值點。
在以上的劇情條件下,本文選擇基于當前統計模型的標準卡爾曼濾波器估計目標當前狀態,機動頻率設為1/60。目標預測的方法采用常用的二次多項式擬合外推預測,預測時間為1s。
野值剔除性能主要通過以下兩個指標驗證:一是野值的漏剔除率,如果觀測數據中含有未被剔除的野值,會大大影響目標預測的精度,從圖1(a)中可以看出,因此野值的漏剔除現象會影響目標預測的穩健性;二是野值的誤剔除率。有些野值剔除準則會將一些隨機誤差當成野值剔除,這就造成觀測數據中的有效信息損失。在目標狀態估計不精確的情況下,野值的誤剔除很容易將目標的機動誤判為野值,這將對目標預測精度造成很大的損失。因此這兩個指標能夠較好的反應準則的野值剔除能力。
目標預測精度的指標為整條航路預測誤差的均值。
1)目標圓弧運動,單次運行結果
從圖1(a)中看出在野值未剔除的情況下,目標的預測航跡受到了野值的嚴重影響;圖1(b)中觀測數據經過格拉布斯準則將野值剔除,因此預測航跡相對更平滑更接近真實狀態,預測的精度遠遠大于野值未剔除的情況。
2)目標比例導引運動,單次運行結果
目標在比例導引運動時,野值如果不進行剔除處理同樣會大大降低目標預測的精度,甚至導致預測值是無效的,從圖2(a)中可以看出。圖2(b)中野值剔除后,由于目標距離近,觀測精度高,因此預測的精度很高。

圖1(a)野值未剔除的預測航跡

圖2(a)野值未剔除的預測航跡
3)野值剔除性能分析
設定野值剔除的判別顯著性水平α為 1%,仿真結果如表1所示。

表1 目標圓弧運動,運行200次統計結果
從表1可以看出,目標做圓弧運動時傳統的3σ準則雖然能將野值剔除但野值的誤剔除率較高;狄克遜準則野值的誤剔除率較低但存在野值漏剔除的現象;奈爾準則性能最好,但要求觀測誤差的分布精確已知且要求目標狀態估計準確;格拉布斯準則能能夠將野值剔除且誤剔除率保持在一個較低的水平。

表2 目標比例導引運動,運行200次統計結果
目標在做比例導引運動時觀測距離較近,因此觀測精度較高,目標狀態估計的就相對精確,普遍提高了野值的剔除的性能。從表2看出,3σ準則出現了野值的漏剔除現象。這是因為隨著目標的靠近,觀測誤差的標準差逐漸減小,而3σ準則統計的誤差標準差大于實際的標準差,因此誤剔除率較低,同時出現了漏剔除的現象。狄克遜準則仍然存在漏剔除的現象。格拉布斯準則沒有出現野值漏剔除的現象,誤剔除率保持在一個較低的水平,具有較好的野值剔除性能。
4)目標預測精度分析

表3 目標預測誤差的統計結果
從表3中首先可以看出一個明顯的現象:觀測數據進行野值剔除處理后大大提高了目標預測的精度。各個野值剔除準則處理后目標預測的精度也是不同的,3σ準則野值的誤剔除率較高,有時會出現漏剔除現象,目標預測誤差大于格拉布斯準則;奈爾準則野值剔除的性能最好因此目標預測的精度最高,但要求觀測誤差分布已知且目標狀態估計要精確,實際中很難達到這樣的條件;格拉布斯準則應用條件比較寬松便于實際應用,且具有較好的野值剔除性能,相對于3σ準則和狄克遜準則能取得更好的預測精度。因此在目標預測的預處理過程中,采用格拉布斯準則是比較合理的選擇。
野值剔除的性能會影響目標預測的精度。本文首先對目標預測中野值剔除問題和傳統的的剔除方法進行了分析,引入了誤差理論中幾種常用的野值剔除準則,并將其應用于目標預測中的預處理。通過仿真算例表明,利用野值剔除準則將觀測數據中的野值剔除后能大大提高目標預測的精度。不同的野值剔除準則對目標預測精度的影響也是不同的:傳統的3σ準則野值誤剔除率較高且某些情況下存在漏剔除的情況,目標預測的精度要低于其他幾種準則;在觀測誤差標準差能夠獲知且目標狀態估計準確的情況下,奈爾準則能夠獲得較好的野值剔除效果和最高的目標預測精度,但這些前提條件在實際中很難滿足;格拉布斯準則沒有出現野值漏剔除的現象且誤剔除率保持一個較低的水平,野值剔除的綜合性能較好,目標預測的精度高于3σ準則和狄克遜準則;狄克遜準則存在野值漏剔除的現象,不能保證預測的穩健性,因此統計的預測精度較差;綜合比較,格拉布斯準則由于具有較好的野值剔除性能,是目標預測預處理中一種比較理想的野值剔除準則。
[1]費業泰.誤差理論與數據處理[M].合肥:合肥工業大學出版社,2005.
[2]Barnett,V..T. Lewis. Outliers in Statistical Data[M]. 2nded. New York: John Wiley & Sons. A well-Written Comprehensive Text on outliers,1984.
[3]Boris Iglewicz, David C. Hoaglin, How to Detect and Handle Outliers[M]. ASQ (American Society for Quality Statistics Division),1993.
[4]王中宇,劉智敏,夏新濤,等.測量誤差與不確定度評定[M].北京:科學出版社,2008.
[5]Grubbs F E. Sample Criteria Testing Outlying Observations[J]. The Annals of Mathematical Statistics,1951, 22(1):68-78.
[6]沙定國.誤差理論與數據處理[M].北京:北京理工大學出版社,1993.
[7]金學軍.基于最小二乘擬合的外彈道測量數據野值剔除方法[J].四川兵工學報,2011,32(1).
[8]劉智敏.計量常用數學基礎[M].北京:中國計量出版社,1997.
[9]BIPM, IEC, IFCC, et al. Guide to the Expression of Uncertainty in Measurement[D].Switzerland:ISO,1995.
[10]劉智敏,陳坤堯,翁懷真,等.測量不確定度手冊[M].北京:中國計量出版社,1997.