鄢青青,肖 鋒,柳振民
基于差分和局部離群因子的遙測數據野值檢測方法
鄢青青,肖 鋒,柳振民
(西昌衛星發射中心,西昌,615000)
為提高火箭飛行遙測數據孤立型野值檢測的準確性和檢測效率,針對遙測數據變化范圍大、分布參數未知、數據量大等特點,提出一種基于差分和局部離群因子的野值檢測算法,通過一階差分使遙測數據中快速變化段的突變點與正常幅值點區分開,然后去除差分值中的重復值以降低計算復雜度,并將數據點的重疊度引入局部離群因子的計算中以快速篩選出局部離群程度較大的突變點,最后利用突變點的差分值符號特征來辨識野值點。通過實例應用分析,驗證了該算法的高效性和準確性。
遙測數據;野值;差分;局部離群因子
野值是指偏離被測信號變化規律[1]或被測目標真值[2]的數據點,通常是由數據采集、處理、傳輸中的誤差或干擾引起的,與被測系統的正常或異常行為均無關,在文獻中又稱為異常點、粗大誤差、離群(點)值、孤立(點)值、跳點[7]等[3~7]。野值的檢測與清除是運載火箭飛行遙測數據預處理中的重要環節,關系到后續數據分析挖掘、故障排查與處置的效率和成功率。遙測數據中,連續的多個偏離正常變化規律的值(成片野值或斑點野值)[6,8],通常表明被測系統、數據處理、傳輸通道或被測環境存在異常,而這些都是遙測數據分析的重要方面,故該類值一般不能作為無關數據直接剔除,下文中的野值僅指單個、相對鄰近點孤立的偏離點。

遙測數據反映著火箭飛行中自身與內外環境、傳輸通道的狀態。隨著近年來中國航天發射量的大幅增長,傳統的人工分析模式已不能滿足大量遙測數據的深度挖掘利用在效率、覆蓋率、準確率等方面的需求。自動化甚至智能化的數據分析對數據預處理提出了更高的要求,尤其是對野值檢測效率和準確度的要求,關系更高效的現代化數據處理手段能否真正應用于實際工作。



遙測數據是被測對象狀態的反映,因此根據不同時段被測對象的狀態不同而可能變化范圍較大。如果被測對象狀態變化頻繁,則可能會導致遙測數據出現頻繁起伏。同時由于被測對象工作狀態轉換,使遙測數據中常包含幾類幅值瞬時變化較快、與相鄰點差異較大的突變點:極值點、階躍點、單調區間分界點、野值點等。這類突變點的變化特征為在數個單位時間內數據的幅值呈現大幅度變化,與相鄰點(包括快速變化中的其他點)的差值絕對值相對其他時段的相鄰點差值絕對值較大,在差分后易被誤識別為野值點。

綜上所述,遙測數據的變化幅度大、數據量也大,使得在野值檢測過程中區分正常值與野值和提高檢測效率的難度較大。
遙測數據的野值特性如圖1所示。

圖1 遙測數據的野值特性
遙測數據的野值是指幅值和變化規律均偏離兩側相鄰點較大的孤立數據點,其幅值大小不確定(甚至可能與數據序列中某些正常值相當),幅值偏離兩側相鄰點的方向也不確定(大于或小于兩側相鄰點),不連續出現但出現的次數不確定,見圖1a。

遙測數據中的野值大小、數量、方向不確定,也容易與其他類型的突變點混淆,在檢測過程中還要排除分層值的干擾。
由于遙測數據的采樣頻率較高,在其緩變時段,單位采樣時間間隔的數據,幅值變化程度很小。因此遙測數據進行一階前向差分后,差分值除瞬時變化較快的突變點附近外,其他緩變區間的幅值相對大幅縮小。如此可將包括野值在內的少量突變點與數據序列中大部分正常緩變值區分開來。



e)局部可達密度。

f)局部離群因子。

基于差分和局部離群因子的野值檢測方法(簡稱DIFF-LOF)對遙測數據進行一階差分后,首先通過局部離群因子識別數據中的突變點,然后利用野值點與其他突變點的差分值符號特性差別辨識突變點集合中的野值點,具體步驟如下:
e)排除被標記為野值點中的差分值為分層值的點,剩下的均為野值。


圖2 遙測數據序列及其差分序列
表1 算法性能對比分析
Tab.1 Comparative Analysis of Algorithm Performance
算法配置漏判率誤判數平均用時ms LOF參數設置(=23)k——16.76 >163042.86%0 1~163028.57%0 <1300>273 1≥3000 120~3014.285%0 1≤2028.57%0 不去重(截取80s)002485.6 不符號辨識02310.82 不差分0458.45 單純3σ法>2.5σ100%01.51 1.1σ<|X|Δ<2.5σ50%0 |X|Δ<1.1σ50%>2×104 差分與符號辨識3σ法28.57%和004.19
采用DIFF-LOF方法且不進行突變點的符號特征辨識,其結果表明符號特征辨識是在幅值判別(LOF閾值)為疑似野值的數據點中進一步區分野值與其他類型突變點的有效方法。
隨機選擇1000個歷史數據序列進行上述多種方法的檢測結果對比,并統計野值檢測的漏判率、誤判數(將非野值點誤判為野值的總數量)、平均用時。漏判率的計算方法為

表2 基于歷史數據的野值檢測對比分析
Tab.2 Comparative Analysis of Outlier Detection based on Historical Data
檢測方法平均漏判率誤判數平均用時/ms DIFF-LOF11.95%1716.76 基于差分的3σ法9.65%>6×1041.26 不差分LOF24.39%>3×104303.72 不符號辨識LOF11.63%541016.11 單純3σ法41.93%>2×1050.57


圖3 DIFF-LOF方法野值檢測結果示例
不進行差分的LOF法漏判率和誤判數均較大,因為遙測數據的幅值變化范圍較大,使部分正常值與野值混合在一起,局部鄰域點密度不能準確反映野值點或突變點與正常數據的差別。另外,不進行差分的LOF方法計算復雜度也極大,部分幅值極大的數據在計算時甚至發生內存不足問題。
不進行符號辨識的LOF法的誤判數較高,而漏判率則較小,這是因為在不進行符號辨識時,會將大量局部密度較小的突變點誤判為野值點;而漏判率比DIFF-LOF稍小的原因是有1個較小的疑似野值在符號辨識中被辨識為極值點。

圖4 基于差分的法野值檢測結果示例

圖5為采用DIFF-LOF法對歷史數據進行野值檢測的結果,部分同時包含具明顯特征的突變點和野值點檢測結果??梢奃IFF-LOF法可準確區分普通突變點與野值點。

圖5 DIFF-LOF方法對多個遙測數據序列的野值檢測結果
DIFF-LOF算法包含改進的LOF和多個針對遙測數據特征的功能設計,以確保算法的野值檢測效果和計算復雜度。


綜合分析表明,DIFF-LOF算法具有明顯的優異性和工程實踐應用價值。
針對遙測數據的變化范圍大、分布參數未知、單次數據量大等特點,提出一種基于差分和LOF的野值檢測算法(DIFF-LOF),通過實例分析表明:a)對遙測數據進行差分可將突變點與普通幅值區分開來,提高了野值檢測的準確性;
b)差分后去重并將數據點的重疊度引入LOF計算,可大幅提高野值檢測的效率,降低計算復雜度;
c)對經過LOF閾值篩選的疑似野值數據點進行符號特征辨識可區分不同類型突變點,降低誤識別率。
同時通過基于歷史數據的對比分析,進一步驗證了DIFF-LOF方法的檢測準確性和檢測效率。而遙測數據中不同參數的數據在分層值、局部變化頻率和速率等方面存在區別,應該針對不同類型遙測參數設置不同的LOF參數,以進一步提高野值檢測的準確性。
[1] 張再弟, 等. GJB 2238A -2004, 遙測數據處理[S]. 北京: 總裝司令部, 2004.
Zhang Zaidi, et al. GJB 2238A -2004, telemetry data processing[S]. Beijing: General Equipment Command, 2004.
[2] 胡紹林, 孫國基. 靶場外測數據野值點的統計診斷技術[J]. 宇航學報, 1999, 20(2): 68-74.
[J]1999, 20(2): 68-74.
[3] 葉茂. 大規模聚類算法及在異常檢測中的應用研究[D]. 鄭州: 解放軍信息工程大學, 2017.
[4] 耿素軍, 余劍. 智能測量系統中粗大誤差的處理[J]. 電氣電子教學學報, 2005, 27(3): 37-39.
[5] 辛麗玲. 基于密度差異的離群點檢測研究[D]. 北京: 北京交通大學, 2015.
Xin Liling. Research on outlier detection based on density difference[D]. Beijing: Beijing Jiaotong University, 2015.
[6] 谷陽陽, 趙圣占. 遙測數據野值剔除方法的對比與分析[J]. 戰術導彈技術, 2012(2): 60-63.
[J]2012(2): 60-63.
[7] 趙圣占, 等. 遙測數據處理的野值剔除方法研究[J]. 強度與環境, 2005, 32(1): 59-63.
[J]2005, 32(1): 59-63.
[8] 祝轉民, 等. 動態測量數據野值的辨識與剔除[J]. 系統工程與電子技術, 2004, 26(2): 147-149,190.
[J]2004, 26(2): 147-149, 190.
[9] 李安梁, 郭才發, 蔡洪. 地磁測量數據野值的辨識與剔除[J]. 飛行器測控學報, 2001, 30(2): 89-94.
[J].2001, 30(2): 89-94.
[10] 任玉川, 邵會兵. 傳遞對準野值加權矩陣修正方法應用研究[J]. 現代防御技術, 2009, 37(4): 47-49, 103.
[J]., 2009, 37(4): 47-49, 103.
[11] 朱學鋒. 基于聚類模糊系統的動態數據野值剔除方法[J]. 飛行器測控學報, 2011, 30(5): 81-84.
[J]., 2011, 30(5): 81-84.
[12] Subutai Ahmad, Scott Purdy. Real-time anomaly detection for streaming analytics[OL] //https://www.researchgate.net/publication/205119405Real- Time_Anomaly_Detection_for_Streaming_Analytics. 2019.07.05.
[13] Breunig M M, et al. LOF: Identifying Density-Based Local Outliers[C]. New York: the 2000 ACM SIGMOD International Conference on Management of Data, 2000.
[14] Mei Bai, et al. An efficient algorithm for distributed density- based outlier detection on big data[J]. Neurocomputing, 2016(181): 19-28.
[15] Meiling Liu. A novel approach to mining local outliers[J]. Energy Procedia, 2011(13): 6332-6339.
[16] Meiling Liu. A hybrid algorithm for mining local outliers incategorical data[J]. Wireless and Mobile Computing, 2017, 13(1): 78-85.
[17] Zhiping Xie, Xiaoyu Li, Wenyi Wu. An improved outlier detection algorithmto medical insurance[C]. Yangzhou: the 17th International Conference on Intelligent Data Engineering and Automated Learning, 2016.
[18] 徐全智, 呂恕. 概率論與數理統計(第三版)[M]. 北京: 高等教育出版社, 2017.
Xu Quanzhi,Shu. Probability theory and mathematical statistics (Third Edition) [M]. Beijing: Higher Education Press, 2017.
[19] 段超. 基于多屬性的空間離群點檢測算法研究[D]. 上海: 華東理工大學, 2013.
Duan Chao. Research based on multiple attributes spatial outlier detection[D]. Shanghai: East China University of Science and Technology, 2013.
Outlier Detection Method for Telemetry Data based on Difference and Local Outlier Factor
Yan Qing-qing, Xiao Feng, Liu Zhen-min
(Xichang Satellite Launch Center, Xichang, 615000)
In order to improve the accuracy and efficiency of isolated outlier detection for rocket flight telemetry data, an outlier detection algorithm based on difference and local outlier factor (DIFF-LOF) is proposed, aiming at the characteristics of large variation range, unknown distribution parameters and large amount of data of telemetry data. Through the first-order difference, DIFF-LOF distinguishes the mutation point of the fast change section from the normal amplitude point in the telemetry data, and then removes the duplicate value in the difference value to reduce the computational complexity. DIFF-LOF introduces the overlap degree of data points into the calculation of local outlier factor to quickly screen out the mutation points with larger local outlier degree, and uses the difference symbolic features of mutation points to identify outliers. The efficiency and accuracy of the algorithm are verified by an example.
telemetry data; outliers; differences; local outlier factor
2097-1974(2023)01-0093-08
10.7654/j.issn.2097-1974.20230119
V557+.3
A
2020-04-01;
2020-12-25
鄢青青(1986-),男,博士,工程師,主要研究方向為航天器測試發射。
肖 鋒(1978-),男,高級工程師,主要研究方向為航天器測試發射。
柳振民(1980-),男,高級工程師,主要研究方向為航天器測試發射。