胡翔宇,陳慶奎
(上海理工大學 光電信息與計算機工程學院,上海 200093)
在國內外飽受疫情影響的背景下,遠程設備的維護工作遭受了巨大沖擊。專業維護人員的流動受到了限制,人工檢修等服務也受到了影響。以往的設備數量有限、且異常排查難度較低,主要通過定期的人工檢修。但隨著互聯網+與5G 時代的發展,設備精密化程度提升、設備數量的大幅增長成為了時代發展的趨勢,人工檢修維護的效率愈加難以滿足現實的需要。而大量的設備數據和日志都可以通過網絡傳輸到各個服務商的云平臺和數據庫中,使設備異常事件分析成為了可能,例如電網狀態異常檢測[1]、選煤廠設備的遠程檢測[2]等都是依據設備傳感器數據進行異常分析的有效應用場景。
交通網絡通過引入車載一體機設備,極大增強了運營數據獲取的便利性。該設備通過網絡將各類傳感器數據傳輸至云平臺,例如車內攝像頭的實時監控、GPS 位置信息、行駛速度、報站信息等。管理中心通過以上各種實時數據,可以實現客流量統計[3]、設定調度安排[4]、預測到站時間[5]等。然而針對車載設備的異常排查,現有檢修方式還是通過人工。這種方式效率低下,且維護需要定時停運一批車輛,影響正常車輛的工作,因此往往是設備異常已然影響車輛正常運營時才會進行人工檢修。針對這種情況,設計一套面向車載設備數據流的異常檢測方法顯得尤為重要,通過這些運營數據可以發現車載設備的一些潛在故障,為維修人員提供可能發生異常的設備名單及其優先級,提高檢修效率。例如,固定運行路線的車輛通過比對GPS 信息和運營線路坐標可以判斷是否出現GPS 信號偏移的異常事件,但判斷的過程需要考慮諸多因素,短暫的偏移可能是由外部電磁干擾造成,并非車載設備自身的異常,只有出現持久性的或頻繁的偏移才能預示著GPS 模塊的損壞。車載設備運營中各類事件紛繁復雜,容易造成誤判,如何對車載設備的數據流采取有效的檢測,過濾掉一些干擾因素并分析出潛在的異常事件是難點。
目前,采用傳感器收集數據并在遠程進行設備異常檢測的方式已經大量應用于各個領域內,文獻[6]引入貝葉斯神經網絡建立了衛星遙測數據異常檢測模型,通過對系統中不確定性高的樣本進行重新評估,提高了異常檢測能力。文獻[7]通過電力計量裝置采集數據、電壓互感器的狀態量選擇和對電壓運行狀態的在線評估,實現了對異常電壓的檢測。文獻[8]提出了傳感器選擇策略和數據異常檢測的新方案,該方案基于信息論和高斯過程回歸實現了對飛機發動機狀態的有效監測。
當存在多個傳感器或信息源的數據時,由于具備處理不確定性數據的優勢,D-S 證據理論成為最常用的多源信息融合技術之一。自該理論提出以來,國內外學者對該理論的沖突悖論和算法改進取得了一定的成果[9-10],使基于證據理論的異常檢測被廣泛應用于各個領域[11-13]。但低下的傳感器數據質量會極大程度影響檢測的效果,針對該問題,文獻[14]建立了基于邊緣計算的分布式傳感數據異常檢測模型,提高了檢測的效率和準確性。文獻[15]提出了基于最近鄰的異常檢測數據預處理算法,并在實際工業機械的異常檢測中得到了驗證。
各類異常之間可能具有組合與傳遞的特性,Petri 網是對事件建模與分析的有力工具,結合Petri網進行故障診斷已經在電網[16]和液壓器[17]等設備上得到了大量的應用。針對交通設備故障,文獻[18]建立了離合器故障樹對應Petri網,并通過關聯矩陣求得最小割集,取得重要度優先級來排序專家系統中的規則,實現了機動車故障的快速定位。但以上方法均未用到實時傳感器數據,并且是對故障下的異常模塊溯源工作。
針對上述情況,提出一種面向車載設備數據流的異常檢測方法,通過發掘車載設備正常行駛數據間的異常關系,實現對車載設備異常事件的檢測、累計和組合。為檢修人員提供可能發生故障的設備排查名單,提高檢測的效率。
本文主要工作有:
(1)底層異常事件生成:針對車載設備實時數據,從3 種角度判別數據的異常關系提取出檢測值,通過累計池收納檢測值并結合證據理論合成特征值,將達到閾值的異常特征觸發為底層異常事件,避免因外界因素干擾下數據波動帶來的誤判。
(2)異常事件的組合推導:通過設備維護日志與歷史數據對底層事件次數和故障次數進行統計,采用貝葉斯概率獲取各類事件組合的條件概率,使用概率Petri 網對事件的組合關系建立模型推導故障。
車載設備的不同類型數據具有各自協議規定的時間周期、觸發條件和數據格式。例如周期位置協議是按規定的時間間隔發送的數據,間隔時間短且較為固定,包含發送時間與經緯度信息等。到站協議是到達目標地點后發送的數據,間隔時間較長且不固定,包含站點信息和發送時間等。
異常是指上述數據出現違背協議規定或無法正常反映車輛狀態的情況。由于車輛工作期間發送的數據都是正常的運營數據,單一數據僅能判斷格式和缺省情況,無法得知數據內容是否正確,因此本文通過數據間的關系發現異常。異常主要分為3 種類別:
(1)不穩定:固定時間間隔發送的數據出現了缺失、斷連的情況。
(2)不完整:運行觸發的數據缺失或數據無法完整反映車輛運行過程。
(3)無效數據:數據的先后邏輯違背、數據間的組合邏輯相互違背。
數據檢測是發現上述異常的過程,不同類別的檢測需要不同的數據,但不同數據發送頻率各不相同,且觸發條件也不一致,難以采用統一的方式進行處理。因此本文按照異常檢測的時間間隔對協議進行簡單分類,主要分為瞬時協議、短周期協議、固定時間協議和長周期協議四種,見表1。

表1 協議分類Tab.1 Protocols classification
對不同的協議類別與檢測時間間隔,采用不同響應時間的緩沖區積累數據。將其分類存儲后,便可進行統一的檢測流程。針對上文異常的3 種類別,本文從穩定性、完整性和一致性三種角度對數據的異常關系進行檢測,并提取出檢測值。
由于設備異常一旦發生,會導致異常值持久地或頻繁地出現,因此一次程度較輕的異常檢測值并不能代表異常事件的真正發生。需要對異常檢測值進行累計,達到觸發條件才能生成為異常事件。異常事件會相互影響,組合推導出新的事件。例如設備連接性差與整體數據包丟失率高都與網絡有關,因此可以相互組合為網絡通訊異常。事件組合推導將底層事件提煉為更易于人所感知并理解的組合事件,最終得到包含故障信息的異常事件集。
本文的異常檢測方法主要包含異常檢測值提取、底層事件累計生成和事件組合推導三個部分,其工作流程如圖1 所示。

圖1 異常事件檢測流程圖Fig.1 Flow chart of abnormal event detection
車載設備數據流簡單分類后被緩沖區接收后持久化到數據庫表內。從穩定性、完整性和一致性三種角度提取異常檢測值。累計池對這些異常檢測值進行收集,通過多源數據合成特征值,并判定是否達到事件生成的條件。產生的新事件在事件組合Petri 網內進行組合推導,推導出全部組合事件和故障事件。
1.1.1 穩定性檢測
穩定性檢測是判斷固定時間間隔發送的數據是否出現了缺失、斷連等一系列不按照規定要求穩定發送數據的情況。劃分時間片斷示意如圖2 所示。圖2中,Xs為按照順序排布的原始單物聯數據,sti表示單個數據點,ti為數據的發送時間。

圖2 劃分時間片段示意圖Fig.2 Schematic diagram of time division
單位時間內數據量的大小是度量短時數據穩定性的重要依據,設數據發送時間周期為k,則該數據序列Xs的總運行時長tn -t1內共可以得到m=(tn -t1)/k個時間片段。將Xs內的數據點按照其所在時間區間放入對應的uj內,得到了一條新序列Xu={u1,u2,…,un},其中uj表示第j個時間片段內所含數據的數量。在理想情況下,每條數據均按照規定時間間隔發送,則uj=1,j∈{1,2,…,m},參見圖3中的u2、u5和u6。但由于數據發送不穩定的情況存在,實際運行情況下uj→{0,1,…,k},參見圖3中u3,uj=0 表示該時間片段內的數據缺失。uj >1 表示該時間片段收到多條數據,參見圖3 中的u1、u4,這可能是由于缺失的數據在網絡通訊恢復后一并發送的結果。

圖3 滑動窗口檢測示意圖Fig.3 Schematic diagram of sliding window detection
針對數據不穩定的情況,滑動時間窗口通過計算一段時間內收到數據量的變化情況并設定閾值,可以發現短時區間的數據的不穩定,也能過濾數據的正常波動帶來的影響。因此本文定義Sld為檢測數據穩定性的一個滑動窗口,其長度為β個時間片段的總時長,由圖3 可知,Sld長度為3 k。通過數據缺失率和時間片段數據量的最大差值來計算該窗口的不穩定率,即:

其中,Sld(j)表示第j個滑動窗口的不穩定率;W(j)表示窗口內數據缺失率;Csld(j)表示窗口實際收到的數據量;β為窗口內時間片段的數量,即應得數據量;umax為時間片段收取數據最大量;umin為最小量。為避免差值為0 導致最終不穩率定為0 的情況出現,因此設定1 為差值默認最小值。設一組數據序列共檢測出異常窗口數λsld個,則不穩定性的異常檢測值可由如下公式計算得出:

1.1.2 完整性檢測
完整性檢測是判斷該段數據是否能描述車輛一段完整運行過程,因此數據的缺失率是異常判斷的重要依據。車載設備的數據既包含按照固定時間間隔發送的數據,例如周期位置信息、握手連接數據等,也包含運營車輛在工作中隨著行進流程觸發的事件,例如到達目標地發送的到站信息、駛出站點信息等。
針對運行觸發的數據,需要判斷其是否與觸發條件對應且無缺失。通過比對實際獲取到的觸發數據與當日行車量調度安排的線路、站點等信息,將不匹配或缺失的數據記為一個異常點。設異常點的發生次數為Del,調度安排的全部觸發事件總數為Tal,則異常檢測值Vint的數學定義式具體如下:

針對固定時間間隔發送的數據Xs={st1,st2,…,stn},上文的滑動時間窗口Sld對每個短時區間內的數據丟失情況進行了檢測,但無法排查整體的數據丟失的問題。例如每個滑動窗口都達到了最低數據量要求,但數據總量卻缺失較大,這可能預示著車載設備發生了規律性掉線或重啟的異常。需要對數據量的整體缺失情況進行檢測,設序列實際獲取數據量為n,通過序列中數據的最晚和最早發送時間差值tn -t1與該種數據規定的發送時間間隔Fj可以得到應得數據量,得到異常檢測值Vint。其計算公式的數學表述如下:

1.1.3 一致性檢測
上述2 種檢測方式均是對數據外部特征的檢測,不涉及數據內容的判斷。一致性檢測是通過數據具體內容對其先后順序、數據間的組合邏輯進行異常判斷。例如車輛的周期位置信息到達了站點附近,但卻缺失相應站點的到/離站數據,這預示著報站模塊的異常。通過將實際運營情況、相關協議和檢測人員的專業知識相結合,預估出所有可能的異常情況,計算異常點或異常發生時長與全部運行數據的占比得到檢測值。異常點的計算與式(3)相同,異常發生時長的檢測值Vval的數學公式為:

其中,eti表示第i個異常發生的結束時間;sti表示第i個異常發生的開始時間;數據序列的開始時間為Ts;結束時間為Te;通過計算異常時長占比即可得到異常檢測值Vval。
底層異常事件是對數據檢測出的全部異常情況的統稱,反映某一時段內檢測值的總體情況。同一種檢測方式下的異常檢測值序列可表示為V=[V1,V2,…,Vn],Vi∈[0,1]。車載設備正常運行時,檢測值序列的每個值均接近或等于0,偶爾出現小的波動。車載設備故障真正發生時,一類故障會影響多種數據,使其出現程度嚴重的、較為頻繁的或較為持久的異常波動。
因此一次普通的異常檢測值不能直接作為故障的成因,當異常檢測值出現以下3 種情況時可以記錄為異常事件:
(1)個別數據的異常程度嚴重,檢測值接近或等于1。
(2)一段時間內數據頻繁地出現異常且檢測值較高。
(3)較長的時間區間內穩定地出現異常情況。
針對上述3 種異常事件的判別條件,本文設置了一個包含三級累計區的異常累計池,并將累計區內序列的特征簡單提取后合成為特征值,判斷是否達到底層異常事件生成的觸發條件。
1.2.1 三級時長累計池
累計池工作流程如圖4 所示,池內包含3 個累計區,每種累計區設有不同長度的累計周期時間。一級累計區存放的是最新時間段的異常檢測值,用于判斷短時區間內是否出現嚴重異常。二級累計區存放較為近期的異常檢測值,判斷中等時區內是否頻繁地出現較高檢測值情況。三級累計區存放的是較為長期的異常檢測值,判斷是否持續出現異常檢測值情況。

圖4 累計池工作流程圖Fig.4 Work flow chart of cumulative pool
最新周期的異常檢測完成后,各級累計區將最早的數據清除并把新異常檢測值放入隊尾。待新檢測值進入累計區內,重新計算該區的特征值。若Li,i∈{1,2,3},滿足觸發條件,則將生成的新事件放入底層事件集,反之則繼續等待新檢測值的輸入。
1.2.2 合成特征值
傳統的累計方法采用滑動窗口記錄異常數量,由于上文進行了數據異常檢測,每個檢測值都是對異常程度的推斷,無法通過簡單地進行數量累計,并且傳統的累計無法區分異常嚴重程度、異常發生頻次和穩定地出現異常三種情況,因此本文對區內所有檢測值進行特征的簡單提取,并進行多源數據合成。
異常并非每次檢測都會出現,因此檢測值常常出現值為0 的情況,直接對其使用多源數據融合容易造成沖突的巨大化。為了避免該情況,在提取特征時將所有值為0 的數據剔除,以非零檢測值數量占比作為衡量序列內數據的一個特征。
針對一級累計區判斷短時區間內嚴重異常的目標,選取累計區內前k個最大異常檢測值λi,i∈{1,2,…,k} 作為特征,得到特征序列FE1={λ1,λ2,…,λk};針對二級累計區判斷中等時間區間內頻繁出現較高異常檢測值的目標,選取非零檢測值數量占比γ1、檢測值中位數γ2以及異常檢測逐差平均值γ3作為特征,得到特征序列FE2={γ1,γ2,γ3};針對三級累計區判斷長時區內穩定出現異常的目標,選取非零檢測值數量占比δ1、異常檢測平均值δ2作為特征,得到特征序列FE3={δ1,δ2}。
D-S 證據理論是一種不確定性推理方法,已大量應用在各類數據融合系統中,其優點是可以在先驗知識未知的情況下對多源數據進行融合,即建立在一個非空集合Θ上,Θ由一系列互斥且窮舉的對象構成,即Θ={θ1,θ2,…,θn},對于論域中的任意命題A均屬于2Θ,其基本概率函數m:2Θ→[0,1],且滿足:∑(A∈Θ)m(A)=1且m(?)=0。此處需用到的數學公式可寫為:

特征序列FEi,i∈{1,2,3} 內的每個特征均是對同一問題領域的不同證據,可視為多源數據。為保證各命題最終結果之和為1,弱化沖突帶來的誤差影響,本文采用文獻[9]中的證據理論合成公式對累計區的特征序列進行融合,具體參見式(6)。這里,m(A)為事件融合后的結果值,k?q(A)為證據沖突情況下的概率分配值,n為全部證據源的個數,Ai,i∈{1,2…,m} 為辨識框架的各個元素,mj(Ai)為第j個證據源對Ai的基本概率賦值。在本節中,n為特征個數,辨識框架Θ={A1,A2},此處的A1表明事件判定為異常的情況,A2表明事件判定為正常的情況。以FE2為例的基本概率賦值見表2,通過計算得到各個累計區特征融合的累計結果值Li,i∈{1,2,3}。

表2 以FE2為證據集的基本概率賦值Tab.2 Basic probability assignment with FE2 as evidence set
1.3.1 事件描述與分類
1.1 和1.2 節分別介紹了異常的檢測與底層事件的累計生成過程,但底層事件都是針對數據的某一類具體檢測而來的,僅能反映數據間的異常情況,無法反映設備異常的具體現象或故障。車載設備故障會在數據上得以體現,一類故障會影響多種數據,而一類數據的異常也可能是多類故障共同的影響,其間復雜的關系難以通過簡單的映射來表示。通過對異常事件建模,剝離其中復雜的相關性,將異常事件進行組合和推導可以發現更為一般性的故障問題,為檢修人員提供更為可靠和易于理解的異常信息。因此將累計池內生成的事件與組合推導而來的事件進行區分,事件分類的定義見表3。

表3 事件分類Tab.3 Events classification
1.3.2 基于概率Petri 網的事件推導模型
Petri 網是對事件描述與建模分析的有力工具,為適應不同事件的各種組合推導方式,本文引入概率Petri 網(PPN)。PPN 省去了模糊Petri 網(FPN)的語言變量和模糊推理邏輯,以閾值控制變遷的觸發,無需事前產生模糊推理規則,更加地簡便。
PPN 定義為一個八元組,記為∑=(S,T;F,Wt,M,P,f,V)。其中(S,T;F)是一個傳統網系統;Wt:F→[0,1]是有向弧上的概率權值,默認為1;P:S→[0,1],P(si)則是庫所si內標識的概率值。V:T→[0,1]是變遷上的閾值集合;M為各庫所的狀態標識;t在M上享有發生權的條件為:?si∈.tj:M(si)>0 ∧f(tj)>V(tj)。f為定義在變遷的概率計算函數,函數形式見如下:

其中,n為滿足條件的si∈tj的元素總數。變遷發生后產生的新標識值P(si)由前置變遷集的最大值得出:

PPN 網的基本型如圖5 所示。圖5中,圓圈表示庫所,帶箭頭的線段表示有向弧,豎線表示變遷。假設t1、t2均滿足發生條件,f(t2)>f(t1),因此輸出庫所的概率值P(s3)為f(t2)。

圖5 PPN 變遷示意圖Fig.5 Transition diagram on PPN
車載設備功能眾多,以報站模塊為例,其主要工作內容為判別車輛是否到達目標點位,并發送到站數據包和出站數據包。通過1.1.2 節對異常的分析可以得到3 種檢測方式:一致性下的到達規定位置不報站和到站/離站數據不對應,以及完整性下的報站信息缺失。以這3 種檢測方式為底層事件,車載設備不報站為組合事件,報站模塊故障為終點建立事件組合Petri 網。
報站模塊事件組合Petri 網如圖6 所示。圖6中,s1、s2、s3為底層事件庫所,分別是到站/離站數據不對應事件、報站信息缺失事件和到達規定位置不報站事件。s4為組合事件庫所,表示車載設備不報站事件。s5為報站模塊故障事件庫所。t1、t2變遷代表事件的組合。有向弧上的概率權值w1、w2、w3、w4代表了事件組合傳導的概率,其值通過歷史維護信息與維修人員對異常情況和故障的統計得到先驗概率,采用貝葉斯定理的后驗概率計算公式得出:

圖6 報站模塊事件組合Petri網Fig.6 Petri nets of station reporting module event combination

當累計池的底層異常事件觸發時,將其作為標識放入組合Petri 網的底層事件庫所內,其概率值為事件生成時的特征值,組合事件以及故障的概率值由上層事件概率值與概率權值通過式(8)計算得到,最終推導出所有事件及其發生概率值。
本文選用某公交公司3~11 月期間46 臺車輛的運營數據,包含車載設備的行駛數據和維護報告,由于協議內容眾多且包含與異常檢測無關的數據,選擇其中的5 種協議作為實驗數據,車載設備協議表的內容見表4。

表4 車載設備協議表Tab.4 Protocol table on on-board equipments
實驗目標:在確保盡可能地將異常設備全部檢出的前提下,減少誤判為異常的設備數量。以查準率和召回率判別方法的準確性。設TP為異常設備被正確檢出的樣本數,FP為正常設備被誤判為異常的樣本數,FN為異常設備被誤判為正常的樣本數。查準率和召回率的公式分別是:

查準率和召回率是一對矛盾的度量,通過提高檢測標準可以提高查準率、降低召回率,但相應會漏掉許多異常設備。降低檢測標準可以提高召回率、降低查準率,帶來更多的誤判。為了權衡這2 個指標,取二者調和值F-Score作為評判標準,以β為加權系數,進而得到:

β的取值影響2 個指標的重要性比例,當β為1時,二者同樣重要;當β >1時,召回率更為重要。相反,當β <1時,查準率更為重要。由于本方法的目標是為檢修人員提供設備排查的優先級和具體的異常信息,提高檢測的效率。相比于查準率,召回率更能體現本方法的可行性,因此選擇F2分數作為評價指標,將召回率的重要程度設定為查準率的2倍。
實驗分為2 個部分。實驗一評估數據異常檢測結果與底層事件累計生成的情況,并對其結果進行分析。實驗二通過事件組合推導出全部異常事件,與實際結果比對驗證準確性。
2.3.1 數據檢測結果與異常事件生成情況
結合表4 中車載設備協議類型與1.1.2 節的異常檢測角度,共得到12 種檢測類別,見表5。該部分實驗選擇3~9 月期間所有車輛的運營數據,共計約11 萬趟次。以車輛一趟運行時長作為檢測的時間周期,通過表5 中的各類檢測,得到半年間所有趟次的數據檢測結果。

表5 具體異常檢測類別Tab.5 Anomaly detection categories
圖7(a)~(c)分別展示了穩定性、完整性和一致性三種性能指標下各種檢測方式的異常檢測值分布情況柱狀圖。橫坐標表示的檢測編號與表5 相對應。異常檢測值按照嚴重程度從小到大排序,分為4類,分別是:輕(小于0.1)、較輕(介于0.1~0.3 之間)、較重(介于0.3~0.5 之間)和嚴重(異常值大于0.5)。圖7 中的折線表示異常檢出率,反映該種檢測方式下異常的發生率。

圖7 異常檢測值統計結果Fig.7 Statistical results of abnormal detection value
通過對圖7 的分析可以得出:完整性檢測的異常檢出率遠高于其他2類,但程度較重的檢測值數量占比遠小于其他2 種檢測類別。說明車載設備由于信號波動或者網絡異常造成的小段數據丟失情況較為普遍。一致性檢測異常檢出率最低,但程度較重的檢測值數量占比高于其他2 種檢測類別,說明該種檢測類別對異常更為敏感,具有針對性。D2、D5和D11在圖7 中異常檢出率遠高于其他同類別檢測方式,但程度較重的異常值數量占比與其他檢測方式并無差異。由于這3 種檢測方式都只用到DS2協議編號,說明協議周期時間越短,則數據積攢的數目越多,異常檢測效率越高。
針對公交車載設備的運營安排,設定一級、二級和三級累計區的累計時間Ti,i∈{1,2,3}分別為1 日、3 日和7 日。對異常發生下的特征值進行監測得到其變化情況。
圖8 是3 個累計區的特征值變化情況。圖8(a)是累計池在收到短暫的、且程度嚴重的異常檢測值下特征值的變化情況。

圖8 特征值變化趨勢圖Fig.8 Change trend of characteristic value
一級特征值在嚴重檢測值出現當天快速上升到了最高點后、下降至較低水平,變化趨勢明顯且快速。二級特征值產生了較小幅度的增長、并在隨后3 天均保持穩定,當程度嚴重的異常值因超出累計周期時間被淘汰后,二級特征值緩慢下降。而三級特征值增長和變化幅度均不明顯,說明一級累計區對于短時間內嚴重異常值判別效果較好。圖8(b)是累計池在第3~7 日頻繁收到較高異常檢測值下特征值的積累情況。一級特征值的上下波動較大,但特征值均不超過0.5,難以作為短時間嚴重異常事件的生成條件。二級特征值在第3 日開始呈連續增長的趨勢、并且增速較快,至第6 日達到最高點,隨后緩慢下降。三級特征值呈緩慢增長的趨勢,在第8 日達到最高值、并保持穩定。說明二級累計區對于一段時間內頻繁出現較高異常值的情況判別效果較好,三級累計區對異常檢測值在更長時間區間頻繁出現的情況會有更好的累計結果。
為保證歷史數據的故障全部檢出,各累計區以歷史故障發生情況下的最低特征值作為閾值,最終得到3~9 月期間全部車輛的底層事件的生成結果,如圖9 所示。圖9中,每一個柱形反映每種底層事件的生成數量,底層事件庫所編號與表6 中的庫所編號一一對應,每個柱形從下至上3 種顏色分別反映一級、二級和三級累計區的事件生成數目。

圖9 累計池底層事件生成統計結果Fig.9 Statistical results for the events generated by the cumulative pool
分析圖9 可以得出:底層事件主要由一級累計區生成,二級與三級累計區生成的占比依次減少,分別為70.4%、24.6%和5.0%。說明一日的累計可以判別出大部分的底層異常事件,較長時間周期的累計區可以捕捉少部分遺漏的底層事件。與圖7 內各種檢測結果比對可以得出,異常檢測值的數量與底層事件數量無線性關系,并且平均各個底層事件生成數占異常檢測值數目約0.12%,證明累計池可以有效地過濾掉大量無法推導故障的冗余異常檢測值。
2.3.2 異常事件推導結果
為了使用概率Petri 網進行故障的推理計算,需要獲得組合事件發生下模塊故障的條件概率。統計3~9 月的維護數據,得到故障綜合概率為0.072 4%臺/天,其中報站模塊0.013% 臺/天、GPS模塊0.035%臺/天、網絡通訊模塊0.024%臺/天。
針對組合事件與最終故障推導的不確定性,通過檢修人員對故障情況下各類組合事件的發生現象進行判斷,得到故障情況下組合事件的發生概率。將上述概率作為先驗概率,通過式(10)求出各個有向弧的概率權值,結合1.3.2 節Petri 網定義建立事件組合推導Petri 網。全部事件集見表6。

表6 車載設備異常事件集Tab.6 Abnormal event set of on-board equipments
車載設備異常事件組合Petri 網如圖10 所示。圖10中,S1~S12為底層事件的庫所,由累計池生成而來,其庫所內標識的概率值P為事件生成時的特征值。S13~S24均由底層事件或其他組合事件推導而來,其庫所內標識的概率值P由所有指向該庫所的變遷通過式(8)計算而來。其中,S20、S22、S24為最終的故障庫所。

圖10 車載設備異常事件組合Petri網Fig.10 Petri nets for combination of on -board equipments abnormal events
該部分實驗選用3~9 月的數據和維護報告對Petri 網中各個變遷的閾值做調節,9~12 月的真實數據作為數據集Ⅰ,計算方法的最終準確率。由于3 個月內真實的故障發生次數過少,難以驗證本方法的準確性,因此在原數據集的基礎上建立仿真數據集Ⅱ和Ⅲ。收集故障發生下的異常檢測值和特征值,在周期為3 個月的運行數據內,選擇隨機日期、隨機車輛的正常數據替換為故障數據,得到數據集Ⅱ。在故障發生下的歷史數據最大邊界值內對異常數據進行浮動,并作為替換數據插入至正常數據集內,得到數據集Ⅲ。針對每種仿真數據集均進行多次實驗,得到平均異常結果見表7。

表7 車載設備故障檢測結果Tab.7 Fault detection results of on-board equipments %
由表7 可知,每行對應不同數據集下的查準率、召回率和F2均值。本文的目標是通過對設備的異常檢測為檢修人員提供可能發生故障的設備,以提高設備的檢修效率。數據結果表明,本方法對于3類數據集的召回率均能保持較高的水平,并且在滿足高召回率的基礎上適當兼顧了查準率,可以有效檢測出可能發生故障的設備。
本文提出一種面向車載設備數據流的異常檢測方法,從穩定性、完整性、一致性三種角度檢測數據間的異常。針對各種異常情況設置不同時間周期的累計區,通過證據理論合成公式對區內數據的特征進行融合,過濾數據波動帶來的異常誤判情況。分析底層異常事件、設備故障與組合事件的關系,使用概率Petri 網建立車載設備異常事件組合模型推導設備故障。實驗結果表明,該方法可以過濾掉數據波動帶來的誤判,有效地檢測出可能發生異常的車載設備,異常檢測F2均值接近84%。但由于歷史故障數據量較少,難以形成有效的數據集調控各個閾值權重。如何在檢測中出現新故障數據的情況下,動態地調控累計池以及組合Petri 網的參數,提高檢測的查準率,還有待進一步的研究。