基于大數據的高速動車組關鍵部件故障診斷技術研究

2016-02-15 09:57:00韓彩夏曹炳欣

鐵路計算機應用 2016年1期

關鍵詞：數據挖掘故障診斷關聯

韓彩夏，曹炳欣，郝偉

（南車青島四方機車車輛股份有限公司信息技術部，青島 266011）

基于大數據的高速動車組關鍵部件故障診斷技術研究

韓彩夏，曹炳欣，郝偉

（南車青島四方機車車輛股份有限公司信息技術部，青島 266011）

高速動車組的零部件故障是由多種因素引起，故障診斷需要對多個環節及其相互影響規則進行分析判斷。關聯規則挖掘技術在關聯性發現方面有較強的優勢，可以充分發現在高速動車組零部件故障與動車組實時狀態的關聯關系。本文介紹大數據挖掘、關聯規則及Apriori算法等基礎知識。將Apriori算法用于高速動車組故障診斷，發現故障規律，以生成強關聯規則，為高速動車組診斷提供決策依據。

大數據分析；故障診斷；關聯規則挖掘；Apriori算法；數據預處理

高速動車組在設計、制造、運維過程中，必須具有高效、安全、環保的標準。但是由于高速動車組結構復雜，運行環境復雜及其系統零部件的高負荷運轉等因素，在其全壽命過程難免會出現各種故障。及時高效地處理故障是高速列車高效安全運行的重要保障。故障處理不僅需要關鍵部件的故障判斷規則，也需要挖掘相關因素對故障的影響規則。

隨著中國信息技術及高速動車組技術的發展，積累了海量的高速動車運維數據。通過對這些大數據分析，得到與故障關聯的信息，能夠指導運維人員及時、高效地處理高速動車組的故障。關聯規則挖掘技術在關聯性發現方面有較強的優勢，可以充分發現高速動車組在設計、制造和運維過程的一些關聯耦合關系，在故障發生時,可以利用發現的關聯規則準確及時地進行故障診斷。

1 大數據挖掘

1.1 大數據分析

大數據分析是對規模巨大數據進行分析，獲取智能、深入、有價值的信息。大數據的屬性，包括數量、速度、多樣性等都是呈現了大數據不斷增長的復雜性[1]。大數據分析的方法理論有：可視化分析、數據挖掘算法、預測分析等。大數據分析的理論核心就是數據挖掘算法，各種數據挖掘的算法基于不同的數據類型和格式才能更加科學地呈現出數據本身具備的特點，挖掘出公認的價值，另外一個方面也是因為有這些數據挖掘的算法才能更快速地處理大數據。

1.2 數據挖掘

數據挖掘是從海量、不完全的、模糊的、有噪聲的、隨機的大型數據庫中發現隱含在其中的有價值、潛在有用的信息。通過數據挖掘，得到信息的有效性，有效性取決于樣本集大小、樣本數據的真實完整、及高效的挖掘算法。大數據環境下數據挖掘的步驟：數據預處理及特征提取、數據挖掘算法執行、結果評估，而在該流程中最關鍵的步驟選擇合適的數據挖掘算法[2]。

1.2.1 數據預處理與特征提取

該過程是從原始數據庫中獲取感興趣的目標數據，然后對目標數據進行除噪、補缺失值、除冗余值，最后對數據進行轉換。數據轉換實現消減數據維數即降維處理，同時實現將連續數據按照某算法進行離散化處理。數據獲取與預處理目標是在海量數據中，提取出所需數據，并從初始的特征中找出有用特征以減少數據挖掘算法執行周期。

1.2.2 數據挖掘

數據挖掘算法執行階段首先根據問題任務確定所需的挖掘算法。常規的數據挖掘算法主要有分類、聚類、關聯規則發現或序列模式發現等[3]。選擇挖掘算法有兩個考慮因素：（1）根據數據的不同特點，選擇使用與之相關的算法來挖掘；（2）獲取預測準確度盡可能高的預測知識。

1.2.3 結果評估

此階段對數據挖掘發現的模式進行解釋和評價，過濾出有用的知識，以得到完備決策信息[4]。數據挖掘階段發現出來的模式，需要經過評估，確定挖掘結果是否準確無誤，模式是否存在冗余，能否支持最終的決策需求。

2 關聯規則挖掘

關聯規則反映了事務i間的依賴和關聯，是從事務數據中挖掘出有價值關聯知識的過程。

2.1 基本概念

設I ={i1,i2,…,im}是一組項的集合；D={t1,t2,…,tn} 是一組事務集。D 中的每個事務T 是項的集合,使得T?I,D中每一事務有一個事物編號TID。設J是一個項集，事務TD包含J當且J?TD時成立。另一項集V蘊含J（J?V），其中J?I，V?I，且J∩V=φ，稱J?V為聯規則。事務集D，關聯規則J?V具有支持度s，s是事務J∪V在事務集D中的百分比，即為概率P（J∪V）。置信度c，c是事務集D中包含J事務同時包含V事務的條件概率[5]。

用公式表達：

關聯規則挖掘即挖掘出滿足支持度s和置信度c的所有的關聯關系。關聯規則挖掘主要步驟如下：

（1）找出所有滿足最小支持度的頻繁項集。

（2）由頻繁項集產生強關聯規則。這些規則必須同時滿足最小支持度和最小置信度。

第2步相對容易，總體性能由第1步決定，因此大部分關聯規則挖掘算法著重研究第1步，即頻繁項集挖掘算法。

2.2 Apriori算法

Apriori算法是最著名的關聯規則挖掘算法。Apriori性質：任意頻繁項集其子集為頻繁的，同樣，如果存在非頻繁子項集，則包含該子項集的所有超集必然為非頻繁的。

Apriori算法使用一種稱作逐層搜索的迭代方法,k 項集用于探索(k+1)項集。首先,找出頻繁1 項集的集合,該集合記作L1。L1用于找頻繁2 項集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k項集。找每個Lk需要一次數據庫掃描。由Lk–1找Lk有連接和剪枝2個過程。

（1）連接：為找Lk,通過Lk–1與自己連接產生侯選k項集的集合,該侯選項集的集合記為Ck。

（2）剪枝：連接操作得到候選集Ck，是Lk的超集。Ck中所有滿足最小支持度的項產生頻繁項集Lk。

3 高速動車組故障診斷

高速動車組故障診斷是指對列車現實狀態與理想狀態偏差的判定[6]。高速動車組故障診斷過程，即在大規模海量的故障數據庫中發現數據之間的關聯規則，產生數據模型，并最終可以使用這些數據模型對動車組故障做出預測。高速動車組的故障數據庫呈現數量、速度、多樣性等特點。通過數據挖掘得到可視化的預測分析工具，對提高動車組故障診斷能力有重要作用。

3.1 基于關聯規則挖掘的故障診斷

（1）故障數據庫：利用高速動車組運行狀態數據記錄，建立故障數據庫；

（2）對故障數據庫進行關聯規則挖掘：考慮到當故障數據庫相當龐大，需要對故障數據庫進行預處理，利用關聯規則挖掘算法對處理后的故障庫進行挖掘生成故障規則；

（3）根據規則進行決策：根據提交的規則進行決策輸出，并且對輸出的決策進行性能評價，若通過決策性能評價,進行決策實施，否則重新提交規則并進行決策性能評價。

3.2 高速動車組故障數據處理

數據處理及特征提取是故障診斷過程中非常重要的一個內容，因為高速動車組在實際運行過程中受環境因素的影響，獲取的原始數據可能含有噪聲，并且原始數據具有高緯性，冗余性的特點，還可能存在某些維度的值為連續性非離散性。為了提高挖掘信息的可靠性和可用性，需要對原始數據進行預處理。

高速動車組采集到的狀態數據包含了故障信息及狀態信息：故障描述，故障編號，動車組編號，列車編號，車廂編號，車廂類型，運行周期，速度，里程數，溫度，經度、緯度等信息。故障編號作為故障信息表（如表1所示）的主鍵將故障信息與狀態信息表聯合在一起，形成高速動車組故障數據，如表2所示。利用專家經驗，故障知識庫包含動車組編號、列車編號、歷程數、速度、溫度等。

表1 故障信息表

對于溫度、速度、里程等計量類數據為連續性數據，Apriori算法對離散型數據有意義，因此需要對這些計量類數據進行離散化處理。例如里程0～100 000 km，記為M1，100 000～200 000 km記為M2，以100 000 km為一檔，依次記為里程M3、 M4、M5等。溫度0℃以下記為T0，0～10℃記為T1，溫度T2、T3 、T4等。速度0～50 km/h記為S1，50～100 km/h記為S2，速度記為 S3，S4，S5等。得到故障數據庫表，處理后的故障數據如表3所示。

表2 高速動車組故障數據

表3 高速動車組故障數據表（數據處理后）

3.3 高速動車組故障關聯規則挖掘

采用關聯規則挖掘對故障分析診斷，要明確項、項集、事務，然后在此事務數據庫上進行數據分析。故障數據庫中的任意一條信息記為關聯規則中的事務，每條記錄中的字段記為項集，每個字段為一個項。高速動車組故障事物數據如表4所示。關聯規則挖掘需要定義支持度（Support），設Support為10%。

表4 高速動車組故障事務數據

不同的故障類型為一數據塊，對不同的數據塊執行關聯規則挖掘算法。以故障編號F1003為例，執行Apriori后得到的故障關聯規則如表5所示。

Failure diagnosis for key parts of high-speed EMU based on big data

HAN Caixia,CAO Bingxin,HAO Wei
( Department of Information Technology,CSR QINGDAO SIFANG CO.LTD.,Qingdao 266011,China)

Many factors could cause the parts failure of the high-speed EMU.Failure diagnosis should be focused on the analysis of multiple links and their interaction rules.Association rule mining technique has advantages in association discovery,which can discover the relationship between parts failure of EMU and real-time status of highspeed EMU.This article introduced basic concept of big data mining,association rule and Apriori Algorithm.Apriori Algorithm was adopted to diagnose failure of high-speed EMU,fnd the rule of failure,and generate strong association rule.This strong association rule would become helpful to make decisions on the failure diagnosis for key parts of high-speed EMU.

big data analysis;failure diagnosis;association rule mining;Apriori Algorithm;data preprocessing

U266.2∶TP39

1005-8451（2016）01-0001-04

2015-05-20

國家863計劃資助項目（2015AA043701）。

韓彩夏，工程師；曹炳欣，高級工程師。