999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習集成的高速鐵路信號設備故障診斷方法

2020-02-01 02:59:24李新琴張鵬翔史天運
鐵道學報 2020年12期
關鍵詞:故障診斷分類文本

李新琴,張鵬翔,史天運,李 平

(1.中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081;2.中國鐵道科學研究院集團有限公司 標準計量研究所,北京 100081;3.中國鐵道科學研究院集團有限公司,北京 100081)

高速鐵路信號設備是保障列車高速運行的重要基礎設施[1],信號設備的維修質量直接影響高速鐵路行車安全與運輸效率。信號設備故障依據現場維修人員的經驗與知識進行診斷與處理,易造成維修判斷失誤與維修時間延誤,嚴重時將導致設備故障性行車事故。高速鐵路信號設備故障數據以文本的形式記載了故障發生時的故障現象,基于文本數據挖掘技術分析故障現象,并結合專家對該故障現象的診斷結果,研究信號設備故障診斷模型,輔助維修人員依據故障現象快速定位故障位置及原因,將對進一步提升高速鐵路安全保障水平具有重要的意義。

高速鐵路信號設備種類較多,設備運行的機理復雜性不同,造成各類信號設備產生的故障數目存在不均衡現象,這種現象會對故障診斷算法的學習過程造成重大干擾。因此,基于文本挖掘技術研究不平衡樣本的信號設備故障診斷方法,需要解決兩個問題,一是不平衡樣本的處理,二是故障診斷與分類模型的構建。

解決樣本不均衡主要包括兩種方法:一種是針對樣本數據,采用數據增強、欠采樣或過采樣、以及應用SMOTE(Synthetic Minority Oversampling Technique)[2],ADASYN(Adaptive Synthetic Sampling)[3]等數據生成方法對樣本進行合成;另一種是針對分類學習算法進行不同類別的參數調整。樣本合成算法能夠根據總體樣本的分布情況,適度合成少類別樣本,并且能夠保證樣本數據不重復。目前采用數據合成方法解決樣本不平衡的研究較多,文獻[4]提出了采用SVM-SOMTE方法對信號設備故障少類別樣本進行自動合成,從而解決信號設備故障樣本不均衡問題。

基于文本數據的故障診斷模型,是通過學習故障文本數據特征實現故障文本分類,通過文本分類實現故障診斷,所以信號設備故障診斷模型包括文本特征提取和文本分類模型。文本特征提取方法主要包括詞袋模型BOW(Bag of Word)[5]、TF-IDF(Term Frequency-Inverse Document Frequency)詞頻-逆向文件頻率[6]以及基于深度學習的Word2Vec[7]等。TF-IDF根據文本中詞匯出現的頻率判斷詞語是否具有區分該文本的能力,信號設備各類別故障文本都具有各自的專業詞匯,具有TF-IDF算法特征,文獻[4]采用TF-IDF實現信號設備故障文本的特征提取。另外,主題模型TM(Topic Model)特征提取方法能夠對樣本中的語義結構進行聚類和統計,也是一種目前常用的特征提取方法,文獻[8]采用主題模型對信號追蹤表進行特征提取。文本分類模型可以分為單個分類模型以及集成分類模型,單個分類器模型包括決策樹DT(Decision Tree)、支持向量機SVM(Support Vector Machine)以及基于深度學習的循環神經網絡RNN(Recurrent Neural Network)[9]、卷積神經網絡CNN(Convolutional Neural Network)[10-11]等,集成分類模型是一種思想策略,是將多個單分類模型的學習結果有效組合,從而提高整體分類性能,較為成熟的集成分類模型包括Bagging[12]和Boosting[13],也可應用集成學習思想,設計集成分類模型,文獻[4]通過Voting的方式進行多分類器集成學習,實現信號設備故障分類。

本文深入研究高速鐵路信號設備故障文本數據,結合專家經驗,將信號道岔故障診斷結果歸納為兩級故障診斷層級結構;針對故障類別不平衡性,采用ADASYN自適應綜合過采樣方法合成少類別樣本;故障診斷模型采用TF-IDF進行文本特征提取,將能夠有效學習文本序列的循環神經網絡RNN的兩大變體雙向門控循環單元BiGRU(Bi-direction Gated Recurrent Unit)和雙向長短時記憶BiLSTM(Bi-directional Long Short-Term Memory)神經網絡進行集成,提高信號設備故障分類性能,最后應用高速鐵路2009—2018年信號道岔設備故障數據進行試驗,驗證基于深度學習集成的故障診斷模型的有效性與正確性。

1 高速鐵路信號設備故障數據分析

鐵路電務信號設備中,道岔是實現股道轉換的重要設備,由于其在車站鋪設數量較多,設備構造復雜,并且設備的健康狀態直接影響行車安全,是股道設備維護的重點。通過對高速鐵路道岔故障數據總結,結合鐵路信號專家的經驗知識,將高速鐵路信號道岔設備故障歸結為兩級,見圖1,第一級為道岔故障的設備統稱,較為籠統的定位故障設備,第二級將道岔設備統稱下的設備細致劃分,將故障發生的原因定位到具體的設備或其他因素,各一級故障類別下包含的二級類別個數在一級類別名稱下括號中表示。根據專家編制的信號道岔設備故障層次等級,共包含7類一級故障以及62類二級故障。

1.1 信號道岔故障數據

高速鐵路信號故障數據來源于鐵路電務相關系統以及人員整理的故障信息,數據記載了故障發生的詳細信息,并以Excel格式存儲,其中故障現象列以文本的形式記載了現場設備發生故障時的現象,表1列舉了信號道岔故障現象部分樣例數據,一級故障與二級故障為專家根據故障現象的語句描述,并結合自身經驗,以標簽的形式給出的故障診斷結果。

1.2 數據的不平衡性

將高速鐵路自開通以來共發生3 188起道岔設備故障數據作為樣本數據,對各類別故障數據進行統計,見圖2,一級類別下二級故障類別用該柱狀圖中的不同顏色區域表示。從圖2中可以看出,一級轉轍機故障與原因不明類別不平衡比例為161∶1,二級故障類別中,例如一級轉轍機故障中包含接點組故障占比大于1/2,其余11類故障類別占比不足1/2,一級故障類別與二級故障類別都存在明顯的類別樣本數量不均衡現象,這種樣本不均衡現象將會導致比例大的樣本造成過擬合,即故障診斷模型的診斷結果偏向于樣本數據較多的診斷結果,這在研究高可靠性的信號設備故障診斷方法中是不能忽視的缺陷。

圖1 高速鐵路信號道岔設備故障等級劃分

表1 高速鐵路信號道岔故障部分樣例數據

圖2 高速鐵路信號道岔設備故障類別實際分布情況

2 高速鐵路信號道岔設備故障診斷模型

高速鐵路信號故障診斷通過對基于深度學習集成的故障診斷模型的訓練與調優,形成評價指標可交付的道岔故障診斷模型,將高速鐵路發生的道岔故障現象輸入到故障診斷模型,模型自動輸出引起故障的類型與致因,從而實現道岔設備故障的智能診斷,整個過程見圖3。

圖3 高速鐵路道岔設備故障智能診斷過程

故障診斷模型中,如圖3模型訓練部分,采用ADASYN解決樣本不均衡問題,采用TF-IDF實現文本數據特征提取與向量化;設計組合加權方法將BiGRU與BiLSTM神經網絡進行集成,并采用K折交叉驗證方法訓練模型,提高道岔故障診斷模型的泛化能力。

2.1 基于ADASYN的少類別樣本生成

ADASYN自適應綜合過采樣方法是根據少量樣本的分布情況,自適應地合成少類樣本,并且在容易分類的地方合成較少樣本,在難分類的地方合成較多的樣本,合成算法的關鍵是尋找一個概率分布ri,把ri作為每個少類別樣本應該合成多少樣本的判定準則。

高速鐵路信號道岔故障每個一級故障類別下包含的二級類別個數的比例是12∶17∶8∶11∶7∶1∶7,所以采用ADASYN合成二級故障少類別樣本,同時能夠解決一級故障類別的不均衡性。采用ADASYN自適應生成道岔二級少類別樣本的流程為:

Step1計算少類別的不平衡度d=ms/ml,ms和ml分別表示少類別和多類別樣本數目,d∈(0,1]。

Step2計算需要合成的少類別樣本的總數目,G=(ml-ms)×β,β∈[0,1],表示加入合成的樣本后,整個樣本所期望的不平衡度,β=1意味著加入合成樣本后樣本類別完全平衡。

Step3對少類別的每一個樣本xi,找出它們在n維空間的K近鄰,計算比率ri=Δi/K(i=1,2,…,m),m為樣本總數,Δi為xi的K近鄰中的多類別樣本的數目,因此ri∈(0,1]。

Step6根據以上步驟,計算每個少類別樣本xi合成gi個樣本。

2.2 高速鐵路信號設備故障文本特征表示

TF-IDF是一種基于加權思想的文本特征表示方法,其核心思想[13]是如果一個詞在某個文檔中出現的頻率高,而在其他文檔中出現的頻率低,說明該詞在該文檔中具有較高的辨識度,并分配其較高的權重。信號設備故障文本的特征提取首先要實現中文分詞,由于高速鐵路信號設備故障文本數據中包含轉轍機、紅光帶、密貼器等專業詞語,本文通過構建鐵路信號專業詞庫,并將詞庫加載到Jieba分詞工具實現故障文本的準確分詞。

TF-IDF中詞頻(TF)指的是給定詞語在該文檔中出現的頻率,對于給定詞語ti,在某個文檔dj中的重要程度可表示為

( 1 )

式中:ni,j為文檔dj中第i個詞語出現的次數;∑knk,j為文檔dj中每個詞語出現的次數總和。

逆向文件頻率IDF是一個詞語普遍重要程度的度量,其計算公式如下,IDF越大,則說明該詞語具有很好的類別區分能力。

( 2 )

式中:|D|為樣本文件總數;|j:ti∈dj|為包含該詞語的文件數目。如果該詞語不在樣本中,就會導致分母為零,因此,分母加1是為了避免分母為0的情況。

Wi,j=TFi,j×IDFi,詞語的權重wi,j是由文檔內的詞語頻率與該詞語在整個文檔集合的低文件頻率相乘得到。

2.3 深度學習集成故障診斷模型

集成學習是組合多個弱監督學習模型,得到一個更好更全面的監督學習模型。高速鐵路道岔故障診斷模型采用BiGRU和BiLSTM兩個神經網絡作為弱監督學習模型,將特征提取的特征向量分別輸入到BiGRU和BiLSTM神經網絡的嵌入層中,兩個神經網絡通過學習分別在Softmax層輸出對特征向量的分類預測概率,通過組合加權集成方法對兩個神經網絡的預測結果整合計算,最后輸出深度學習集成模型對輸入數據的分類結果,見圖4。

圖4 深度學習集成故障診斷網絡結構

GRU和LSTM是RNN神經網絡的變體,通過在神經元中設計門控單元來有效計算與控制信息的輸入和輸出,見圖5,這種門控單元的設計解決了文本序列長依賴問題。由于sigmoid函數的輸出是0~1,1可以表示信息被保留,0表示信息被丟棄,所以GRU和LSTM通過sigmoid函數來處理輸入信息,tanh函數處理輸出信息。

ft=σ(Wf·[ht-1xt]+bf)

( 3 )

it=σ(Wi·[ht-1xt]+bi)

( 4 )

( 5 )

( 6 )

ot=σ(Wo·[ht-1,xt]+bo)

( 7 )

ht=ot*tanh(Ct)

( 8 )

式中:*為哈達瑪積運算符,表示對矩陣相同位置元素進行相乘運算。

圖5 RNN及其變體神經元結構單元

zt=σ(Wz·[ht-1xt])

( 9 )

rt=σ(Wr·[ht-1xt])

(10)

(11)

(12)

LSTM和GRU組合加權集成方法是將單個神經網絡的整體分類性能與各類別的分類性能通過分配權重的方法進行結合。組合加權集成方法包括整體權重和類別權重,單個神經網絡的整體分類性能越高,就分配其較高的整體權重,各類別權重根據式(13)、式(14)計算,神經網絡在類別分類的錯誤比例越低,說明其在該類別上有較好的分類性能,就分配其較高的類別權重,然后將神經網絡的整體權重與類別權重按照式(15)相加,重新計算神經網絡在各類別上的預測值,這種組合加權集成方法可以避免集成方法中少數值和極端值的影響。

(13)

(14)

(15)

為提高深度學習集成模型的泛化能力,采用K折交叉驗證訓練模型。K折交叉驗證是將整個訓練樣本隨機地分為K份,其中一份作為驗證集,其他K-1份作為訓練集,循環K次,直到所有的數據都被選擇一遍為止。

3 試驗驗證與結果分析

本文采用高速鐵路2009—2018年產生的信號道岔設備故障數據作為樣本進行試驗,其中,70%作為訓練集和驗證集,30%作為測試集,采用K折交叉驗證方法隨機地劃分訓練集和驗證集比例,采用準確度、召回率和F1值作為算法評價和對比的指標。準確率、召回率和F1值的計算公式分別為

(16)

(17)

(18)

式中:C為樣本總數;c為分類類別總數;TPi為被正確分到第i個類別上的正樣本;TNi為被正確分到第i個類別上的負樣本;FPi為被錯誤分到第i個類別上的正樣本;FNi為被錯誤分到第i個類別上的負樣本。

3.1 少類別樣本生成試驗

通過采用ADASYN對高速鐵路信號道岔故障設備二級故障類別中70%的訓練集和驗證集進行少類別樣本合成,共合成3 339條小類別樣本,將合成樣本加入訓練集和驗證集中,共5 371條訓練集和驗證集樣本,其中原始樣本與合成樣本的占比為1∶1.5。經過樣本合成后,道岔故障訓練集和驗證集樣本分布情況見圖6,從圖6可以看出,二級故障類別基本到達到均衡,一級故障類別的不均衡性也有大幅減弱。

圖6 合成樣本后設備故障樣本總體分布情況

3.2 基于深度學習集成故障診斷模型試驗分析

3.2.1 BiGRU和BiLSTM整體權重分配

BiGRU和BiLSTM具有相同的網絡參數,其中,嵌入層維度為100,隱藏層維度為512,K折交叉驗證K=5,迭代次數為50,批處理大小為256。將ADASYN合成后的訓練集和驗證集經過TF-IDF特征提取和向量表示后輸入到BiGRU和BiLSTM網絡中進行訓練,兩個神經網絡訓練過程中loss函數值的變化見圖7,從圖7中可以看出,隨著迭代次數的增加,BiGRU相比于BiLSTM的loss值低,說明其整體分類性能更好,兩個神經網絡中,一級分類相比于二級分類loss函數值低,說明神經網絡一級分類相比于二級分類評價指標更高,兩個神經網絡都在迭代輪數為40~50之間,loss函數值都趨于平穩,說明迭代輪數為50可以使神經網絡訓練達到最佳的狀態。

圖7 BiGRU和BiLSTM神經網絡K交叉訓練中loss值變化

經過K=5次訓練,采用30%真實樣本對BiGRU和BiLSTM訓練模型進行評價,評價結果如表2所示,由表2可以看出,采用ANASYN少類別合成方法后,兩個神經網絡在相同參數下,BiGRU網絡的各項評價指標都高于BiLSTM網絡,所以應給BiGRU網絡分配較高的整體權重。以相同的網絡結構以及參數對原始的樣本進行訓練,得到的試驗結果如表2所示,可以看出,經過ADASYN對少類別樣本進行合成后,兩個神經網絡的分類指標明顯提升,性能較好的BiGRU網絡一級評級指標提升接近15%,并且BiGRU網絡的各項評價指標都高于BiLSTM網絡,進一步得出BiGRU的性能優于BiLSTM,可以給BiGRU網絡分配較高的整體權重。

3.2.2 BiGRU和BiLSTM各類別權重計算

為了更加全面的得出神經網絡在各類別分類上的表現,采用ADASYN合成的少類別樣本以及全部的真實樣本,共6 327條樣本輸入到訓練好的ADASYN+BiGRU和ADASYN+BiLSTM神經網絡,兩個神經網絡在一級分類上的類別權重計算結果如表3所示,從表3中可以看出雖然BiGRU相比于BiLSTM整體評價指標較高,可以得到較高的整體權重,但是兩個神經網絡在各類別上的表現不相同,BiLSTM在密貼檢查器、工務設備以及原因不明類別中具有較大的類別權重,說明BiLSTM網絡在這三種類別分類中具有決策權。由于信號道岔設備故障二級分類類別較多,考慮到篇幅的原因,本文只列出一級分類類別權重計算結果。

3.2.3 深度學習集成模型分類

通過以上試驗得出神經網絡的各類別權重,并且BiGRU相比于BiLSTM應具有較高的整體權重,給BiGRU和BiLSTM賦予不同的整體權重,通過組合加權將兩個深度學習神經網絡進行集成,通過對兩個網絡的輸出重新計算得出共同的分類預測結果,不同的整體權重分配下,深度學習集成模型的一級故障分類和二級故障分類的評價指標見圖8(其中,G代表BiGRU,L代表BiLSTM),從圖8中可以看出當BiGRU的整體權重為0.54,BiLSTM的整體權重為0.46時,深度學習集成模型的評價指標最高。

深度學習集成模型最終分類結果如表4所示,可以看出,深度學習集成模型的分類結果相比ADASYN+BiGRU神經網絡一級故障分類綜合評價指標有5%左右的提升,二級故障分類綜合評價指標有9%左右的提升,相比ADASYN+BiLSTM神經網絡一級故障分類綜合評價指標有6%左右的提升,二級故障分類綜合評價指標有10%左右的提升。

表2 K折交叉驗證+BiGRU和BiLSTM神經網絡試驗結果

表3 信號道岔設備故障一級分類類別權重計算結果

圖8 不同整體權重分配下深度學習集成模型評價指標值

表4 深度學習集成模型分類試驗結果

3.2.4 集成學習模型試驗對比

集成學習模型Bagging代表算法是隨機森林RF(Random Forest),Boosting的代表算法是梯度提升樹GBDT(Gradient Boost Decision Tree),將ADASYN樣本合成以及TF-IDF特征向量表示后的信號道岔設備故障樣本數據輸入到RF和Boosing進行試驗,并采用30%的真實樣本進行評價,基分類器個數設置為50,最終試驗結果如表5所示,從表5中可以看出,本文設計的深度學習集成模型相比于成熟的集成學習算法RF和GBDT,其評價指標明顯較高。

表5 集成學習模型分類實驗結果

3.3 試驗總結

根據以上試驗分析,得出兩個結論:(1)由表2和表5可以看出,基于BiGRU和BiLSTM的神經網絡分類方法的分類效果優于成熟的集成學習分類方法RF和GBDT,本文將分類較好的神經網絡通過組合加權集成是進一步提升分類性能的有效方法;(2)針對不平衡的信號設備故障文本數據,BiGRU和BiLSTM神經網絡在原始數據集上分類性能較低,并且難以對少類別樣本進行分類,經過ADASYN方法對不平衡數據集處理后神經網絡的分類性能有所提升,通過組合加權將BiGRU和BiLSTM集成后,模型的各類評價指標進一步提升。說明本文提出的ADASYN+ TF-IDF+深度學習集成算法,在各方面的性能指標達到最優,可以實現基于不平衡數據的信號設備故障分類與診斷。

4 結束語

本文以高速鐵路自開通以來十年的信號道岔故障文本數據研究故障診斷模型,針對故障數據的不平衡性,采用ADASYN數據合成方法合成少類別樣本,采用TF-IDF對文本進行特征提取與向量轉化,提出基于組合權重的深度學習集成方法,通過試驗分析,證明深度學習集成是一種能夠有效提升道岔故障診斷模型分類性能的方法,同時該方法也可為鐵路文本分類與故障診斷提供一種新的思路。

猜你喜歡
故障診斷分類文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
因果圖定性分析法及其在故障診斷中的應用
基于LCD和排列熵的滾動軸承故障診斷
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲水蜜桃久久综合网站| 日本成人不卡视频| 18禁不卡免费网站| 国产a v无码专区亚洲av| 亚洲免费成人网| 色网站在线免费观看| 成人年鲁鲁在线观看视频| 国产精品久久久久无码网站| 亚洲无码熟妇人妻AV在线| 免费无码AV片在线观看中文| 婷婷五月在线视频| 国产精品高清国产三级囯产AV | 亚洲色无码专线精品观看| 免费A∨中文乱码专区| 女人一级毛片| h网址在线观看| 久草网视频在线| 亚洲第一成年网| 99re在线视频观看| 草草影院国产第一页| 日韩毛片在线视频| 国产主播一区二区三区| 亚洲欧美不卡视频| 爱做久久久久久| 青青草91视频| 在线观看亚洲国产| 幺女国产一级毛片| 国产99视频在线| 欧美啪啪网| 亚洲欧美在线综合一区二区三区| 国产小视频免费观看| 亚洲AV人人澡人人双人| 久久综合结合久久狠狠狠97色| 国内精自线i品一区202| 欧美五月婷婷| av一区二区三区在线观看| 中文字幕有乳无码| 亚洲成人精品| 国产成人av大片在线播放| 久久免费看片| 永久免费av网站可以直接看的| 久久久久免费精品国产| 国产呦精品一区二区三区下载 | 欧美三級片黃色三級片黃色1| 国产人前露出系列视频| 日本在线国产| 国产欧美日韩视频怡春院| 国产区在线观看视频| 99青青青精品视频在线| 呦系列视频一区二区三区| 色悠久久综合| 玖玖精品视频在线观看| 啪啪免费视频一区二区| 国产三级精品三级在线观看| 亚洲人成网站色7799在线播放| 国产h视频免费观看| 久久亚洲精少妇毛片午夜无码| 国产精品亚洲αv天堂无码| 亚洲av无码牛牛影视在线二区| 秋霞国产在线| 国产成人精品2021欧美日韩| 亚洲综合婷婷激情| 成人一区专区在线观看| 亚洲欧美色中文字幕| 久久久久亚洲AV成人网站软件| 国产色伊人| 国产精品刺激对白在线| 久久久久中文字幕精品视频| 波多野结衣视频一区二区| 国产AV无码专区亚洲精品网站| 日韩欧美国产另类| 国产精品永久不卡免费视频| 国产一区二区丝袜高跟鞋| 成色7777精品在线| 亚洲性色永久网址| 亚洲成人免费在线| 亚洲视频影院| 亚洲色大成网站www国产| 国产区免费精品视频| 国产午夜无码专区喷水| 国产本道久久一区二区三区| 久久毛片网|