999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理的地鐵工程車輛故障智能診斷研究

2022-10-14 03:04:54徐永能何文韜
兵器裝備工程學報 2022年9期
關鍵詞:故障診斷文本故障

嚴 碩,徐永能,何文韜

(南京理工大學 自動化學院, 南京 210094)

1 引言

近幾年我國城市軌道交通高速發展,各城市運營線路數量與運營里程呈現逐年遞增的趨勢。隨著城市地鐵網絡的逐漸形成,系統設備故障數量明顯增加。其中,工程車輛作為維護城市地鐵正常運營的重要車輛,在運營維護過程中積累了大量故障文本數據,這些數據蘊含了地鐵工程車輛安全的重要信息,長期由維保人員依據經驗與專家知識進行故障診斷與分類。由于缺乏監控數據且技術水平有限,維保人員主要依靠非結構化文本形式的故障數據來進行故障診斷。這些故障記錄文本數據存在主觀性與不準確性,進而影響故障診斷的準確性。同時,海量的故障文本若不能得到合理利用,也會造成資源堆積浪費。在智慧城軌和大數據技術發展的背景下, 亟需研究基于自然語言處理的機器學習算法,實現地鐵工程車輛的故障智能診斷。

國內外學者在故障診斷領域取得了豐富的研究成果,故障診斷方法逐漸多樣化。近年來自然語言處理技術迅速發展,在國發[2017]35號文件中,自然語言處理被視為關鍵共性技術,已廣泛應用于網絡論壇、新聞等領域。眾多學者的研究表明以自然語言處理技術實現故障診斷的核心在于選擇合適的文本表示方法與文本分類器。傳統的文本表示方法有獨熱編碼(one-hot encoding)、詞頻-逆文檔頻度(term frequency-inverse document frequency,TF-IDF)等。但獨熱編碼、TF-IDF等方法未考慮字詞間順序與相關性,易導致詞向量維度過大,增加診斷難度。故障診斷更加注重文本上下文的順序與相關性,因而Word2Vec生成特征向量、故障文本相似度計算等方法得到應用,這些方法能降低向量維度、將向量與上下文特征進行融合。在構建文本分類器時,支持向量機、樸素貝葉斯等機器學習算法得到了廣泛應用,研究表明它們在故障分類與診斷等方面具有良好表現。但早期的機器學習算法在挖掘文本深層語義方面表現欠佳,不適應大數據技術的發展需求。而深度學習模型文本特征挖掘能力表現更優,更符合智能運維背景下的軌道交通設備故障診斷需求。

從綜合考慮地鐵工程車輛故障文本記錄數據特征出發,以提高故障診斷準確率為優化目標,以RNN與LSTM算法為基礎,提出了一種基于自然語言處理的地鐵工程車輛故障智能診斷模型。將文中所用算法模型與經典自然語言處理算法進行對比,驗證其有效性。實驗表明,該算法模型能為智能運維背景下地鐵工程車輛故障智能診斷與故障文本的利用提供重要解決思路。

2 RNN與LSTM模型

2.1 RNN模型

在神經網絡訓練過程中,給定輸入并通過優化算法與反向傳播調整神經網絡模型參數,便于輸出最佳的訓練結果。早期神經網絡算法的輸出結果往往只考慮某時刻單個輸入的影響。對于一些與時間先后順序有關的序列信息(如文本、語音、視頻等),標準神經網絡的應用面臨幾個困境:第一,只考慮單一時刻的輸入,不考慮輸入數據之間的相互關系會明顯降低輸出結果的可用性;第二,不同樣本的輸入輸出長度具有明顯差異時,標準神經網絡需要對整體結構進行調整,通用性明顯降低;第三,標準神經網絡不能共享其在文本中學習的特征。在這種研究需求下,RNN應運而生。

20世紀80年代研究者提出了循環神經網絡(recurrent neural network,RNN)的模型,并于21世紀初為眾多研究者廣泛應用于不同領域。在標準神經網絡的基礎上,RNN模型在處理序列數據某時刻的輸入時,不僅考慮了前一時刻的輸入,還能記憶網絡前面的內容,幫助整個模型更好地去理解序列數據的前后邏輯關系。RNN由輸入層、輸出層與隱藏層組成,其主要結構件如圖1所示。

圖1 RNN模型結構件示意圖Fig.1 RNN model structure

由圖1可知,RNN模型中的輸入進入隱藏層后的每一次計算結果都會得到保留,并作為下一次隱藏層計算的輸入之一,不同時刻對應有不同的輸出,相應的計算公式分別如下。

=(·)

(1)

=(·-1)

(2)

式(1)與式(2)中,為RNN模型時刻的輸出,、、為RNN模型各層之間的傳遞參數(傳遞參數可以共享),為RNN模型時刻的隱藏層計算結果,為時刻模型獲得的輸入,與為激活函數(根據具體情況需求選擇相應的激活函數)。

RNN模型在不同時刻對參數進行了共享,實現了對序列數據的特征提取,RNN模型在不同時刻組成的時間軸展開的結構如圖2所示。

圖2 時間軸上展開的RNN結構示意圖Fig.2 RNN structure expanded on time axis

由圖2可知,在RNN模型前向傳播的過程中,隱藏層中存儲的狀態信息在不同時刻會根據式(2)進行改變,而權重矩陣是并不會隨著時間的推移發生變化。在反向傳播過程中,權重矩陣會根據梯度下降算法進行更新(此過程一般選擇損失函數作為衡量標準)。使用RNN模型時,研究者一般通過訓練對權重矩陣進行優化,并在訓練過程結束后選擇效果最好的一組權重矩陣來進行前向傳播并輸出結果,得到最終的預測值。

2.2 RNN的梯度消失與梯度爆炸

早期的RNN模型可以通過記憶體實現短期記憶,從而實現對序列數據的預測效果。通常在使用梯度下降法反向傳播更新權重矩陣時,不同時刻的梯度會進行連續相乘的計算。對于已知時間軸長度為的序列數據,通過在不同時刻共享參數,研究者可以計算對應的損失函數(與參數梯度有關):

(3)

根據鏈式法則可以將Jacobian矩陣分解如式(4):

(4)

根據式(4)可知,RNN模型若要可靠地存儲信息,意味著其梯度下降會完全取決于梯度偏導的連續相乘,若其值小于1,隨著時間軸延長會出現梯度消失的現象;若其值大于1,隨著時間軸延長,梯度會呈現指數級增長的現象,RNN模型會出現局部不穩定。

2.3 長短期記憶神經網絡

為了解決普通循環神經網絡中存在的梯度消失或梯度爆炸問題,Hochreiter等提出了長短期記憶人工神經網絡(long short-term memory,LSTM),能夠有效克服RNN中存在的梯度消失和爆炸的問題,可以對存在短期或長期依賴的數據進行預測。LSTM能夠保存序列數據需要依賴的信息(歷史信息與狀態信息)至記憶細胞單元中,歷史信息和狀態信息分別受到3個門控單元的影響。

圖3中,表示當前時刻的狀態輸出單元;表示輸入的序列數據;表示遺忘門;表示輸入門;表示輸出門,那么各個控制門限的狀態可用下面公式進行表示。

圖3 LSTM單元結構示意圖Fig.3 Structure diagram of LSTM unit

(5)

輸入門:

()=[()+(-1)+(-1)+]

(6)

遺忘門:

()=[()+(-1)+(-1)+]

(7)

輸出門:

()=[()+(-1)+(-1)+]

(8)

記憶細胞單元:

(9)

計算LSTM的輸出:

()=()·tanh(())

(10)

式(5)—式(10)中,表示激活函數(根據具體情況選擇激活函數);表示不同門控單元的計算參數矩陣;表示計算參數的偏置。

3 地鐵工程車輛故障診斷模型

3.1 故障文本數據分析

地鐵工程車輛一般按照車輛的功能與故障現象進行劃分,一般可分為表1中所示的7類故障,表1顯示了某地鐵設備中心于2017年9月至2020年12月的工程車輛各故障類型的占比,通過統計可以發現不同故障類別之間存在明顯的不均衡分布,數量上的不均衡比最大可達1∶32。若直接使用分類診斷模型對故障數據進行分類診斷,算法很可能忽略少數故障類別對分類診斷的影響,進而造成少數故障類別的預測精度遠低于多數故障類別的預測精度。

表1 地鐵工程車輛故障類型Table 1 Failure category statistics of metro engineering vehicles

本文中研究的數據主要來源于某地鐵設備中心設施設備運維管理平臺,故障數據以非結構化的形式記錄了故障文本信息,每個故障有對應EAM工單號,并由報修人與維修人確認故障信息,以進行下一步維保工作。在這里僅展示出研究所需信息,即故障車輛類型與對應的故障現象描述。如表2所示,記錄故障發生的原因以自然語言文本進行存儲。

結合表2與其他故障文本可知,當前工程車輛故障文本數據記錄的特點有以下幾點:

表2 工程車輛故障文本數據Table 2 Example of engineering vehicle fault text data

1) 故障文本數據具有高維特性,不同故障類型的記錄導致故障文本出現大量系統或部件名稱;

2) 故障文本記錄缺乏統一標準,由于參與故障文本記錄的工作人員較多且文本記錄具有較強主觀性與不確定性,相同故障類型會出現不同的文本記錄;

3) 不同于信號設備與車載設備的故障記錄,工程車輛故障文本記錄很少出現站點與線路的文本描述,因此故障文本記錄可能缺少基本信息。

綜上所述,地鐵工程車輛故障文本數據具有復雜、高維、稀疏的特征,這會給計算機識別與文本數據的處理帶來難度。

3.2 故障診斷模型

本文中設計的地鐵工程車輛故障診斷模型結構如圖4所示。根據研究需求主要分為5個模塊:故障文本預處理、Word2vec詞向量訓練、不平衡故障文本數據處理、基于Word2vec的句向量生成和RNN診斷模塊。本文使用的診斷模型主要優點有:① Word2vec詞向量訓練模塊可以設置固定的詞向量維度,在詞與詞之間的語義關系表征上有良好表現;② 基于SMOTE算法的故障文本數據少數類別樣本生成,可以有效避免RNN模型運行時出現欠擬合現象;③ 帶有LSTM單元的RNN模型能夠共享文本數據樣本的上下文關聯信息,同時避免RNN出現梯度爆炸或梯度消失,提高訓練效率。

圖4 軌道交通工程車輛故障診斷模型結構框圖Fig.4 Fault diagnosis model of rail transit engineering vehicles

工程車輛故障文本預處理模塊

第一個模塊主要負責對收集到的工程車輛故障文本進行中文分詞處理和去停用詞處理。為了實現文本挖掘的各項功能,文本必須進行精準分詞,分詞可以將故障文本數據這些非結構化數據分割成多個信息塊,每個信息塊均為可計數的離散元素。

去停用詞是將一些工程車輛故障文本中表達信息能力不強的介詞、副詞、語氣詞等過濾掉。使用去停用詞功能的好處在于降低文本表示維度的同時,對文本分類與故障診斷結果造成的影響很小。

Word2vec詞向量訓練模塊

第二個模塊主要負責將經過分詞處理的文本進行數值向量化表示,向量化之后才可被分類模型識別與計算。本文使用Word2vec進行詞向量訓練,可將工程車輛故障文本中的每個詞轉化為計算機能夠識別的分布式詞向量,相同語境下的詞在語義上也相似。

深度學習中常用Word2vec模塊有Skip-gram和連續詞袋模型(continuous bag of words,CBOW)。根據本文故障診斷的需求,更加適合選擇CBOW模型進行訓練,CBOW模型可以根據上下文的詞向量來計算目標詞的詞向量。本文以CBOW為例,選擇電力工程車的一項故障文本數據樣本來進行模型訓練,訓練過程如圖5所示。

圖5 CBOW模型的訓練過程框圖Fig.5 Example of training process of CBOW model

故障文本不平衡數據處理模塊

在本文研究收集的工程車輛故障文本數據中,不同故障類別分布并不均衡,為了盡可能降低數據不平衡對診斷模型的影響到最小,對數據集進行重構,改變不同類別數據樣本的分布特征,使不同類別的故障文本數量達到相對平衡,通過SMOTE算法來減小數據的不平衡性。

SMOTE算法過程如圖6所示,其基本思想是對每個少數類樣本,利用歐氏距離為標準計算出它的個最近鄰同類別樣本(為不小于1的奇數),并在其中選擇合適的若干個樣本。對于選擇的近鄰樣本,一般采用線性插值方法構建新的樣本,計算公式如式(11):

圖6 SMOTE算法過程示意圖(K=5)Fig.6 Schematic diagram of smote algorithm(K=5)

(11)

基于Wordvec的句向量生成模塊

對于故障文本而言,如果只生成基于Word2vec的詞向量,并不能直接傳入RNN模塊進行診斷。因此,在整個診斷模型中需要添加句向量生成模塊,便于RNN模型識別具有上下文邏輯關系的序列數據。目前常見的基于Word2vec的句向量生成方法主要有2種:均值法和加權均值法。

均值法對每個句子的所有詞向量取均值,來生成一個句子的Vector,其句向量生成計算公式為:

(12)

式(12)中:_表示句向量;表示每個樣本中的詞的數量;表示第個詞的詞向量。

加權均值法對每個句子的所有詞向量取加權均值,來生成一個句子的Vector,其句向量計算公式為:

(13)

式(13)中;_表示句向量;表示每個樣本的詞的數量;表示第個詞的詞向量;()表示第個詞的所占權重,權重可以根據TF-IDF,信息增益等方法求得。

對于工程車輛故障文本樣本生成的句向量長度不同的問題,可以對長度較短的文本補充空格,從而構建維數一致的句向量進行輸出。

RNN診斷模塊

第5個模塊的主要功能是利用帶有LSTM單元的RNN模型實現工程車輛故障文本數據的深層特征提取和自動分類與診斷,具體的工作流程如圖7所示。

圖7 RNN診斷模塊工作流程框圖Fig.7 RNN diagnostic module workflow

RNN模型的輸入為經過句向量生成模塊生成的句向量組成的文本矩陣,此時輸入的句向量經過處理后特征維數相等,便于RNN進行下一步計算。在LSTM層中,獲取與時間序列相關的隱藏層向量,以提取局部上下文高層特征。隨后,將經過LSTM單元的數據輸入均值池化層,深度挖掘故障文本的特征并進一步降維。最后,由全連接層和softmax層實現轉換,得到相應的概率數值(一般取概率最大的結果為最終的診斷結果),對應的計算公式如式(14):

(14)

式(14)中:為該故障文本屬于第類故障的概率;為全連接層的輸入;為工程車輛故障類別數量;和分別為全連接層的權重矩陣與偏置項。

4 實驗結果與分析

本文的實驗環境為Windows 10操作系統,CPU為Intel Core i5-7500(3.40 GHz),運行內存為8 GB。所采用的編程語言版本為Python 3.9,采用Tensorflow框架完成提出的網絡結構。

4.1 實驗具體設置

工程車輛故障文本預處理模塊設置

本實驗采用Python編程語言當中的jieba庫完成自動分詞,故障文本預處理過程如圖8所示。為了更加準確地對故障文本進行切分,本實驗在通用詞典的基礎上構建了軌道交通工程車輛專業領域詞典,得到表征故障文本信息的特征詞集合,通常這些詞包含關鍵的故障類別信息,因此在分詞過程中應作為一個單獨詞項以便于區分。

圖8 故障文本預處理過程框圖Fig.8 Fault text preprocessing process

故障文本預處理模塊可以根據對應的故障文本數據集來修改專業領域詞典,以此遷移到其他系統與設備的故障診斷應用場景。

故障文本詞向量訓練模塊設置

將預處理好的文本分詞保存到一個新的文本文件中,以便于詞向量訓練模塊進行測試。本實驗調用了Python中的gensim庫,完成軌道交通工程車輛故障文本的詞向量化。

進行詞向量訓練時,由于CBOW模型可以通過上下文詞預測當前詞構造語言模型,對本實驗的故障文本數據有較高的訓練效率,因此本實驗選擇CBOW模型進行詞向量訓練。CBOW模型的窗口大小和詞向量維數是2個需要合理設置的重要參數。原則上窗口越大,模型對上下文關系考慮越全面,但相應的訓練時間會更長。本文選用的工程車輛故障文本大多為短文本數據,故障表征不需要過長文本,本實驗的窗口設置長度為3即可。

為了選擇最佳的詞向量維數,在軌道交通工程車輛故障樣本集選擇不同維數的詞向量進行驗證,1值隨不同詞向量維數的變化如圖9所示。根據圖9反映的訓練結果,同時為了提升模塊訓練效率,本模塊的詞向量維數設置為200。

圖9 不同詞向量維數對應的F1值曲線Fig.9 F1 values corresponding to different word vector dimensions

故障文本不平衡數據處理模塊設置

通過SMOTE算法生成的少數類別文本向量數據,原始數據量與人工合成后的數據量進行對比,可以看出少數類別樣本數量得到提升。故障類別的數量分布不平衡性明顯降低,數據量由原始數據的1 296條變為3 546條,具體如圖10所示。

圖10 原始數據量與合成后的數據量對比圖Fig.10 Comparison of original data volume and synthesized data volume

4.2 結果分析

選擇了某地鐵設備中心于2017年9月至2020年12月的工程車輛故障文本數據進行驗證,本實驗對樣本數據中訓練集、測試集、驗證集的分配比例分別為70%、10%、20%,數據包含了7種標簽。本文中將經過故障文本不平衡數據處理模塊和句向量模塊處理后的各個類別故障數據文本執行梯度下降以最小化損失函數訓練RNN,設置網絡輸入批處理參數為64,設置學習率為0.001,初始迭代次數設置為10。

實驗需要尋找識別誤差最小的迭代次數,以10次為迭代次數提升幅度,分別在不同迭代次數下計算識別誤差,得到的關系如圖11所示。由圖11可知迭代次數達到70~90次時,模型識別誤差達到較小的數值并且逐漸趨于穩定。

圖11 識別誤差與迭代次數關系曲線Fig.11 Relationship between identification error and iteration time

評價指標

根據模型具體情況選取的評價指標是精確率(precision)與召回率(recall),分別用于反映診斷結果的準確性與診斷結果的全面性。另外,還引入了1值,作為診斷模型的綜合評價指標,相關參數見表3。

表3 模型評價指標參數Table 3 Model evaluation index parameters

對應的精確率計算公式為:

(15)

對應的召回率計算公式為:

(16)

對應的1值計算公式為:

(17)

結果評價

根據本文選取的評價指標,針對地鐵工程車輛故障文本數據的故障診斷結果進行評價,對應的評價結果如表4所示,可以看出本文中所用方法可較好地對軌道交通工程車輛故障文本進行診斷,7個類別的平均精確率可達到8630,平均召回率達到8668,平均1值達到86.49%。縱觀整個分類診斷評價結果,整體分類診斷準確率可達到85%以上。

表4 軌道交通工程車輛故障文本數據分類診斷評價結果(%)Table 4 Evaluation results of fault text data classification and diagnosis of rail transit engineering vehicles

實驗分析

在文本表示部分,One-hot、TF-IDF、Glove等文本表示方法得到廣泛應用,將上述3種方法與本文中的Word2vec詞向量方法進行對比實驗,上述4種算法與RNN診斷模塊進行結合,應用于地鐵工程車輛故障診斷的診斷結果如表5所示。

由表5可以看出,由于One-hot與TF-IDF兩種算法都屬于離散式表示方法,沒有考量詞與詞之間的語義聯系,它們的訓練結果相對較差。Glove與Word2vec同屬于分布式表示方法,準確率有所增加,但無法獲取文本整體語義信息。Word2vec在3項評價指標中均獲得了良好效果,證明該方法可為后續模塊提供較為理想的文本表示形式。

表5 不同文本表示算法結果評價(%)Table 5 Evaluation and comparison of different text representation algorithms

在診斷模塊的核心分類器方面,K最近鄰、支持向量機、樸素貝葉斯等機器學習算法已在故障診斷任務中得到應用并取得了不錯的應用效果,此外深度學習中的CNN算法也在故障診斷中得到廣泛應用。因此本文選擇這4種算法與本文使用的方法進行比較,采用相同的故障文本預處理、不平衡數據處理方式以及句向量生成模塊進行實驗,得到的具體結果如表6所示。

表6 不同診斷模塊結果評價(%)Table 6 Evaluation and comparison of diagnostic results of different classification modules

由表6可以看出,在地鐵工程車輛故障診斷模塊中,使用不同的診斷模塊的效果不同,本文選擇的RNN診斷模塊有效提高了模型的評價指標,RNN所具有的挖掘文本數據深層特征與上下文聯系的良好能力, 能夠在故障診斷中發揮很大作用。

5 結論

1) 以工程車輛故障文本數據為樣本研究故障診斷方法,提出的診斷模型表現較好,精確率、召回率和1值分別可達到86.30%、86.68%和 86.49%。

2) 本文提出的故障智能診斷模型分別從文本表示方法與診斷模塊分類器2個角度進行實驗,結果表明,文中所用模型可以有效提升基于故障文本的地鐵工程車輛故障診斷效果,提高文本數據的利用率。

3) 在智能運維背景下,未來研究可以根據故障的系統(或設備)類別進一步修改故障文本預處理模塊的專業領域詞典,調整詞向量維數與訓練迭代次數,以推廣到其他軌道交通故障設備的故障診斷應用場景。

猜你喜歡
故障診斷文本故障
故障一點通
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
奔馳R320車ABS、ESP故障燈異常點亮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
因果圖定性分析法及其在故障診斷中的應用
故障一點通
江淮車故障3例
基于LCD和排列熵的滾動軸承故障診斷
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 宅男噜噜噜66国产在线观看| 伊人蕉久影院| 欧美一区日韩一区中文字幕页| 最新国产网站| 伊人蕉久影院| 日韩精品无码免费专网站| 毛片免费高清免费| 久996视频精品免费观看| 久久国产精品77777| 成人欧美日韩| 五月天天天色| 国产精品美女免费视频大全| 国产网友愉拍精品| Jizz国产色系免费| 色婷婷综合激情视频免费看| 午夜性刺激在线观看免费| 中文字幕在线永久在线视频2020| 毛片视频网址| 亚洲日韩久久综合中文字幕| 欧美一道本| 国产成人AV男人的天堂| 456亚洲人成高清在线| 欧美一区国产| 二级特黄绝大片免费视频大片 | 免费女人18毛片a级毛片视频| 国内精品视频在线| 国产农村1级毛片| 成人午夜亚洲影视在线观看| 国产爽爽视频| 欧美v在线| 亚洲综合第一页| 国产伦精品一区二区三区视频优播| 91麻豆国产视频| 精品国产一区91在线| 一本色道久久88综合日韩精品| 午夜精品区| 亚洲精品无码人妻无码| 精品久久蜜桃| 91美女视频在线| 99热最新在线| 国产精品主播| 亚洲精品自在线拍| 99精品国产自在现线观看| 天天综合网站| 亚洲国模精品一区| 成人综合网址| 精品久久久久久久久久久| 任我操在线视频| 国产微拍一区二区三区四区| 2020国产精品视频| 欧美精品三级在线| 成人在线不卡视频| 成人一级黄色毛片| 色综合网址| 国产在线视频欧美亚综合| 午夜爽爽视频| 一级全黄毛片| 丝袜久久剧情精品国产| 精品国产一二三区| www.youjizz.com久久| 欧美亚洲日韩中文| 日韩色图区| 亚洲狼网站狼狼鲁亚洲下载| 再看日本中文字幕在线观看| 亚洲综合香蕉| 日韩精品无码免费一区二区三区 | 亚洲精品另类| 国产91视频免费观看| 久久频这里精品99香蕉久网址| 激情乱人伦| 毛片免费视频| 亚洲区第一页| 国内精自线i品一区202| 日本亚洲成高清一区二区三区| 91亚洲影院| 午夜精品久久久久久久无码软件| 成人综合网址| 婷婷中文在线| 亚洲AV无码一区二区三区牲色| 久久久久亚洲AV成人人电影软件| 美女无遮挡拍拍拍免费视频| 欧美中日韩在线|