999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的軌道電路細粒度故障致因分析方法

2022-11-08 12:45:36鄭啟明姚新文陳光武王小敏
鐵道學報 2022年10期
關鍵詞:分類文本故障

侯 通,鄭啟明,姚新文,陳光武,王小敏

(1.西南交通大學 信息科學與技術學院,四川 成都 611756;2.蘭州交通大學 自動化與電氣工程學院,甘肅 蘭州 730070)

軌道電路作為信號設備的重要組成部分,在我國軌道交通運營線路中得到了廣泛應用。由于軌道電路設備結構組成復雜,分布范圍較廣等特點,其工作狀態容易受多部門作業檢修、設備器材質量及天氣環境等因素影響,導致軌道電路故障原因復雜多樣,故障診斷處理耗時較長,對鐵路運輸影響較大[1]。軌道電路故障文本記錄包含大量有價值故障信息,其中的故障原因直接反映了故障問題所在。目前,針對軌道電路故障文本數據主要依賴人工處理分析,容易受主觀因素影響,存在故障歸類不準確、效率低等問題;此外,由于缺乏對故障類型的細粒度統計分析,造成大量有價值故障數據資源的浪費。在大數據背景下,應用故障文本智能挖掘分析,提高故障文本數據利用率,已成為亟待解決的問題。

文本挖掘主要包含文本分類、文本聚類、信息抽取等任務,關注于在非結構化文本中通過模式發現來描述文本內容[2]。文本數據在使用前須經過文本預處理、特征提取及文本表示等工作,常用算法有信息增益[3]、詞頻(Term Frequency,TF)、詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)、隱含狄利克留分布(Latent Dirichlet Allocation,LDA)、Word2vec[4]等,其中TF-IDF、LDA及Word2vec在文本挖掘任務中應用較為廣泛。

文獻[5]采用TF-IDF對鐵路信號設備故障文本進行特征提取,結合多分類器集成學習方式,從信號設備類型角度提出不平衡故障文本數據分類模型。文獻[6]利用Word2vec訓練詞向量,通過多池化層卷積神經網絡模型實現鐵路信號設備故障文本分類。由于鐵路信號設備故障原因復雜多樣,以上研究從系統設備類型角度劃分故障類型,無法直觀有效的分析故障原因。文本聚類是實現從大量文本信息中高效獲取有價值信息的一種重要方法,常用算法有基于距離的K-Means、無監督學習主題模型等。文獻[7]針對地鐵信號設備故障記錄,融合了從詞項層和語義層聚類得到的特征詞,采用KNN算法實現故障文本自動預處理,但由于兩種聚類均基于詞袋方法,丟失了詞序特征,對于文本特征的學習仍然不足。文獻[8-9]針對列控車載設備日志數據,利用主題模型得到故障語義特征,并基于支持向量機建立了車載設備故障診斷模型。

目前,對于軌道電路故障的研究,多以信號系統電氣設備故障為研究對象,基于監測量數據實現故障診斷[10],基于歷史故障文本記錄的研究較少。隨著我國鐵路綜合維修生產一體化體系的不斷推進[11],綜合考慮不同故障致因類型中的影響因素,有利于提高現場多部門綜合養護維修效率。軌道電路與電務、工務設備維護管理密切相關,因此參照相關規程,從故障致因類型角度劃分軌道電路故障,有助于現場工作人員進行軌道電路故障統計分析和管理工作。此外,針對電務、工務致因類型故障文本進一步聚類挖掘,獲取細粒度故障主題類型及故障致因,對后續軌道電路故障分析、制定工電綜合檢修措施等具有重要意義。

對此,提出一種基于文本挖掘的軌道電路細粒度故障致因分析方法。首先,利用改進的TF-IDF算法對不同致因類型故障文本進行特征提取及向量表示,引入合成少數類過采樣技術(Synthetic Minority Oversampling Technique,SMOTE)算法對少數類數據進行自動生成,采用SVM算法實現均衡后的故障文本數據自動分類,并對不同分詞模式下的分類模型效果進行分析;其次,采用K-means聚類算法對基于Word2vec向量表示的電務、工務致因故障文本數據進行聚類挖掘分析,基于聚類結果通過統計分析獲取細粒度故障主題類型及易發多發性故障致因,實現細粒度軌道電路故障致因分析??紤]故障文本記錄的敘述共性,本文提出的方法對于其他信號設備同樣具有借鑒意義。選取某鐵路局集團公司2015—2018年軌道電路故障文本數據進行分析,實驗結果表明本方法的有效性,對設備維護具有較好的輔助指導作用。

1 軌道電路故障文本特點

在鐵路現場工作中積累的大量軌道電路故障文本數據,主要通過現場工作人員以自然語言形式記錄。根據不同故障致因,軌道電路故障可分為6類故障,即電務致因C0、工務致因C1、供電致因C2、設備器材質量C3、自然災害C4及其他外部致因C5。故障文本記錄中通常包含故障現象、故障原因、處置過程、設備信息等內容,部分故障記錄如表1所示。

表1 軌道電路故障文本記錄(部分)

作為專業領域文本數據,軌道電路故障文本存在以下特點:

(1)不同故障致因類型間故障文本數據不均衡。故障文本記錄存在口語化、不規范化問題;并且故障文本記錄長度不一,故障現象描述較短,故障原因描述詳細程度不同。

(2)軌道電路故障文本含有大量鐵路信號專業詞匯,但由于不同人員記錄方式不同,存在多詞一義的現象。例如“451AG冗余衰耗器材質不好”“11331G室內衰耗盤不良”“中繼3站22039G室內衰耗盒底座接觸不良”,故障原因都涉及衰耗冗余控制器同一種設備,但記錄形式完全不同。

(3)故障記錄文本為短文本,且特征詞匯在不同故障類型文本中的分布情況具有差異性,存在一些特征詞可作為具有類別特征的關鍵詞,但在特定類別中出現頻次較高,而在其他類別出現頻次較低。

(4)故障文本中包含有時間、車次號、區段名稱、器材編號等內容,作為噪聲數據不利于后續提取有效文本特征,因此需要對故障文本數據進行清洗。

由于不同人員對故障的理解和敘述習慣不同,對故障管理規程認識水平不一,存在人工處理故障文本歸類不準確、效率低的問題;此外,對不同故障致因類型缺乏細粒度故障分析,有價值的故障數據信息尚未在現場綜合檢修工作中得到充分利用。

2 軌道電路故障文本挖掘總體方案

針對軌道電路故障日志的特殊性,提出軌道電路故障文本的細粒度故障致因挖掘方案見圖1,用于提取軌道電路的細粒度故障主題類型及故障致因,為現場故障分析及預防提供決策支持。

圖1 軌道電路細粒度故障致因挖掘方案

首先,對故障文本數據進行預處理,結合構建的鐵路信號專業詞典,通過分詞初步去除無意義詞項,得到分詞后的故障文本數據。其次,對不同分詞模式下的故障文本數據,基于改進TF-IDF算法進行文本特征提取,轉換為詞項文本矩陣;利用SMOTE[12]算法對少數類故障數據進行自動生成,基于SVM分類器模型實現均衡后故障樣本數據的自動分類。最后,選取分類結果中與電務、工務部門維檢工作密切相關且包含故障因素較多的C0及C1致因類型故障文本數據,采用Word2vec模型獲取故障文本向量表示,基于K-Means算法分別進行聚類挖掘分析,獲取細粒度故障主題類型及故障致因。

2.1 故障文本預處理

針對軌道電路故障文本特點,主要進行以下預處理工作:

(1)文本清洗。通過分析故障文本中包含的故障時間、車次號、區段名稱、數字編號等文本記錄形式,人工編寫正則表達式對其進行清理,例如車次號的提取范式如下

[KZTXGDC]d{1,5}[次]‖d{1,5}[次]

(2) 文本分詞及去停用詞??紤]到故障文本包含大量鐵路專業詞匯,為實現對專業詞匯的準確切分,減小文本噪聲項對后續文本特征提取干擾,構建鐵路專業詞庫及停用詞詞庫見圖2,其中鐵路專業詞庫主要包含各專業部門設備名稱及專業術語。利用Jieba分詞工具獲取詞項級分詞結果,并過濾文本中標點符號和無實際意義的詞匯。字符級分詞基于詞項級分詞結果對詞匯進一步切分為單字。

圖2 鐵路專業詞庫構建

2.2 基于改進TF-IDF算法的文本特征表示及分類模型

傳統TF-IDF是一種加權的詞頻統計方法,用于表征文本中每個詞的重要程度,TF-IDF值越大,說明詞項攜帶的信息量越大,對于所在文本可認為此詞越關鍵。TF-IDF包含兩部分,即

tf-idf(i,j)=tf(i,j)×idf(i)

( 1 )

式中:tf為詞頻;tf(i,j)為文本j中第i個詞的詞頻;逆文檔頻率idf(i)表示經平滑處理后第i個詞的idf權值,即

( 2 )

其中,n為文本集中文本總數;df(i)為文本集中包含詞i的文本數。

傳統TF-IDF應用于短文本數據時,由于每條文本中詞匯出現頻次均較少,其詞頻特征接近于One-hot特征表示,并且忽略了特征詞在類別間的分布情況,對于短文本中高頻詞特征提取效果不佳。而軌道電路故障文本數據中,由于不同故障致因類型區別,類別特征的特征詞在相應類別中出現頻次較高。因此,提出一種改進的TF-IDF算法,考慮類別間特征詞分布情況,將tf表示為詞i在不同類別中的詞頻,結合idf權值,提升類別間關鍵詞特征提取效果,改進后TF-IDF表達式為

tf-idf(ik,Ck)={tf(ik,Ck):ik∈Ck}×idf(i)

( 3 )

式中:{tf(ik,Ck):ik∈Ck}為類別Ck中詞i的詞頻tf(ik,Ck);k為文本類別個數。

通過式( 3 )計算得到文本j的結構化向量表示,為提高泛化能力,對每一文本向量進行規范化,向量維度與文本總詞匯量m大小一致,得到最終文本的稀疏向量表示,即

( 4 )

式中:wj為文本j的向量表示;q為文本j中特征詞的個數。

以C2供電致因故障類別為例,經過改進TF-IDF算法得到某文本分詞后的各詞項權值如表2所示,可以得知文本中與C2類別特征相關的外電網、電源等特征詞權值均有所提升。

表2 故障文本特征提取

由于軌道電路故障文本中存在多詞一義問題,不僅需要人工維護專業詞典,而且經分詞后會造成詞袋總量增加。因此基于詞項級分詞結果進一步按字切分,減少因故障文本記錄不規范及多詞一義現象對特征提取的影響,降低文本表示后的特征向量維度。

故障文本表示及分類模型流程見圖3。SVM算法在文本分類任務中應用較為廣泛,基于結構風險最小理論構建一個超平面,根據間隔最大化準則使任何類之間最近的訓練數據點有最大的距離。軌道電路故障文本分類為多分類問題,為解決類別間數據不均衡問題,采用SMOTE算法對改進TF-IDF特征提取及向量表示的少數類故障文本向量進行自動生成,將均衡后的樣本數據輸入到SVM分類器模型中進行訓練,實現對故障文本致因類型自動分類。

圖3 故障文本表示及分類模型流程

2.3 基于Word2vec的故障文本聚類模型

由于軌道電路故障多樣性,不同故障致因類型中又包含多種故障影響因素,因此在2.1節故障文本分類處理基礎上,進一步選取與現場軌道電路設備維檢工作密切相關的C0及C1故障致因類型文本數據進行聚類分析,提取相應細粒度故障主題類型及故障致因。

因TF-IDF無法解釋文本詞匯間相似性[13],而隨著數據及詞匯量的增加,其文本向量維度也隨之增加,存在維度災難問題。Word2vec基于詞與詞之間的上下文關系,通過雙層淺神經網絡對大量文本語料庫的學習,將每個詞映射為向量表示,依據相似位置的詞具有相似含義的分布假設推斷詞的含義。由于詞向量維度可以通過訓練設定,相對于詞袋模型中的TF-IDF方法,Word2vec訓練得到的詞向量維度更低。因此,本文在文本聚類中采用基于Word2vec 的文本分布式表示方法來挖掘更多的文本特征信息。

Word2vec采用Skip-gram詞向量訓練模型,利用目標詞預測上下文詞,其訓練速度較慢但學習效果更好[14],其模型結構見圖4,圖4中的ω(i)表示第i個詞的向量表示。

圖4 Skip-gram網絡模型圖

以大量經過文本預處理的軌道電路故障文本作為語料庫,通過神經網絡學習隱含層中的權重系數,訓練出每個詞的詞向量表示。將每條文本j中所有詞的平均詞向量vj作為此條文本向量表示,即

( 5 )

式中:ωij為經過訓練后文本j中第i個詞的詞向量。

聚類模型中K-means算法是一種典型的基于距離的聚類算法,在處理大規模數據時快速且高效。采用歐式距離[15]作為故障文本向量距離dist(X,Y)。

( 6 )

式中:X,Y為廣義上兩個多維向量(x1x2x3…xn),(y1y2y3…yn),此處X,Y表示兩個128維的文本向量,即n=128。

由于故障類型數K不確定,本文采用輪廓系數評估聚類效果并確定最優K值。輪廓系數[7]綜合考慮了聚類的緊密性和分離程度,輪廓系數值處于[-1,1]之間,值越接近1表示聚類效果越好,計算式為

( 7 )

對聚類結果中每一類故障文本數據統計分析,基于提取的關鍵詞信息歸納細粒度故障主題類型描述,同時根據專家人工標記的類別信息評估聚類方法有效性,對每一故障主題類型中故障原因詞項進行詞頻統計及排序,獲取每種故障主題類型中的多發性故障致因。并根據故障主題類型占比及故障致因的頻次排序,將故障占比高的故障主題類型及多發性故障致因作為輔助軌道電路維護及故障分析的有效信息,作為現場檢修及維護工作中的檢查重點,采取相應預防措施,提高軌道電路工作穩定性。

3 實驗分析

實驗數據選取某鐵路局集團有限公司2015—2018年軌道電路故障文本,去除文本字符長度過少的故障文本記錄,共計1 988條,各類別樣本分布如表3所示。實驗模型采用Python3.6語言及Scikit-learn庫實現。

表3 軌道電路故障類別分布情況

由表3可知軌道電路故障文本數據長度較短,屬于短文本數據,且各故障類型數據不均衡,大類別故障數據反映出軌道電路故障的主要致因來源。

3.1 故障文本分類實驗

選取傳統TF-IDF和改進TF-IDF文本特征提取方法,分別基于原始文本數據及經SMOTE算法生成的數據,通過SVM分類器模型進行實驗分析,并對不同分詞級別模式下的分類模型效果進行實驗分析。在故障文本分類實驗中,從隨機打亂的樣本數據中選取75%作為訓練集,25%作為測試集。

3.1.1 評價指標

對于多分類問題,常采用混淆矩陣評估每個類別的分類效果,矩陣中每行表示樣本真實類別,每列表示樣本預測類別,從而表示出真實類別被正確分類及錯誤劃分到其他類別的樣本數量。因原始文本數據存在不均衡特征,本文采用精確率Precision、召回率Recall及F1值作為故障文本分類模型的評估指標,計算式分別為

( 8 )

( 9 )

(10)

式中:TPi為類別之真實正類被預測為正類的個數;FPi為類別之真實負類被預測為正類的個數;FNi為類別之真實正類被預測為負類的個數;Pi、Ri及F1i分別為類別i的精確率、召回率及F1值;K為類別總數,此處K取值為6。

3.1.2 故障文本數據均衡處理分類實驗

為檢驗本文引入SMOTE算法對軌道電路故障文本分類效果,選取傳統TF-IDF算法分別對故障文本數據均衡處理前后進行SVM故障文本分類對比實驗,圖5和圖6為兩種分類模型混淆矩陣。

圖5 TF-IDF+SVM分類模型混淆矩陣

圖6 TF-IDF+SMOTE+SVM分類模型混淆矩陣

由圖5及圖6可以看出,分類模型傾向于將少數類別C3及C4樣本預測為多數類別,經過SMOTE處理后少數類別C3及C4樣本被正確分類的比率得到大幅提升,驗證了文中引入SMOTE算法處理不均衡樣本數據的有效性。

3.1.3 基于改進TF-IDF算法的分類實驗

為進一步驗證提出的改進TF-IDF算法在軌道電路故障文本分類中的有效性,將其與傳統TF-IDF及Word2vec兩種文本特征提取表示方法進行對比實驗,分析不同文本特征提取表示方法對于故障文本分類效果的影響。

圖7為不同特征提取算法下的軌道電路故障文本分類F1值,其中Word2vec文本向量維度設定為128維,訓練參數窗口長度為8。為實現同等條件下對比分析,采用奇異值分解(Singular Value Decomposition,SVD)算法分別對傳統TF-IDF及改進TF-IDF文本特征表示向量降維至128維。由圖7可知,在軌道電路故障短文本分類問題中,同一SVM分類器條件下,改進TF-IDF文本特征提取后分類效果優于傳統TF-IDF及Word2vec,說明改進TF-IDF算法對不同故障致因類型文本特征提取效果最優;從整體上看,基于改進TF-IDF+SMOTE算法的分類模型對不同故障致因類型文本數據分類效果比其他組合模型更優。

圖7 三種文本特征下的軌道電路故障文本分類F1值

3.1.4 不同分詞模式下分類模型實驗

為分析不同分詞模式對故障文本分類模型的影響,本文在詞項級和字符級對Word2vec、傳統TF-IDF及改進TF-IDF三種文本特征提取表示方法及經SMOTE處理后的三種方法分別在SVM分類器下進行實驗分析,其中為驗證專業詞庫對故障文本分類的影響,選取未使用專業詞庫分詞處理的傳統TF-IDF+SMOTE及改進TF-IDF+SMOTE方法作對比分析。此外,采用文獻[5-6]中的文本分類模型方法進行對比實驗,其中文獻[5]在詞項級對TF-IDF文本表示向量進行歸一化及SVM-SMOTE均衡化處理,采用Voting多分類器集成學習算法,其最優分類器組合模型為Multinomial NB+Random Forest+SVM,需說明的是該方法未對TF-IDF文本表示向量進行降維處理,因此本文在兩種分詞模式下采用該集成學習方法僅對文本特征表示向量進行歸一化處理,而文本表示向量維度與詞袋總量一致;文獻[6]在詞項級采用Word2vec+MCNN文本分類模型,在卷積神經網絡池化層采用兩個最大池化及平均池化的混合池化方法。

將Precision、Recall、F1及運行時間Time作為評估指標,不同分詞模式下故障文本分類模型的分類性能對比如表4所示,實驗結果取10次實驗平均值。

由表4可知,字符級分詞模式下,各分類方法分類效果相比詞項級分詞模式均有提升,改進TF-IDF+SMOTE+SVM方法在三個指標上均優于其他方法模型,說明在降維前字符級分詞模式下故障文本特征表示向量維度縮減有利于分類性能的提升。

表4 不同分詞模式下軌道電路故障文本分類結果

詞項級分詞模式下,文獻[5]方法與本文采用改進TF-IDF+SMOTE方法的分類效果接近,但由于文獻[5]方法未經過降維處理,當詞袋總量隨文本數據量增加時,詞向量維度增大導致分類模型運算時間增加,而本文方法文本表示向量經降維處理后維度更低,在文本分類模型計算過程中保證較高精確率的前提下速度更快。對比三種基于Word2vec向量表示的分類模型,在兩種分詞模式下文本分類效果均低于本文方法,其效果依賴于語料庫訓練的Word2vec模型質量且易受類別間數據不均衡影響,表明在軌道電路故障文本分類問題中,詞項統計特征較語義特征在分類模型中表現更優。

專業詞庫的應用可以實現專業詞匯準確切分,減少噪聲詞項的產生,表4在兩種分詞模式下,使用專業詞庫的分類模型效果較未使用專業詞庫有較明顯的提升。而字符級分詞模式下,由于字符級分詞本質上以字為基本單位,最終均以字符切分,受專業詞庫的影響較小,因此對于分類模型效果影響較小。

3.2 基于Word2vec故障文本主題聚類實驗

選取與現場檢修維護工作密切相關的故障致因類別C0及C1故障文本數據,進一步聚類挖掘細粒度故障主題類型及故障致因。為獲取故障文本語義特征,采用Word2vec訓練得到故障文本向量表示,訓練參數如上節設定。通過式( 7 )對類別C0、C1分別計算輪廓系數與聚類數目K的關系以確定最優聚類個數,見圖8。分別選取輪廓系數最大值時的聚類數目K0=5和K1=4,作為類別C0及C1的最優聚類個數,采用K-means聚類算法進行故障文本聚類。

圖8 不同K值下輪廓系數

針對聚類結果中每一類故障文本數據,采用改進TF-IDF算法進行關鍵詞提取并排序,依據權重值由高到低排序的特征詞歸納故障主題類型描述。結合最優K值由專家對故障文本類別信息進行人工標注,采用準確率(Acc)[16]作為細粒度故障主題類型聚類結果的評估標準。表5列舉出C0及C1聚類結果中故障主題類型的所占比例以及準確率,通過10次聚類實驗計算其平均值。

表5 C0和C1故障致因類別下的故障主題及準確率 /%

由表5可知,基于Word2vec文本表示的兩種致因類型故障文本主題聚類性能較好。聚類結果具有不平衡特征,其中電務致因C0類型器材不良相關故障主題類型占比最高,工務致因C1類型鋼軌絕緣處相關故障主題類型占比最高,可作為電務及工務部門故障分析及維護檢修工作的重點方向。通過對聚類后故障文本數據分析發現,由于軌道電路故障文本記錄中對器材不良相關故障主題類型描述方式相近,基于Word2vec語義特征提取后,導致器材不良故障主題類型相似文本數據被聚類為同一簇,而聚類結果中仍包含了多種不同故障致因。

為進一步獲取細粒度故障致因,將聚類得到的故障主題類型作為一級故障主題類型,采用詞頻統計方法,分別統計排序各故障主題類型文本中的故障原因詞項,作為二級故障致因并過濾其他類型詞項。詞頻信息可表征各故障主題類別中二級故障致因的發生概率,這些信息可以突出現場軌道電路運行過程中的潛在風險及可能的故障致因,可指導現場維護人員進行故障分析及預防,避免遺漏潛在故障風險因素,如故障器件及故障區域。表6中列出了C0及C1部分二級故障致因及其詞頻。

表6 不同故障主題下二級故障因素(部分)

由表6可知,通過對軌道電路不同故障主題類型進一步統計分析,得到了電務及工務致因類型下的細粒度故障致因。如器材不良相關故障類型中,最容易導致軌道電路故障的是接收盒;鋼軌絕緣處相關故障類型中,鐵屑是最可能影響軌道電路故障的致因。在軌道電路現場運行維護中應將它們作為重點關注對象,有利于現場維護人員掌握軌道電路在運行過程中的薄弱點,并在日常檢修工作中將其作為重點檢查對象,可提高維護作業質量;輔助現場人員制定預防性維護措施,消除潛在風險減少故障發生,提高軌道電路工作穩定性。

3.3 實驗結果分析

(1)針對軌道電路故障文本數據不均衡問題,經SMOTE算法對樣本數據均衡處理后,分類模型對小類別故障文本數據分類效果有較高提升,有利于分類模型對小類別樣本數據的識別。

(2)基于軌道電路故障文本數據量及數據特點,在故障文本分類問題中,改進TF-IDF文本特征表示方法優于傳統TF-IDF及Word2vec;改進TF-IDF算法對于不同故障類別中具有類別特征的高頻詞有較好的提取效果,結合數據均衡處理提升了故障文本分類模型效果。

(3)針對故障文本敘述不規范以及分詞處理問題,雖然詞項級分詞更有利于人們直觀理解,但采用字符級分詞模式,不僅有利于減少對專業詞典的人工維護,也有利于解決多詞一義現象造成分詞后特征向量維度增加問題。本文結合詞項級和字符級分詞獲得總詞頻特征,不涉及語義及詞序特征,因此在故障文本分類時不受人工記錄的語法結構和語序表述的影響。

(4)由聚類結果可知,基于Word2vec的文本表示對相似詞匯以及故障文本語義特征有較好的學習效果,對于同義詞及相似語義文本識別效果較好。以最優K值實現聚類能夠得到各軌道電路故障致因類別下的故障主題類型及發生比例,進一步依據詞頻特征統計分析,可獲取每種故障主題類型中的易發高發性故障致因。但受故障文本記錄時專業用詞不規范化和筆誤影響,可導致故障致因的提取存在一定誤差。因此,現場工作人員應盡可能按鐵路專業術語或縮略詞進行記錄,減少筆誤,保證故障文本記錄的規范度便于挖掘利用。

4 結論

提出一種軌道電路細粒度故障致因文本挖掘分析方法,基于改進TF-IDF實現故障文本向量表示,采用SVM算法實現SMOTE均衡后的不同故障致因類型文本數據自動分類;針對電務及工務致因故障類型文本數據,基于Word2vec實現文本向量表示,采用K-means算法進一步聚類挖掘分析,提取關鍵詞歸納細粒度故障主題類型,并通過詞頻統計獲取易發多發性二級故障致因。通過對某鐵路局集團有限公司軌道電路故障文本記錄實驗,驗證了故障文本分類模型的有效性及準確性;故障文本聚類實現了軌道電路故障類型的進一步細分挖掘,不同故障主題類型間具有較高區分度,借助文本挖掘分析方法,為現場細粒度統計分析軌道電路故障致因及制定預防性維護措施提供了新思路。

猜你喜歡
分類文本故障
分類算一算
故障一點通
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
奔馳R320車ABS、ESP故障燈異常點亮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
故障一點通
主站蜘蛛池模板: 久久婷婷国产综合尤物精品| 日韩av电影一区二区三区四区| 国产成人精品亚洲77美色| 久青草网站| 欧美日韩免费| 亚洲男人的天堂视频| 国产成人免费手机在线观看视频| 日本中文字幕久久网站| 在线精品亚洲一区二区古装| 国产午夜无码片在线观看网站| 2021精品国产自在现线看| 亚洲伊人久久精品影院| 18禁高潮出水呻吟娇喘蜜芽| 日本欧美视频在线观看| 亚洲欧美日韩色图| 国产一级视频久久| 精品国产一二三区| 色婷婷天天综合在线| 伊人久久大香线蕉成人综合网| 欧美国产精品不卡在线观看| 色婷婷成人| 日韩在线观看网站| 国产精品极品美女自在线看免费一区二区| 亚洲国产中文欧美在线人成大黄瓜| 国产福利小视频在线播放观看| 热伊人99re久久精品最新地| 毛片在线看网站| 91最新精品视频发布页| 精品少妇人妻av无码久久 | 国产精品亚洲一区二区三区在线观看| 亚洲动漫h| 国产美女91视频| 国产日韩欧美一区二区三区在线 | 九九九精品视频| 国产毛片不卡| 国产激情影院| 国产91视频观看| 日本一区二区三区精品国产| 免费在线看黄网址| 在线播放真实国产乱子伦| 国产在线第二页| 精品无码专区亚洲| 干中文字幕| 成人免费午间影院在线观看| 久久久久人妻一区精品| 91偷拍一区| 欧美不卡二区| 九九九久久国产精品| 久久狠狠色噜噜狠狠狠狠97视色| 国内精品久久人妻无码大片高| 拍国产真实乱人偷精品| 久久人与动人物A级毛片| 亚洲资源在线视频| 中文字幕在线免费看| 中字无码av在线电影| 亚洲A∨无码精品午夜在线观看| 性色在线视频精品| 青青热久麻豆精品视频在线观看| 最新亚洲av女人的天堂| 國產尤物AV尤物在線觀看| 第一页亚洲| 国内嫩模私拍精品视频| 国产亚洲精品自在久久不卡| 手机看片1024久久精品你懂的| 国产91丝袜在线播放动漫| 亚洲精品无码不卡在线播放| 亚洲日韩国产精品无码专区| 国产真实二区一区在线亚洲 | 久久国产V一级毛多内射| 国产亚洲精品无码专| 亚洲精品国产综合99| 香蕉视频在线观看www| 国产精品天干天干在线观看| 国产在线日本| 久久久波多野结衣av一区二区| 99视频免费观看| 国产国语一级毛片在线视频| 精品视频福利| 国产成人艳妇AA视频在线| 亚洲精品欧美日韩在线| 亚洲不卡影院| 深夜福利视频一区二区|