田世潤
基于文本數據挖掘的復式交分道岔設備故障事件分析
田世潤
(蘭州交通大學,甘肅 蘭州 730070)
分析復式交分道岔設備記錄的大量文本數據,需要消耗大量的人力資源,可采用NLPIR軟件進行特征詞提取并結合現場專家意見對特征詞進行篩選和分類,生成復式交分道岔的故障特征詞。通過對特征詞的出現頻率和性質分析,梳理得到可能導致復式交分道岔發(fā)生故障的部位。
文本數據挖掘;復式交分道岔;TF-IDF模型;文本特征詞庫
復式交分道岔是道岔系統(tǒng)中記錄文本故障數據最多、結構最為復雜的道岔類型。
目前中國鐵路故障數據分為實時監(jiān)控數據和施工現場記錄的文本數據,實時監(jiān)控數據多數可以直接被計算機識別和運算,文本數據由于較多為人工記錄的故障數據,因此被計算機識別起來較為困難。對文本數據中記錄的故障類型和故障致因進行梳理,在系統(tǒng)故障診斷和可靠性分析過程中能夠起到不可忽視的作用。人工對文本數據處理常常會消耗大量的時間和精力,并且存在較大的誤差。
文獻[1]對高鐵車載設備故障追蹤表用主題模型進行了特征提取和分析,同時結合專家知識和動車組設備特點對車載設備進行故障診斷。文獻[2]分別采用卡方檢驗和樸素貝葉斯作為提取文本降維和分類方法,對鐵路安全管理信息報告進行文本挖掘。文獻[3]對鐵路信號設備不平衡故障文本數據基于TF-IDF模型進行了文本故障特征提取,并轉換為向量,通過Voting方式進行多分類器集成學習。文獻[4]對文本挖掘技術方法和發(fā)展歷史進行了詳細介紹?,F階段對道岔文本數據的挖掘研究尚不成熟,尤其是對道岔文本數據中文本特征詞庫的建立極其匱乏,難以對文本數據快速處理分析。
本文提出一種通過NLPIR軟件對復式交分道岔的文本數據進行提取的方法。
目前中國道岔記錄方法方式主要是依據《行車設備(施工、檢查)登記簿》進行故障登銷,人工對故障進行登記過程中存在以下幾個問題。
由于現場有大量的值班人員,每次故障記錄時的值班人員可能都不一樣,不同的工作人員在記錄過程中對術語的表達存在不同程度的差異。因此,在文本數據中存在大量的簡寫和縮寫,例如道岔“卡缺口”常記為“卡口”,“道岔”常縮寫為“岔”。
不同的值班人員對道岔故障的嚴重程度和道岔故障診斷程度存在著很大的差異,有些工作人員對道岔記錄得非常詳細,如“室內值班員xxx16:44接車務通知,調看微機發(fā)現6034/6038#道岔(ZD6復式交分道岔)反位向定位轉換6036#道岔定位無表示,16:45通知現場工區(qū)值班員xxx,及車間值班調度xx,現場工區(qū)值班員xx、防護員xx16:55到達現場,對設備進行檢查發(fā)現6036#道岔因定位尖端桿銷子曠動尖軌翹頭(04-05已通知單通知工務)造成定位卡口,調整后17:06分處理完畢扳動試驗良好。室內值班員xx17:45分接車務通知,調看微機發(fā)現6034/6038#道岔(ZD6復式交分道岔)反位向定位轉換6036#道岔定位無表示, 17:46分通知現場工區(qū)值班員xxx及車間值班調度xx,現場工區(qū)值班員xx、防護員xx17:55分到達現場,對設備進行檢查發(fā)現6036#道岔因定位尖端桿銷子曠動尖軌翹頭(04-05已通知單通知工務)造成定位卡口,調整后18:20分處理完畢扳動試驗良好?!?/p>
有些值班員對道岔故障記錄非常簡單,如“4022/4026#定位向反位轉換,4026#反位空轉,車務扳動后,反位表示正常。下一天窗點檢查處理?!蔽谋酒牟町悓е氯斯ぬ崛〉啦淼墓收现乱蜃兊檬謴碗s。
文本數據中存在很多與道岔無關信息,如“車務板一個來回后恢復,下一個天窗整治。值班員xxx9:24接車務通知,調看微機發(fā)現218/224#(ZD6復式交分)道岔反位向定位轉換222#定位無表示,9:26通知現場xxx及車間調度xx,現場值班員xx、防護員xx9:32到達現場對設備進行檢查發(fā)現,尖軌爬行造成222#定位卡口,調整后9:55處理完畢,扳動試驗良好。02-04已下發(fā)通知書。9:35車間干部xxx到現場落實處理情況?!庇杏眯畔⒅挥小凹廛壟佬袑е驴ㄈ笨诒硎尽边@部分有用。
文本挖掘技術是一門涉及統(tǒng)計學、自然語言學、機器學習等多個領域的知識。
利用NLPIR軟件對文本數據進行處理的主要步驟為:①對所有需要研究的文本進行預處理,除去文本中一些沒有意義的詞例如“道岔型號”“記錄員信息”“數據”和一些沒有意義的虛詞,這樣就可以將文本數據轉化成由簡單詞語組成的文本數據。②提取文本中的特征詞可能會出現維數過大的現象,應對特征詞進行降維處理。提取出只顯示復式交分道岔故障致因相關的特征詞。③計算每個文本中的特征詞的含量并對其進行分析和處理。④計算出各個特征詞出現的頻率和次數,結合專家意見對特征詞所對應的故障類別進行分析。
NLPIR-ICTCLAS是一款大數據語義智能分析平臺,針對大數據內容處理的需要,融合了網絡精準采集、自然語言理解、文本挖掘等技術。開發(fā)平臺由多個中間組件組成,各個中間件API可以無縫地融合到客戶的各類復雜應用系統(tǒng)中,可以實現信息精準采集、文檔轉換、新詞發(fā)現、批量分詞等功能。
對預處理的文本故障數據進行預處理,將“道岔型號”“值班員信息”等干擾信息消除,只留下可以描述道岔故障的關鍵性詞語,如表1所示。
表1 復式交分道岔空轉故障部分文本數據預處理結果
空轉表示桿連接銷子錯位 空轉表示桿連接銷子錯位 空轉表示桿連接部受到沖擊 空轉表示桿受雜物干擾 空轉表示桿錯位 空轉表示桿蹭枕木 空轉表示桿碰水泥枕尖軌爬行 空轉表示桿銷子碰軌底 空轉表示桿移動受阻夾雜物 空轉表示桿移動受阻碰枕木 空轉岔根根部螺絲太緊 空轉齒條塊削尖齒缺油 空轉道岔根部夾雜物
然后用NLPIR軟件進行分詞處理,以復式交分道岔空轉部分處理結果為例,分詞結果如表2所示。
表2 部分文本數據分詞結果
復式交分道岔空轉故障部分文本數據分詞結果 滑床板 缺油 尖軌 翹頭 滑床板 磨損嚴重 尖軌和基本軌 夾雜物 尖軌和基本軌 夾雜物 尖軌和基本軌 夾雜物 尖軌和基本軌 夾雜物 尖軌和基本軌 夾雜物 尖軌和基本軌 夾雜物 基本軌 夾雜物 尖軌與滑床板 夾雜物 基本軌 肥變大 基本軌
3.2.1 特征詞提取
在NLPIR軟件中進行特征詞的提取,對其中“數字”進行刪減,同時對特征詞中表達相同意思的特征詞進行合并,最后得到56個特征值,其結果如表3所示。
表3 特征詞提取結果
1234567 1工務操作螺絲原因螺栓故障電流改道 2基本軌移動生銹運動移位水平爬行 3滑床板作業(yè)搬動壓力打磨摩擦電流尖軌 4缺油動作枕木天氣折斷尖端桿雜物 5軌距固定墊板啟動結冰磨耗改軌距 6連接桿受阻接點螺絲松動木頭根部卡阻 7竄動摩擦空轉肥邊絕緣螺栓脫落磨損 8表示桿斷裂銷子軌撐道岔錯位角鋼
3.2.2 特征詞在文本數據中的分析結果
以篩選得到的特征詞,作為一個特征矩陣,生成的文件在NLPIR中被引用,對處理過的復式交分道岔的文本故障數據進行分析,得到特征詞,通過NLPIR軟件進行分析處理,在文本數據中所出現的頻率和權重結果如圖1所示。

3.2.3 對特征詞出現頻率進行分析
可以看出,可能引起復式交分道岔空轉的故障類型有滑床板故障、基本軌故障、連接桿故障、表示桿故障、尖端桿故障等。
空轉的故障原因有工務原因、結冰、天氣、缺油、移動受阻等。在所有導致空轉故障中,尖軌和基本軌所占比例較大,故障致因中雜物所導致故障發(fā)生的概率最高。
本文以復式交分道岔空轉故障為例,通過對文本數據進行預處理,采用NLPIR軟件對處理后的文本進行分詞處理并提取特征詞,運用NLPIR軟件對文本數據進行特征詞分析,得出特征詞在文本數據中出現的頻率和權重。雖然不能對所有導致故障發(fā)生的原因和導致故障發(fā)生的部位進行預測,但是可以為后續(xù)故障診斷和可靠性分析等后續(xù)研究方案提供現實依據。
[1]張磊,王喆.基于鐵路安全管理信息報告的文本挖掘技術研究[J].鐵路計算機應用,2018,27(8):9-12.
[2]楊連報,李平,薛蕊,等.基于不平衡文本數據挖掘的鐵路信號設備故障智能分類[J].鐵道學報,2018,40(2):59-66.
[3]趙陽,徐田華.基于文本挖掘的高鐵信號系統(tǒng)車載設備故障診斷[J].鐵道學報,2015,37(8):53-59.
[4]梅馨,邢桂芬.文本挖掘技術綜述[J].江蘇大學學報(自然科學版),2003(5):72-76.
D923.41
A
10.15913/j.cnki.kjycx.2020.02.024
2095-6835(2020)02-0074-02
〔編輯:張思楠〕