韋 偉 鄭 楊 袁嘉梁 李亮亮 續程宇
(安徽工業大學管理科學與工程學院,安徽 馬鞍山 243002)
傳統軌道交通設備故障主要依靠人工巡檢和排查,效率低下且易漏檢。另外,一些先進企業引入了很多先進、高精密的檢修系統,隨著長期使用,積累存儲了大量設備故障資料,在設備檢修維護過程中進行復用、查詢極為不便。因此,如何保證更快速、高效地對軌道交通設備故障進行排查診斷等,已成為軌道交通運營管理研究領域中的熱點問題。
該文針對積累存儲的設備故障數據,利用知識抽取、知識融合等技術構建知識圖譜模型[1],研發了一種基于軌道交通設備故障知識圖譜的智能搜索應用。對用戶輸入的詞條自動抽取知識圖譜中的故障實體節點,生成連續式返回結果。保證更快速、高效地進行部位排查、預防解決等,使大量多源異構數據的關聯與復用充分發揮價值,提高檢修人員工作效率。
該文面向多數據源軌道交通設備故障知識庫,包括故障報告、巡檢日志等,通過數據預處理使其變為結構化數據形式,再利用數據分析技術構建故障實體屬性及關系模型,通過知識抽取、知識融合等構建故障知識圖譜,建立知識存儲與圖譜智能搜索應用。
首先,采用遠監督方法對故障數據進行分析處理,可以從大規模的未標記數據中自動抽取關鍵信息。定義故障實體節點及屬性值,包括故障設備、故障原因等,明確實體之間的關系,基于三元組規則抽取故障知識實體、關系及屬性,實現故障知識抽取,提高知識圖譜的質量和準確性。其次,從實體節點和故障處理2 個維度考慮,構建知識圖譜模式層,將知識分解成各種主題類別,滿足設備故障快速定位、故障診斷及維修建議智能推薦等關鍵應用場景。結合相似度匹配進行實體對齊,減少實體冗余和錯誤,實現知識圖譜構建過程中的知識融合。最后,利用知識圖譜智能搜索引擎為用戶提供直觀的故障分析、預測和決策支持,提高軌道交通設備故障處理效率、準確性和智能化水平。
由于結構化與半結構化的故障數據格式與內容已知,相關屬性值識別后可直接通過三元組規則進行抽取,而非結構化數據文本需要基于句法特征進行命名標注,因此將數據結構統一后進行三元組映射。
首先,對非結構化原始數據進行預處理,如文本清洗、分詞和詞性標注等,便于后續實體識別和關系抽取操作[2]。其次,利用命名實體識別技術識別文本中的實體,包括故障設備、故障現象等,再提取實體間的相互關系,如設備和部件的依賴關系、故障現象與原因之間的相互作用關系等。此外,通過實體對齊技術對不同文本源中同一實體進行對齊,確保知識圖譜中實體元素的一致性和準確性。最后,將提取的實體信息與關系元素組合成三元組的形式構建知識圖譜。同時,通過機器學習的方法不斷完善和優化知識圖譜模型,包括補充和維護實體、屬性及關系信息等,以增強知識抽取模型的準確性和泛化能力,使其成為軌道交通設備故障診斷和預測的重要工具。
2.2.1 基于BERT-BiLSTM-CRF 的實體識別標注
傳統的BiLSTM-CRF 是一種常用的基于深度學習的方法,存在多語句長文本,會導致上、下文語句中命名實體識別不一致。因此引入BERT 語言訓練機制,利用BERT 字向量嵌入層將其拆解、轉化為向量進行表示,并作為BiLSTM 網絡的輸入,可較好地解決上述問題[3]。
另外,BERT 模型采用了Transformer 對文本數據編碼,使用自注意力機制和全連接層來建模,基于Embedding Transformer Encoder 進行特征抽取。其中,自注意力機制通過每個字符與序列之間的相互關系計算調整其重要性權重,快速捕捉序列中的上、下文信息,學習到文本中的長距離依賴關系,并且忽略長文本給模型帶來的影響。建立的目標函數如公式(1)所示。

將文本信息歸為2 類,一類是基于CRF 層輸出的目標實體標簽序列,由B 和I 組成,另一類由O 表示,即結束位置,輸出“B-value I-value O...”作為最終的標注輸出。
2.2.2 模型對比評價
為了比較二者的不同,選用ROC(Receiver Operating Characteristic Curve)指標進行評估,建立混淆矩陣,計算不同的TPR值和FPR值,繪制ROC 曲線[4]。隨機選出1850 項故障實體信息作為樣本數據集,通過改變不同的分類閾值,繪制ROC 曲線模型圖來評估二者的應用性能,得到的對比結果如圖1所示。
由圖1 可知,引入后AUC值為73%,30%~60%內的曲線上升更明顯。結果證明,引入的BERT 機制處理自然語言文本時,具有更好的語義理解和特征提取能力,因此可更好地結合BIO 法進行故障實體標注,更具有價值性和借鑒性。標注示例見表1。

表1 實體標注示例(部分)
模式層構建的方法分為自頂向下和自底向上2 種。將二者結合,前期采用自頂向下的方式,以故障實體節點為出發點,結合故障設備所處狀態,確定故障現象、原因等實體節點及關系屬性。
然后以故障處理為目標,采用自底向上的方式進行意圖分析,將故障檢查和解決處理等主題特征融合到知識圖譜中的實體節點中,通過實體節點和故障處理2 個維度的雙向融合,形成一個動態的閉環處理流程[5]。
在知識融合過程中,實體對齊是一個重要的步驟,通常應用余弦相似度算法,但一個實體向量是長文本稀疏向量,其結果可能會不準確,并導致實體冗余或錯誤。
該文基于傳統的CSA 算法,定義重疊比例,解決向量維度為零的問題,并通過相似度函數對字詞或短語進行語義分析,進而可更準確地衡量2 個長文本之間的相似性。從而提供了一個更全面、更精確的度量方法,可更快速、有效地對大規模數據集進行實體對齊,如公式(2)所示。
式中:字符串xi向量為(x1,x2,...,xn),yi向量為(y1,y2,...,yn),|xi∩yi|為相似字符的個數,min(|xi|,|yi|)為2 個中字符串長度最小值。
在NLP 中,上述過程并不能完全說明文本之間的相似性,因此在其基礎上加入歸一化語義相似度(NSS)的計算,可較大程度上解決多短語語義的問題,如公式(3)所示。
式中:x、y為由字符xi、yi或短語a、b組成的長文本;sim(a,b)為基于公式(2)計算a、b之間的相似度;w為權重系數;c為平滑因子,用于解決分母為0 的影響;N為語料庫的短語總數;min(|x|,|y|)為短語數量的最小值。
基于Top-k 匹配方法驗證改進后的方法更具有完備高效性,計算其算法返回前k個匹配結果中的冗余率(Redundancy)、準確率(Accurate),即對齊后存在重復實體及與正確實體對應的比例,如公式(4)所示。
式中:nk為前k個匹配結果中的實體數;m為去除重復實體后的實體數;h為正確匹配實體的數量。
隨機選擇設備實體類的前1850 個匹配結果,匯總計算結果見表2。

圖1 對比結果

表2 實體對齊(部分)
一方面,計算字符序列的相似性考慮了字符串長度的影響,另一方面,通過計算多短語之間的語義相似度,評估長文本相似度。結果顯示,改進后對齊準確率可達93%以上,可進行更精確的匹配對齊。
利用束搜索算法縮小搜索空間,達到自動識別上一搜索實體節點并將其作為主題的效果,實現維修建議的多段式一次性輸出,解決傳統需要重復輸入并進行多次識別的問題。定義初始搜索狀態為S0,包括搜索深度d、束寬k和初始搜索路徑P0,如公式(5)所示。
式中:S0為初始搜索狀態集合;P0為初始搜索路徑;d為搜索深度;k為束寬,即搜索狀態集合St中的路徑數量。
在搜索過程中,為自動記憶上一次搜索實體并將其作為當前的主題信息,會在束寬為k、搜索深度為d的搜索路徑中選擇評估分數最高的進行擴展,并將其添加到搜索狀態集合St+1中,如公式(6)所示。
式中:BeamSearch(St,k,d)為在搜索狀態集合St中選擇k條搜索深度為d且評估分數最高的搜索路徑。
定義如公式(7)所示的得分評估函數。
式中:Score(Pt)根據搜索路徑的質量指標計算,包括搜索路徑的概率或效用等;et為當前搜索路徑Pt的實體;et-1為上一次搜索的實體,初始時為空;AssociationScore(et,et-1)根據et與et-1之間的相似性計算關聯評分;w為權重系數。
記錄每個擴展狀態St+1對應的實體,同時將上一次搜索的實體et-1更新為當前狀態對應的實體。在束搜索循環結束后,根據公式(8),從擴展狀態集合中選擇得分最高的狀態S'=(ps,es,ks,ds),并記錄該狀態下對應的實體es,將其作為下一次無主題詞條的實體嵌入,如公式(8)所示。
式中:argmax 為狀態集合St+1中得分最高的狀態;f(ps)為對搜索路徑pt進行進一步評估的函數。
由于一個較長詞條中S'會遍歷很多的實體候選輸出序列,因此需要加置懲罰系數來彌補長序列輸出的冗余,根據公式(9)計算出預測序列排序得分,將得分最高的實體序列作為最終記憶實體輸出并抽取檢索。
式中:L為最終候選序列的長度;α通常設置為0.75;Lα為懲罰長序列系數。
使用Cypher 語句對Neo4j 圖數據庫進行查詢,例如某一設備的故障原因(fault_cause)查詢語句為“MATCH(m:Fault)where m.name='{0}'return m.name.cause.”。利用NLP 技術將其轉化為自然語言,直接輸入“下極限報警原因”。通過上述算法步驟,記憶并輸出最終預測序列,根據信息類型和內部結構驅動,既可連續式追加查詢,也可針對處理解決、預防措施等維修建議進行一次性推薦輸出。
借助精確率、召回率及F1值評價整體應用性能,選取了1850 條故障信息詞條與6 類設備故障主題特征作為測試數據集,以統計應用性能的各個評價指標值。經迭代,第154次的結果最優,得到的評估結果如圖2所示。

圖2 評估結果
由圖2 可知,F1均值為90.89%,處于較高水平,說明構建的故障知識圖譜應用性與主題先驗性較高,可為用戶提供高效的服務,算法應用與語義搜索效果良好。
綜合結果,改進后的CSA 算法實體匹配效率至少提升了20%,整體綜合應用評價均值達到了90.89%。充分說明構建的設備故障知識圖譜應用性與主題先驗性較高,可高效實現故障診斷與維修建議的智能化推薦,提高設備維護效率,為軌道交通“智慧化巡檢”的建設奠定了基礎。