基于頻繁模式挖掘的接觸網故障關聯規則推薦模型

2021-05-10 07:41:20宇占軍

電氣化鐵道 2021年2期

宇占軍

0 引言

近年來，我國電氣化鐵路飛速發展，成為支撐國民經濟的重要基礎，為民眾日常出行提供了便利。截至2019年年底，我國鐵路營業里程已達13.9萬公里[1]。接觸網作為電氣化鐵路牽引供電系統的重要組成部分，是電力機車的動力來源，其服役安全是保障鐵路高效運行的關鍵[2]。然而，接觸網是一種沿路軌架設的特殊供電線路，無備用且結構復雜，工作環境惡劣[3]，隨著服役時間的增加，接觸網性能勢必逐漸退化，發生故障的可能性逐漸提高。因此，如何有針對性地對接觸網進行維修是目前亟需解決的問題。

在接觸網系統中，故障之間并不是完全互相獨立的隨機事件，其通常存在著關聯性，即一個故障的發生往往會誘發另一個故障。隨著檢測監測與診斷評估技術的不斷提升，各鐵路局建立的接觸網故障數據庫中積累了大量的相關數據，其包含了由6C系統檢測到的故障和人工定期巡檢得到的數據，這為從數據挖掘角度進行相關研究提供了較好的數據支持。

頻繁模式挖掘（Frequent Itemset Mining，FIM）是關聯分析技術的一種，其通過挖掘數據庫中頻繁出現的模式，進而探究模式之間的關聯性。FIM技術最早由Agrawal R.于1993年提出[4]，目前已廣泛應用于醫療、工業、交通等領域[5～7]。其核心是通過掃描數據庫生成潛在的候選模式，并根據設定的閾值驗證其最終是否頻繁。其中，向下封閉原則[8]（Downward Closure Property）對某些模式進行了預篩選，減少了需要驗證模式的數量，從而提升算法效率。

目前，已經有學者將頻繁模式挖掘應用于接觸網故障數據分析，并得到了一些實用的關聯規則。文獻[9]根據逐條記錄的接觸網故障數據結構以及數據上存在的稀疏性提出了多維信息分類模型，實現了對故障數據的有效聚類，完成了條目數據結構向事務型數據庫（Transaction Database）的轉變。但由于其在時間維度上對數據的劃分僅依據自然年月，會破壞某些數據間的內在聯系，從而使得到的關聯規則失去作用。文獻[10]基于挖掘得到的關聯規則建立了故障關系網絡，并采用復雜網絡中的指標對規則進行使用。上述方法在規則數量較少時才能方便運用，當規則數量增加后，整個網絡會變得過于復雜，從而降低了對規則使用的效率。

本文基于Apriori算法框架，提出根據實際故障維修周期劃分故障數據的分類模型，保證數據間既有的關聯性不被破壞；并采用熵權法對挖掘算法常用的幾個參數進行綜合評價，得到對可能出現大量關聯規則的快速推薦模型。此外，為了避免多次掃描數據庫，提高算法效率，應用布爾映射矩陣，僅需單次掃描數據庫即可實現挖掘算法。

1 相關基礎

1.1 基本概念

假設有一組項目集合I= {i1,i2, …in}，集合I的任意非空子集被稱為項集，記為X，通常項集X中包含的項目個數被稱為項集的長度，同時項集也根據其長度k被稱為k階項集。事務記錄通常用一個二元組〈tid,X〉來表示，其中tid是該事務記錄的唯一標識。所有的事務記錄共同組成了事務數據庫，記為TDB，如表1所示。對于一個項集X和一條事務記錄〈tid,Y〉而言，如果X?Y，則稱項集X被包含在該事務記錄中。

表1 事務型數據庫

1.2 相關參數

在挖掘關聯規則的過程中，需要設置支持度和置信度的閾值，在有些研究中，還需要涉及提升度和相似度等參數。這些參數的定義如下：

定義1（支持度）：對于一個給定的事務型數據庫TDB，項集X的支持度（記為sup(X)）為數據庫中包含項集X的事務記錄數占比，反映了項集X在數據庫中出現的頻繁程度，其計算式為

定義2（置信度）：置信度是評價關聯規則可信程度的指標。對于生成的關聯規則“A→B”，其置信度（記為conf(A→B)）為在項集A發生的條件下，項集B發生的條件概率。其具體計算式為

定義3（提升度）：提升度（記為lift(A→B)）是描述項集A對項集B影響程度的參數，其反映了在項集A發生的條件下，項集B發生的條件概率與非條件概率的提升情況。當提升度大于1時，說明項集A的發生對項集B有促進作用。其計算式為

定義4（相似度）：相似度能夠反映2個研究對象之間的相似程度，有著多種計算方式，其中以余弦相似度最為常用。將項集A和B在每個事務記錄中出現與否的情況用向量表示，則可計算出其相似度，即

1.3 A priori算法框架

目前，頻繁模式挖掘算法可以根據算法框架分為3大類，Apriori算法框架[11]則是其中之一，通過對數據庫進行廣度優先遍歷，以實現整個算法。算法具體過程如下：算法將整個數據庫的數據和設置的最小閾值（支持度和置信度）作為參數；數據庫中出現的項目均被視為1階候選項集，通過掃描數據庫對候選集的頻繁程度進行評估，算法刪去了不符合閾值的項集，并根據先驗規則[4]合并生成2階候選項集；通過再一次掃描數據庫，對當前候選項集進行驗證，根據剩余的頻繁項集生成高階候選集；該過程被不斷重復，直至無法生成候選集，此時所有滿足閾值的頻繁模式均被遍歷并驗證。

2 模型構建

2.1 基于維修周期的故障分類模型

文獻[9]提出的多維信息分類模型通過靈活地選擇時間和空間尺度，有效地實現了對故障數據的聚類和事務型數據庫的構建，但由于時間尺度的劃分過于刻板，破壞了故障數據間原本的內在聯系。為了解決這一問題，本文提出基于維修周期的故障分類模型。

對于同一空間尺度下的故障數據，可按其檢測時間順序排列成對應的時間序列。為保證構建的事務型數據庫中每一條事務記錄的項目享有共同的物理和邏輯聯系，對于接觸網系統來說，只有發生在同一維修周期內的故障數據才具有這種特性。圖1展示了基于維修周期的故障分類模型示意圖，在由故障數據構成的時間序列下方增加了維修記錄管理的序列，并將其作為劃分故障數據的依據。

圖1 基于維修周期的故障分類模型示意圖

維修記錄管理的序列作為無限時間序列，可以根據其序列上的n個結點，將其劃分成對應的區間，記為IM= {(ti-1,ti)|i≤n}。同時，故障序列上的數據IF= {fm|m≥1}將根據IM生成事務記錄，記為Ts={∪fm|fm∈IF,fm∈(ts-1,ts)}。借助這一分類模型，可以在生成事務型數據庫時良好地保留故障數據間的內在聯系。

2.2 布爾映射矩陣

Apriori算法框架在每次驗證當前階數的候選集時需要掃描一次數據庫，多次掃描數據庫將耗費大量運算成本，為了避免這種重復掃描，本文提出采用布爾映射矩陣存儲事務型數據庫的數據，并對候選集進行批量計算。

定義5（布爾映射矩陣）：矩陣中的元素根據其行列所對應的信息，用“1”或“0”表示是否出現的具有映射關系的矩陣稱為布爾映射矩陣。

對于挖掘接觸網的頻繁模式而言，矩陣的每一行對應事務型數據庫中的每一條事務記錄，矩陣的每一列對應一個項目或項集。矩陣內的元素確定規則如下：

性質1（列交運算）：設矩陣Am×n為事務型數據庫TDB的布爾映射矩陣，AT×A=Bn×n，則矩陣B稱為矩陣A的列交矩陣。矩陣B的主對角線上的元素反映了各項目在數據庫中出現的次數，則每個項目的支持度可表示為

2.3 基于熵權法的推薦模型

頻繁模式挖掘算法往往伴隨著大量關聯規則的返回，文獻[10]采用復雜網絡的知識對返回的關聯規則進行了推薦，但隨著規則數量的增加，網絡的復雜度明顯增加，大幅降低了對規則使用的效率。為了解決該問題，本文提出基于熵權法的推薦模型。熵權法[12，13]可以通過選取多個評價指標，利用數據中包含的有效信息量的大小來衡量各個指標對最終評價結果的影響。

熵權法的基本原理如下：假設有m個評價對象，選取了n個評價指標，所有數據構成的初始矩陣記為Xm×n；首先對各個指標的數據進行標準化處理，生成評價矩陣Y= [yij]m×n，其中yij為第i個評價對象的第j個指標的歸一化結果；然后計算同一個評價指標數據的信息熵Ej，其定義式為

其中，當pij= 0時，習慣認為pijlnpij= 0。

從而，通過信息熵可以計算出各個評價指標所對應的權重Wj，即

最終，根據指標的權重計算出每一條關聯規則的評分Zi，并按降序推薦關聯規則。評分的計算式為

3 算例研究

為了驗證本文提出推薦模型的正確性，本節對某鐵路局接觸網故障數據庫中的數據進行頻繁模式挖掘，時間跨度為2016年1月—2018年4月，共計22 749條接觸網故障數據。

在選擇空間尺度為線路后，依據維修記錄管理序列與同一空間尺度下的故障序列，將這些故障數據劃分為137條事務記錄，并將閾值設置為（25%，80%），即表示在事務型數據庫中有25%的事務記錄含有的項集被視為了頻繁模式，且在這些頻繁模式生成的關聯規則中，只有置信度大于80%的規則（強關聯規則）才被保留下來。最終，在該閾值設定下，頻繁模式挖掘算法共挖掘得到689條強關聯規則。這個數量的關聯規則如果通過復雜網絡理論對其進行推薦，整個過程將十分復雜。采用本文提出的基于熵權法的推薦模型，則可以輕松得到支持度（sup）、置信度（conf）、提升度（lift）、相似度（sim）4個評價指標的權重，如表2所示。可見，支持度的權重最高，貢獻程度接近60%，其余3個指標的權重都在10%以上。

表2 基于熵權法的關聯規則評價指標權重

表3展示了部分關聯規則的推薦評分結果，表4給出了表3中涉及的故障項目和故障部件（類型）的對應關系。可以看出，本文提出的模型可以有梯度地對挖掘出的規則進行評分和推薦。用戶可以根據自身的需求，對期望推薦的關聯規則數量進行推薦，當推薦數量設置為10時，則排序前10的關聯規則將被推薦給用戶。

表3 部分關聯規則的推薦評分結果

表4 故障項目和故障部件（類型）對照

圖2展示了對689條關聯規則構建故障關系網絡的結果。可以看出，得到的網絡十分復雜，涉及的結點數量眾多，這對分析網絡中各結點的中心度等必要信息造成了極大的影響，且很難對每一條關聯規則分析其值得推薦的程度。

通過查看關聯規則的評分結果可知，故障項目A（支持裝置）容易引發故障項目B（定位裝置），是最值得推薦的關聯規則。其次，故障項目D（環境管理）會誘發故障項目E（接觸線）、故障項目F（平腕臂底座）極可能造成故障項目B（定位裝置）等也是十分值得關注的關聯規則。

圖2 689條關聯規則挖掘結果構建的復雜網絡

根據最終推薦的多條關聯規則，對于算例研究中使用的故障數據，可以為該地區接觸網運營維護提出如下建議：（1）支持裝置故障和定位裝置故障是2個頻繁發生且會互相誘發的故障，需要對其進行嚴格防護和縮短維修周期；（2）除支持裝置外，接觸線故障、平腕臂底座故障等也容易誘發定位裝置的故障，需要對上述多個故障進行監測，以防止定位裝置頻繁發生故障；（3）周遭環境和異物容易引發接觸線故障，需要增加線網周圍的巡查力度和對植被的修剪頻次。

4 結論

本文針對近年來爆發式增長的接觸網故障數據，提出采用頻繁模式挖掘技術對其進行關聯性分析。在現有多維信息分類模型的基礎上，提出了維修周期故障分類的方法，實現了在生成事務型數據庫時對故障數據內在聯系的良好保留。針對Apriori算法框架在挖掘時需要多次掃描數據庫的問題，提出了應用布爾映射矩陣的列交運算，實現了僅需對數據庫進行單次掃描即可實現對候選集進行批量閾值驗證。針對挖掘算法返回的大量關聯規則，提出了用熵權法對各條規則進行評價打分，實現了對規則的有梯度推薦，相較原本基于復雜網絡的規則使用，熵權法對大規模關聯規則有著更好的實用性。