李霽軒 ,吳子辰 ,郭 燾 ,朱鵬宇 ,吳季樺
(1.國網江蘇省電力有限公司信息通信分公司,江蘇 南京 210000;2.國網電力科學研究院有限公司,江蘇 南京 210012;3.北京郵電大學網絡與交換國家重點實驗室,北京 100876)
我國電力行業的高效平穩發展是保證經濟安全、快速、穩定發展的能源保障。人工智能時代對電力通信領域提出了新的要求,也為電力通信管理系統(Telecom Management System,TMS)的發展提供了新方向[1]。TMS 作為電力領域信息化產物,為整個電力系統中的電網調度、自動化、繼電保護、安全自動控制、電力市場交易以及企業信息化等工作提供了堅實的基礎,同時也為電力通信中的異常檢測、路由優選等智能化應用提供支撐。
隨著特高壓電網、各級電網協調的統一發展,智能網的建設的需求也逐漸加強,對支撐電網信息化基礎TMS 系統提出了更高要求。在電力通信信息化、智能化建設和應用實踐過程中,電力公司積累了海量的實時數據和運行數據,傳統基于規則的缺陷處置方法難以滿足智能化的需求,尤其缺乏一種對拓撲復雜、設備類型繁多的缺陷數據進行智能分析的方法[2]。
電力通信網在信息化過程中產生了大量的數據,然而這些數據的海量增長,促使了數據歸并技術(即告警歸并技術)的發展。目前國內外主要使用基于規則匹配的方法進行告警歸并[3]。具體而言,就是操作員根據系統實時情況結合專家知識動態地調整告警歸并規則。同時,也有基于規則匹配方法上的改進。例如,加入數據預處理和數據過濾等方法輔助告警歸并[4]。上述方法在告警數據規模較小、告警延遲低、告警類別固定等情況下,能達到很好的歸并效果。但隨著告警數據的海量增長,上述方法及其相關改進方法難以適應當前的數據環境。MADZIARZ A 在移動通信網領域提出了基于K-MEANS聚類的告警聚類方法[5],嘗試引入無監督聚類以擺脫對規則的依賴。雖然該方法無須大量人力資源的投入,但實際歸并效果差強人意,且需要業務專家參與預測缺陷的數量,有著極大的局限性。
5G 技術、邊緣計算、人工智能新技術的到來給電力通信領域帶來了新鮮血液。新技術與電力通信領域的有機結合,對于構造電力通信新生態,解決遺留問題,節約人力資源,面對新的挑戰至關重要。
本文介紹了一種基于密度聚類(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)[6]結合人工規則進行告警歸并協助通信缺陷診斷的無監督學習算法。該算法具有良好的魯棒性、輕量性,支持邊緣云部署,將算法在TMS 系統提供的數據中進行實驗,結果顯示算法達到了較好的效果。
本文依托國網電力科學研究有限公司建設的國家電網通信管理系統(SG-TMS)進行實驗數據采樣、模型調試并進行算法驗證。SG-TMS 系統在國家電網通信處2019 年通信專業重點工作部署項目中,依據人工規則制定缺陷自動派單規則,實現了傳輸網監視優化及缺陷自動派單功能[7]。但是該方法依然存在局限性,具體表現在:(1)基于人工規則的方法依賴于專家經驗知識積累,只能總結整理常見的影響較大的缺陷;(2)隨著工作的推進,積累的規則逐漸豐富時,給運維人員帶來了巨大的維護壓力,同時也容易產生規則間的沖突,時間一長則難以為繼。
SG-TMS 提供海量的電力通信網核心數據,主要涉及SDH、OTN 等設備,覆蓋光纜(傳輸光路)、傳輸設備、通信電源和機房環境告警[8]。數據由邊緣節點進行數據采集和過濾清洗。在系統中,數據主要分為以下兩部分:
(1)原始告警數據,告警數據由傳輸設備直接產生,經北向接口采集后存入系統數據庫。但是由于系統中同時存在不同制造商生產的設備,同樣的缺陷現象產生的告警存在差異,設備告警名稱和實際問題的映射缺乏統一定義。
(2)缺陷單數據,缺陷單數據描述了缺陷的具體位置、實際原因和實時告警的對應關系,由具備相關專家知識的運維人員總結整理而來,是電力通信運維領域知識的結晶,同樣也是人工智能算法中天然的標簽數據。但是相對于龐大的原始告警數據,缺陷單數據較少,其次,缺陷單和告警由于現場設備的復雜性以及人為檢修的干預可能不會直接呈現一對一的映射關系。
綜上所述,TMS 系統在一定程度上實現了信息化自動化,但是仍然依賴專家干預。由于原始數據數量巨大,標注數據完備性不足,結合電力通信設備中同種缺陷導致相似的告警模式頻繁出現的基本前提,考慮使用無監督學習來協助完成告警歸并,采用基于密度的DBSCAN聚類來捕獲告警簇。
DBSCAN 算法作為經典的密度聚類算法,其在無監督密度聚類中的得到了廣泛的應用。算法將點分類為核心點和非核心點,定義1~定義6 描述了該算法[9]。
定義1鄰域內的點的集合(Eps-neighborhood of a point):NEps(p)表示從p 點出發,鄰域內所有點的集合,即:
NEps(p)={q∈D|dist(p,q)≤Eps}其中,D 表明全體點的集合,dist(p,q)表示p 點和q 點之間的歐氏距離,Eps 表示鄰域半徑。
定義2直接密度可達(Directly density-reachable):點p 被稱為從點q 直接密度可達,當且僅當:
p∈NEps(q),|NEps(q)|≥MinPts其中MinPts 為給定的使q 成為核心點的鄰域內最小點數。
定義3密度可達(Density-reachable):如果有一系列的點p1,…,pn,p1=q,pn=p,pi+1到pi直接密度可達,那么稱點p 從q 密度可達。
定義4密度相連(Density-connected):如果點p 和點q 都從點o 密度可達,則稱點p 和點q 密度相連。
定義5簇(Cluster):對于集合D,簇C 是D 的一個滿足以下條件的子集:
(1)?p,q:if p∈C,并且q 從p 密度可達,那么q∈C。
(2)?p,q∈C:p 和q 密度可達。
定義6噪聲(noise):噪聲為不屬于任意一個簇Ci的離散點,即:
noise={p∈D|?i:p≠Ci}
具體而言,在劃分簇時,對于給定的邊界距離Eps和最小核心節點數MinPts,和非空節點集D,簇C 構建時首先檢測其密度直達性。首先將核心點中具有密度直達關系的點分類給簇C,之后檢測相連性,對剩下的點檢測其與簇內任意一點的密度相連性,如果密度相連則歸入簇C[10]。
在分類完成后,對于不屬于任何簇的孤立點p,將其視為噪聲[11]。
面對海量、復雜、標準不一的原始告警庫,需要做一定的數據處理工作[12]。規則部分根據專家知識和運維經驗,將告警種類劃分為:根告警、伴隨告警、未被分類的告警。基于告警之間衍生關系和業務、通道的關系,系統制定了一套歸并規則作為基準參考。缺陷單數據存在人工填寫部分,不是規格化文本,無法簡單地進行文本匹配。因此利用自動化文本分析方法[13],對缺陷單進行信息提取。為了后續的有效性評價,系統對于缺陷單抽取的信息進一步進行分類,以此間接獲取告警和缺陷的分布信息。
DBSCAN 是基于密度的算法,意味著輸入的特征應當是對應空間的坐標點,或者是點之間的距離矩陣。在實際背景當中告警是連續的文本信息,因此告警的向量化過程應該體現為特征提取和特征向量之間的權重分配。
基于一個缺陷可能會引起一個或多個設備在一段時間內持續輸出相似告警的特性,聚類目標是將屬于擁有這種特性的屬于同一缺陷的告警聚為一個簇[14]。對告警而言,有兩方面的信息較為重要:告警本身的相關參數(告警種類、發生位置、設備類型、設備位置等)以及告警時間[15]。其中告警本身的相關參數反映了告警之間的相關程度以及告警在空間上的相近程度,告警時間是當前告警產生的時間,蘊含了缺陷發生的時間信息。對于告警本身的相關參數,使用one-hot 方法[16]將其映射為特征向量,對于沒有制定權重的one-hot 來說,告警之間任意一個特征的差距映射在空間上面距離相同,在DBSCAN算法當中作用相同,而通過調整各個特征的權重可以反映不同特征的重要性。對于時間信息而言,顯然不能簡單運用one-hot 方法,則關鍵在于統一時間和其他特征在特征向量上的距離關系。告警集合為D,告警具有1個時間特征和m 個其他經過one hot 轉換的相關參數特征。則第i 條告警對應特征向量表述為Di=(Ti,Xi,j,…,Xi,m),其中Ti為告警i 的一維時間特征,Xi,j(1≤j≤m)表示告警i 的第j 個相關參數對應的向量。則假設告警本身相關參數的每個特征都被賦予同樣的權重,如果要使得任意變化一個特征帶來的空間坐標之間的距離變化等價于兩個相鄰告警a 和b 的時間差超過了時間窗口的距離變化,設變化的特征為第t 個特征,特征維度為n,時間窗口為WINDOWS,則可以得到:

對于單純的one hot 向量特征,顯然β=2/WINDOWS。
進一步,可以得到:

其中nj表示第j 個特征對應的維度,βj表示第j 個特征的權重。可以通過調整β 和βj(1≤j≤m)的值來調整時間和其他參數之間的權重。
不同樣本的距離綜合考慮了告警本身相關參數距離和時間距離。以此對所有告警進行聚類,則最后得到的聚類結果應該是使得時間上較為聚集的相似告警或者是時間上極為聚集的較相似告警成為同個簇[17]。

圖1 電力通信網自動派單邊緣計算系統
如圖1 所示,使用基于邊緣計算的電力通信告警歸并架構構建的計算平臺,可以由邊緣節點對端設備進行告警采集,在邊緣節點進行告警歸并,完成邊緣計算資源生命周期管理,最后將告警歸并結果返回云側,支持后續缺陷定位定級、可靠性評估、迂回路由優選、缺陷單自動派發等功能,實現知識庫的自動化迭代更新,助力建立電力通信行業邊緣計算新生態。
圖2 介紹了單邊緣設備上告警歸并方法的基本流程。缺陷單數據經過自動化文本分析和分詞得到缺陷單以及對應告警的關系,保留數據以支持后續有效性評估[18]。
原始告警經過數據清洗、數據預處理完成特征分解,進一步對特征進行向量化,細節在2.1 小節中已經討論。然后對特征向量進行DBSCAN 聚類,對得到的簇進一步使用人工規則進行告警歸并[19]。對于輸出的告警歸并數據使用缺陷單得到的缺陷-告警關系來進行有效性驗證,根據效果調節前面聚類部分的參數。
對于本系統中應用的聚類算法而言,預先設定參數的選擇會最大程度上影響歸并表現效果,其中預先需要設定的參數為鄰域半徑Eps 和密度判斷閾值MinPts。算法細節在第1 小節中已經給出,顯然,鄰域半徑Eps 設定過大或密度判斷閾值MinPts 設定過小會使得噪聲點或者多個不同的類被并入一類,鄰域半徑Eps 設定過小或密度判斷閾值MinPts 過大會使得原先的同一類被劃分到多個簇中。
為了確定來自單邊緣節點所收集設備的本告警數據集中不同參數對算法結果的影響,表1 列出了不同參數(即鄰域半徑Eps 和密度判斷閾值MinPts)的不同設置對應的僅基于DBSCAN 方法的告警歸并效果以及對應的訓練時間,評價指標為V-measure 對應的h-score、c-score和v-score,指標含義在3.2 節中進一步闡述。
從表1 的比較中可以發現,在Eps=5 以及MinPts=2時,基于DBSCAN 的告警歸并方法可以獲得最優,在這種情況下c-score 也同時達到了最優。由于本系統中的規則應用于基于DBSCAN 生成的簇內,并在后續進一步細化簇,因此簇的完整性指標也就是c-score 是應當被首要保證的。在本系統實例中,選用參數為Eps=5和MinPts=2。

表1 不同參數對基于DBSCAN 的告警歸并性能和效率影響
本文利用SG-TMS 已有的缺陷單作為檢驗聚類效果的標準,因為缺陷單由具有相關專業知識和從業經驗的人員進行歸并,反映了告警與缺陷的真實關系。
在實際對數據進行處理時,考慮到SG-TMS 庫中缺陷單相對有限,對原始告警進行切分,使其與缺陷單的時間范圍一致,保證能對DBSCAN 算法的聚類效果進行有效評估。由于原始告警數據的復雜性,需要結合人工規則進行輔助劃分。針對不同制造商的設備對于同一種告警現象制定的告警文本信息不一致的情況,通過建立專家知識庫[20]實現了不同廠商設備告警的關聯映射。

圖2 單邊緣設備上基于無監督聚類結合規則的告警歸并流程
歸并結果的有效性驗證[21]借鑒了聚類方法的評估指標,聚類方法的評價指標[22]分為外部指標和內部指標,內部評價聚類的估計趨勢,體現數據的非均勻分布程度。在電力通信系統中,比起數據的非均勻程度更加關注告警與實際場景的一致性(告警歸并結果直接影響后續缺陷處理),因此借助缺陷和告警簇的分布情況通過外部指標來評價歸并結果是否準確且完備。
原始告警進行聚類歸并之后,選取缺陷單的對應告警與得到的告警歸并結果進行比對,要求同一缺陷單對應的告警應當被歸并在一起,且不同缺陷單對應的告警不應被歸并在一起,選擇了V-measure 方法[23]進行有效性評估。

其中,H(C|K)是給定簇劃分條件下類別劃分的條件熵,H(C)是類別劃分熵,H(K|C)是給定類別劃分條件下的簇劃分的條件熵,即:

式中,N 表示實例總數,nc表示類別c 下的實例數,nk表示簇k 下的實例數,nc,k表示類c 中被劃分到簇k 的實例數。
表2 給出了分別基于規則匹配、K-MEANS、DBSCAN以及本系統中DBSCAN 與規則結合的告警歸并方法的特性和效果對比。其中K-MEANS 方法需要業務專家的先驗知識推測出可能發生的缺陷個數進行預設簇的數目,其他方法不需要進行預設簇;規則匹配方法不具備自學習能力,只能夠在規則中學習,而K-MEANS 方法與DBSCAN 方法可以從數據中進行自學習。

表2 不同告警歸并方法的特性和效果對比
h-score、c-score 和v-score 分別表明了歸并結果的同質性、完整性和同質性與完整性的調和平均值,取值為0 到1,取值為1 時為最理想結果。
顯然觀察表中結果,可以直觀地看出,幾種方法在信息熵上的表現都能夠有效消除不確定性。其中在同質性表現上,規則匹配和本系統方法表現最佳;在完整性表現上,DBSCAN 方法表現最佳;綜合考慮同質性與完整性的表現,本系統方法和DBSCAN 方法表現最佳。性能表現具有可解釋性。K-MEANS 方法在缺陷具有突發性的前提中并不適用,因此性能表現都不太理想。規則匹配方法得到的歸并結果基于人工經驗因此歸并的結果同質性較高,但是對于規則以外的模式無法進行捕獲因此完整性欠缺。DBSCAN 方法基于數據之間的粘連程度進行聚類,會對所有數據進行歸并,因此完整性較好,同質性欠缺。本系統方法結合了DBSCAN 和規則方法,在完整性和同質性上都能獲得較好的性能表現。本文的基于聚類結合規則的告警歸并方法在消除不確定性上表現更強,具有自學習能力,不需要預先人為預測缺陷數目。
表3 給出了分別基于規則匹配、K-MEANS、DBSCAN以及本系統中DBSCAN 與規則結合的告警歸并方法的缺陷一致性對比。

表3 不同告警歸并方法的缺陷一致性對比
歸并與缺陷一對一:表明歸并集合中僅包含一個缺陷且一個缺陷對應的告警被歸并到了同一個集合中。歸并與缺陷一對一表明告警被正確歸并,顯然本系統方法顯著優于其他方法。
歸并與缺陷一對多:表明歸并集合中包含多個缺陷但一個缺陷對應的告警被歸并到了同一個集合中。歸并與缺陷一對多表明部分簇被劃分得過大,可以通過細化簇來降低該比例,可見本系統方法通過結合規則匹配比起單純的DBSCAN 方法降低了更多歸并與缺陷一對多比例,提高了歸并與缺陷一對一比例。
歸并與缺陷多對一:表明歸并集合中僅包含一個缺陷但一個缺陷對應的告警被歸并到了多個集合中。歸并與缺陷多對一表明部分簇被劃分得過小,可見本系統方法通過結合DBSCAN 方法比起單純的規則匹配降低了更多歸并與缺陷多對一比例,提高了歸并與缺陷一對一比例。
歸并與缺陷多對多:表明歸并集合中包含多個缺陷且一個缺陷對應的告警被歸并到了多個集合中。本系統方法在歸并與缺陷多對多上占比最小,表現最優。
系統評估使用了146 個缺陷單數據,其中12 個缺陷單存在重復派單的現象,因此歸并與缺陷一對多的比例較高。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。在本實例中,每一個簇對應著歸并方法得到的被預測為由同一個缺陷導致的告警的集合。則簇的數目對應著歸并告警集合數,也就是預測的缺陷數目。在簇的數目上,K-MEANS 算法需要提前預設簇數目才能運行,預設簇數目為146,因此生成簇的數目與缺陷總數保持一致,而其他方法生成簇的數目與實際缺陷數目有偏差。簇的數目與實際缺陷數目的一致性部分顯示了歸并方法的準確性。由表中結果可知,本系統的基于聚類結合規則的告警歸并方法在歸并與缺陷一致性表現上更強,不需要預設簇數目且生成簇與實際缺陷數目較為一致。進一步經過數據分析可得,未能正確被歸并到一起的5 個缺陷對應的告警時間間隔較大往往在3 小時以上,不符合預設的時間聚集前提,同樣也不符合運維的常規情況,推測可能采集裝置存在問題或由檢修動作引發[24]。結果表明,該方法能被部署在邊緣側節點完成數據收集和告警歸并,具有較強的魯棒性和泛化能力,同時實驗效果表明將無監督方法應用到告警歸并流程中能夠顯著提高歸并率和告警與缺陷的匹配率,給后續缺陷定位和故障診斷打下了堅實的基礎。
本文提出了一種面向邊緣計算的基于密度的無監督聚類方法結合人工規則應用于電力通信網中的告警歸并方法,討論了告警特征空間構建和時間與相關參數指標的權重矯正方法,并且引進了有效性評價指標表明該方法對時間上聚集和性質相似的告警數據有著較好的效果。后續研究可以通過加入空間拓撲關系特征[25]以及調整特征[26]權重來進一步提高歸并效果。