吳季樺,朱鵬宇,吳子辰,顧彬,洪濤,郭波,王晶,王敬宇
基于無監(jiān)督聚類和頻繁子圖挖掘的電力通信網(wǎng)缺陷診斷與自動派單
吳季樺1,朱鵬宇2,吳子辰3,顧彬3,洪濤3,郭波3,王晶1,王敬宇1
(1. 北京郵電大學(xué)網(wǎng)絡(luò)與交換國家重點實驗室,北京 100876;2. 國網(wǎng)電力科學(xué)研究院有限公司,江蘇 南京 210012;3. 國網(wǎng)江蘇省電力有限公司信息通信分公司,江蘇 南京 210024)
缺陷診斷一直是電力通信領(lǐng)域研究的難點之一。基于人工規(guī)則的缺陷診斷已經(jīng)無法應(yīng)對告警數(shù)據(jù)的海量增長。基于有監(jiān)督學(xué)習(xí)的智能方法需要大量的標(biāo)注數(shù)據(jù)和較長的系統(tǒng)構(gòu)建時間,且大多面向指標(biāo)性數(shù)據(jù),實現(xiàn)部署缺乏可行性。面向告警數(shù)據(jù),提出一種基于無監(jiān)督聚類和頻繁子圖挖掘?qū)崿F(xiàn)告警歸并和缺陷模式發(fā)現(xiàn)的自學(xué)習(xí)算法,設(shè)計了一個自動化完成缺陷診斷及處置的架構(gòu)。該架構(gòu)具有良好的可擴展性和迭代更新能力,并部署于實際缺陷自動派單系統(tǒng)中。通過真實場景數(shù)據(jù)集進(jìn)行實驗驗證,結(jié)果顯示出良好的性能表現(xiàn),實現(xiàn)了對缺陷的及時發(fā)現(xiàn)及精準(zhǔn)派單維護(hù)。
電力通信;缺陷診斷;無監(jiān)督聚類;頻繁子圖挖掘
電力通信網(wǎng)中的海量告警數(shù)據(jù)顯示了網(wǎng)元設(shè)備的健康狀態(tài)以及網(wǎng)元設(shè)備間的交互情況。面向告警的缺陷診斷方法先對告警進(jìn)行告警歸并,基于得到的告警歸并集合,進(jìn)一步進(jìn)行缺陷檢測和缺陷定位。
目前國內(nèi)外主要使用基于規(guī)則匹配的方法進(jìn)行告警歸并[1]。隨著告警數(shù)據(jù)的海量增長,基于規(guī)則匹配的方法及其相關(guān)改進(jìn)方法難以適應(yīng)當(dāng)前的數(shù)據(jù)環(huán)境。Madziarz[2]在移動通信網(wǎng)領(lǐng)域提出了基于-means聚類的告警聚類方法,嘗試引入無監(jiān)督聚類以擺脫對規(guī)則的依賴。雖然該方法無須大量人力資源的投入,但實際歸并效果不理想,且需要業(yè)務(wù)專家參與預(yù)測缺陷的數(shù)量,有著極大的局限性。
缺陷診斷分為事件檢測和定位。事件檢測和定位則基于事件分類。基于人工經(jīng)驗的缺陷診斷方法,主觀因素影響較大,并且難以應(yīng)對指數(shù)級增長的海量告警信息。已經(jīng)有許多研究將人工智能技術(shù)運用到電力通信網(wǎng)事件分類和缺陷診斷領(lǐng)域中以擺脫對規(guī)則的依賴。人工智能技術(shù)應(yīng)用到缺陷診斷領(lǐng)域時,常針對的是信號等指標(biāo)性數(shù)據(jù),如Wen等[3]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提取信號的特征,Xiao等[4]利用貝葉斯神經(jīng)網(wǎng)絡(luò)以建筑管理系統(tǒng)的測量和人工測試指標(biāo)作為輸入依據(jù),進(jìn)行變風(fēng)量通風(fēng)空調(diào)系統(tǒng)的缺陷診斷。這些方法都在各自的數(shù)據(jù)集上取得了較好的成果。但是電力通信領(lǐng)域缺少大量完整標(biāo)注的數(shù)據(jù),同時,實際的缺陷診斷的主要依據(jù)不是指標(biāo)性的信號數(shù)據(jù),而是各個網(wǎng)元上非結(jié)構(gòu)化的告警數(shù)據(jù)。電力通信網(wǎng)中基于告警完成缺陷診斷的缺陷信息隱藏在告警數(shù)據(jù)以及其時空關(guān)聯(lián)關(guān)系中。
本文在自適應(yīng)標(biāo)記篩選及再學(xué)習(xí)[5]和基于拓?fù)湫畔⒔鉀Q時間序列數(shù)據(jù)異常檢測問題[6]的工作基礎(chǔ)上,提出了一種基于密度聚類(density-based spatial clustering of applications with noise,DBSCAN)實現(xiàn)告警歸并,并且基于頻繁子圖挖掘(frequent subgraph mining,F(xiàn)SM)完成缺陷模式發(fā)現(xiàn)的自學(xué)習(xí)算法,并設(shè)計了一個面向電力通信網(wǎng)告警數(shù)據(jù),盡力擺脫對規(guī)則的依賴,減輕人力資源投入的自動化缺陷診斷及派單的架構(gòu)。如圖1所示,該算法主要應(yīng)用于告警歸并、缺陷診斷以及自動派單模塊,模塊間松耦合,具有良好的可擴展性。該算法展現(xiàn)出良好的穩(wěn)健性,具備迭代更新能力,減少缺陷診斷過程對于人工規(guī)則的依賴,并在實驗中呈現(xiàn)出良好的結(jié)果。
本文的貢獻(xiàn)總結(jié)如下。
(1)提出了面向告警數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,基于無監(jiān)督聚類和頻繁子圖挖掘算法完成告警歸并以及缺陷診斷,智能化完成缺陷模式發(fā)現(xiàn)及識別,自動化完成派單檢修,具備迭代更新的自學(xué)習(xí)能力架構(gòu),部署在自動派單系統(tǒng)中,以減輕運維壓力,實現(xiàn)對缺陷的及時發(fā)現(xiàn)和處置。
(2)考慮基于規(guī)則的缺陷診斷方法受到人為因素的制約,基于有監(jiān)督的學(xué)習(xí)方法受到缺少大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練的制約,提出一個基于無監(jiān)督學(xué)習(xí)以及數(shù)據(jù)挖掘的模型,在只有少量標(biāo)注的情況下實現(xiàn)對缺陷模式的及時發(fā)現(xiàn)。
(3)考慮告警歸并集合內(nèi)告警存在時空相關(guān),提出了將告警的文本信息向量化映射到向量空間的方法,使得具有相關(guān)關(guān)系的告警在向量空間之中彼此接近,并使用無監(jiān)督聚類方法完成告警歸并。
(4)考慮網(wǎng)絡(luò)場景中發(fā)生告警的節(jié)點之間的拓?fù)潢P(guān)系,提出了對告警及其所處節(jié)點的拓?fù)潢P(guān)系進(jìn)行模式挖掘,利用頻繁子圖挖掘方法完成缺陷模式發(fā)現(xiàn)。

圖1 電力通信網(wǎng)的缺陷診斷和自動派單架構(gòu)
(5)在真實場景數(shù)據(jù)集上進(jìn)行實驗,結(jié)果表明基于無監(jiān)督聚類和頻繁子圖挖掘的缺陷診斷方法取得了良好的性能表現(xiàn)。
告警歸并是一個概念性的解釋:將某些告警根據(jù)某種意義相關(guān)聯(lián)。告警歸并是以下幾種網(wǎng)絡(luò)管理任務(wù)中的一種通用方法[7]:壓縮、計數(shù)、抑制。電力通信網(wǎng)中的告警歸并是為了后續(xù)的缺陷診斷服務(wù)的。因此本文場景中的告警歸并旨在將可能由同一個缺陷導(dǎo)致或者衍生的告警歸并在同一個集合當(dāng)中。在電力通信的生產(chǎn)場景中,運維人員依靠人工經(jīng)驗的積累梳理出告警衍生關(guān)系,并以此為依據(jù)完成告警歸并。但是這意味著,基于規(guī)則完成的告警歸并主觀成分較大,整理的告警衍生關(guān)系也可能不完備。
告警歸并任務(wù)的目標(biāo)是將可能由同一個缺陷引起的告警關(guān)聯(lián)在一起。同時,在一段連續(xù)時間內(nèi),一個缺陷可能會引起一個或多個設(shè)備持續(xù)輸出相似告警。基于這兩個前提,本文使用無監(jiān)督學(xué)習(xí)來協(xié)助完成告警歸并,采用基于密度的DBSCAN聚類捕獲告警簇。
DBSCAN算法作為經(jīng)典的密度聚類算法,其在無監(jiān)督密度聚類中的得到了廣泛的應(yīng)用。算法將點分類為核心點和非核心點,定義1~定義6描述了該算法[8]。


定義2(直接密度可達(dá)(directly density- reachable))點被稱為從點直接密度可達(dá),當(dāng)且僅當(dāng):

其中,MinPts為給定的使成為核心點的鄰域內(nèi)最小點數(shù)。

定義4(密度相連(density-connected))如果點和點都從點密度可達(dá),則稱點和點密度相連。
定義5(簇(cluster))對于集合,簇是的一個滿足以下條件的子集。

具體而言,在劃分簇時,對于給定的邊界距離Eps、最小核心節(jié)點數(shù)MinPts和非空節(jié)點集,簇構(gòu)建時首先檢測其密度直達(dá)性。首先將核心點中具有密度直達(dá)關(guān)系的點分類給簇,之后檢測相連性,對剩下的點檢測其與簇內(nèi)任意一點的密度相連性,如果密度相連則歸入簇。
在分類完成后,對于不屬于任何簇的孤立點,將其視為噪聲[9]。
DBSCAN是基于密度的算法,意味著輸入的特征應(yīng)當(dāng)是對應(yīng)空間的坐標(biāo)點,或者是點之間的距離矩陣。在實際背景當(dāng)中告警是連續(xù)的文本信息,因此告警的向量化過程應(yīng)該體現(xiàn)為特征提取和特征向量之間的權(quán)重分配。
本文告警歸并的目標(biāo)對象應(yīng)當(dāng)是在時間上相近以及發(fā)生設(shè)備間有關(guān)聯(lián)關(guān)系或者本身其他屬性相近的一組告警,也就是DBSCAN聚類的目標(biāo)是將擁有這些特性的屬于同一缺陷的告警聚為一個簇。對告警而言,有兩方面的信息較為重要:告警本身的相關(guān)參數(shù)(如告警種類、發(fā)生位置、設(shè)備類型、設(shè)備位置等)以及告警時間。
其中,告警本身的相關(guān)參數(shù)反映了告警之間的相關(guān)程度以及告警在空間上的相近程度,告警時間是當(dāng)前告警產(chǎn)生的時間,蘊含了缺陷發(fā)生的時間信息。對于告警本身的相關(guān)參數(shù),使用One-Hot方法[10]將其映射為特征向量,對于沒有制定權(quán)重的One-Hot來說,告警之間任意一個特征的差距映射在空間上面距離相同,在DBSCAN算法當(dāng)中作用相同,而通過調(diào)整各個特征的權(quán)重可以反映不同特征的重要性。


進(jìn)一步,可以得到:

不同樣本的距離綜合考慮了告警本身相關(guān)參數(shù)距離和時間距離。以此對所有告警進(jìn)行聚類,則最后得到的聚類結(jié)果應(yīng)該是使得時間上較為聚集的相似告警或者時間上極為聚集的較相似告警成為同個簇。
基于無監(jiān)督聚類告警歸并模塊的流程如圖2所示,其中告警的文本化數(shù)據(jù)的向量化和空間映射過程在以上討論中已經(jīng)得到論述。上文證明了在時間上接近以及其他特征接近的告警數(shù)據(jù)會在向量空間中接近,DBSCAN算法會將向量空間中接近的告警聚為一個簇,從而完成告警歸并的目標(biāo)。進(jìn)一步,告警歸并的結(jié)果將會基于人工審核的缺陷單數(shù)據(jù)進(jìn)行有效性評估,以此來調(diào)整算法的參數(shù)以及評價算法效果。
大型通信網(wǎng)絡(luò)中的缺陷診斷流程可以被分解為3個步驟[10]:故障檢測、故障定位、故障診斷。應(yīng)用于電力通信網(wǎng)的缺陷診斷的技術(shù)方法主要有專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、優(yōu)化技術(shù)、Petri網(wǎng)絡(luò)、粗糙集理論、模糊集理論、貝葉斯網(wǎng)絡(luò)、多Agent技術(shù)等[11]。
對于由同一種缺陷原因引發(fā)的缺陷,應(yīng)當(dāng)在設(shè)備類型、設(shè)備數(shù)量、拓?fù)溥B接等方面存在相似。類似于將無監(jiān)督聚類方法應(yīng)用于告警歸并中的前提,數(shù)據(jù)分布中的相似性給予了人工智能技術(shù)發(fā)揮其長處的可能。具體地,缺陷診斷任務(wù)中數(shù)據(jù)的相似性體現(xiàn)在拓?fù)浣Y(jié)構(gòu)上的相似性。對于電力通信網(wǎng)絡(luò)的缺陷相關(guān)告警數(shù)據(jù)的研究發(fā)現(xiàn),與某一缺陷相關(guān)的告警所發(fā)生的設(shè)備通常具有物理相連關(guān)系或者邏輯相連關(guān)系。設(shè)備及其之上的告警,以及設(shè)備間的關(guān)聯(lián)關(guān)系可以構(gòu)成基本圖結(jié)構(gòu)。屬于同一類缺陷的圖結(jié)構(gòu)之間經(jīng)常存在子圖結(jié)構(gòu)的相似甚至相同。因此本文將電力通信的缺陷模式發(fā)現(xiàn)問題轉(zhuǎn)化為基于圖的模式發(fā)現(xiàn)問題進(jìn)行解決。

圖2 基于無監(jiān)督聚類告警歸并模塊流程

其中,頻繁子圖挖掘算法中g(shù)Span(graph- based substructure pattern mining)由于其在時間復(fù)雜度以及空間復(fù)雜度的優(yōu)秀表現(xiàn),在頻繁子圖挖掘領(lǐng)域中得到了廣泛的應(yīng)用。gSpan的關(guān)鍵流程包括從規(guī)模為的頻繁子圖集合生成規(guī)模為+1的頻繁子圖候選集,以及檢查候選集中的子圖是否為同構(gòu)子圖以此修剪冗余部分。
檢查子圖同構(gòu)問題是一個NP完全問題[13],因此在gSpan中利用最小DFS編碼和DFS字典樹解決子圖同構(gòu)的檢查。
gSpan是一個較為復(fù)雜的算法,關(guān)鍵的DFS編碼依據(jù)定義7~定義10[14]。

定義10(DFS編碼樹)在DFS編碼樹中,每一個節(jié)點代表了一個DFS編碼。父節(jié)點和子節(jié)點之間的關(guān)系遵循以下的描述。
給定標(biāo)記集合,DFS編碼樹應(yīng)當(dāng)包含無窮的圖。因為本文只考慮有限集中的頻繁子圖,DFS編碼樹的規(guī)模也是有限的。DFS編碼樹中第層的節(jié)點包含(?1)條邊的圖的DFS編碼。通過DFS編碼樹的深度優(yōu)先遍歷,所有的具有最小DFS編碼的頻繁子圖都能被發(fā)現(xiàn)。特別地,如果節(jié)點中包含具有不同的DFS編碼的重復(fù)的圖,例如和表示同一個圖但是具有更小的DFS編碼,那么不是最小的DFS編碼,將會被剪枝。
算法1和算法2描述了gSpan算法的偽代碼。其中,表示圖數(shù)據(jù)庫,包含了挖掘結(jié)果。更多算法細(xì)節(jié)參考文獻(xiàn)[14]。
算法1 GraphSet_Projection(D,S)
根據(jù)支持度對中的標(biāo)記進(jìn)行排序
移除不頻繁的頂點和邊
重新標(biāo)記剩下的頂點和邊
用e初始化s,用包含e的圖設(shè)置s
break
算法2 Subgraph_Mining(D,S,s)
return
枚舉每個圖中的并且對其子節(jié)點計數(shù)
for 每個,屬于的子節(jié)點 do
針對網(wǎng)絡(luò)拓?fù)渲写笠?guī)模KPI異常檢測的場景,文獻(xiàn)[6]提出了一種基于圖的門控卷積編解碼異常檢測(graph-based gated convolution codec for anomaly detection,GAD)模型,通過提取節(jié)點間的空間特征,以挖掘詳細(xì)的節(jié)點連接狀態(tài)信息。GAD運用到大規(guī)模網(wǎng)絡(luò)中獲得了良好的表現(xiàn)效果。因此,本文考慮結(jié)合時空關(guān)系完成電力通信網(wǎng)的缺陷診斷。但是電力通信網(wǎng)場景中某一缺陷所關(guān)聯(lián)的告警往往局限于一個小而準(zhǔn)確的范圍,需要捕捉到準(zhǔn)確的缺陷模式。因此本文采用頻繁子圖挖掘方法對于缺陷模式進(jìn)行捕捉。
將頻繁子圖挖掘方法應(yīng)用到告警歸并集合數(shù)據(jù)分析領(lǐng)域的首要任務(wù)是將歸并集合轉(zhuǎn)化成圖數(shù)據(jù)。本文將通信網(wǎng)絡(luò)中的網(wǎng)元轉(zhuǎn)化成圖中的頂點,將網(wǎng)元之間的物理聯(lián)系(如經(jīng)過光纜相連)以及網(wǎng)元之間的邏輯聯(lián)系(如網(wǎng)元與網(wǎng)管之間保持的通信)轉(zhuǎn)化為圖中的邊,網(wǎng)元上發(fā)生的告警轉(zhuǎn)化為圖中的標(biāo)記。由于網(wǎng)元之間的聯(lián)系是雙向的,因此頂點之間的邊為無向邊。基于以上討論,本文將告警歸并集合轉(zhuǎn)化為頂點帶標(biāo)記的無向連通圖,并對此進(jìn)行頻繁子圖挖掘。

特別地,在電力通信網(wǎng)的缺陷診斷的場景下,本文可以對gSpan得到的頻繁子圖模式進(jìn)行進(jìn)一步剪枝,對滿足以下任一條件的子圖,本文不視作可能存在的缺陷模式。
● 只有一個頂點的子圖。
● 頂點數(shù)大于2且度為1的節(jié)點上沒有告警發(fā)生的子圖。
這是因為實際電力通信場景中的缺陷通常可歸類為單網(wǎng)元不衍射到其他網(wǎng)元故障,或者是單網(wǎng)元可衍射到其他網(wǎng)元故障以及網(wǎng)元間介質(zhì)故障。對于單網(wǎng)元故障,告警應(yīng)當(dāng)被網(wǎng)元及其從屬的網(wǎng)管采集,至少存在兩個頂點;對于單網(wǎng)元可衍射到其他網(wǎng)元故障及網(wǎng)元間介質(zhì)故障,缺陷模式的最遠(yuǎn)點應(yīng)當(dāng)是故障影響范圍的末端,也就是對應(yīng)最遠(yuǎn)上報告警的網(wǎng)元。
基于以往面向區(qū)間異常檢測進(jìn)行自適應(yīng)標(biāo)記篩選和再學(xué)習(xí)[5]的工作基礎(chǔ),本文利用標(biāo)記篩選以及基于歷史數(shù)據(jù)實現(xiàn)訓(xùn)練和預(yù)測并行的思想,設(shè)計了缺陷模式發(fā)現(xiàn)以及缺陷診斷及自動派單流程。在模式標(biāo)注前后,歷史缺陷單數(shù)據(jù)將與對應(yīng)出現(xiàn)的模式進(jìn)行關(guān)聯(lián),使得模式之間的差異能被準(zhǔn)確檢測到。
基于頻繁子圖挖掘的缺陷模式發(fā)現(xiàn)流程如圖3所示。經(jīng)過以上討論的圖數(shù)據(jù)結(jié)構(gòu)設(shè)計,各個頂點上的告警經(jīng)過告警編碼,由告警歸并模塊得到的歸并集合完成拓?fù)渖桑玫綆?biāo)記的無向連通圖。由告警歸并集合得到的帶標(biāo)記的無向連通圖集合經(jīng)過子圖挖掘并且經(jīng)過剪枝保留頻繁子圖模式,再一次進(jìn)行告警解碼后成為待標(biāo)記的可能缺陷模式。待標(biāo)記的可能缺陷模式在經(jīng)過專家標(biāo)注之后存入知識庫,完成缺陷模式的發(fā)現(xiàn)。兩個發(fā)生R_LOS告警的端口存在物理關(guān)聯(lián)關(guān)系(端口分別從屬的站點間存在光纜連接關(guān)系)和邏輯關(guān)聯(lián)關(guān)系(端口分別從屬的網(wǎng)管間存在通道關(guān)系)。告警編碼時,假設(shè)告警集合大小為9,則告警編碼序列長度為9,若R_LOS所處位置為0,則只發(fā)生R_LOS的告警編碼對應(yīng)為100 000 000,沒有發(fā)生任何告警的告警編碼對應(yīng)為000 000 000。在子圖挖掘并完成剪枝之后得到兩個子圖,經(jīng)過告警解碼后,子圖重新還原為具有高可讀性的可能缺陷模式,方便等待人工進(jìn)行標(biāo)注。

圖3 基于頻繁子圖挖掘的缺陷模式發(fā)現(xiàn)流程

圖4 缺陷診斷和自動派單模塊流程4實驗結(jié)果分析
缺陷診斷和自動派單模塊流程如圖4所示。當(dāng)新的歸并集合到達(dá),得到拓?fù)渖蓤D,使用知識庫中已標(biāo)記的缺陷模式進(jìn)行模式識別。具體而言,若在圖中識別到了缺陷模式,則根據(jù)識別出的模式在圖中的映射位置完成缺陷定位,根據(jù)知識庫中該模式對應(yīng)的專家標(biāo)注完成缺陷分類,從而完成缺陷診斷,并基于缺陷定位定級、業(yè)務(wù)影響分析完成缺陷單派發(fā)。若未在圖中識別到知識庫中的模式,則使圖進(jìn)入模式發(fā)現(xiàn)流程,記為新的待定模式。可見本文所提供的缺陷診斷架構(gòu)具有強大的容錯能力并且擁有迭代更新的能力。
歸并結(jié)果的有效性驗證[16]借鑒了聚類方法的評估指標(biāo),聚類方法的評價指標(biāo)[17]分為外部指標(biāo)和內(nèi)部指標(biāo),內(nèi)部評價聚類的估計趨勢,體現(xiàn)數(shù)據(jù)的非均勻分布程度。在電力通信系統(tǒng)中,與數(shù)據(jù)的非均勻程度相比更加關(guān)注告警與實際場景的一致性(告警歸并結(jié)果直接影響后續(xù)缺陷處理),因此借助缺陷和告警簇的分布情況通過外部指標(biāo)來評價歸并結(jié)果是否準(zhǔn)確且完備。
根據(jù)以上的討論,本文中告警歸并任務(wù)要求將可能由同一個缺陷引起的告警關(guān)聯(lián)在一起。本文使用的數(shù)據(jù)包括缺陷單數(shù)據(jù)和告警數(shù)據(jù),經(jīng)過告警流水號進(jìn)行數(shù)據(jù)關(guān)聯(lián)。這意味著,同一缺陷單關(guān)聯(lián)的告警應(yīng)當(dāng)被歸并在一起,且不同缺陷單關(guān)聯(lián)的告警不應(yīng)被歸并在一起。告警歸并的評估應(yīng)該建立在歸并集合以及實際缺陷單相關(guān)告警數(shù)據(jù)的一致性評估基礎(chǔ)上。本文選擇了V-measure[18]方法進(jìn)行有效性評估。







表1 不同告警歸并方法的特性和效果對比
h-score、c-score和v-score分別表明了歸并結(jié)果的同質(zhì)性、完整性和同質(zhì)性與完整性的調(diào)和平均值,取值為0到1,取值為1時為最理想結(jié)果。
可以直觀地看出,幾種方法在信息熵上的表現(xiàn)都能夠有效消除不確定性。其中在同質(zhì)性表現(xiàn)上,規(guī)則匹配和DBSCAN方法表現(xiàn)最佳,在完整性表現(xiàn)上,DBSCAN方法表現(xiàn)最佳,綜合考慮同質(zhì)性與完整性的表現(xiàn),DBSCAN方法表現(xiàn)最佳且性能表現(xiàn)具有可解釋性。-means方法在缺陷具有突發(fā)性的前提中并不適用,因此性能表現(xiàn)都不太理想。規(guī)則匹配方法得到的歸并結(jié)果基于人工經(jīng)驗,因此歸并的結(jié)果同質(zhì)性較高,但是對于規(guī)則以外的模式無法進(jìn)行捕獲因此完整性欠缺。本文基于無監(jiān)督聚類的告警歸并方法在消除不確定性上表現(xiàn)更強,具有自學(xué)習(xí)能力,不需要預(yù)先人為預(yù)測缺陷數(shù)目。
基于規(guī)則匹配、-means、DBSCAN的告警歸并方法的缺陷一致性對比見表2。
(1)歸并與缺陷一對一
表明歸并集合中僅包含一個缺陷且一個缺陷對應(yīng)的告警被歸并到了同一個集合中。歸并與缺陷一對一表明告警被正確歸并,顯然本文所采用的DBSCAN方法顯著優(yōu)于其他方法。

表2 不同告警歸并方法的缺陷一致性對比
(2)歸并與缺陷一對多
表明歸并集合中包含多個缺陷但一個缺陷對應(yīng)的告警被歸并到了同一個集合中。歸并與缺陷一對多表明部分集合被劃分得過大,可以通過細(xì)化集合來降低該比例。
(3)歸并與缺陷多對一
表明歸并集合中僅包含一個缺陷但一個缺陷對應(yīng)的告警被歸并到了多個集合中。可見DBSCAN方法比起單純的規(guī)則匹配降低了更多歸并與缺陷多對一比例,提高了歸并與缺陷一對一比例。
(4)歸并與缺陷多對多
表明歸并集合中包含多個缺陷且一個缺陷對應(yīng)的告警被歸并到了多個集合中。本DBSCAN方法在歸并與缺陷多對多上占比最小,表現(xiàn)最優(yōu)。
集合數(shù)目對應(yīng)著歸并告警集合數(shù),也就是對應(yīng)方法預(yù)測的缺陷數(shù)目。在集合的數(shù)目上,-means算法需要提前預(yù)設(shè)集合數(shù)目才能運行,預(yù)設(shè)集合數(shù)目設(shè)置為缺陷單數(shù)目146,因此生成集合的數(shù)目與缺陷總數(shù)保持一致,而其他方法生成集合的數(shù)目與實際缺陷數(shù)目有偏差。除了-means方法之外,其他方法不需要設(shè)定集合數(shù)目,因此集合的數(shù)目與實際缺陷數(shù)目的一致性部分顯示了歸并方法的準(zhǔn)確性。
評估使用了146個缺陷單數(shù)據(jù),其中12個缺陷單數(shù)據(jù)存在重復(fù)派單的現(xiàn)象,因此歸并與缺陷一對多的比例較高。評估數(shù)據(jù)中的重復(fù)派單現(xiàn)象主要來源于:(1)實際環(huán)境中缺陷沒有得到及時發(fā)現(xiàn)和消缺導(dǎo)致一段時間后告警再次產(chǎn)生,由于告警之間時間間隔較長,單一缺陷被歸為多個缺陷單;(2)多個站點的共享線路或設(shè)備發(fā)生缺陷,基于人工或者規(guī)則的缺陷診斷將其判斷為多個缺陷歸檔。本系統(tǒng)的自動派單會將算法得到的缺陷單向前歸并到已產(chǎn)生但未處理完畢的缺陷單當(dāng)中,遏制(1)導(dǎo)致的重復(fù)派單;相近時間內(nèi)具有共享線路或設(shè)備的多站點缺陷會被歸并到同一缺陷中,定位缺陷為該共享線路或設(shè)備,遏制(2)導(dǎo)致的重復(fù)派單。人工復(fù)查證明了算法結(jié)果有效核驗了原始缺陷單數(shù)據(jù),發(fā)現(xiàn)了原始缺陷單數(shù)據(jù)中的重復(fù)派單數(shù)據(jù)。綜上,本文提出的基于DBSCAN的告警歸并方法在歸并與缺陷一致性表現(xiàn)上更強,不需要預(yù)設(shè)集合數(shù)目且生成集合與實際缺陷數(shù)目較為一致。
頻繁子圖挖掘得到的待標(biāo)記模式和缺陷類型的相關(guān)程度如圖5所示,基于146個缺陷單及其相關(guān)告警數(shù)據(jù)基于DBSCAN完成告警歸并后,對于歸并集合進(jìn)行頻繁子圖挖掘得到的待標(biāo)記的缺陷模式集合與實際缺陷單數(shù)據(jù)之間的分布一致性結(jié)果。驗證實驗中制定了4種缺陷類型,fiber breaking、power interruption、card abnormal以及power abnormal,分別對應(yīng)的物理意義為光纜類故障、供電設(shè)備中斷、板卡類故障以及供電設(shè)備故障。圖5(a)~(d)給出了子圖模式分別與4種缺陷類型的相關(guān)程度。其中,峰值表示該模式與對應(yīng)缺陷類型之間存在強相關(guān)性。其中圖5(a)和圖5(b)出現(xiàn)了多個峰值,相關(guān)程度在0%~100%,說明fiber_breaking和power_ interruption與多種模式相關(guān),且模式較為復(fù)雜,模式間可能存在交叉;圖5(c)出現(xiàn)了多個峰值,相關(guān)程度基本只分布在0%和100%兩個點,說明card_abnormal模式簡單,但是存在多種模式;圖5(d)只出現(xiàn)了單峰值,說明power_abnormal只與單一模式高度相關(guān),其結(jié)果與實際環(huán)境一致。其中,具有強相關(guān)性(圖中相關(guān)度為100%)的待標(biāo)記的缺陷模式在經(jīng)過人工審核之后往往是對應(yīng)缺陷類型下的關(guān)鍵模式。這意味著在沒有人工參與的情況下,本文所提供的算法既可以自動化發(fā)現(xiàn)可能存在的缺陷模式,同時也可以給予人工標(biāo)注建議,能夠準(zhǔn)確捕捉數(shù)據(jù)之間的相關(guān)性,并且可以準(zhǔn)確區(qū)分不同類型數(shù)據(jù)。

圖5 頻繁子圖挖掘得到的待標(biāo)記模式和缺陷類型的相關(guān)程度
本文提出的架構(gòu)已經(jīng)實際部署在缺陷診斷及自動化派單系統(tǒng)中,基于gSpan挖掘得到頻繁子圖并且經(jīng)過人工標(biāo)注選出關(guān)鍵模式之后進(jìn)行圖匹配得到的缺陷診斷混淆矩陣見表3。混淆矩陣的每一列代表了真實類別,每一列的總數(shù)表示預(yù)測為該類別數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的預(yù)測歸屬類別,每一行的數(shù)據(jù)總數(shù)表示該類別數(shù)據(jù)實例的數(shù)目。缺陷種類分為card abnormal、fiber breaking、power abnormal、power interruption。其中,card abnormal和power abnormal預(yù)測結(jié)果和真實結(jié)果完全一致,有兩個fiber breaking被預(yù)測為power interruption,一個power interruption被預(yù)測為fiber breaking。也就是在card abnormal以及power abnormal的缺陷診斷任務(wù)上準(zhǔn)確率為100%,fiber breaking類別中62個缺陷中有2個缺陷診斷錯誤,準(zhǔn)確率為96.8%,power interruption類別中14個缺陷有1個缺陷診斷錯誤,準(zhǔn)確率為92.9%。實驗結(jié)果表明本文提出的缺陷診斷方法能夠獲得較高的準(zhǔn)確性。
本文提出的面向電力通信網(wǎng)的缺陷檢測和自動派單方法,基于無監(jiān)督聚類和頻繁子圖挖掘算法,提供了一個具有自學(xué)習(xí)和迭代更新能力的架構(gòu)。該架構(gòu)為將無監(jiān)督學(xué)習(xí)和數(shù)據(jù)挖掘等人工智能技術(shù)引入電力通信領(lǐng)域,減輕了運維壓力,降低了人力資源投入,提升了系統(tǒng)安全性和可靠性。架構(gòu)重點在于告警歸并和缺陷診斷及自動派單模塊,模塊間功能清晰、相互獨立,提供向外暴露的接口,具有良好的可擴展性,允許擴展為其他可行算法。本文中兩大模塊分別基于無監(jiān)督聚類算法DBSCAN和頻繁子圖挖掘算法gSpan,擺脫了傳統(tǒng)缺陷診斷方法對于人工規(guī)則的依賴,并在實驗中取得了良好的性能表現(xiàn)。實驗結(jié)果證明了該架構(gòu)及其基礎(chǔ)算法的可實施性和可部署性,對電力通信網(wǎng)絡(luò)的智能化進(jìn)程有一定的理論指導(dǎo)意義。

表3 缺陷診斷混淆矩陣
[1] GARDNER R D, HARLE D A. Methods and systems for alarm correlation[C]//Proceedings of Proceedings of GLOBECOM'96. 1996 IEEE Global Telecommunications Conference. Piscataway: IEEE Press, 1996: 136-140.
[2] MAZDZIARZ A. Alarm correlation in mobile telecommunications networks based on k-means cluster analysis method[J]. Journal of Telecommunications and Information Technology, 2018(2): 95-102.
[3] WEN L, LI X Y, GAO L, et al. A new convolutional neural network-based data-driven fault diagnosis method[J]. IEEE Transactions on Industrial Electronics, 2018, 65(7): 5990-5998.
[4] XIAO F, ZHAO Y, WEN J, et al. Bayesian network based FDD strategy for variable air volume terminals[J]. Automation in Construction, 2014(41): 106-118.
[5] WANG J Y, JING Y H, QI Q, et al. ALSR: an adaptive label screening and relearning approach for interval-oriented anomaly detection[J]. Expert Systems With Applications, 2019(136): 94-104.
[6] QI Q, SHEN R Y, WANG J Y, et al. Spatial-temporal learning-based artificial intelligence for IT operations in the edge network[J]. IEEE Network, 2021, 35(1): 197-203.
[7] JAKOBSON G, WEISSMAN M. Alarm correlation[J]. IEEE Network, 1993, 7(6): 52-59.
[8] SCHUBERT E, SANDER J, ESTER M, et al. DBSCAN revisited, revisited[J]. ACM Transactions on Database Systems, 2017, 42(3): 1-21.
[9] YANG Y C, WANG Y P, WEI Y. Adaptive density peak clustering for determinging cluster center[C]//Proceedings of 2019 15th International Conference on Computational Intelligence and Security (CIS). Piscataway: IEEE Press, 2019: 182-186.
[10] BOULOUTAS A T, CALO S, FINKEL A. Alarm correlation and fault identification in communication networks[J]. IEEE Transactions on Communications, 1994, 42(234): 523-533.
[11] YOUSUF H, ZAINAL A Y, ALSHURIDEH M, et al. Artificial intelligence models in power system analysis[M]//Artificial Intelligence for Sustainable Development: Theory, Practice and Future Applications. Cham: Springer International Publishing, 2020: 231-242.
[12] DARRAB S, ERGENC B. Vertical pattern mining algorithm for multiple support thresholds[J]. Procedia Computer Science, 2017(112): 417-426.
[13] HARTMANIS J. Computers and Intractability[EB]. SIAM Review, 1982.
[14] YAN X F, HAN J W. gSpan: graph-based substructure pattern mining[C]//Proceedings of 2002 IEEE International Conference on Data Mining. Piscataway: IEEE Press, 2002: 721-724.
[15] YAN X F, HAN J W. gSpan: graph-based substructure pattern mining[C]//Proceedings of 2002 IEEE International Conference on Data Mining. Piscataway: IEEE Press, 2002: 721-724.
[16] XIONG H, LI Z M. Clustering validation measures[M]//Data Clustering: Chapman and Hall/CRC, 2018: 571-606.
[17] HOU J, LIU W X. Evaluating the density parameter in density peak based clustering[C]//Proceedings of 2016 Seventh International Conference on Intelligent Control and Information Processing (ICICIP). Piscataway: IEEE Press, 2016: 68-72.
[18] NOWOSAD J, STEPINSKI T F. Spatial association between regionalizations using the information-theoretical V-measure[J]. International Journal of Geographical Information Science, 2018, 32(12): 2386-2401.
Fault diagnosis and auto dispatchin of power communication network based on unsupervised clustering and frequent subgraph mining
WU Jihua1, ZHU Pengyu2, WU Zichen3, GU Bin3, HONG Tao3, GUO Bo3, WANG Jing1, WANG Jingyu1
1. State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100876, China 2. State Grid Electric Power Research Institute Co., Ltd, Nanjing 210012, China 3. Information and Communication Branch of State Grid Jiangsu Electric Power Co., Ltd., Nanjing 210024, China
Fault diagnosis is one of the most challenging tasks in power communication. The fault diagnosis based on rules can no longer meet the demand of massive alarms processing. The existing approaches based on the supervised learning need large sets of the labeled data and sufficient time to train models for processing continuous data instead of alarms, which are far behind the feasibility of deployment. As for alarm correlation and fault pattern discovery, a self-learning algorithm based on the density-based clustering and frequent subgraph mining was proposed. A novel approach for automatic fault diagnosis and dispatch were also introduced, which provided the scalable and self-renewing ability and had been deployed to the automatic fault dispatch system. Experiments in the real-world datasets authorized the effectiveness for timely fault discovery and targeted fault dispatch.
power communication, fault diagnosis, unsupervised clustering, frequent subgraph mining
TP393
A
10.11959/j.issn.1000?0801.2021253

吳季樺(1998?),女,北京郵電大學(xué)計算機學(xué)院碩士生,主要研究方向為云原生、知識圖譜、子圖挖掘。
朱鵬宇(1992?),男,國網(wǎng)電力科學(xué)研究院有限公司工程師,主要研究方向為電力通信、人工智能、知識圖譜。

吳子辰(1988?),男,國網(wǎng)江蘇省電力有限公司信息通信分公司高級工程師、信通調(diào)控中心副主任,主要研究方向為電力通信技術(shù)。
顧彬(1983?),男,博士,國網(wǎng)江蘇省電力有限公司信息通信分公司高級工程師,主要研究方向為電力通信技術(shù)。
洪濤(1994?),男,國網(wǎng)江蘇省電力有限公司信息通信分公司工程師,主要研究方向為電力光纖通信、計算機網(wǎng)絡(luò)安全、人工智能技術(shù)等。
郭波(1977?),男,國網(wǎng)江蘇省電力有限公司信息通信分公司高級工程師、副總工程師,主要研究方向為電力信息通信技術(shù)。
王晶(1974?),女,北京郵電大學(xué)計算機學(xué)院副教授,主要研究方向為業(yè)務(wù)網(wǎng)絡(luò)、云網(wǎng)絡(luò)、網(wǎng)絡(luò)智能等。
王敬宇(1978?),男,博士,北京郵電大學(xué)計算機學(xué)院教授、博士生導(dǎo)師,主要研究方向為智能網(wǎng)絡(luò)、智能運維、邊緣計算等。
Science and Technology Project of State Grid Corporation (No.5700-202040367A-0-0-00)
2021?05?31;
2021?11?15
王晶,wangjing@ebupt.com
國家電網(wǎng)公司科技項目(No.5700-202040367A-0-0-00)