999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于神經網絡的alarm2vec告警壓縮算法

2022-07-18 08:57:56呂田田李時宇袁晶晶胡華偉
無線電通信技術 2022年4期
關鍵詞:關聯規則

王 迎,呂田田,李時宇,袁晶晶,胡華偉

(1.中國電信股份有限公司研究院,北京 102209;2.中國電信股份有限公司福建分公司,福建 福州 350001)

0 引言

相對于4G而言,5G具有網絡更復雜,無線網絡頻段多、場景差異更大、性能要求高等特點,在對通信系統中各種設備進行監控的過程中,由于監控對象繁多,更會產生海量告警數據。運維人員難以快速準確地對海量告警做出正確判斷,導致告警根因定位費時費力。在現有技術中,針對海量冗余告警數據的處理,通常是基于專家經驗人為指定規則過濾,或者針對某些特定場景,如鏈路終端等進行簡單的規則派單,這種方法效率低且容易出錯。本文通過人工智能手段對告警信息的壓縮進行研究,解決人工處理效率、運維人員工作壓力激增等問題[1]。

1 告警壓縮問題描述

在復雜、異構的網絡結構中,各個網元設備之間相互影響,如果一個設備發生故障,與其相關的一些設備也會發出告警,同時顯示其處于故障狀態。當電信網絡中出現故障或性能出現瓶頸時,網管人員經常被一系列突發的、對確定故障原因無意義的大量告警事件所淹沒。因此,為了更好地診斷故障,需要對網絡故障告警信息進行相關性分析,壓縮冗余告警、定位故障。

通過網絡故障告警相關性分析,可以將多個告警事件歸結成較少的告警事件,從海量告警數據中發現故障,準確定位故障。采用基于人工智能的告警關聯分析方法,幫助運維人員及時排除故障,確保網絡正常、可靠的運行。

2 基于神經網絡的alarm2vec告警壓縮算法

挖掘告警間的關聯規則,本質上是從所有的告警事件中找告警之間的共現關系。在同一個事件中出現的告警ID主要分為兩類,一類是由一個故障產生的多個衍生告警,這需要挖掘發現的關聯規則;另一類是在告警時間窗口內發生的其他告警,本文認為與關聯規則無關,假設為噪聲。噪聲的存在使得無法在一個告警事件中發現規則,而故障引起的關聯規則會在多個告警事件中多次發生,又由于噪聲具有一定隨機性,因此每次伴隨規則發生的噪聲告警會有所不同。因此,通過分析告警事件列表,可以挖掘出有效的告警關聯規則。本文提出使用基于神經網絡的無監督算法來挖掘告警ID之間的關聯規則[2-3],該算法可以充分考慮每個事件中告警ID之間的共現關系,濾除噪聲告警的影響,通過無監督的方式學習到每個告警ID的特征,即將告警ID映射到高維空間上的點,具有共現關系的告警ID在高維空間中會聚集在一起。

挖掘告警關聯規則的整體流程如圖1所示,使用alarm2vec將告警ID映射到高維空間后,通過極大團圖挖掘的方法來挖掘關聯規則。該方法拋棄了以往的基于支持度-置信度的算法框架,避免了支持度的影響挖掘關聯規則,這樣既可以挖掘出高頻告警間的關聯規則,也可以挖掘出低頻告警間的關聯規則。

圖1 告警壓縮算法流程

2.1 告警向量

告警向量是用來表示告警之間關聯性的向量,它以某告警所在的事件為基礎,發現有哪些告警伴隨該告警出現。alarm2vec神經網絡可以將告警之間的共現關系映射到高維空間,訓練每個告警ID的告警向量,使得具有共現關系的告警ID聚集在一起[4-7]。

2.1.1 alarm2vec神經網絡

alarm2vec神經網絡是擁有一個隱層的神經網絡,不需要有標簽的監督數據,其輸入是設定窗口內的中心告警ID和其余告警ID構成的數據對來訓練,最終得到高維的告警向量。圖2是alarm2vec神經網絡的結構。

圖2 alarm2vec神經網絡

在輸入數據之前對告警ID進行one-hot編碼,對所有告警ID按照頻度進行降序排序,固定這些告警ID的順序,假設有V個告警ID,那么每個告警ID就可以用一個V維的稀疏向量表示,這個向量只有一個位置的元素是1,代表該告警ID,其余位置為0。

假定告警向量的長度為N,最終有V個告警ID參與訓練,那么輸入權值共享矩陣W的維度為V*N,在訓練開始之前對W進行隨機初始化。

第一層是輸入層。對于訓練窗口[a,b,c],假設訓練窗口大小C=2,輸入告警為告警b,和告警b共現的告警是告警a和告警c,那么將告警a和告警c的one-hot編碼作為輸入向量x,輸入層將這些向量分別和權值共享矩陣W相乘之后得到對應的隱向量,將這些隱向量傳輸到隱層。

第二層是隱層。隱層接收輸入層的C個隱向量,將這些隱向量的平均值向量h作為隱層的輸出。

輸出權值共享矩陣W′的維度為N*V,在開始訓練之前,需要對W′進行隨機初始化。

第三層是輸出層,輸出層接收隱層的輸出向量h,將h與W′相乘,之后對每一維都使用softmax進行處理,得到1*V的向量y。為了表示方便,使用v′j表示W′的第j列的轉置,并引入中間向量u,uj代表u的第j個維度的值,那么:

uj=v′j·h。

yj表示向量y第j個維度的值:

使用一個告警ID的one-hot向量乘向量y得到的便是這個告警ID出現的概率,alarm2vec取出現的概率最大的告警ID的one-hot向量作為輸出。

alarm2vec采用反向傳播算法以及隨機梯度下降來學習權重的更新,alarm2vec按照事件列表的順序依次訓練每個樣本,逐個觀察輸出和真實值之間的誤差,計算這些誤差的梯度,并在梯度方向上糾正權重矩陣。

alarm2vec真正的輸出是告警wo,alarm2vec預設的輸出是輸入告警。損失函數的定義是輸出告警wo在輸入告警條件下的概率的對數,vj表示矩陣W的第j列,則損失函數E為:

對上式求導,計算梯度,按照隨機梯度下降算法更新權重矩陣,更新函數如下:

W′(new)=W′(old)-l·(y-t)·h,

W′(new)代表參數更新后的W′,W′(old)代表參數更新前的W′,l是學習率,需要在訓練之前預設,t是輸入告警的one-hot向量。在所有事件參與訓練之后,去掉輸出層,僅保留隱層的權重矩陣W。使用一個告警ID的one-hot向量乘矩陣W就可以得到這個告警ID的告警向量。

2.1.2 分層softmax輸出層優化的策略

alarm2vec本質上采用的是多分類問題的訓練方法,其輸出層使用softmax函數,時間復雜度為O(|V|),計算代價很大,對大規模的訓練語料來說,非常不現實。所以本文采用分層softmax(hierarchical softmax)技巧來加速訓練。

Hierarchical softmax是一種對輸出層進行優化的策略,輸出層在原始alarm2vec模型中利用softmax計算概率值,采用hierarchical softmax之后,改為利用Huffman樹計算概率值。Huffman樹是二叉樹,在葉子節點及葉子節點的權值給定的情況下,該樹的帶權路徑長度最短。帶權路徑的定義為,一個節點的根節點到該節點的路徑長度乘以該節點的權值;樹的帶權路徑長度定義為全部葉子節點的帶權路徑長度之和[8-12]。直觀上可以看出,葉子節點的權值越大,則該葉子節點就應該離根節點越近。因此對于模型來說,頻度越高的告警,距離根節點就越近。

采用告警列表中的全部告警作為葉子節點,頻度作為節點的權值,構建Huffman樹。從根節點出發,到達指定葉子節點的路徑是唯一的。hierarchical softmax正是利用這條路徑來計算指定告警的概率,而非用softmax函數來計算。

圖3是一個構建好的Huffman樹。各葉子節點代表一個告警,非葉子節點共|V|-1個。以w2為例,從根節點到該葉子節點的路徑長度L(w2)=4,各個節點依次被記為n(w2,1)、n(w2,2)、n(w2,3)和n(w2,L(w2))。從根節點出發,走到指定葉子節點w的過程,就是一個進行L(w)-1次二分類的過程:路徑上的每個非葉子節點都擁有兩個孩子節點,從當前節點n(w,j) 向下走時共有兩種選擇,走到左孩子節點ch(n(w,j))就定義為正類,走到右孩子節點就定義為負類。用二項Logistic回歸模型對每一次分類過程建模:從當前節點n(w,j)走到下一節點,那么走到左孩子節點的概率為:

圖3 Huffman樹

走到右孩子節點的概率為:

將上面兩個式子統一起來,即為:

其中,雙線括號的意思是,當括號內為真則輸出1,為假則輸出-1。

現在計算輸出節點為w的概率,對應了一條從根節點n(w,1)走到葉子節點n(w,L(w))的路徑,概率計算式為:

P(w|wt-m,…,wt-1,wt+1,…,wt+m)=

平均時間復雜度為O(lb|V|),相比于使用softmax函數有很大提高。應用hierarchical softmax的優勢為把N分類問題變成lg(N)次二分類。

2.1.3 訓練告警向量

搭建alarm2vec神經網絡需要預設一些參數來保證alarm2vec神經網絡的正常運行,這些參數如表1所示。

表1 alarm2vec神經網絡預設參數

輸入權值共享矩陣W和輸出權值共享矩陣W′可以采用隨機初始化的方式進行,要求區間限制在[0,1];學習率需要先設定為一個較大的值,然后按照一定的方式每輪學習進行衰減,這樣可以在前期加快參數更新的幅度,后期減少參數更新的波動,從而更接近最優解。訓練窗口的長度要略大于事件的最大長度,因為一個事件內的告警之間是有一定的關聯性,這樣在訓練告警向量時可以囊括整個事件。告警向量的長度設置過長會導致告警向量稀疏,計算壓力大;設置過短導致告警向量表達告警之間關聯性的效果不好,選擇預設為50。

神經網絡每一輪的輸入是一個事件上劃分出的一個訓練窗口,對于訓練窗口[a,b,c,d,e],輸入告警是告警c,將和告警c共現的a,b,d,e的one-hot編碼輸入到輸入層;在所有的事件都參與了訓練之后,去掉輸出層,取出輸入權值共享矩陣W,使每一個告警ID的one-hot編碼形式的向量乘W得到每個告警ID的告警向量。

2.2 基于極大團的挖掘技術

圖論中,團是一個圖的完全子圖,如果一個團不被其他任一團所包含,即它不是其他任何團的真子集,則稱該團為圖的極大團。在關聯規則挖掘中,基于極大團的挖掘可以解決關聯規則挖掘問題[13-14]。

告警向量之間的相似性代表該告警和其他告警之間的關聯性,如果兩個告警向量十分相近,那么可以判定這兩個告警之間具有很強關聯性。可以通過余弦相似度來定義兩個告警之間的相似性,這里可以預設相似度閾值,告警向量之間的相似度大于相似度閾值的告警對,視為兩個告警之間具有關聯。

定義k項集:如果k個告警兩兩之間具有關聯性,那么稱這k個告警之間具有關聯性;k個具有關聯性的告警組成的集合稱之為k項集。

通過告警之間的余弦相似度和預設的相似度閾值,可以得到2項集的全集。從圖論上看,如果將每個告警看作圖上的一個點,將兩個告警之間的關聯看作兩個點之間連了一條線,那么將告警樣例在二維坐標中表征,如圖4所示。

圖4 2項集可視化

從2項集可視化的結果可以看出,由alarm2vec算法將告警ID映射到高維空間后,會產生類似于聚類的效果,這說明告警向量可以反應出告警之間的相關性。

對于k項集來說,其任意k-1個元素都可以組成一個k項集,因此如果一個k項集存在,那么它的所有k-1項集一定都出現在k項集中。也就是說(k+1)項集的條件是它的所有k項子集都存在。若某個k項子集不存在,則該 (k+1)項集不能產生,也就不能再繼續聚合成更高項集。這個過程實際上是發現所有極大團的過程,每一個極大團都是一個k項集。根據團的圖論表示,即團是一個完全子圖,只要找到k項集的兩個k-1項集,且這兩個k-1項集的差集是2項集,那么就可以得到這個k項集,圖5為4項集和它的兩個3項集。

圖5 4項集和它的兩個3項集

圖6介紹了如何通過k項集的全集得到(k+1)項集的全集。如果把告警看作圖上一個點,那么兩個告警之間具有關聯性可以看作兩個點之間有一條連線。那么k項集就是一個包含k個點的完全圖,它的k-1項集就是包含k-1個點的完全子圖,并且兩個k-1項集的差別最多只有一個點,差別的點對也是一個2項集。所以如果兩個k-1項集的差別只有一個告警,且差別的告警對是一個二項集,那么兩個k-1項集的并集是k項集。

圖6 極大團挖掘過程

2.3 關聯規則合并

關聯規則的挖掘使用了基于極大團的圖挖掘技術,從極大團定義和挖掘過程中可知,它要求規則內的告警兩兩之間具有關聯性,在圖論中可以表示為一個完全圖。這會造成一大批相似規則的出現,比如規則[a,b,c,d,e]和[a,b,c,d,f],兩個規則之間e和f沒有太強的關聯性,所以不能進一步合成。

為解決上述問題,本文提出了基于事件的規則合并技術,即讓每一條規則嘗試對每一個事件進行壓縮,如果一個事件包含一個規則的所有告警,那么稱這個事件可以被規則壓縮,記錄每個規則可以壓縮哪些窗口,記為壓縮窗口序列;對于壓縮窗口序列相同的規則,使用這些規則的并集來代替這些規則。比如規則a,b,c都能且僅能壓縮窗口10,12,15,那么就可以使規則a,b,c的并集加入關聯規則集,并移除規則a,b,c[15]。

3 算法實驗及結果分析

3.1 告警記錄壓縮過程

如圖7所示,在得到告警之間的關聯規則之后,使用關聯規則對告警記錄進行壓縮。壓縮過程如下:

圖7 告警壓縮舉例

① 初始化事件列表,預設事件的時間窗口大小和步長,初始化被壓縮告警列表和未被壓縮告警列表。

② 第一個事件的窗口范圍是從第一個告警序列的開始時間到這個時間加上時間窗口大小;之后滑動窗口一個步長的距離,得到第二個事件;重復此步驟,直到處理完所有告警。

③ 對于每一個事件,使用每一條規則對其壓縮,如果該規則的所有告警ID都在此窗口內出現,那么在被壓縮告警列表中加入一條關于該規則的告警,告警發生時間記為該規則中最先開始的告警發生時間,終止時間集為該規則中最遲結束的告警的終止時間;如果被壓縮告警列表中存在此壓縮告警,則忽略;在使用完所有規則后,將此窗口內未被壓縮的告警和被壓縮的告警組成新的事件,并按告警發生事件升序排列。

3.2 告警壓縮效果

本文研究所使用的數據為某區縣2021年6月無線側告警數據,如圖8和圖9所示,原始(Origin)告警數據有58 049條,過濾“設備名稱” “告警發生時間” “終止時間”中有空缺值(Incomplete)的告警之后有57 896條,刪除連續相同(Continuioisly Repeated)告警發生時間相同設備名稱的告警之后有53 713條,刪除設備名稱格式有誤(Wrong format)的告警之后有51 302條,刪除閃斷告警(Flash)之后有51 170條,刪除偶發(Sporadic)告警之后有42 478條,用alarm2vec算法進行告警壓縮(Compressed by rules )之后有23 134條告警,占原始告警數量的39.85%,占數據預處理后數據的54.46%。

圖8 告警壓縮過程記錄

圖9 告警壓縮過程比率

4 結論

本文提出了一種基于神經網絡的alarm2vec告警壓縮方法,該方法可以有效對告警信息進行壓縮,告警壓縮后數據占原始數據的39.85%,占數據預處理后的54.46%。基于神經網絡的alarm2vec算法結合極大團圖挖掘的告警關聯規則挖掘方法,準確挖掘出各頻段告警ID之間的關聯規則,對告警信息進行合理的壓縮,更快發現告警根原因,提高處理告警的效率,是AI技術應用于網絡智能運營的有效實踐。

猜你喜歡
關聯規則
撐竿跳規則的制定
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
主站蜘蛛池模板: 91丝袜在线观看| 91在线一9|永久视频在线| 国产成人AV男人的天堂| 91福利国产成人精品导航| 黄色在线不卡| 亚洲日本精品一区二区| 亚洲爱婷婷色69堂| 日本黄色a视频| 国产在线日本| 91精选国产大片| 亚洲精品在线影院| 亚洲黄网在线| 99在线观看精品视频| 色综合国产| 无码在线激情片| 国禁国产you女视频网站| 亚洲男人天堂久久| 亚洲成人免费在线| 欧类av怡春院| 人人看人人鲁狠狠高清| 精品视频一区二区观看| 99九九成人免费视频精品 | 久久五月视频| 欧美日韩中文字幕二区三区| 国产精品蜜臀| 国产理论一区| 久久综合色88| 欧美日韩一区二区三| 久久精品电影| 国内精品九九久久久精品| 亚洲中字无码AV电影在线观看| 丁香婷婷在线视频| 亚洲激情区| 亚洲国产日韩欧美在线| 91成人精品视频| 久久99国产综合精品1| 亚洲免费三区| 午夜啪啪网| 久久精品丝袜| 久久综合亚洲色一区二区三区| 国产成人亚洲综合a∨婷婷| 亚洲国产看片基地久久1024 | 日日噜噜夜夜狠狠视频| 色婷婷狠狠干| 日韩精品一区二区深田咏美| 欧美自拍另类欧美综合图区| 成年免费在线观看| 日韩欧美中文字幕一本| 夜夜操狠狠操| 国产原创演绎剧情有字幕的| 久久久久国产精品免费免费不卡| 国产精品无码翘臀在线看纯欲| 色噜噜在线观看| 国产小视频在线高清播放| 日本手机在线视频| 中字无码精油按摩中出视频| 国产鲁鲁视频在线观看| 久久美女精品国产精品亚洲| 国产www网站| 丁香综合在线| 国产日产欧美精品| 国产黄网永久免费| 国产激爽大片在线播放| 99热国产在线精品99| 国产真实乱子伦视频播放| 亚洲精品动漫| 欧美视频二区| 91伊人国产| 国产手机在线小视频免费观看 | 色综合五月婷婷| 亚洲浓毛av| 亚洲男女天堂| 日韩av高清无码一区二区三区| 国产精品妖精视频| 免费激情网址| 福利在线免费视频| 国产一区二区精品福利| 97在线国产视频| 性欧美精品xxxx| 国产白浆视频| 国产精品成人AⅤ在线一二三四| 欧美区在线播放|