999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能運維在中國移動IT 云中的應用與實踐

2021-11-26 05:43:40郭志斌
電子技術應用 2021年11期
關鍵詞:關聯特征設備

劉 虹,滕 濱,張 琳,郭志斌

(中國移動通信集團有限公司 信息技術中心,北京 100032)

0 引言

隨著國內企業數智化轉型的深入推進,企業私有云的設備規模呈現持續增加的趨勢,作為中國移動內部支撐系統的云化基礎設施,一級云資源池的規模持續增加,運營和運維工作面臨著越來越大的壓力。從業界經驗來看,運維人員數量無法隨著設備數量線性增加,每萬臺服務器運維人員的數量持續下降,因此亟需引入智能化運維手段,解決人力不足的矛盾。同時,也需要借助智能化工具提高資源的可用性,提升租戶的使用體驗。為此,中國移動結合IT 云自身特點,梳理了一級IT 云的智能運維場景體系,并選取典型場景進行了應用與實踐。本文基于中國移動一級IT 云運維團隊的切實需求,綜合評估業界關鍵技術成熟度和一級IT云的基礎運維數據質量,選擇以下兩個場景進行分析和研究:

(1)智能化的指標異常檢測

通過機器學習算法,從監控指標的歷史數據中識別指標的特征,并基于指標特征生成指標的個性化異常檢測模型[1]。本場景希望解決傳統固定閾值的檢測精度不足的問題,并緩解人工設置閾值的決策困境,降低工作量。

(2)智能化的告警關聯與溯源

通過機器學習算法,從海量歷史告警中學習告警之間的相關性,結合網絡拓撲結構及專家標注,實現告警的智能關聯壓制(聚合),并推斷告警根源。本場景希望提升運維人員在面對故障引起的大量告警時,能夠快速定位問題,提高故障恢復的速度。

1 智能化指標異常檢測

面對一級IT 云全網資源池設備10 萬+、指標數量千萬級的實際情況(典型的服務器設備有近百個監控的指標,典型的網絡設備則有數百個監控的指標),事實上,已經無法依靠人工為每個設備的指標都配置合適的閾值。況且,設備上的監控指標,其波形因其承載的業務不同而千變萬化,人工設置的固定閾值無法適應指標的動態性,容易產生誤報或者漏報。

因此引入人工智能算法,實現智能化的指標異常檢測的需求應運而生,該場景的總體工作流程如圖1 所示。本文著重介紹周期性指標的分析算法。

圖1 指標異常檢測流程

1.1 周期型指標的特征識別

1.1.1 數據預處理

原始的指標數據往往包含噪聲,常見的有周期錯位、數據缺失/極值等,會影響模型的訓練。預處理負責對各種異常情況進行對應的處理,得到標準的、干凈的、連續的數據,供給特征分析使用。

1.1.2離群點處理

離群點是明顯背離指標分布的點,離群點檢測主要采用LOF 局部異常因子算法[2-3],識別出離群點后,可以采用平均數填充、中數填充、重復值最多的數填充、丟棄等策略。

1.1.3 數據轉換

數據轉換是根據指標特征將數據進行轉換或歸并,從而構成一個適合特定特征分析的描述形式。

數據轉換主要包括3 種策略:

(1)標準化,標準化給定數據集中所有數值屬性的值到一個0 均值和單位方差的正態分布;

(2)歸一化,規范化給定數據集中的所有數值屬性值,類屬性除外,結果值默認在區間[0,1];

(3)離散化,分別進行監督和無監督的數值屬性的離散化,用來離散數據集中的一些數值屬性到分類屬性。

1.1.4 識別周期性

首先對原始數據K={v1,v2,…,vn}做傅里葉變換,獲取其振幅最大的分量作為備選周期T。將數據按照備選周期T 進行切分,形成N 個子序列:K1~Kn。

任選其中的一個子序列(如K1)作為基準,計算其與其他N-1 個子序列的皮爾遜系數,并求均值。皮爾遜系數用于度量兩個變量X 和Y 之間的相關性,是非常成熟的算法,不再贅述[4-5]。

若Kn的皮爾遜系數均值達不到參數配置的閾值要求,則輪換Kn+1為基準,直到找出滿足閥值要求的子序列。如果能夠找到子序列Km滿足要求,則判定該指標具有周期性特征,否則判定該指標不具備周期性特征。

1.1.5 識別節假日效應

如文獻[6]所述,時間序列數據應充分考慮假日效應,本文首先將上一步生成的子序列按照其所在日期是否為假日分為兩組,記為Cw和Ch。然后,在Cw和Ch上分別運行主成分分析(PCA)[7-8],各選定一個最具代表性的子序列,記為Kw和Kh,通過計算它們之間的皮爾遜系數來判定曲線的波形是否相似。如果兩者波形非常相似,那么說明該指標不具備節假日效應,反之則具有節假日效應。

1.2 周期型指標的基線計算

經過數據預處理,可以得到一個(無假日效應)時或者兩個(有假日效應時)基于歷史數據的疊加圖,將一天的數據按照采集周期分成N 個時間點,每個時間點相當于一個桶,將歷史數據分別放到每個桶里,然后計算出每個桶的均值、最大值和最小值,即為該時刻的基本基線值。將每個時刻的最大值、最小值分別連接起來,就得到該模型周期的基本基線。直接計算得出的基線非常生硬且非常敏感,因此系統提供一些參數來降低基線的敏感度,防止造成告警誤報。

1.3 周期型指標的異常檢測

通過分析得到周期性指標的動態基線模型后,還需要對模型進行測試以驗證本文的模型是否準確,如果不準確可以隨時調整參數對模型進行微調。對于短暫的基線偏離,如果認為這個點的短暫偏離是正常現象,可以調整參數,以修改基線的敏感度。

1.4 應用效果

選擇數據中心作為試點,進行“智能化的指標異常檢測”場景相關工具的落地驗證。

1.4.1 特征識別可靠性評估

驗證環節邀請了三位一線運維專家對指標特征進行評估,并與算法的智能識別結果進行對比,部分結果如表1 所示。

表1 指標特征識別與專家評估意見

表1 中特征置信度最高的值字體加下劃線并加粗,代表系統自動選定的特征。其中周期特征指曲線以相對固定的周期重復類似的形態,趨勢特征指曲線呈現遞增或者遞減的形態,平穩特征是指指標在一個箱體內隨機振蕩。

從表1 中可以看到,當人工智能識別出的指標特征置信度大于80%時,與專家的評估意見高度吻合(如第1,2,3,5 行);而當指標特征置信度小于60%時(如第4,6行),可以認為指標不具備明顯特征。

1.4.2 效率提升情況

本次試驗接入的1 081 臺設備,按照其中有5%的網絡設備來算,可得這些設備的指標總數有:(1 081×0.05)×500+(1 081×0.95)×80=27 025+82 156≈11 萬(個)。

如果通過傳統手工方式設置監控策略,即便每個指標耗費運維人員1 min 的時間(該估計已經非常樂觀),則共需:110 000/60/8/22≈10.4(人月)。

作為對比,本文在20 個設備上做了一次特征識別,選擇了2019 年3 月份的數據作為訓練集,并選擇了4月第一周的數據作為測試集。這20 個設備共有3 169 個有效指標,特征識別結果的分布如圖2 所示。

系統自動推薦了17 個設備上的356 個特征置信度比較高的指標供運維人員做確認,占總指標數的11.23%,系統運行耗時間為10 min,可以忽略。由圖2 可見,通過引入智能分析,將指標梳理這項機械性工作的工作量降低了90%左右,使得一項看似不可能完成的工作變成了可能。

圖2 指標特征識別結果-特征分布

2 智能化告警關聯和溯源

在云計算環境中,業務系統或設備間存在各種依賴關系,因此在系統內或者系統間就會存在故障關聯,也就是當系統中一個模塊或者設備發生告警時,與之關聯的模塊或設備也往往發生告警[9-10]。

如文獻[11]所述的案例法,在中國移動一級IT 云資源池在10 萬+的設備級別上極難開展,需要基于歷史告警數據學習告警之間的相關性,實現告警的智能壓制、推斷告警根源,有效提高告警有效性。

2.1 告警溯源分析流程

告警溯源分析工作流程的要點在于:

(1)在告警數據集上,基于告警數據的特點,運行多次的全量基礎掃描,并基于基礎掃描的結果做定點的深度掃描,從而發現不同告警的相關性;

(2)引入性能監控指標數據集,在性能監控指標上運行指標特征提取[12]和相似性分析[13-14]算法,基于指標之間的相似性推斷設備、組件之間的關聯性;

(3)合并告警和指標中發現的關聯關系,共同形成最終模型。

2.2 在告警數據集上的多層次關聯性掃描

以圖3 所示的5 條告警數據為例,存在以下問題:

圖3 告警數據示例

(1)如果采用單次時間切片,A1 和A2 兩個告警的第一次成對出現會被切到兩個時間片中,從而變成兩個不相關的告警,從而降低了結果的置信度。

(2)告警是有生命周期的,當兩個故障具有相關性時,除了關注它們同時發生,還要關注是否同時清除。如A3和A4,因為沒有同時清除,可以據此降低其關聯的置信度。

(3)對于頻繁發生的告警,會更多地關聯到其他告警,但這些關聯關系中有些是無效的[15]。基礎掃描為了提高敏感性,參數設置得比較寬泛,使得無效關系被納入掃描結果,如A5 和A3,實際上它們只是偶然碰到一起了。

針對以上3 個問題,本文在告警數據集上設計了5次掃描,前4 次為基礎掃描,如表2 所示。第5 次為定點深度掃描,其算法流程如圖4 所示。

表2 基礎掃描過程

圖4 定點深度掃描算法

在完成4 次基礎掃描后,需要對掃描結果進行一個初步的合并。假設4 次掃描結果所得關聯關系集合為Ri(i=1,2,3,4),則基礎掃描的合并結果記為Rbase:

然后,在Rbase上應用篩選算法f1來刪除置信度不符合要求的關系,應用篩選算法f2來刪除支持度不符合要求的關系,得到過濾后的結果集,記為RfBase。

其中,thres 是通過界面配置的算法參數值。

2.3 在性能監控指標數據集上的關聯性掃描

具體到在性能監控指標數據集上的計算,其思路基于如下事實:告警是不完備數據集,因為不是所有的告警都一定發生過;監控指標是相對完備的數據集,如圖5所示。

圖5 指標數據集圖

圖5 中,T 為指標采集周期。正常情況下,所有指標在每個采集周期均有數據,但只有個別點位會發生告警,因此指標數據比告警數據的完備度高。

從文獻[16]可知,當兩個設備、組件具有業務上的相關性時,一定可以表現為兩個相關對象上某些監控指標的聯動,包括同向上升、下降,逆向上升、下降,或者同周期波動。

例如,用戶通過Web 界面來向系統發出請求,當用戶的請求數變化時,能觀察到:tomcat 進程所占CPU、數據庫查詢量、兩臺主機的負載、兩個網絡接口鏈路上的網絡流量和用戶的請求數有著趨勢相同的變化。

根據以上分析可知,在性能監控指標數據集上的關系挖掘,就是通過比對所有指標在過去一段時間里的趨勢相關性,確定指標之間的相關的置信度,從而推斷設備、組件之間的關系,與告警發現的關系共同形成告警壓制、溯源所依賴的關系網。

同時,本文引入了“主成分分析(PCA)”和“曲線特征提取”兩步,來兼顧計算量和計算精度。

對于曲線的特征提取,本文采取斜率突變法。通過尋找合適的斜率突變點,由連接這些突變點的直線來近似擬合原始曲線,從而在保持原始曲線整體趨勢特征的前提下,降低局部數據噪聲。

針對每個設備、組件所獲得的指標特征數據,需要進一步通過主成分分析法來進行數據降維。將一個設備、組件上的N 個指標看作是一個N 維的數據集,通過主成分分析后,篩選出1-M 個具有代表性的指標參與最終的運算。

在分別完成告警數據集和性能指標數據集上的關聯關系計算后,將兩組數據進行合并,形成最終的結果。

2.4 應用效果

選擇某數據中心作為試點,實現“智能化告警關聯和溯源”場景研發及落地驗證。對基于智能關聯的告警溯源評價標準為:

(1)壓縮比,指在單位時間內工具匯報的根源告警數/參與聚合的原始告警數;

(2)精確率,指在單位時間內對應實際故障的根源告警數/工具匯報的根源告警數;

(3)召回率,指在單位時間內對應實際故障的根源告警數/故障總數。

目前本文使用的測試集包含原始告警8 757 條,經關聯分析后,對其中4 590 條告警進行了壓制,推薦了69 個根源告警/風暴,告警壓縮比例為55.7%,告警根源分析準確率約50%,召回率約60%,有效提高了告警的精度和有效性。

3 結論

在云計算和大數據快速發展的背景下,本文研究基于機器學習的智能化運維工具,將大數據技術、機器學習技術應用于中國移動一級IT 云的運營運維工作中,可以通過機器學習的方法掌握運維數據之中的規律,自動生成更準確的閾值或通過異常模式的識別判斷異常的發生,從而以機器決策分析代替傳統的人工經驗決策;通過處理和分析海量的運維數據、運維大數據的應用,企業能夠提前發現IT 系統中潛在的問題和風險,將被動響應式的風險處理方式變為自動性防御;通過機器學習的方式,在異常監測、告警關聯壓制、容量預測等環節發揮效用,提高運維的效率和質量。

根據智能運維管理的發展應用和IT 云的運維管理需求,后續的應用重點為:探索基于智能預測的主動運維,基于模型自動預測、預警,實現對系統故障的提前感知,并可以將預警與自動處理機制對接,實現運維信息立體交換,讓運維管理員獲得充分的運維關聯信息,從而對潛在故障進行恢復或優化;此外,啟動大數據挖掘研究,不僅只針對運維數據進行分析,持續優化完善業務數據整合和動態關系建模,將現在分散在各個系統中的運維信息進行有效的整合與利用。

猜你喜歡
關聯特征設備
諧響應分析在設備減振中的應用
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于MPU6050簡單控制設備
電子制作(2018年11期)2018-08-04 03:26:08
奇趣搭配
抓住特征巧觀察
智趣
讀者(2017年5期)2017-02-15 18:04:18
500kV輸變電設備運行維護探討
工業設計(2016年12期)2016-04-16 02:52:00
原來他們都是可穿戴設備
消費者報道(2014年7期)2014-07-31 11:23:57
主站蜘蛛池模板: 欧美www在线观看| 午夜成人在线视频| 国产中文在线亚洲精品官网| 99成人在线观看| 亚洲成人一区在线| 成人永久免费A∨一级在线播放| 天天激情综合| 97在线国产视频| 欧美中文字幕第一页线路一| 国产97公开成人免费视频| 欧美性猛交xxxx乱大交极品| 亚洲一区二区三区国产精品 | 久久女人网| 免费看黄片一区二区三区| 欧美午夜精品| 日本在线免费网站| 国产网站免费看| 久久天天躁夜夜躁狠狠| 国产精品污视频| 无码中文字幕精品推荐| 高潮爽到爆的喷水女主播视频 | 天堂在线亚洲| 国产香蕉国产精品偷在线观看| 91精品国产一区| 亚洲综合色婷婷| 99re在线免费视频| 国产精品流白浆在线观看| 国产国产人成免费视频77777| 片在线无码观看| 欧美激情视频一区二区三区免费| 在线看片中文字幕| 青青草国产一区二区三区| 91色在线观看| 黑色丝袜高跟国产在线91| 亚洲乱强伦| 久久伊人操| 国产精品9| 亚洲无码日韩一区| 九九九国产| 福利片91| 成人福利在线视频免费观看| 成人免费网站在线观看| 97色伦色在线综合视频| 伊人久久精品亚洲午夜| 中文字幕精品一区二区三区视频| 久久人与动人物A级毛片| 国产青青草视频| 黄色污网站在线观看| 亚洲高清无码精品| 中文字幕1区2区| 亚洲中文精品人人永久免费| 她的性爱视频| 亚洲男人的天堂久久精品| 18黑白丝水手服自慰喷水网站| 成人噜噜噜视频在线观看| 日韩欧美中文亚洲高清在线| 亚洲国产精品日韩欧美一区| 鲁鲁鲁爽爽爽在线视频观看| 久久黄色毛片| 日本精品一在线观看视频| 亚洲综合激情另类专区| 亚洲中文久久精品无玛| 99尹人香蕉国产免费天天拍| 国产精品久久久精品三级| 久久亚洲国产最新网站| 激情無極限的亚洲一区免费| 成人免费午间影院在线观看| 2021国产精品自产拍在线| 99在线观看精品视频| 久久国产香蕉| 在线人成精品免费视频| 一级全免费视频播放| 免费国产黄线在线观看| 国产精品久久久久无码网站| www亚洲天堂| 国产在线八区| 精品人妻一区二区三区蜜桃AⅤ| 亚洲av无码成人专区| 91久久国产热精品免费| 中文毛片无遮挡播放免费| 亚洲成A人V欧美综合| 国产精品永久久久久|