999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能運維技術在電信大視頻業(yè)務中的應用研究

2018-05-03 10:01:31劉麗霞
信息通信技術 2018年1期
關鍵詞:故障分析系統

吉 鋒 劉麗霞 文 韜 張 晗

中興通訊股份有限公司南京210012

引言

傳統IT系統運維過程中,故障預警、故障排查等是非常重要但費時費力的工作,以往的運維方式通常部署一套監(jiān)控系統,通過設置簡單閾值、告警規(guī)則觸發(fā)故障預警,同時,故障發(fā)生后往往需要大量的人工進行排查定位。考慮到如今業(yè)務系統越來越復雜、數據量越來越龐大、數據特性越來越多樣化等諸多因素,運維中純粹依靠手工排查故障的方式已不再適用。

因此,在大數據場景下,運維向智能化發(fā)展是一個重要趨勢:基于對業(yè)務運維系統的理解,對積累的大量日志數據進行機器學習的算法建模,實現自動發(fā)現問題、分析問題、提前預判問題等多種功能,起到輔助運維人員,最終降低系統成本、提升運維效率的效果。針對人工智能技術與IT運維相結合,Gartner率先提出了AIOps(Algorithmic IT Operations,基于算法的IT運維)的智能運維理念[1]。Gartner的報告宣稱,到2020年將近50%的企業(yè)將會在他們的業(yè)務和IT運維方面采用AIOps,遠遠高于今天的10%。

1 電信大視頻智能運維系統架構

智能運維是云計算、大數據、人工智能技術在運維領域的綜合性應用,即云計算為各種日志大數據提供了采集、存貯與計算能力,人工智能技術提供了結合行業(yè)知識將運維問題轉化為大數據分析建模的能力。結合電信行業(yè)的一些行業(yè)特性及運維需求,我們構建了電信行業(yè)智能運維系統的技術體系與目標:結合電信業(yè)務領域知識,利用統計學習、機器學習、深度學習、強化學習等人工智能技術,對多源的日志數據進行處理、分析、挖掘甚至推理,形成專有的運維知識庫,如組件依賴關系、事件關聯關系、故障傳播路徑、異常事件模式、故障樹等異常及故障模型,從而能夠提供在線甚至準實時的異常發(fā)現、故障定位、根因分析、故障預測等日常運維服務;另外,還包括在滿足日常運維服務的基礎上實現業(yè)務系統的整體配置優(yōu)化、容量分析、智能調度、存儲優(yōu)化等高級運維服務。圖1是從大數據分析流程視角對智能運維系統進行技術、邏輯模塊及應用功能的一種綜合展示,其中數據處理與建模分析、算法知識庫和運維服務是3個重要的邏輯模塊。

圖1 智能運維系統邏輯架構圖

1)大數據存儲與計算平臺。該平臺同時提供各種類型日志大數據存貯及數據計算。數據存儲提供對各種來源、各種數據類型的日志原始數據、預處理后的數據、分析挖掘的中間結果及最終結果、算法知識庫的存儲。數據計算按照業(yè)務需求的不同提供實時、批量及離線混合計算模式。

2)數據源。其支持各種常見系統和設備的日志數據的采集,包括硬件如網絡設備、終端設備和軟件如操作系統、文件系統、數據庫、業(yè)務系統等。

3)數據處理及建模分析。提供對多種數據源的數據處理、事件分析、分析挖掘。智能運維的數據處理既包含典型數據倉庫所需要的數據ETL,也包含數據分析挖掘建模前的數據預處理,如數據采集(支持常用Kafka/Flume/Sqoop/Logstash等大數據采集工具)、數據解析(針對日志數據主要為事件解析)、數據清洗、數據轉換等;事件分析重點包含事件提取、事件標注、事件聚合、事件分類、事件關聯等關鍵步驟;分析挖掘結合運維服務的具體需求,進行數據準備、特征工程、建模與評估,形成運維知識庫。

4)算法知識庫。具體分為算法庫及知識庫兩種。算法庫提供特征工程、統計學習、機器學習、深度學習、強化學習甚至遷移學習的基礎通用算法;知識庫一方面是業(yè)務領域專家的經驗知識,另一方面是前述建模分析挖掘的輸出模型,形成業(yè)務運維特有的依賴關系、關聯關系、傳播路徑、異常模式、匹配原則、故障樹等知識庫。

5)智能運維的應用。分為常見的運維服務及高級運維服務。常見運維服務包含異常發(fā)現、故障定位、根因分析、故障預測;高級運維服務包含配置優(yōu)化、容量分析、智能調度、存儲優(yōu)化等。下面分別針對異常發(fā)現、故障定位、根因分析、故障預測四種常用運維場景對智能運維進行介紹。

①異常發(fā)現。也稱為異常檢測,異常一般表現為三種形式[2]:點異常、序列異常、集合異常;常用的技術涵蓋分類、聚類、最近鄰、密度、統計、信息理論、光譜分解、可視化、信號處理等。異常發(fā)現目前有兩種建模方式[3]:一種是基于正常樣本建模并把不遵從此模型的樣本認為是異常,常用的有統計方法、基于分類的方法、基于聚類的方法,這同時也是業(yè)界普遍采用的方式;另一種是通過建模直接隔離異常樣本,這種方式典型的代表有iForest[3]、LOF[4]。

②故障定位。也稱為故障定界,是故障范圍的初步判定,特別是在大型、復雜系統中,故障本源和故障表象之間往往呈現一對多、多對一、甚至多對多的復雜關系,有時無法快速確定故障的根本根因,先對故障的范圍進行大致界定。故障定位的方法有很多,一般結合領域知識、專家經驗,基于統計分析就可以初步實現,如對于指標型故障,單指標單維度的同比分析、類比分析、方差分析,多指標多維度的組合分析、關聯分析、排除分析、假設檢驗等,故障定位簡單高效,甚至有時能直接能判定根本原因。但是對于復雜的混合系統,日志數據量大、組件之間的關系復雜多樣,特別是具有依賴性、并發(fā)性、傳播性的事件傳遞模式,故障定位就比較復雜,往往需要同時借助統計分析、機器學習中的相關技術綜合實現。

③根因分析。也稱為根本原因分析,用于識別故障或問題的根本原因。根因分析是在故障定位的技術上對故障發(fā)生的根本原因或者源頭進行準確判定,不但有利于在故障發(fā)生時進行故障的快速修復,也可以將根因分析的結果形成知識庫(如故障樹、故障傳播關系圖)對后續(xù)類似故障可能引發(fā)的連鎖反應進行提前預警,起到故障規(guī)避的作用。根因分析在實際應用中會進一步分解為故障事件之間的關聯關系分析、故障事件之間的傳播關系分析、故障事件之間的依賴關系分析等。

④故障預測。是將傳統被動的故障處理轉為基于智能預測的主動式故障處理。簡言之,除了事后或事中的異常檢測、故障定位及根因分析外,通過對歷史數據的分析建模,預判未來一段時間可能會出現的故障。這也是智能運維區(qū)別于傳統運維的一個關鍵點:提前的預知、洞察甚至決策能力。故障預測主要分為四類[5]:基于時間預測、基于早期微小故障檢測、基于定性分析以及其他類型的方法,具體方法包含隱馬爾科夫模型、支持向量機、貝葉斯方法、隨機森林、循環(huán)神經網絡及基于專家知識的方法。

基于前述圖1智能運維系統的邏輯架構,針對電信IPTV/OTT大視頻業(yè)務特點,中興通訊對大視頻業(yè)務系統產生的各類信息進行匯聚、分析、統計、預測等,形成了智能化的大視頻運維系統[6],其架構如圖2所示。

圖2 電信IPTV/OTT大視頻智能運維系統架構圖

電信大視頻智能運維系統與前述智能運維系統的定制化差異體現在兩個方面:數據源包括來自各種播放終端的播放記錄、關鍵績效指標(KPI)、CDN(Content Delivery Network,內容分發(fā)網絡)網絡性能參數、IPTV/OTT業(yè)務系統監(jiān)控參數等多種數據;業(yè)務應用層主要提供智能業(yè)務監(jiān)測控制、端到端故障定界定位、用戶體驗感知、統計分析與報表等典型業(yè)務應用場景。接下來將結合兩個實際的應用場景,闡述人工智能技術如何在大視頻運維系統中解決產品實際問題,同時提升系統的運維效率。

2 機器學習技術在電信大視頻運維中的應用

當前,視頻業(yè)務發(fā)展已進入“大內容”、“大網絡”、“大數據”、“大生態(tài)”的大視頻時代。同時,視頻業(yè)務以廣泛的受眾、高頻次的使用、較高的付費意愿,已經具備成為“殺手應用” 的潛質,越來越多的電信運營商將視頻業(yè)務如交互式網絡電視(IPTV)、基于互聯網電視(OTT TV)應用服務視為發(fā)展的新機遇。如何在大視頻背景下保證最終用戶的體驗質量,特別是如何快速界定視頻業(yè)務系統故障和網絡故障、如何提前發(fā)現網絡隱患、如何發(fā)掘視頻業(yè)務運營和利潤的增長點,已成為運營商對大視頻業(yè)務運維的關注重點。

2.1 基于機器學習的視頻質差根因分析

對于當前大視頻業(yè)務來講,一個重要運維場景就是由于某些網元故障引起終端用戶視頻體驗質量差(簡稱為質差,如圖3所示)并導致報障。此時,需要在蜂擁而至的客戶端質差報障和大量服務端KPI告警中快速定位出問題的根因,以便快速修復故障。

圖3 視頻質差根因分析的業(yè)務場景圖

傳統的解決方案需要產品研發(fā)或運維人員從系統各個模型的運行日志中人為分析故障定位原因,不僅耗時也耗力。我們通過機器學習從歷史的故障樣本中自動挖掘并構建了故障定位的決策樹,從而達到快速定位質差故障根因的目的。目前,在大視頻運維系統中對機頂盒質差根因分析,采用如圖4所示的技術路線。

整體包括3個子系統,即探針系統、數據規(guī)范系統、故障模式挖掘系統;以上子系統分別在知識發(fā)現(離線建模)和故障判斷(在線推理)兩個過程中發(fā)揮作用。其中,知識發(fā)現過程由探針系統、數據規(guī)范系統和故障模式挖掘系統協作完成,故障判斷過程由探針系統、數據規(guī)范系統和故障判斷模型協作完成。

1)探針系統。大視頻系統非常復雜、龐大,從用戶獲取節(jié)目列表到收看到視頻內容,涉及到多個網元之間的協作通訊、內容傳輸。如果用戶終端不能正常提供服務,則故障可能出現在播放環(huán)節(jié)上的任何網元,因此,需要從各個網元持續(xù)采集運行數據作為分析基礎。這套采集各個網元的系統就是探針系統。包括但不限于客戶端探針(采集客戶端碼率、卡頓情況、吞吐量、丟包率等等)、服務端探針(采集用戶連接數、服務器負載、內存使用情況等等)、文件系統探針(采集IO負載和吞吐量、統計底層文件操作狀態(tài)等等)。此外,還有外部信息系統接口,能夠及時獲取無線、承載核心網的狀態(tài)以及運營方對大視頻系統的維護變更記錄。

2)數據規(guī)范系統。運行數據是質差分析的基礎,由探針系統提取出來,但不能立即投入使用,因為各個網元的運行數據格式不統一,且上報的間隔不一致。此時,需要利用數據規(guī)范系統對其做出整合,合并故障發(fā)生時間附近的探針數據、形成告警事件(例如“最近30分鐘內XX節(jié)點服務器CPU利用率高于同期各節(jié)點均值25%”,可以提取成“CPU利用率過高”事件;“最近5分鐘機頂盒卡頓次數超過5次”,可以提取成“機頂盒卡頓”事件)供后續(xù)分析挖掘。數據規(guī)范系統包括:客戶端事件提取、服務端事件提取、文件系統事件提取、外部系統事件提取等等。

3)故障模式挖掘系統。在“知識發(fā)現過程”中,通過數據規(guī)范系統匯聚的事件數據在故障模式挖掘系統進行知識發(fā)現,生成“故障決策森林”模型。在“故障判斷過程”中,該模型將在未來新故障到來時給出故障根因判斷。具體的,“故障決策森林”模型由多顆“故障決策樹”組合,最后根因判斷結論由多顆“故障決策樹”(其結構類似圖5)投票給出結論。故障決策樹的訓練過程大致分為兩個步驟:①通過關聯規(guī)則挖掘方法(諸如Apriori[7]、FP-Tree[8]算法等),找出相同故障區(qū)域、故障類型條件的故障事件集合中的頻繁項集L,根據L中頻繁項集對應事件E之間的時間順序以及最小置信度Minconf,確定是否為有效故障判定規(guī)則,將全部有效的故障判定規(guī)則合并為集合Rule;②將訓練集中的每條故障事件遍歷,只保留存在于Rule中前導項的事件,加上故障區(qū)域為自變量,以故障類型為因變量,采用CART[9]算法,生成故障決策樹。

圖4 大視頻質差根因分析流程圖

圖5 大視頻質差故障決策樹示例圖

以上通過關聯規(guī)則和時間約束剔除了大量無關事件對故障判斷的干擾,通過機器學習中的決策樹方法進行非線性關系的捕捉能夠達到較高解釋性,最后通過機器學習中的集成學習方法提高了泛化能力。在我司現網實際的運行中,基于歷史積累的高質量數據,上述大視頻質差根因分析解決方案可以大大減少運維人員的工作量、提高了排查故障的準確率和時效性,將之前長達數小時的人工根因分析降低到數分鐘的自動化根因分析,恢復時間縮短了75%。

2.2 基于機器學習的CDN硬盤故障預判

如圖3所示,在支撐大視頻業(yè)務的CDN運行過程中,由于CDN存儲硬盤的使用率高引發(fā)硬盤故障,最終會導致用戶視頻體驗質差,現網超過一半以上的故障來源于此。針對CDN硬盤質量監(jiān)控,如果能提前進行故障預判并做好數據遷移和高危盤及時替換,對提升大視頻全網業(yè)務質量具有重要的意義。

當前,自我監(jiān)測分析和報告技術(SMART)[10]已經成為工業(yè)領域中硬盤驅動狀態(tài)監(jiān)測和故障預警技術的事實標準。硬盤的一些屬性值如溫度、讀取錯誤率等和硬盤是否發(fā)生故障有一定的關系。如果被檢測的屬性值超過預先設定的一個閾值,則會發(fā)出警報。然而,這種基于閾值的算法只能取得3%~10%的故障預測準確率和低預警率[11]。學術界和工業(yè)界在采用機器學習方法提升SMART硬盤故障預測精度方面的工作由來已久,最新的研究工作更多是基于一些開源的SMART數據集進行研究[12]。中興通訊基于現網多個IPTV/OTT局點硬盤SMART巡檢數據,采用機器學習方式進行故障建模與預測,如圖6所示。

1)數據清洗與標注。硬盤SMART數據現網采集頻度為每天一次,SMART建模預測并不以某一天的瞬時值作為評判標準,而是利用一段時間內該硬盤掃描值的歷史波動模式來判斷其異常的概率,因此,數據清洗主要將Agent采集的硬盤SMART日志進行結構化轉換并按照每天掃描記錄按序排列,供后續(xù)建模或預測階段使用。

2)基于機器學習的分析建模核心在于特征工程和模型訓練。特征工程是決定預測效果的關鍵步驟。不但需要考慮觀測點當時的SMART取值,也需要考慮該SMART取值的歷史變化趨勢、震蕩幅度、跳變頻率等因素。①高價值屬性獲取,采用“數據驅動和領域知識相結合”的策略,一方面和硬盤硬件專家交流,另一方面,從數據驅動的角度尋找對故障預測有幫助的SMART屬性,從故障硬盤的歷史SMART記錄集出發(fā),找出“故障硬盤和健康硬盤在該屬性上統計性質存在不一致”的SMART屬性,最終選取18個原始SMART特征。②衍生時序特征生成,在找出具有提示性效果的高價值SMART屬性后,對其時序特征做進一步衍生,包括基于窗口的分段均值、方差、變化率、香農熵、排列熵等;經過反復調整與驗證,當前的窗口設置分別是7/15/30天(如圖7所示)。③高價值特征選擇。通過前述的高價值屬性和衍生時序特征過程生成了多達1152個特征,這些特征并不都適合用在預測模型中。不合適的特征引入建模會帶來模型預測效果的降低,引發(fā)維度災難。而通過網格搜索進行窮舉特征組合,根本沒有可行性,同時需要針對當前正負樣本嚴重不平衡的具體情況,優(yōu)化改進特征選擇算法,使得系統可以在能夠承受的時間資源內,找到足夠好的特征組合。在此背景下,我們研發(fā)了改進的隨機森林特征選擇算法,從該方法的輸出中探索可能有價值的組合模式,最后挑選出82個衍生特征。

圖6 基于機器學習的硬盤SMART數據建模與故障預判

模型訓練:由于基于SMART記錄集做硬盤預測是一個高維分類問題,同時正負數據嚴重不平衡,采用線性分類模型往往沒有很好的結果,本文考慮采用構造非線性模型來解決問題。在傳統隨機森林模型的基礎上進行了改進,訓練生成上百個決策樹的隨機森林模型。

3)前述生成的預測模型上線部署預測并持續(xù)迭代更新。

4)在線的準實時預測。每天采集的SMART數據先按照步驟2進行特征工程,然后輸入前述的預測模型中,計算目標硬盤的故障概率并輸出。

實際的預測效果如下:基于中國聯通某省的IPTV現網CDN硬盤連續(xù)3個月(2017年6~8月)的SMART數據建模(提前45天的故障預判),進行連續(xù)3個月的預判測試,最終模型平均的準確率為78%、召回率86%。與原先運維系統中基于簡單規(guī)則(人為選取幾個SMART屬性值大于某個閾值的組合規(guī)則)相比(準確率15%左右)有顯著的提升效果。當前的研究與試驗表明基于機器學習的硬盤故障預判帶來明顯的技術優(yōu)勢,后續(xù)將在我司全網多個IPTV/OTT局點進行規(guī)模商用,同時積累更多的SMART運行數據進一步迭代提升模型的準確性。

圖7 SMART衍生時序特征的構造方式

3 結語

ICT時代,無論對于運營商網絡還是業(yè)務系統的運維支撐,都需要加速與人工智能技術的結合落地,提供高度自動化和智能化的運維解決方案。智能運維的未來將會是AIOps,但離完全基于人工智能的“全自動化運維”還有一定的距離。當前,主要以基于機器學習建模的監(jiān)控、預測分析方法與基于人工規(guī)則相結合的“自動化運維”方式為主,可挖掘提升的空間還很大。特別的,對于大視頻運維,未來除了實現更加智能化、精準的故障預測和排查、主動發(fā)現業(yè)務系統中的故障或薄弱環(huán)節(jié)并加以自動修復或提供輔助決策建議外,通過對視頻業(yè)務使用者的行為分析、家庭及用戶畫像等一系列的建模分析,充分挖掘海量數據的價值,衍生出新的業(yè)務形態(tài)、實現智能化的運營系統,為運營商創(chuàng)造新的商機,也將是大視頻智能運維另一個重要發(fā)展方向。

[1]Gartner.Market Guide for AIOps Platforms[EB/OL].(2017-08-03)[2018-01-30].https://www.gartner.com/doc/reprints?id=1-4CKWZWO&ct=170905

[2]Gupta M,Gao J,Aggarwal C,et al.Outlier Detection for Temporal Data[M].Morgan & Claypool,2014

[3]Liu F T,Kai M T,Zhou Z H.Isolation Forest[C]//2008 Eighth IEEE International Conference on Data Mining,2008:413-422

[4]Breunig M M.LOF: identifying density-based local outliers[C]//ACM SIGMOD International Conference on Management of Data.ACM,2000:93-104

[5]趙珍,王福利,賈明興,等.緩變故障的概率故障預測方法研究[J].控制與決策,2010,25(4):572-576

[6]屠要峰,吉鋒,文韜.機器學習在大視頻運維中的應用[J].中興通訊技術,2017,23(4):2-8

[7]Han J,Pei J,Yin Y,et al.Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach[J].Data Mining & Knowledge Discovery,2004,8(1):53-87

[8]Agrawal R,Imieli ski T,Swami A.Mining association rules between sets ofitems in large databases[C]// ACM SIGMOD International Conference on Management of Data.ACM,1993:207-216

[9]Lewis R J.An Introduction to Classification and Regression Tree (CART) Analysis[C]//Annual Meeting of the Society for Academic Emergency Medicine,2000

[10]Wikipedia.SMART(Self-Monitoring,Analysis and Reporting Technology) [EB/OL].(2018-01-16)[2018-01-30].https://en.wikipedia.org/wiki/S.M.A.R.T

[11]Eckart B,Chen X,He X,et al.Failure Prediction Models for Proactive Fault Tolerance within Storage Systems[C]//IEEE International Symposium on Modeling,Analysis and Simulation of Computers and Telecommunication Systems.IEEE,2009:1-8

[12]Botezatu M M,Giurgiu I,Bogojeska J,et al.Predicting Disk Replacement towards Reliable Data Centers[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2016:39-48

猜你喜歡
故障分析系統
Smartflower POP 一體式光伏系統
WJ-700無人機系統
隱蔽失效適航要求符合性驗證分析
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
故障一點通
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
電力系統及其自動化發(fā)展趨勢分析
奔馳R320車ABS、ESP故障燈異常點亮
故障一點通
主站蜘蛛池模板: 亚洲视频色图| 亚洲欧美另类色图| 亚洲视频在线网| 国产JIZzJIzz视频全部免费| 久久精品国产91久久综合麻豆自制| 国产精品亚洲а∨天堂免下载| 免费一级毛片在线观看| AV老司机AV天堂| 国产成人免费观看在线视频| 中文字幕在线日韩91| 91综合色区亚洲熟妇p| 亚洲码在线中文在线观看| 久久精品视频亚洲| 亚洲Aⅴ无码专区在线观看q| 91九色国产porny| 最新国产精品鲁鲁免费视频| 精品国产污污免费网站| 日本高清免费不卡视频| 欧美一级特黄aaaaaa在线看片| 亚洲欧美一区二区三区蜜芽| 亚洲无码91视频| 无码内射在线| 天天综合网色中文字幕| 理论片一区| аⅴ资源中文在线天堂| 欧美一级视频免费| 伊人天堂网| 5388国产亚洲欧美在线观看| 亚洲国产在一区二区三区| 最新加勒比隔壁人妻| 国产精品一区二区久久精品无码| 国产成人久视频免费| 精品一区二区三区中文字幕| 高清色本在线www| 国产成人精品高清不卡在线| 亚洲va在线观看| 一级一毛片a级毛片| 亚洲综合片| 最新日韩AV网址在线观看| 国产在线日本| 2020国产在线视精品在| 精品福利一区二区免费视频| 丝袜国产一区| a毛片在线播放| 欧美福利在线播放| av在线无码浏览| 亚洲高清中文字幕在线看不卡| 成年人免费国产视频| 五月婷婷激情四射| 91精品在线视频观看| 一本久道久久综合多人| 国产一国产一有一级毛片视频| 精品国产91爱| 99re视频在线| 亚洲欧美不卡中文字幕| 国产青青草视频| 激情综合激情| 国产h视频免费观看| 亚洲国产黄色| 狠狠色综合网| 亚洲狼网站狼狼鲁亚洲下载| 久久免费观看视频| 色婷婷在线播放| 一区二区在线视频免费观看| 国产精品亚洲欧美日韩久久| 久久一本日韩精品中文字幕屁孩| 91麻豆精品国产91久久久久| 亚洲精品你懂的| 国产日韩欧美一区二区三区在线| a国产精品| 亚洲综合一区国产精品| 91免费国产在线观看尤物| 日韩av手机在线| 国产精品成人第一区| 色窝窝免费一区二区三区| 天天躁夜夜躁狠狠躁躁88| 久久亚洲天堂| 亚洲永久色| 毛片久久久| 青草视频久久| 亚洲天堂2014| 国产大片黄在线观看|