曹 旭,曹瑞彤
(中國聯合網絡通信集團有限公司 北京100033)
隨著通信技術的飛速發展,電信網絡在人們工作和生活中的作用越來越大,并從根本上改變了人們工作和生活的方式;同時,隨著電信業務的不斷深入發展,人們對網絡的依賴性也不斷增大。然而,日益增長的網絡規模、不斷更新的網絡設備以及不斷出現的新業務,使得網絡出現故障的可能性大大增加,這給網絡管理工作帶來了全新的挑戰。
網絡管理的目的是通過對網絡設備運行狀況的連續監測,及時發現網絡中的異常情況,并對異常情況及時報警,提醒網管人員采取措施保證網絡正常運行。然而,在實際網絡中,憑借網絡管理人員的經驗來分析網絡運行狀況的方式已經越來越難以滿足運營商的需求。隨著網絡規模的擴大,網管人員常常需要面對大量告警而無法確定網絡的真實故障。因此,迫切需要一種能夠對網絡數據進行智能處理的技術,即網絡數據剛出現異常時,便能夠自動檢測出來,使故障在真正發生之前被發現,從而可以大大提升網絡管理人員的效率和網絡的總體性能。
在傳統的網絡管理過程中,只有當網絡設備出現異常并上報告警后,才會由網絡管理人員解決問題,這顯然是一種“響應式”的處理過程,即“先出現問題,再進行處理”的網絡管理方式。然而,由于網絡管理人員看到告警后,需要一段時間來分析確定問題才能采取措施,這種長時間的故障處理過程可能給用戶和企業造成巨大的損失。
在網絡運營的實踐中,一些網絡設備的故障和網絡性能問題在發生之前就會在網絡流量或性能參數中有所表現,但由于這些信息淹沒在大量的數據中而沒有引起網絡管理者的重視。因此,通過大數據的方式挖掘和分析網絡故障先兆,將使得網管人員有更多的時間分析問題、采取措施,避免出現更嚴重的故障,降低運營商和用戶的損失。以此為出發點,提出了一種基于大數據思想發掘網絡數據內部細節信息的方案,可實現對網絡異常的及時發現,從而更大程度地提升網絡可靠性。
網絡故障監測是網絡管理的一項基本任務,也是網絡管理人員的重要職責。網絡故障監測的目的是提高網絡的可靠性,在用戶報告問題之前診斷或解決網絡中的問題并提供網絡規劃和網絡改造建議等。網絡故障監測一般通過對網絡流量、設備性能等網絡參數的監測來判斷網絡狀態和網絡的運行情況。由于網絡故障或網絡性能問題通常會造成巨大的損失,基于網絡參數實現準確、可靠的網絡故障預測已經成為運營商迫切希望解決的問題。
基于網絡故障的因果關系進行故障發現是一種直觀的分析方法,包括IBM公司在內的大量企業和研究機構都提出了基于這一思路的網絡故障發現方案[1,2],但這種方案需要對網絡故障成因和傳播模式進行深入了解并建立模型。對于當前日益復雜的網絡,采用這種方案所需的資金和時間成本都很難讓運營商接受。
近年來,隨著大數據技術的發展,大量基于觀測數據的故障預測和分析方法已經被廣泛運用到產品檢測、生產過程控制、質量控制等領域,這類分析方法無需事先對故障的產生和傳播建立復雜的模型,而只要通過基于統計學的分析就可以比較準確地發現故障,本文將這些領域的研究成果引入網絡管理領域,以更好地提升網絡故障監測的性能表現。
在基于觀測數據的網絡故障方案中,最簡單和普遍使用的是基于閾值的監測方法,即針對某個網絡參數預先設定一個閾值,故障監測的任務就是監測該參數是否超過了這一閾值。這種方法簡單易行,是實際網絡管理中應用最廣泛的方法,然而這種方法也存在兩個明顯的問題:一方面,閾值的選取是憑借網絡管理人員的經驗確定的,其取值缺乏可靠的依據,存在著較大的不確定性;另一方面,由于缺乏對閾值以下數據的處理,忽略了大量和網絡狀態有關的細節信息,如圖1所示。

圖1(a)顯示了一種網絡指標平均值上移的異常,這類情況的出現表明網絡中出現了某類配置或業務異常,此時雖然網絡指標沒有超過閾值,但隨著這一趨勢的不斷持續,有極大可能引發網絡故障,因此應該提前進行處置。圖1(b)則顯示了一種突發異常,網絡參數突然的大幅度變化預示了網絡中的某種異常,如設備和網絡過載、線路異常等情況,這種情況的發生也需要引起網絡管理人員的注意。
為了彌補閾值方法的不足,盡可能地利用監測到的網絡性能數據中的重要信息,需要加深對于網絡“異常”的研究。在這方面,卡耐基梅隆大學的Maxion R A給出了網絡狀態“正常”和“異常”的定義。“正常”意味著符合常規或典型的模式,而“異常”則意味著違反了這種規律,與期望的情形有一定的偏差。
為了對網絡狀態進行定量分析,引入統計學理論,通過網絡參數的變化對網絡狀態進行分析。與此同時,對網絡參數的變化進行如下假設。
·在一定的時間范圍內,所監測到的網絡參數是平穩的,即時刻t監測到的網絡參數集Xt和時刻t+1監測到的網絡參數集Xt+1有相同的分布。
·網絡參數滿足大數定律,即網絡參數每天的監測值收斂于期望值,
基于上述假設,給出網絡異常的統計學描述:網絡參數的統計量出現了“明顯”的偏差,也就是說,網絡異常必然會引起網絡參數在統計量上與正常情況的偏差。因此,發現異常的關鍵就是定量地對網絡參數偏差的“顯著性”進行分析。在第3節,本文將針對上述問題進行更加深入的討論和分析。
如前文所述,當前的網絡管理系統普遍可以收集大量的網絡信息,而如何從大量的信息中自動獲取維護網絡正常運行的關鍵信息至關重要。網絡參數異常意味著即將或已經發生某種網絡或設備故障。在網絡管理系統中,網絡參數會根據時間的先后順序進行存儲,形成網絡參數的時間序列,本文基于網絡管理系統的這一特點,通過引入時間序列分析的方法展開網絡故障預測的研究。
時間序列分析是一種基于動態數據發掘內在規律的統計分析方法,屬于統計學科的一個分支。其思想是根據有限長度的歷史記錄建立精確反映系統內在運行規律的數學模型。在監測獲得的網絡參數的時間序列中,可以認為某一時刻t的網絡參數集Xt由其之前若干時刻的數據以及隨機干擾項所確定,即網絡參數表現出一定的記憶特性。因此,可以建立p階自回歸AR(p)模型:

其中,et是白噪聲,ω1,ω2,…,ωp表示此前各對應時刻對當前時刻的影響強度。式(1)表示的網絡參數集帶有p階的記憶性,當網絡狀態發生變化或者產生“異常”時,上述關系會出現較大的偏差,具體體現為et的變化。因此,對于et的跟蹤和分析是判斷網絡狀態、預測網絡異常的關鍵所在。
上述任務采用統計學方式描述:可以視為一個假設檢驗的問題,即設e1,e2,…,et服從正態分布H,其均值和方差為μ、σ2,設E(et+n)=μ+w,則網絡異常需要判斷et+n是否與分布H無差,即w是否為0。e1,e2,…,et的概率密度函數(PDF)可以寫作:

因此,μ、σ2的最大似然估計是:

若網絡可能存在異常,則對于et+n,其μ、σ2應該寫為:

于是,采用似然比檢驗的假設檢驗方式可以計算網絡存在異常的似然比,似然比為:

因此,可以通過不斷對似然比 進行監測獲得對網絡狀態的判斷。該方法的優點是所需數據量較少,計算復雜度較低,可以在保障一定可靠性的情況下快速對網絡當前的狀況進行分析判斷,并對于網絡可能出現的故障進行預先判斷。基于該方法對網絡管理系統進行升級,可以在充分利用運營商現有系統的前提下大大提升網絡故障處理的效率。
如前所述,利用對網絡參數進行時間序列分析可以更好地提升網絡管理人員對于網絡異常的發現效率。網絡異常預警系統從對網絡設備的數據采集開始,通過不斷對采集到的數據進行時間序列分析,就可能在故障發生前實現對故障的提前預測,網絡異常預警系統的系統架構如圖2所示。
在對網絡進行異常預警時,一個關鍵的步驟是確定模型的參數。以某骨干網絡節點的網絡流量數據為例,說明系統的實現原理。網絡正常情況下在某個網絡節點監測到的網絡流量數據變化情況如圖3所示。網絡異常預警系統的任務就是首先建立網絡正常情況的模型,發現網絡參數偏離這一模型后,則產生異常報警。
采用AR模型對網絡數據流量進行建模,本例中擬采用AR(2)模型對數據流量進行建模。根據統計學相關理論,AR(2)模型滿足平穩性的要求是:



經過AR(2)模型擬合,對于上述觀測數據的AR(2)模擬結果可以滿足平穩性要求。如上文所述,對觀測數據采用AR(2)模型擬合后的殘差et是網絡故障分析的關鍵,觀測數據經過處理后的殘差結果如圖4所示。

為了更進一步驗證模型的準確性,采用統計學中的Q-Q圖(quintile-quintile plot)對殘差進行分析。若網絡不存在異常,則采集到的數據與模型相符合,計算出來的殘差符合正態分布,此時殘差結果在Q-Q圖上呈線性;反之,則不成立。將圖4的結果用Q-Q圖進行呈現,如圖5所示。

從圖5中可以看到,樣本經過處理后的殘差呈現出較強的線性特點,基本服從正態分布,因此采樣數據不含網絡異常數據。這一結果也從一個方面證明了本文所提方法的有效性。與此類似,網絡的異常檢測則是基于對采樣數據殘差偏離正態分布的情況實現的,由于其判別過程與上述流程類似,且異常產生的表現多種多樣,本文不再累述。
實際上,運營商對網絡異常預警的需求不僅是盡可能準確地檢查出網絡中可能的故障,同時還要求對于非故障錯誤判斷的虛警率盡可能小。對于網絡故障預警系統的性能判斷也應該全面考慮上述兩點需求。本文以某骨干網一周的監測和報警的歷史數據為基礎,將歷史數據輸入本文所提出的系統來驗證該方案的可行性,其結果判斷通過對比告警處理的工單來確定。對結果進行統計分析,并通過ROC曲線(receiver operating characteristic curve)進行呈現,結果如圖6所示。
從圖6可以看到,本文所提出的故障預警方案不僅故障判斷總體正確率明顯高于傳統的閾值方案,同時虛警率的表現也好于傳統的閾值方案。雖然,采用本文所提算法在一定程度上提升了系統的計算復雜度,然而試驗表明,采用本文所提方案可以將故障檢測準確率提升到90%以上。這種性能提升顯示了本文所提方案具有一定的使用價值,對該算法進行進一步改進和驗證將是筆者未來工作的重要方向。

隨著網絡規模的擴大和通信技術的發展,網絡管理工作也面臨著越來越多的挑戰。本文就網絡故障的預測和監測方法進行了研究,希望基于大數據的思想,充分挖掘蘊含在大量網絡數據中的有用信息,并將之用于網絡故障發現和預測。從本文的結論可以看到,大數據和網絡管理方法的結合已經顯現出越來越大的潛力,隨著兩者結合的不斷深入,必將為未來網絡管理的發展帶來更多的突破。
1 Hanemann A,Sailer M,Sehmitz D.Towards a framework for it service fault management.Proceedings of the European University Information Systems Conference(EUNIS2005),Manehester,England,2010
2 Steindler M,Sethi A S.Probabilities fault diagnosis in communication systems through incremental hypothesis updating.Computer Networks,2011,45(4):537~562
3 Box E P,Jenkins G M,Reinsel G C.時間序列分析—預測與控制.顧嵐,范金減譯.北京:中國統計出版社,2011
4 Basu S,Mukherjee A,Klivansky S.Time series models for internet traffic.http://hdl.handle.net/1853/6696,1996
5 Frost V,Melamed B.Traffic modeling for telecommunications networks.IEEE Communication Magazine,2004,32(3):70~81