翁先正,姜志鵬,蔡 勇,張 剛,饒倩胤,楊紅強
(中國移動通信集團貴州有限公司,貴州 貴陽 550081)
近年來,網絡直播、在線教育、遠程會議等數字業務伴隨著物聯網、云計算、5G移動互聯網一起蓬勃發展,通信網絡規模不斷擴大,與之相伴的傳輸網的光模塊不斷向更高速率發展(25 G→50 G→200 G→400 G→800 G)發展,新型光模塊在推廣應用初期,故障率也必然隨之升高。
隨著網絡規模越來越大,局點數量越來越多,光模塊運維面臨以下3個方面的挑戰。
光模塊目前都是根據設定的DDM閾值,簡單判斷出好與壞兩種結果。隨著器件的長時間使用,一些光模塊持續處于劣化趨勢,這種劣化的趨勢無法識別,只有達到閾值后才會產生告警。這種情況下,業務故障會突然觸發。此外,多數閾值均比較寬泛,單純閾值不能做到準確預警。
某些場景下,當光模塊失效后,如業務無法繞轉故障光模塊所在端口,將直接導致業務受損。這時,往往只能更換光模塊進行故障修復。故障處理時限往往受備件儲備量、備件到達時間、備件替換操作時間等因素影響。若故障光模塊為骨干匯聚節點的業務匯聚端口,則影響范圍較大,將給電信運營商造成重大損失。
光模塊長時間運行,尤其在惡劣環境下會引起光器件的性能衰減從而導致鏈路不穩定。而這種不穩定的亞健康狀態既沒有故障告警,又影響數據收發的完整性。傳統手段無法在光模塊已劣化、故障之前及時識別風險并進行預警。而光模塊這種亞健康狀態會導致網絡提供的業務服務質量下降,影響客戶感知。
針對現狀,構建光模塊智能運維系統,可以提前識別光模塊狀態及運行風險,主動做好預防性維護,避免業務受損或降質事件發生。
光模塊失效預警系統整體設計如圖1所示。針對海量光模塊性能數據采用AI技術和大數據技術進行學習和訓練,建立光模塊失效算法模型,并結合現網光模塊數據不斷優化模型和算法,最終輸出光模塊健康狀態分析結果。運維人員可調用分析結果,在光模塊失效前進行風險預判,對于高中風險狀態的光模塊可考慮直接更換,避免出現業務故障后引起的用戶投訴。

圖1 光模塊失效預警系統整體設計
對整個系統網絡中的光模塊進行類型、批次、性能的聚類分析,識別出有不同類別隱患風險的光模塊,并作為網絡巡檢數據提供給運維人員進行風險跟蹤及介入處理。如圖2所示,系統首先對模塊的狀態進行分析分類,其次對亞健康模塊進行風險分布統計,并持續進行風險跟蹤:(1)當模塊風險等級持續變高時,則表明模塊會逐步失效,系統會指示人工介入處理;(2)對于已處于損壞模式的模塊,系統會指示人工介入處理;(3)同時對故障模塊進行批次、故障模式記錄并進行同批次模塊的故障跟蹤,當發現有批次質量風險后,系統會提示該批次風險,指示人工介入處理。

圖2 光模塊風險及故障處理環節
本文通過采集海量光模塊性能數據,對光模塊的性能指標進行提取,對各項指標進行閾值判定、趨勢分析以及數據性能波動分析,構建光模塊鏈接網絡地圖,建立光模塊失效分析算法多維度AI訓練模型和特征信息庫模型。只需輸入一段時間的待分析光模塊數據,即可輸出光模塊健康狀態(已損壞、亞健康、正常)。
AI算法具有自動學習的功能,依據光模塊狀態的反饋,不斷對算法閾值、趨勢、波動等分析算法各項參數進行修正,如圖3所示。分析模塊數據越多,匹配度越好,算法準確率就越高。

圖3 AI智能狀態診斷系統架構
2.2.1 光模塊特征信息庫提取和AI分析
建立光模塊初始特征信息庫,通過機器學習方式,不斷對信息庫進行修正和擴充。算法優化期間要不斷地將光模塊分析數據和在網模塊進行數據匹配,不斷對算法進行優化,分析模塊數據越多,匹配度越好,算法準確率就越高。本文針對提取到的光模塊性能指標建立光模塊失效分析算法模型,并結合AI對各項指標進行閾值判定、趨勢分析和數據性能波動分析。
(1)光模塊特征提取。
①AI閾值分析。AI模型中加入閾值分析,如損壞門限、有風險門限等,超過對應閾值,則報不同的光模塊狀態。
②AI趨勢分析。如圖4所示,AI模型中加入性能趨勢分析,對數據進行持續跟蹤,抓取模塊的動態趨勢,如持續發生劣化,處于不同劣化區間,報不同的光模塊狀態[1-2]。

圖4 AI趨勢分析
針對性能數據,假設數據的采樣時間為t,取數據值Y(t),選取其前后各N個數據做為數據聚合計算和生成特征數據的窗口,性能數據指標分別為Y(-N),Y(1-N),Y(2-N),…,Y(N-1), 針對該2N個值進行算術平均獲得Paverage數據,然后將針對2N個點與平均數據進行偏離計算,如ΔP1=Average(Y(-N)~Y(-1))-Paverage、ΔP2=Average(Y(0)~Y(N-1))-Paverage,獲得偏離實際值ΔP1,ΔP2,然后Δ=ΔP2-ΔP1,則獲得性能的趨勢數據,循環往復,則可獲取性能趨勢數據。
③AI波動分析。AI模型加入對性能量的跟蹤分析,分析動態波動,在環境穩定情況下,波動應該在一定范圍,超出該范圍,則可認為模塊或鏈路有故障,需告警以提示模塊的狀態或者鏈路的狀態。
采用ARIMA的算法[1-2]進行實現。采用光模塊性能量的差分值進行光模塊的波動分析。
ifd=0,yt=Yt
ifd=1,yt=Yt-Yt-1
④AI性能劣化分析。將模塊長期運行后的數據與模塊初始值進行類比分析,當性能量劣化到一定情況時,給出模塊的對應狀態[3-4]。
基于光模塊性能的劣化趨勢特性滿足指數發展規律,結合各性能量特征的多個維度,采用非線性回歸的方式,可以判定N小時后光模塊是否正常工作。
根據運行時間和性能劣化之間的關系,可換算出光模塊正常運行狀態時間。
(2)光模塊特征工程。
針對歷史故障,提取出故障的數據特征,并放入特征工程庫[5-6]。通過AI多維訓練模型不斷提煉并豐富故障特征信息庫,從而提升光模塊的故障診斷準確率和故障診斷覆蓋率,如圖5所示。

圖5 光模塊特征工程
2.2.2 光模塊狀態判定
AI組網分析將光模塊的收端、發端、光纖、連接器等都考慮進去,聯合光模塊的性能量特征,與光模塊鏈路故障特征信息庫進行比對以確認鏈路的狀態,確定故障發生的位置[7]。通過相應的模型判定,最后光模塊狀態自動輸出為已損壞、亞健康或正常。
2.2.3 光模塊狀態顯示及長期跟蹤
系統通過看板形式可呈現光模塊各項性能的風險趨勢,如圖6所示,按時間維度區分模塊類型,展示過往識別出的風險模塊數量。

圖6 光模塊性能趨勢分析
系統通過圖表的形式可展示當前全網在監控中的模塊狀態,如圖7所示。模塊狀態分為4種:未投入分析、正常、亞健康、故障。風險分布統計即將風險模塊所屬種類及對應種類模塊的基數進行對比展示,統計批次故障信息。

圖7 光模塊狀態和風險分布統計
光模塊智能運維系統在現網部署后,經過一年的算法智能演練和學習,光模塊預警分析準確率達到90%的預定目標,發現了67個低風險光模塊,3個高風險光模塊,如表1—2所示,有效支撐網絡穩定運行及業務安全保障。

表1 光模塊預警算法演練結果(1)

表2 光模塊預警算法演練結果(2)
基于采集海量光模塊性能數據分析,并利用AI算法開發的光模塊智能運維系統,實現對光模塊劣化趨勢的可視化分析,支撐從被動響應式運維向預測主動性運維的轉變,對提升光傳輸網的運行穩定和業務感知體驗起到重要提升作用。本文中提到的光模塊智能運維系統對光模塊網絡拓撲進行還原,基于系統的分析而不是基于光模塊單點分析,使得光模塊狀態分析更加準確,隨著光模塊資源池的增加,風險特征庫不斷增加,會使得故障分析更加精準。