[李忠諭 遲景升 李哲]
現網發生網絡故障時,通過系統結合網管告警和資源拓撲信息進行故障定位檢測,進而實施故障搶修,是當前運營商的主要的網絡運維方式。但是受設備或網管能力等原因影響,存在網管告警不完整的情況,表現為現網發生了故障,但是并沒有產生對應的網管告警。這部分不能通過告警觸發檢測出來的故障,仍然需要依靠用戶申告業務故障后再進行人工排查和定位故障點,這不能滿足當前智慧化運維的要求。
本文通過應用用戶申告工單觸發進行光接入網故障分析,能夠快速自動定位故障段落,作為一種通過告警觸發進行故障分析的補充手段,實現系統檢測光接入網故障的全面覆蓋。
本方法通過用戶申告工單觸發系統流程,根據預設的故障分析流程,結合網管和資源信息定位故障段落,實現系統對光接入網故障的主動檢測。
系統首先接收用戶申告工單,提取工單中的業務接入號,查詢到接入號關聯的終端信息,進而查詢網管上此終端所屬PON 口下的網管信息,獲取關聯ONU的運行狀態和離線時間,再結合資源網絡拓撲信息,通過故障分析邏輯實現故障段落定位,整體方案框架如圖1 所示。

圖1 故障分析方案框架
2.2.1 通過用戶申告工單關聯終端設備
當用戶發現業務不可用時,可以通過撥打10000 號或微信公眾號等渠道進行故障申告,工單處理系統將生成相應的申告工單,申告工單信息包括故障現象、故障業務接入號等(其中工單中故障現象為規范化的描述,比如網絡不可用、網速慢、頻繁掉線等)。系統采用JDBC的方式,接收工單處理系統的用戶申告工單信息,提取故障現象為“網絡不可用”的工單,按工單信息中的業務接入號查詢到對應的終端設備,以此終端設備定義為申告設備,從而實現了從用戶申告轉變為終端告警行為。
2.2.2 查看申告設備同PON 口網管信息
以該用戶申告業務接入號查詢的終端為申告設備ONU,系統查詢網管上同PON 口下的所有ONU的運行狀態,獲取到所有終端的當前狀態以及最后一次離線時間(LASTOFFTIME)。終端的運行狀態主要分為三類,分別是UP 狀態、LOS 狀態和POWEROFF 狀態等,網管上ONU的最后一次離線時間記錄的是ONU 最后一次從在線狀態轉變為非在線狀態的時間,包括ONU 最后一次從UP 狀態轉變為LOS 狀態的時間,或者ONU 最后一次從UP 狀態轉變為POWEROFF 狀態的時間。本文所述的ONU 離線時間,即是指該ONU的最后一次離線時間(LASTOFFTIME)。
2.2.3 結合資源拓撲信息進行分析
根據PON 網絡分光結構,上聯光路終端會引起下聯所有在線ONU 同時離線,因此,當某條上聯光路下掛的所有在線ONU 同時離線時,可以認為是上聯光路發生了故障[1,2]。
結合資源拓撲進行故障定位,以PON 網絡二級分光為例,輸出主光路斷(PON 口至一級OBD 段落故障)、分支光路斷(一級OBD 至二級OBD 段落故障)、皮纖斷(二級OBD 至ONU 段落故障)。為了提高故障定位準確率,針對申告設備進行光接入網故障分析,系統定義了4 個原則。
(1)同時離線定義:考慮到時延、系統交互影響等原因,以申告設備的離線時間作為故障分析基準時間點T0,認為在故障分析時間點前后10 分鐘時間段(記為T0±10)基準時間段。在基準時間段內離線的ONU 屬于與申告設備同時離線。本文描述的同時離線,均是指在T0±10 分鐘時間段內離線。
(2)上聯故障排除原則:現網發生上聯光路故障會導致該光路下掛所有ONU 立刻離線,如果故障發生后,上聯光路下掛的設備存在在線的、在T0±10 分鐘后離線的ONU(比如,有個設備離線了,但是它是在T0的30分鐘后離線的,那么造成申告設備離線的故障與這個設備離線的原因并不相同,申告設備離線的時候,這個設備是在線的。間接也可以證明,申告設備離線的原因并不是上聯光路引起的),那么排除上聯光路是造成申告設備通信故障的原因。
(3)向下判定故障原則:發生上聯光路故障,下掛所有對象都將離線,且多個對象是屬于同時離線的,如果在故障時間段只有一個對象離線,系統認定是下聯線路發生故障,并不是上聯光路故障。對于分支光路是所有下掛ONU 都離線,且多個ONU 同時離線;對于主光路是所有二級OBD 下掛的ONU 都離線,且多個二級OBD的ONU 同時離線(即是說需要同時離線的ONU 分布在多個二級OBD 上,才認為多個二級OBD 共用的主光路故障)。
(4)掉電影響原則:受終端性能影響,部分ONU不具備上報掉電能力(表現為網管無法識別ONU 是否發生了掉電),為了提高故障檢測準確率,系統規定在故障發生時間段內,只要同PON 口下有掉電狀態的ONU,則認為本次故障是由于市電停電或者用戶關電等因素引起。
那么判斷故障段落的規則是:
(l)主光路斷:申告設備所在PON 口下掛所有ONU均離線,且沒有在T0+10 分鐘后離線的ONU,且在故障發生時有多個ONU 同時離線(系統采用至少2 個ONU同時離線,理論上同時離線的ONU 越多,故障判定就越準確),且同時離線的ONU 分布在多個OBD 上,判定為主光路斷。
(2)分支光路斷:申告設備所在二級OBD 下所有ONU 均離線,且沒有在T0+10 分鐘后離線的ONU,且在故障發生時有多個ONU 同時離線,但是在同一PON 口存在ONU 在線或T0+10 分鐘后離線的ONU,判定為分支光路斷。
(3)皮纖斷:故障發生時,有且只有申告設備離線,判定為皮纖斷。
(4)ONU 掉電:在申告設備離線同時,同PON 口下有ONU 發生掉電。
那么以申告設備觸發故障分析流程,對每個申告設備輸出對應的故障結論,分析流程示意圖如圖2 所示。

圖2 故障分析流程示意圖
需要說明的是,當現網發生故障,如果系統通過網管告警實現了主動檢測到群障故障(群障故障是指比如主光路斷、分支光路斷等會影響多個用戶業務使用的故障),將直接主動派出故障單給現場搶修,同時會發起群障攔截[3],對于該群障影響的用戶申告進行攔截,不會再下申告工單,也不需要進入本文所述故障檢測流程,不至于產生重復故障單。當現網發生故障,由于網管告警丟失等其他原因導致系統沒主動檢測到故障時,在首個受影響的用戶申告業務不可用故障后,系統經過本文方法分析檢測到光接入網故障段落,輸出是主光路斷、分支光路斷等群障故障,或皮纖斷、ONU 掉電等單用戶故障,系統會即時發起故障搶修單或上門檢測單。對于檢測到的群障故障,系統也會同時發起群障攔截,當該群障影響的其他用戶再申告業務不可用故障時,將會被系統檢測到業務所在區域存在群障,而不需要再次進入故障分析流程。
電信運營商依靠網管告警觸發故障檢測,因為存在告警不完整的原因,僅僅能夠將現網70%的光接入網故障主動檢測并派單搶修,依舊有30%的故障需要人工上門排查分析。本文方法上線后,運營商實現了系統主動檢測100%的光接入網故障,全面推進落地網絡運營主動維護模式,全面提升了光接入網監控和維護支撐能力。
運營商通常管理的OLT 設備達到幾萬臺,如果通過升級設備或網管能力來保障告警上報能力,進而提升光接入網故障的主動分析檢測能力,將是一個浩大的投資。而本文所述方法,可以在現有軟硬件能力的基礎上,通過生產流程的數據應用,即可實現系統主動檢測故障的全面覆蓋。