賴彩明 鐘興國 王榮
中國聯(lián)通江西省分公司云網(wǎng)運營中心 南昌市 330029
隨著計算機網(wǎng)絡的高速發(fā)展,互聯(lián)網(wǎng)的應用變得越來越廣泛。用戶對網(wǎng)絡故障恢復時限的要求也越來越高,因此運營商的網(wǎng)絡可靠性顯得尤為重要。寬帶遠程接入服務器(BRAS)將用戶管理和業(yè)務控制等功能結合在一起,實現(xiàn)了對各種業(yè)務的認證授權、訪問控制和安全保障。因此,在城域網(wǎng)中,BRAS設備的安全可靠至關重要。為了消除單點故障,運營商通常對BRAS采用雙機熱備方式,以提高網(wǎng)絡可靠性和安全性。
本文是通過將一個典型故障的處理過程記錄下來,并對此故障進行分析總結,以達到提升網(wǎng)絡維護水平的目的。
2022年某天,云網(wǎng)中心接到贛州云網(wǎng)的投訴,某家寬用戶無法在AAA WMAS平臺進行復位。工程師收到故障申告后,Ping測試BRAS無異常,BRAS到DNS/AAA正常,因此排查重點轉移至WMAS。
經(jīng)WMAS對問題進行復現(xiàn)發(fā)現(xiàn)對賬號進行復位時出現(xiàn)“對不起,該會話不能被復位?!钡母婢瘓箦e。
對于復位用戶失敗的問題,一般是通過收集MML的oplog以及AAA和BRAS之間的抓包信息來定位故障點。登錄ismpmml網(wǎng)元輸入oplog進到日志目錄,發(fā)現(xiàn)oplog的每次測試的結果都是如下的日志:
Excuting command failed[]20[]RESET C280 ACCOUNT[]RETN=1004
從《AAA V200R002C11LG0XXX MML接口開發(fā)指南37(寬帶AAA).pdf》可以查到返回碼1004的意思是“強制用戶下線失敗?!?/p>
從抓包中,可以看出:
第一行:AAA向BRAS發(fā)送的復位DM消息;
第二行:BRAS向AAA請求的計費結束消息(stop),如圖1所示(并未響應AAA下發(fā)的復位DM消息);

圖1 用戶復位抓包分析圖
第三行:AAA向BRAS重發(fā)的DM復位消息(BRAS第一行DM消息未響應,AAA3秒后重發(fā)的);……