■ 山東 何鈺 張威
編者按:最近筆者單位的核心路由器子卡出現故障,導致大面積網絡故障。經過排查最終找到了故障點,通過修復設備軟件版本故障得以排除。本文介紹故障的處理過程。
近日,網管平臺告警信息明顯增多,而且寬帶用戶報修網速明顯變慢的情況也呈現上升趨勢。
針對上述網絡現象。運維人員迅速做出反應。首先對寬帶出口進行ping以及trace。同時對市公司核心路由器的設備CPU、內存、端口光功率以及流量突變值進行查看均沒有發現問題。
然后鑒于該故障的出現,我們對故障進行了綜合分析,故障現象是瀏覽網頁時打不開,具體表現在鳳凰網、搜狐、新浪等網站,尤其是二級頁面問題突出。但是對網站進行ping測試卻沒有發現丟包現象。基本可以排除接入層以及匯聚層網絡問題。
對故障現象進行簡單分析和思路整理后,由于頁面有時打不開或者很慢,所以我們把故障點定位在DNS服務器。經對DNS服務器排查,初步認為是DNS服務器異常劫持出現問題。通過對單個電腦進行DNS修改測試,依然沒有奏效。
為盡快找到故障點,分別對寬帶出口拋開我方設備進行直接測試網絡正常。同時在流控上對上述出口測試也正常,這樣就將故障鎖定在核心路由器上,核心路由器和流控也是使用萬兆口連接,省公司互聯網總出口是80G,該通道采用8個萬兆口分別使用兩臺核心路由器連接,通過命令查看核心路由器-1上的xgei-0/10/0/2端口利用率為23%,要少于其他3個端口,而且該端口入方向錯誤包個數過多。發現端口異常后,初步斷定端口存在問題。決定通過更換端口的方式進行故障解決。接下來將故障端口關閉,然后將該端口從聚合組中刪除,最后再將新的端口啟用并加入聚合端口來代替原有端口,具體的配置命令即:
Config t
//進入配置模式
Interfacexgei-0/10/0/2
//進入端口
Shutdown
//關閉端口
完成故障端口的關閉后,將該端口從聚合組中刪除。具體命令即:
Config
//進入配置模式
Lacp
// 進入LACP配置模式
interface xgei-0/10/0/2
//進入端口
no smartgroup
//刪除聚合組中的故障成員端口
將故障端口從聚合組3中刪除后,下一步需要將新端口開啟強制,在開啟端口前需要查看設備空余萬兆端口,使用命令“show interface description”查看處于down的萬兆端口即可使用。這次我們準備將空余的端口xgei-0/10/0/8加入聚合組使用。具體命令即:
interface xgei-0/10/0/8
//進入端口
No shutdown
//端口使能
negotiationnegotiation-force
//端口強制協商
speed speed-10G
//定義端口速率
duplex duplex-full
//定義端口雙工模式
lacp
//進入LACP配置模式
interface xgei-0/10/0/2
//進入端口
smartgroup 3 mode on
//將端口加入聚合組3中
完成端口的更換后,再次對省公司出口進行了測試,網速提升十分明顯。同時對使用省公司出口的互聯網用戶回訪業務恢復正常。這樣我們就完成整個故障的排除。
上面我們從得知故障現象后,根據互聯網影響的面積,對出口進行ping和trace測試,并查看了核心設備的CPU、內存以及設備告警信息后,然后將寬帶出口按照網絡結構分層次測試,最終將故障定位在了核心路由器上。通過升級核心路由的子卡軟件達到了故障解決的目的。
該故障的發生定性為核心路由器的萬兆子卡出現問題引起的,故障的原因是核心路由器萬兆子卡內部芯片出現偏差,然后我們在凌晨進行了板卡軟件升級重啟,經過測試原來故障的端口恢復正常。通過廠家工程師提供的故障報告該故障出現的幾率極小幾百萬分之一,雖然故障發生概率小,但是一旦發生影響面卻十分廣泛。為徹底杜絕此類故障的發生,我們對核心設備故障板卡進行更換,并加強了設備的巡檢力度,從根本上降低設備的故障率。