某個工作日下午,筆者所在單位Internet網絡突然中斷,由于Internet網關處部署了很多設備,除了防火墻是路由模式部署之外,其他設備均為透明模式部署,所以筆者利用traceroute命令排查故障點,發現測試數據包僅僅只能到達核心交換機,下一跳就超時。而且通過管理口登錄防火墻,發現防火墻狀態都正常,與運營商局端通信也都正常,這就排除了防火墻故障的可能性,而且證明故障并不是發生在運營商局端,而是在單位內部這些透明模式部署的設備中。
筆者通過管理口逐個登錄設備檢查,發現各個設備均運行正常,但是從上網行為管理設備的系統報警日志中發現了“檢測互聯網錯誤,無法正確連接互聯網”的提示。為了使Internet網絡快速恢復,筆者嘗試重啟了上網行為管理設備,重啟完成后,Internet訪問恢復了正常,各設備也沒有再出現各類異常報警日志。
從上述故障現象分析,很容易將故障源頭定位在上網行為管理設備上,但是仔細檢查設備自身的狀態,并無任何異常,唯一可以追溯的依據就是系統報警日志,這條日志說明上網行為管理設備與其上下行設備的網絡連接出現了問題,進而影響到Internet訪問,原因可能有三個方面:
1.上網行為管理設備自身故障。出現故障時已經登錄設備查看運行狀態,并無任何問題,而且重啟后能夠恢復正常,所以能夠排除設備自身問題。
2.上網行為管理設備上下行設備故障。出現故障時同樣也查看了上下行的設備狀態,一切正常,而且只重啟了上網行為管理設備,并未對上下行設備做任何處理,Internet網絡就恢復了正常,所以能夠排除上下行設備的問題。
3.上網行為管理設備上下行線路故障。上網行為管理設備網口和上下行設備的網口都是10/100/1000Mbps電口,而且都配置為自動協商模式,正常情況下網口應該均協商為千兆全雙工狀態。但是,如果網口之間的鏈路出現問題,那么有可能造成協商不成功,進而出現網絡中斷的故障。
筆者仔細檢查上下行線路,發現上行線路使用的是成品六類網線,而下行線路使用的是自己制作的網線。會不會是網線的問題呢?如果是網線的問題,那么是上行線路還是下行線路呢?
筆者重新登錄上網行為管理設備,觀察上下行網口的狀態,上行網口狀態正常,為千兆全雙工,但是下行接口速率已經變為百兆全雙工了,檢查其下行設備對應的網口,接口速率也變為百兆全雙工了,這說明兩個網絡接口重新進行了速率協商,由原來正常的千兆全雙工協商為百兆全雙工,雖然現在Internet網絡已經暢通,但是傳輸速率只有100Mbps,顯然是存在問題的,如果不徹底解決,一方面傳輸速率無法達到千兆要求,另一方面還可能出現網絡中斷或不穩定的問題。
下班后,筆者用一條6類成品網線替代了原來的手工網線,下行接口速率很快自動協商為千兆全雙工,Internet網絡也恢復正常。
為了確定這條手工網線是否真的存在問題,筆者利用測線儀進行了測試,發現第5根線不通,這就證實了前面的分析:由于上網行為管理設備和下行設備對應的網口都是自動協商模式,之前這根網線沒有問題時,肯定是自動協商為千兆全雙工;后來,由于線路老化,導致協商失敗,所以出現了斷網的故障,重啟上網行為管理設備后,線路重新進行協商,由于百兆傳輸僅用到了1、2、3和 6這四根線,第 5根線故障并不影響百兆傳輸,所以會自動協商為百兆全雙工,數據仍然能夠正常傳輸,但是傳輸速率就大大下降了。
由于網線、光纖等鏈路介質傳輸數據穩定,日常排除網絡故障時很容易將其忽略,加上網絡接口一般使用自動協商的機制,更加掩蓋了傳輸介質的問題。在千兆網絡已經普及的情況下,建議使用網線時,一定要提前進行連通性測試,確保8根線路均暢通,網絡線路工作在最優狀態。同時,重要的骨干線路一定要使用六類成品網線,不可使用手工網線,并定期進行更換,最大程度避免因傳輸介質導致的網絡故障。