近幾天,單位有部分用戶反映訪問互聯網有明顯的卡頓現象,網頁經常無法順利打開,要刷新一次或多次才能顯示。經ping –t xxx命 令測 試 www.163.com,www.qq.com,www.sina.com.cn等網站,丟包率均在8%左右(如圖 1)。

圖1 Ping命令測試
引起網絡傳輸丟包的原因主要有三類。
設備故障包括硬件方面的故障和軟件方面的故障。硬件故障主要是物理層故障,如網卡故障、交換機、路由器接口故障等。軟件故障是指參數配置問題,如網卡參數、靜態路由、路由協議、默認網關、DNS等設置有誤。
當網絡帶寬過小或網絡中存在環路、ARP病毒、蠕蟲病毒、P2P等引起的網絡風暴或異常增大的流量時,往往發生擁塞。
關鍵設備的MTU(最 大 傳 輸單元)配置不正確,引起數據包無法被正確重組或被丟棄(以太網MTU為1500Byte,IEEE802.3/802.2MTU為1492Byte)。
單位網絡拓撲結果如圖2所示。

圖2 網絡拓撲
依據網絡拓撲,在用戶終端上,逐級用ping –t xxx命令測試有無丟包現象發生,其中xxx代表所經過的網絡設備。Ping接入層交換機無丟包,延時<1ms,ping核心交換機無丟包,延時<1ms,ping防火墻內網接口無丟包,延時<1ms,ping防火墻外網接口無丟包,延時<1ms,但Ping互聯網網址時產生丟包,丟包率約 8%,延時 >12ms,說明導致丟包的設備可能為防火墻、8口小交換機、光纖收發器或電信光纖鏈路。
進一步在核心交換機Cisco 6504E上使用擴展Ping命令,或用簡化的命令ping xxx repeat 1000測試互聯網地址,均發生丟包,而且丟包率為14%(如圖 3)。

圖3 核心交換機Ping測試
在核心交換機上做端口鏡像,命令為:

其中g4/47口上連防火墻,g4/46口連接安裝有“科來網絡分析系統”的筆記本電腦,進行抓包分析,結果如圖4所示。

圖4 科來網絡分析系統抓包分析
發現有大量的TCP重傳數據包,這是由于丟包造成的,而重傳的包絕大部分是與公網IP地址交互的數據包。
telnet登錄防火墻,使用ping xxx interface eth0(eth0為連接光纖收發器的接口),丟包率更大。
綜合以上測試結果,可以排除核心交換機硬件故障或配置故障的可能。
根據用戶反饋,此次報告網速慢、卡頓情況的用戶數較少,大部分用戶并未受影響,因此防火墻硬件故障的可能性也可排除。防火墻上有2條互聯網鏈路,帶寬分別為30Mbps和50Mbps,其中有30%用戶使用默認路由經30M鏈路訪問互聯網,其余用戶使用策略路由通過50M鏈路訪互聯網。由此想到是否是30M鏈路故障。
將筆記本電腦IP地址、網關、DNS設置為與防火墻eth0相同的參數后,直接連接光纖收發器1的LAN口,進行Ping測試,到電信網關和互聯網地址均無丟包,說明光纖鏈路和光纖收發器1無故障。
難道是8口小交換機的問題?該機是一款低端桌面型交換機,沒有網管功能,已使用了6年,數據交換能力可能成為瓶頸。于是,用一臺二層Cisco 2960交換機替換,再次Ping測試,丟包現象消失了。
此次解決網絡丟包問題走了一些彎路,花了3天時間才找出問題。其實,根據逐級Ping測試結果,以及受影響用戶的VLAN分布情況,可以更快速地大致判斷出是光纖鏈路1所連接的部分出現故障,再根據筆記本單機測試光纖鏈路1無丟包這一情況,從而推斷出故障設備為小交換機。