單位一棟匚型樓內一個時間段有不少用戶反映網絡慢,總有斷網現象,這些用戶都在南側樓內,而東側、北側樓的用戶沒有反映有斷網現象。
查看流量監測此樓各交換機都正常在線,因此判斷只是部分用戶有問題,回話要求查殺自己電腦內的病毒。其中有一位4樓用戶斷網較多,他就把電腦的操作系統重新安裝過且查殺過沒有病毒,過一天后反映還是有不定時斷網現象,這表明樓內有較大的病毒攻擊行為,于是進入流量監測軟件NPM對此樓交換機及端口逐一查看。

圖1 YLL樓4樓南交換機上聯口流量圖
單位用戶都是用銳捷認證的,在銳捷認證里面查到這個用戶所在交換機的端口,然后在流量監測NPM里查看此端口,這段時間此端口流量帶寬最高24Mbps。問此用戶,他說最近沒有下載,只是看一些網頁、收發郵件、QQ說話,基本沒用到這么大的帶寬(單位出口帶寬每IP限制6M電信+6M聯通)。把此端口關閉了半天,在這半天內還有此樓南側用戶不斷打電話說網絡有斷網現象。
然后查看此交換機(4樓的)接入流量,也在這幾天突然增大到最高值200M,而平時最高只有幾十M(如圖1)。 接著查看此樓的南側的1、2、3、5 樓 的 接入交換機,上聯口也在這幾天突然增大到最高值200M,而平時最高只有幾十M,在一樓接入交換機的界面發現5號端口傳輸達到100%,接口是1000M。這很異常,普通用戶根本不可能達到這大的帶寬的,于是進入5號端口界面查看。
在一樓交換機5號端口流量監測界面,發現帶寬跑滿了1Gbps,且幾天都是這么高,而這個端口平時沒什么流量,這肯定是異常的。
進到此交換機管理界面查看此端口認證情況,沒有用戶認證,只能查到MAC地址、IP地址,用戶是誰沒法查出來。因此樓的布線數據不全,信息標記因時間長看不清,無法確定5號端接的哪個房間哪個信息點。
聯系管理部門,說一樓是實驗室,平時沒什么人,這幾天更是沒人在里面,管鑰匙的人在外面出差,沒辦法只能將此端口關閉。關閉一樓南側接入交換機5號端口后,將1到5樓的交換機都重啟,4樓接入交換機21號端口也打開了,各交換機上聯流量基本正常,各個端口基本也正常了,之后此樓用戶沒有大面積再報故障。
這起故障是發生在去年11月,所有圖片顯示的都是最近12個月的流量情況。交換機所有端口情況圖片當時沒保存,無法呈現出來。使用的監測軟件是SolarWinds NPM 10的版本。
后來有時間也查過此樓的交換機的情況,也關注一樓接入交換機5號端口一直是關閉的,無人反映此點網絡不通。因管理單位幾百交換機沒時間天天守著這臺查看,到現在也不知道是哪個用戶、哪臺電腦或設備出現這種情況,是何原因導致的。但可喜的是,通過關閉一個端口,將這個樓大面積用戶反映的斷網故障解決了。
由于NPM是7×24小時監測,通過NPM的流量監測可發現一些交換機端口異常流量變化。通過不同時間段的流量圖,可以清晰地看到這種流量變化,對異常流量的端口可以及時發現并處理,如果能找到對應信息點或用戶、設備,就可以再去處理相應的用戶、設備了。