□ 代 康
針對網絡故障性質的不同,需要分別采用不同的分析診斷方法,網絡故障原因不明確的情況下,可以采用不同的方法分析測試故障原因,直至分析判斷出網絡故障實質所在,對于相似的網絡故障現象,可以根據以往的分析解決方案,作為解決其他網絡環境中的網絡故障的參考;每一種網絡故障,都需要分析問題的原因所在。本文將介紹常見的幾種網路故障的解決方法和解決網絡網絡故障的整體思路。
(一)物理設備故障。物理設備故障,是指網絡設備或者連接的線路故障、接口與接頭之間的松動、網絡線路受外界不同情況的干擾等情況。例如,無線網絡環境容易受到電磁干擾,網絡中某終端聯網中斷,最直接的方法是觀察網絡設備面板的線路連接指示燈,可以發現綠燈不亮或者黃燈不亮或者不閃爍,也可以通過安裝在服務器上網絡流量監控系統報警網絡鏈路Down狀態的信息。
處理辦法:使用計算機終端操作系統命令運行模式的網絡相關的命令檢查網絡環境,比如使用ping命令檢查計算機至網絡設備間的鏈路是否連通,如果ping不通,則可以確定故障節點的范圍,下一步就是檢查網卡端口和網絡設備上的端口與線路插頭是否接觸不良,經常的故障現象RJ45接頭損壞,即我們常說的水晶頭,解決掉這些接觸不良的問題后,再用ping命令檢查,如果ping已通,說明故障已經解決。
還有一種情況是線路匯集層到核心層之間出現物理鏈路上的故障,有些時候,因為調整或者配置網絡,有時候會觸動匯集層或核心層次設備網絡的線路,這種情況下,一般會導致一個辦公室或者一個區域內的用戶無法聯網,這個時候需要檢查匯集層和核心層的線路連接情況。如果接口間沒有問題,可以使用網線測試儀對設備間的線路進行測試,發現網線問題的話應更換新的網線替換。另一種物理設備故障就是網絡線路的錯誤鏈接。這種問題一般經常發生在接入層,網絡使用者經常私自添加上網設備造成的。
處理辦法:網絡設備應該有獨立的安置房間,至少應該保證放置在上鎖的機柜當中,使非網絡管理員無法接觸到網絡設備,另外一種情況是,私自添加網絡設備,比如說無線路由,家用交換機等,這些問題會導致私有網絡的DHCP非法廣播,網絡環路的出現,要診斷這種故障基本上要教育網絡使用者不應該私自添加網絡設備,在管理上應該跟上層網管系統結合,比如說綁定MAC地址,限定MAC地址的數量,只允許合法的MAC登陸,拒絕非法MAC登陸等方式解決。
(二)軟件邏輯類故障。軟件邏輯故障一般是因為網絡設備IOS配置錯誤參數造成的,因為網絡設備的配置參數不當,導致的網絡故障。配置參數錯誤原因就很多了,因為網絡設備IOS的配置選項豐富,配置命令繁多,可能是網絡設備端口參數錯誤,或網絡設備的路由協議配置錯誤導致路由環路或轉發不到外網。
處理辦法:可以使用路由跟蹤命令traceroute診斷網絡處問題的網絡設備,比如說,使用traceroute命令,則一串IP地址反復循環出現,這是因為路由協議配置錯誤導致了數據包的死循環。確定了網絡設備,直接登錄到此網絡設備,更改路由器配置文件,更正路由協議正確參數,恢復線路正常通路。
軟件邏輯類故障中,還有一類故障是網絡設備IOS系統上的進程或端口協議關閉,以及網絡設備負載過高。例如,網絡設備上的網管協議因為系統問題導致進程意外關閉,網絡管理系統無法再得到從網絡設備上采集到相關數據,也無法發送指令到網絡設備上。處理辦法:應該首選檢查網絡設備物理環境,保證網絡設備在合適的溫度和濕度下運行,檢查網絡設備CPU占用率,如果CPU占用率太高,應該關閉一些占用CPU資源較大的運用,比如說一些DEBUG命令等,檢查占用CPU資源率較高進程和協議,檢查是否因網絡入侵或者異常導致網絡設備資源的高占用。另一種情況是因為端口長期不用而被處于down狀態,此端口即使是連接上了線路,也是不通的。
(一)鏈路故障。鏈路故障常見的情況是網絡線路不通,分析方法一般是從終端設備上使用ping命令檢查終端線路到另一端網絡設備響應情況,通過觀察操作系統或者使用軟件工具檢測該線路上是否有流量通過。發現遠端路由器端口不通,或者沒有流量通過,那這條這條線就是有故障了。
處理辦法:通過ping命令測試鏈路兩端網絡設備端口,檢查設備的端口是否被關閉了。如果只是網絡設備端的端口沒有響應,可以判斷為是網絡設備端口故障。如果是終端的端口不通,可以檢查端口,比如RJ45的插頭是否松動或者是損壞。如果是遠端網絡設備端口不通,則可能是網絡設備的端口的網絡協議處于down的狀態;需要通過登錄網絡設備,查看端口狀態,并激活端口。
(二)網絡設備故障。網絡故障情況中,很多問題都跟網絡設備相關為網絡設備故障。但線路涉及到兩端的網絡設備,因此在考慮分析故障的時候,要考慮相關聯的網絡設備。
處理辦法:網絡設備故障問題如果僅是它本身,那處理上就要簡單些,網絡設備的CPU占用率太高,內存占用太高。這些情況都會影響到網絡服務的質量,解決這種問題方法可以對路由器硬件進行升級、通過添加模塊,增加網絡設備的處理能力,或優化網絡,減少網絡資源的使用。網絡設備另一種常見故障就是IOS配置錯誤。例如:協議類型錯誤,協議參數使用不恰當,端口參數錯誤。
(三)終端故障。終端故障問題中,主機網絡配置不正確是最常見的一類故障,例如:主機IP地址沖突,或子網的IP地址配置錯誤,DNS配置錯誤,這些導致主機無法聯網。再例如:服務設置的故障,Web服務器設置或者端口沖突,導致Web網站無法打開,域名服務器不能解析域名等問題。
處理辦法:首先要從終端設備的網絡配置,比如說IP地址,掩碼,網管,DNS的IP配置查找存在的可能,可以使用替換法,使用能正常上網的終端鏈接到此線路中,測試是否是終端操作系統的問題,要充分利用日志功能,查看出錯原因。另外,還有一些其他故障,比如病毒和木馬的惡意攻擊者非法利用該主機的資源。一般可以通過監視主機的流量、或掃描主機端口和升級殺毒軟件來查找問題的原因。
分析網絡故障診問題的一個核心思維是從哪里入手,使用何種手段去解決問題,解決問題的思路很重要,掌握了這種解決問題的思維不僅可以面對各種網絡問題,及時作出解決問題的方案,也可以用于分析現實生活、工作中遇到的問題。
總結一些分析網絡故障問題思路:第一步,問題的現象,問題的原因,確定從哪里開始相關的工作。第二步,收集相關的信息,收集關于某種故障盡可能多的信息。第三步,考慮可能的原因,在收集了足夠的信息以后,設計解決方案。第四步,應盡可能不要影響到其他正常網絡用戶的使用,使網絡問題影響最小化。第五步,記錄解決問題的過程,做好文檔保持工作,以方便后續查詢和總結用。第六步,由問題產生的原因,做好預防措施,分析如何防止類似網絡故障的發生。
隨著計算機網絡的普及和龐大的網絡規模,故障的原因也各種各樣,網絡故障會對社會生產、生活帶來較大的影響。網絡出現故障時可以及時維護網絡,迅速恢復網絡,掌握網絡故障處理方法。同時,加強網絡用戶的安全教育,對提高網絡安全和正常運行有著重要的現實意義。