基于實際案例的網絡故障排查分析

2020-08-11 09:37:24

網絡安全和信息化 2020年8期

關鍵詞：故障

編者按：筆者通過分享一般網絡故障排查流程，對通常網絡故障排查方法進行了分析，并通過三個網絡故障案例，對網絡故障排查流程進行了解析。

通常引起網絡故障的原因很多，且有時故障點可能不止一個，排查方法主要有從下向上、從上向下，以及從中間層向兩端等。本文按照從中間層向兩端方法，結合實際案例，從本地網絡和遠程網絡兩方面對網絡故障排查流程進行分析。

本地網絡業務故障排查

當本地節點某網絡業務不通時，排查流程如圖1所示。

首先，在之前能夠訪問故障IP地址的主機上Ping故障IP地址，根據通斷進行不同的處理。

若能Ping通故障IP地址，但承載的上層業務不通，則檢查防火墻設置，包含網絡路徑中通過的硬件防火墻和單機或服務器上部署的個人防火墻。若防火墻未開通則開通防火墻，若已開通，則需要檢查數據流所經過的交換機上的ACL（訪問控制列表）配置。若未開通則開通ACL，若已開通則檢查是否有IP地址沖突，有沖突則關閉沖突IP網絡接入，無沖突則根據用戶單位內部系統部署情況，進行相關操作。例如，筆者單位在終端安裝部署有網絡終端安全監管系統，則需要以管理員權限運行命令行，執行“arp–d”命令，清除故障IP ARP緩存列表。經過上述操作步驟之后，可檢查網絡故障是否恢復。

若不能Ping通故障IP地址，首先登錄到網絡節點的中心交換機，通過“dis arp”命令查看ARP列表，查看是否存在此IP地址（為防止ARP老化時間未到，可先在交換機上執行“reset arp dynamic ip X.X.X.X”命令，清空ARP列表）。若查不到對應的IP和MAC地址，則是接入層故障，排查接入線路，若能查到則檢查IP地址、子網掩碼和網關等參數配置是否正確。若都正確，則轉到檢查防火墻步驟。

圖1 本地網絡業務故障排查流程

遠程網絡業務故障排查

遠程網絡業務故障是指跨地域的兩個網絡節點之間的網絡業務故障，排查流程如圖2所示。

首先，以Ping為切入點，在之前能夠訪問故障IP地址的主機上Ping故障IP地址，根據通斷進行不同的處理。

若不能Ping通對端IP地址，聯系對端網絡管理人員，登錄對端中心交換機，查看ARP列表，華為交換機命令為“dis arp | inc X.X.X.X”。若查不到IP對應的MAC地址，則排查接入層故障，若能查到則登錄兩端三層網絡設備查看路由表，檢查是否有兩端業務網段的路由。若沒有路由則開通路由，有路由則檢查網絡路徑中的防火墻和交換機ACL列表（包括單機版防火墻），如防火墻、交換機ACL列表已開通則檢查兩端設備掩碼、網關等參數是否正確。路由表沒有路由開通路由后，檢查業務是否恢復，未恢復則進入檢查防火墻、交換機ACL等安全策略路徑。

圖2 遠程網絡業務故障排查流程

網絡故障案例分析

案例1：網絡割接故障排查

網絡節點T在割接前使用E1（2M）專線接入上級節點B，網絡拓撲如圖3所示。升級后，T節點開通千兆以太信道至節點A，升級后網絡拓撲如圖4所示。

圖3 割接前網絡拓撲圖

全網采用BGP/MPLS VPN技術，PE節點之間通過BGP協議發布路由，RR1為一級反射器，節點A、B為PE節點，升級前節點T為CE節點，下掛在B節點。由于T節點開通了至A節點的千兆以太信道，T節點需要升級到PE節點，并將網絡路由割接至千兆專線。通過配置T節點NE20路由器，將其提升為PE路由器，與一級反射器RR1建立IBGP鄰接關系，但是割接后T節點至B節點網絡業務不通。

排查步驟：

（1）檢查各節點路由表信息，華為路由器查看命令為：

檢查B節點NE40路由器VPN路由表，發現沒有T節點發布的BGP路由；檢查T節點NE20路由器VPN路由表，也不存在B節點發布的BGP路由；檢查RR1和A節點NE40路由表均存在T節點發布的BPG路由。

以上現象說明B、T節點發布的VPN路由都沒有被對端接收。

（2）檢查B、T節點BGP鄰居關系，華為路由器查看命令為：

dis bgp vpnv4 all peer

發現兩臺路由器分別與其BGP鄰居建立了鄰接關系，B節點簡要信息如下：

BGP local router ID:192.168.1.1

Local AS number:100

Total number of peers:1 Peers in establi shed state:1

T節點簡要信息如下：

BGP local router ID:192.168.1.1

圖4 割接后網絡拓撲圖

圖5 升級前網絡拓撲示意圖

Local AS number:100

Total number of peers:4 Peers in established state:4

檢查發現B節點和T節點路由器的BGP router ID竟然相同。進一步檢查發現兩臺路由器在配置BGP路由協議時都沒有明確指定router ID，由于兩臺路由器都有一個接口默認IP地址為192.168.1.1，都將此IP地址作為了自身的BPG router ID。由于BGP協議的防環機制，不會接收本身router ID發布的路由，因此兩臺路由器之間無法交互路由，導致B、T節點網絡業務不通。

解決方法：

明確指定B、T節點的BGP router ID，華為路由器配置命令為：

BGP 100//100 為AS號，根據實際情況指定router-id X.X.X.X

配置完成后檢查兩節點路由表均已包含對端業務路由，兩端網絡業務恢復正常。

案例1結論：

必須明確指定路由器router ID，不可讓設備自動選擇router ID，確保全網路由器router ID不沖突。

案例2：不同廠商設備兼容問題導致網絡故障

筆者單位局域網進行升級改造，組網采用星型結構，升級前中心交換機為思科6509，接入層交換機全部為思科3560，如圖5所示。

升級目標：將思科6509更換為華為7706，接入交換機更換為華為5720。

由于筆者單位接入層交換機較多，升級過程中為了最大限度地減少業務中斷時間，決定采用先外圍后核心的原則，先逐臺將接入層交換機更換為華為5720，后將原思科6509降級為匯聚層交換機使用，核心交換機切換到華為7706交換機，如圖6所示。

實施此步驟為夜間，當晚測試網絡全部正常，但第二天一早便接到網絡中斷故障申告。檢查發現，接入交換機全部不通，網絡整體癱瘓，遂緊急將6509交換機撤下，接入交換機直接連接中心華為7706交換機，網絡業務恢復。最終網絡拓撲如圖7所示。

案例2結論：

一時網絡正常，不代表網絡一直穩定；

較長時間的穩定，不代表沒有故障隱患；

盡量用同一廠商設備組網，如無法避免，必須做兼容性測試。

案例3：二層網絡環路引發網絡故障

圖6 升級過程中網絡拓撲示意圖

圖7 升級后網絡拓撲示意圖

圖8 二層環路故障網絡連接圖

新建網絡節點N通過光纖連接至節點P，采用二層模式互聯。某天節點P突然發生網絡癱瘓，經檢查發現，在與節點N連接的網絡接口上檢測到環路，如圖8所示。

經排查，原因是節點N兩臺交換機使用鏈路聚合級聯，實現鏈路保護和提高帶寬，但配置完成后未保存交換機配置，恰逢故障當天節點N停電，供電恢復后聚合鏈路變成二層環路，導致節點P和N網絡全部中斷。

解決方法：為了確保節點N和P不互相影響，兩節點采用三層網絡互聯，避免二層網絡故障影響范圍擴大。

案例3結論：

交換機console控制口要隨時保持可管理狀態。當網絡整體癱瘓時，ssh、telnet等協議均無法使用，只能通過控制口進行設備管理。

查看網絡設備日志。所有的網絡故障在設備日志中均有所體現，通過逐層排查的方案，能夠最終確定故障原因。

結語

網絡故障排查在網絡運維管理工作中是不可避免的，原因有時很復雜，有時故障原因不止一個，運維人員必須對網絡連接關系十分清楚，對三層網絡所采用的路由協議十分熟悉，在出現故障時沉著應對分析，按照科學的方法步驟進行處置，才能在最短的時間內排除故障，恢復網絡業務。