VPN即虛擬專用網絡,可以把它理解成是虛擬出來的企業內部專線。它可以通過特殊的加密通訊協議,將位于不同物理位置的兩個或多個企業內部網之間建立一條專有的通訊線路。
本文講到的MPLS L3 VPN是基于MPLS的VPN技術,即三層VPN,是在網絡路由和交換設備上應用的MPLS技術,它簡化了核心路由器路由的選擇方式,利用傳統路由技術的標記交換來實現IP虛擬專用網絡,從而實現路由數據的快速轉發。
筆者單位一專線業務出現故障,首先從故障現象開始分析,逐級排查,最后將故障定位在了交換機VLAN缺失造成的。在故障處理的過程中還出現了一個小插曲,即CPU數據轉發擁塞,在進行ARP觸發后故障排除。接下來就具體介紹一下故障的處理過程。

圖1 網絡拓撲示意圖
近日,某專線單位反映,位于ZC的某專線視頻業務中斷。
在分析該故障原因前,我們先介紹一下網絡拓撲結構(如圖1)。
在圖1中,BRAS設備即ZC的 BRAS,利用 EPON設備實現了該專線單位視頻業務的接入,然后通過BRAS和核心路由器之間建立VPN隧道,最終通過專線將數據轉發至總部路由器。
首先登錄到OLT設備上查看ONU的狀態,沒有發現異常,即設備在線和端口正常。然后在OLT的全局模式下使用命令show ma c-addresstable l2-switch vlan 315,查看該視頻業務的MAC地址,得到的結果是在PON口上學習到了8個攝像頭的MAC地址,但是在OLT連接BRAS的端口上并沒有學習到VLAN315的MAC地址。接著,使用命令show running configuration interface port 25查看端口的配置,并沒有發現該VLAN在端口25上配置。
找到這個故障點后,我們立即在端口上進行VLAN添加,具體的配置命令即:

//添加VLAN315
通過上面的配置后,繼續使用命令依然在端口25查看不到MAC地址。這時候我們轉變思路在OLT上設置一個VLAN315的IP地址,ping BRAS上子接口315的IP地址,依然Ping不通。
重新審視該故障,進行思路的梳理。在OLT上添加上VLAN后,數據還是不通。登錄到BRAS上查看該接口的配置,子接口的IP地址即攝像頭的網關都沒有問題。問題分析到這里遇到了困難,這個時候首先需要清晰的思路和對整個故障現象宏觀的認識,目的是在查找設備配置手冊或者咨詢廠家技術客服時,能清楚地表達出故障現象,以期通過資料的查找和尋求幫助的方式解決故障。

圖2 查看鏈路聚合成員端口
大家都知道,BRAS是三層路由設備,子接口上的IP地址和攝像頭的首次通訊是通過ARP學習得到的。這里就涉及到主機間通訊的基本原理,同時結合BRAS自身的工作原理和特性,需要使用到ARP觸發機制,即在BRAS上需要對攝像頭進行Ping操作,然后觸發BRAS和攝像頭的ARP請求,從而實現BRAS和攝像頭的正常通信。按照這個思路,我們在BRAS上對攝像頭的IP地址進行Ping操作后,該專線視頻業務恢復正常。
上面我們從得知網絡故障現象,從OLT上開始排查,發現在OLT上VLAN缺失,但是在VLAN添加上數據依然不通。緊接著又對網絡機制和網絡故障進行分析后,發現OLT對應的端口VLAN被刪除時數據轉發出現了問題,具體是因為BRAS端口和OLT互聯使用的是鏈路聚合互聯,可以對成員端口進行查看比較直觀地看到故障端倪(如圖2)。
通過圖2我們可以看到,成員端口gei-0/0/1/9存在丟包(Drop-packets)現象,OLT上聯端口VLAN被刪除后,M6000在 給 OLT發包時,得不到回應,導致該子接口在CPU中的數據轉發出現問題,鏈路發生擁塞。在BRAS上對攝像頭進行Ping操作后,實現BRAS對攝像頭的ARP觸發,從而恢復數據通信。
后期網絡恢復后,我們在對OLT設備管理人員走訪時發現,該單位為了進一步規范交換機和OLT等二層設備的VLAN的配置操作時,將一些不再使用的VLAN進行了清理和刪除,而該VLAN的刪除屬于誤操作。
針對該故障的發生,我們專門對網絡設備配置制度進行了補充和完善,具體表現在統計在用VLAN的用途和使用情況,做到VLAN的使用有據可查,進一步杜絕了VLAN的重復使用和誤操作等情況的發生。設備的誤操作再一次向我們敲響了警鐘,設備配置的異常刪除,會給網絡通信帶來意想不到的故障,也不是簡單恢復這么簡單,所以這就需要我們加強設備配置的管理,做到規范配置管理設備,從而為網絡的和諧穩定打下良好的基礎。