賴彩明 中國聯通江西省分公司云網運營中心 南昌市 330096
王榮 萬賢平 中國聯通南昌市分公司云網運營中心 南昌市 330000
為實現資源整合、統一管理和集中維護,南昌各高校已逐步完成校園網數字化改造。校園網成為了一張大的局域網,擁有防火墻/路由器、BRAS、交換機、AAA等網絡設備,學生能通過統一的身份認證訪問校園內外相關資源。
網絡故障的原因有很多,有可能是網絡設備故障,也有可能是服務器系統故障,還有可能是軟件故障,當出現網絡故障時,網絡管理員要收集故障信息,對故障進行逐步分析排查,及時恢復業務。
對于校園網來說,核心網絡設備出現故障可能是最嚴重的問題,核心設備一旦宕機,直接影響校園全部用戶,從故障的出現到業務恢復,少則幾十分鐘,從則幾十小時,這將導致巨大的損失。
這時,雙機熱備就起著關鍵作用。雙機熱備特指基于高可用系統中的兩臺服務器的熱備,故得名雙機熱備,雙機高可用按工作中的切換方式分為:主-備方式(Active-Standby方式)和雙主機方式(Active-Active方式),主-備方式即指的是一臺服務器處于某種業務的激活狀態(即Active狀態),另一臺服務器處于該業務的備用狀態(即Standby狀態)。而雙主機方式通常指兩種不同業務分別在兩臺服務器上互為主備狀態(即Active-Standby和Standby-Active狀態)。
因為BRAS在網絡中起到了關鍵且不可替代的作用,所以在校園網中,最常見的熱備方式就是對BRAS進行雙機熱備。
某高校核心網架構為防火墻+BRAS(雙機熱備)+交換機模式。其中,BRAS位于網絡的二層與三層之間,向下完成業務匯聚和控制,向上數據路由轉發,是校園網中的關鍵設備。在此類組網的實際維護中也可能會碰到一些問題,撰寫本文的目的是通過分析校園網雙機熱備下的VPDN故障處理過程,以提升網絡維護水平。
校園網核心層設備為2臺防火墻,負責校園網出口流量的轉發和NAT轉換。匯聚層設備為2臺ME60(BRAS),負責與AAA聯動,用戶IP地址分配等功能。ME60與防火墻交叉組網,同時以V字形組網并啟用VRRP+BFD。BFD1監測peer狀態,BFD2檢測ME60-1的鏈路狀態,BFD3檢測ME60-2的鏈路狀態。正常情況下,ME60-1為主,ME60-2為備。當ME60-1的下行鏈路出現故障,BFD1和BFD2會DOWN,ME60-1通過這監測兩個BFD狀態,由主用降為備用。同時,ME60-2監測到BFD1中斷,BFD3正常,則由備用升為主用。

主設備優先級為200,如果當兩條上行鏈路都斷掉的話,優先級降為80,切換為備。同時對下行的鏈路track BFD PEER和LINK的狀態監測。
兩臺ME60配置相同的IP地址池、QOS參數等信息,保證共有屬性的一致性。對于用戶信息,只需要IP路由可達,通過TCP協議進行備份。為解決PPPOE的radius認證精確綁定問題,VRRP+為NAS-PORT-ID和NAS-IP-Adress配置統一的虛擬標識,保證主備設備信息完全一致。

校園用戶反映無法通過ME60撥號到遠端LNS,現場測試用戶端撥號不成功,用戶停止在驗證用戶名密碼狀態后無反應。
通過在LNS側抓包分析,發現LNS同終端用戶完成LCP協商后,通過CHAP認證挑戰請求用戶,但此時又收到用戶的LCP協商請求,所以LNS無法繼續進行下一步流程。

通過在主BRAS上行口和LNS側抓包對比,發現主ME60只發出一份,而LNS卻能收到兩份。考慮到兩臺ME60是雙機熱備組網,,因此另一份報文可能為備ME60發出去的,在備ME60上行口抓包確認發出了一份相同的報文。
我們繼續在匯聚交換機分別與兩臺BRAS相連的上行鏈路抓包發現,發現交換機將原本只應該發送至主設備的報文同時發送至了備用設備,備用ME60將此報文正常轉發到LNS,導致LNS收到2份相同的報文。在交換機上根據報文的目的MAC地址0000-03ea-eb84查看MAC轉發表,確定該MAC從聚合口Eth-Trunk11學到,不存在MAC地址漂移。因此交換機應該按MAC轉發表將此報文轉發至Eth-Trunk11,在Eth-Trunk12上抓到該相同報文是不正常的。
通過與用戶再次溝通,進一步了解到,學校近期將老校區出口割接到新校區校園網,接入用戶數激增,導致交換機Slot2的MAC地址數量溢出。用戶緊急聯系設備廠家調配板卡并完成擴容后,業務恢復正常,故障解決。

通過逐步分析,發現故障原因為交換機MAC超過閥值,用戶側上行單撥報文被泛洪到廣播域所有端口。一般組網下MAC地址超閥,不影響業務(會增加廣播包流量),但恰好學校組網為兩臺BRAS雙機熱備,備用BRAS收到上行報文后,通過同步的用戶表項正常轉發,導致LNS收到2份相同報文,認證失敗。通過分析此案例,我們可以吸取經驗,在日常維護中定期檢查交換機板卡用戶MAC數量,提前進行擴容。
網絡故障分析與維護是一項專業的工作,當今網絡技術更新迭代非常快。因此需要網絡工程師不斷學習和積累工作經驗,這樣才能使自身技術得到不斷提升并能適應網絡的發展。同時,也能幫助人們從互聯網當中獲得更多有價值的幫助,讓互聯網能更好地造福于民。
