摘 要 對于一個實時數據處理系統而言,具有一個穩定、可靠的網絡系統是其首要的基礎性前提。本文在設備級可靠性、鏈路層保護、網絡層保護三方面,分別采用雙主控主備機制、Trunk鏈路聚合技術、BFD雙向轉發檢測等技術對網絡可靠性進行了分析與設計,并對關鍵節點進行了實際測試,各項指標均能夠滿足實時數據處理系統要求。
【關鍵詞】網絡可靠性 設備級可靠性 鏈路層保護 網絡層保護
1 引言
實時數據處理系統作為一個大系統的數據中心,通常要與外部進行大量的信息匯集分發,在內部進行信息處理與交換等業務,信息被準確快速的傳遞就需要一個高穩定、高可靠的網絡系作為其有效支撐,否則實時數據處理系統將無法發揮其應有的作用。
影響網絡系統可靠性的主要因素包括:硬件設備、鏈路、供電、網絡設計等,網絡出現故障后,將導致系統無法對外提供正常服務。對于這些故障的一般解決方式就是簡單的冗余設計,通過對設備、鏈路、供電等提供備份。但是冗余設計只是整個網絡可靠性設計的一個方面,單純的進行冗余備份反而會降低可用性,從而減小冗余所帶來的優點,因為單純的冗余備份也會引入一些缺點:
(1)提高網絡復雜度;
(2)加重網絡負擔;
(3)增加配置和管理的復雜度。
網絡的高可靠設計是在提高網絡的冗余性的同時,還需要加強網絡構架的優化,從而實現真正的高可用。本文針對工程實際使用案例,對所需的網絡系統進行了分析與設計,并對關鍵節點進行了實際測試,結果表明,該網路系統設計合理、可靠性較高,能夠滿足實際使用需求。
2 設備級可靠性設計
通過熱備技術、靈活配置恢復以及關鍵部件冗余使設備級可靠性增強,將設備故障對系統整體的沖擊減到最小。對系統中處于核心部位的設備采用以下三方面的可靠性技術:
2.1 主控板熱備
核心交換機均配置兩塊控制板,本別稱為主用控制板和備用控制板。其中,主用控制板對外完成系統的工作,進行對外通信;備用控制板作為主用控制板的備份,處于熱備狀態,但不對外進行通信。當主用控制板故障時,系統進行自動切換,由備用控制板作為主用控制板進行對外通信。
2.2 靈活配置恢復
核心設備具備板卡、磁盤等部件的熱插拔能力,能在不關閉系統、不切斷電源的情況下,實現對故障部件的熱添加和熱替換。使得故障部件在更換或重啟業務后,用戶配置能夠自動恢復,在盡可能短的時間內恢復正常業務,提高設備可靠性、擴展性和靈活性。
2.3 設備關鍵部件冗余
對設備關鍵部件進行冗余配置,當系統發生故障時,冗余配置的部件接替故障部件的工作,保證設備正常運行。供電系統采用雙電源冗余配置,兩個電源工作時實現負載均衡,當一個電源出現故障時,另一個電源就承擔所有的負載。散熱系統采用雙風扇冗余配置,并且提供自動調速功能。存儲系統采用磁盤陣列實現數據備份存儲能力。
3 鏈路層保護
對核心層交換機、接入層交換機、服務器、重要終端全采用雙歸屬連接,實現全網的冗余備份負載均衡,保障系統的高效性和高可靠性。
3.1 雙網卡綁定
對于系統中運行的核心服務器而言,即使網絡可靠性程度很高,但如果服務器采用一條線路接入,網絡依然會出現單點故障。解決方法是在服務器上安裝雙網卡。
對雙網卡進行綁定,虛擬成一塊網卡,使用一個IP地址,使用起來就像是一個網卡。數據在其中一條鏈路上進行傳輸,當使用的鏈路故障時,會自動切換到另一條鏈路上繼續工作。經實際測試,系統網卡備份容錯技術故障切換時間約400ms。
3.2 鏈路聚合
Trunk鏈路聚合也稱捆綁技術,鏈路聚合后,就是把兩臺設備間的多條鏈路看成一個整體的一條鏈路,提高了鏈路帶寬,理論上其最大帶寬等于各成員帶寬之和。聚合的鏈路間是會自動進行負載均衡,提高了鏈路的可用性,如果其中一條鏈路斷掉,那么它的流量會自動分擔到其它剩余的鏈路上,起到了鏈路備份的作用。
系統核心交換機與核心交換機之間、核心交換機與匯聚交換機間、匯聚交換機與匯聚交換機間部署業務板內、業務板間Trunk聚合技術,提供單播業務的負載均衡,組播業務的500ms以內的備份容錯保護能力。
3.3 鏈路快速切換
Smart Link技術實現了主備鏈路的冗余備份。主備鏈路擁有兩個端口,一般情況下,主鏈路端口處于工作狀態,備鏈路端口被阻塞,處于待命狀態。當主鏈路端口故障時,備鏈路端口切換為工作狀態,進行業務轉發,實現了設備的雙歸屬連接及快速切換。
組網的接入交換機通過Smart Link技術接入匯聚交換機,同時在匯聚交換機部署Monitor Link技術提供對上行鏈路的監控功能,避免了由于無法及時感知上行鏈路故障而引起的業務中斷。
4 網絡層保護
4.1 BFD雙向轉發檢測
BFD(Bidirectional Forwarding Detection,雙向轉發檢測)是一個用于檢測兩個轉發點之間故障的網絡協議,可以實現鏈路的快速檢測,監控網絡中路由的轉發連通情況。BFD依靠上層協議在兩個節點之間的每條鏈路上都建立一個會話,并在鏈路上進行會話檢測,如果發現鏈路故障就拆除BFD鄰居,并立刻通知上層協議。建立會話時,兩個節點至少有一方要運行在主動模式下,即建立BFD會話前不管是否收到對端發來的BFD控制報文,都會主動發送BFD控制報文。會話建立后如果在檢測時間內沒有收到對端的BFD控制報文則認為發生故障。
通過部署BFD技術,OSPF[9]路由收斂、VRRP狀態切換、PIM DR切換時間可以減少到50ms以內,大大提高了網絡整體容錯性、可用性。
4.2 VRRP
VRRP(Virtual Router Redundancy Protocol,虛擬路由冗余協議)是一種容錯協議,可將多個路由器組織在一起,形成由主路由和備份路由組成的路由器組,成為一個虛擬路由器,這個虛擬路由器擁有一個虛擬的IP地址,網絡上的設備通過這個虛擬的地址即可實現對外通信,而不需要知道主路由器及備份路由器的真實地址,實現在主路由故障時,由備份路由來及時代替工作,實現通信不間斷。
VRRP能夠通過檢測報文來監控主路由的工作狀態,但不具備監控主路由上行鏈路的能力,會導致主設備運轉正常,但由于鏈路中斷無法提供對外業務的情況發生。在此基礎上實現對上行鏈路的監控,可進一步提高系統的可靠性。
在網絡核心交換機、匯聚交換機、匯集分發交換機部署基于VRRP技術的雙機熱備系統,并加入VRRP自動偵測、直接監控三層接口狀態、與BFD狀態綁定三種監控上行鏈路的方式,避免上述情況的發生。當主交換機故障后,備份交換機能在150ms以內自動切換為主交換機繼續保證網絡通信系統整體可用性。
4.3 路由快速收斂
4.3.1 OSPF路由快速收斂
對于IGP路由,收斂速度是衡量其優劣的一個重要指標。對于OSPF,縮短hello報文時間間隔可以有效加快故障檢測速度;縮短hello報文時間間隔也可以提高鄰居關系的建立。
OSPF默認40多秒的收斂時間不能滿足系統高可用要求。OSPF路由快速收斂技術就是將BFD狀態和OSPF協議相關聯,OSPF調用BFD對鏈路故障狀態的快速感應信息,加快OSPF協議對于網絡拓撲變化的響應。如表1所示。
4.3.2 OSPF路由平滑重啟
OSPF 平滑重啟(GR)技術是一種在協議重啟時保證轉發業務不中斷的機制。如果不使用平滑重啟技術,當重啟協議時,路由器需要斷開與鄰居的關系,等OSPF 進程重新啟動后,再與鄰居重新建立關系,重新計算路由。在這段時間內,轉發業務是中斷的。使用平滑重啟技術,在重啟協議時,會告訴鄰居不要斷開與自己的關系并保持穩定,協議重啟完畢后,在盡量短的時間內使該設備恢復到重啟前的狀態,整個系統可以不間斷地轉發數據。
系統在所有交換機上部署OSPF平滑重啟(GR)技術,實現在主備引擎切換、維護、設備升級時的業務不中斷。
5 結論
影響網絡系統可靠性的因素很多,提高網絡系統可靠性的方法和技術手段也不盡相同。本文設計的網絡系統,在設備級通過關鍵部件冗余設計;鏈路層采用雙歸屬連接,實現全網的冗余備份負載均衡;網絡層采用BFD雙向轉發檢測、VRRP虛擬路由冗余備份等技術,對全網可靠性進行綜合分析設計,測試結果能夠達到實時數據處理系統要求。
參考文獻
[1]尹棟,慕德俊,戴冠中.一種以服務器為通信節點的數據中心網絡設計[J].計算機科學,2012,39(03):110-112.
[2]丁健,趙金龍,荊曉娟,宋偉.數據中心高可用性網絡設計[J].信息技術,2013,2:148-150.
[3]鄧罡,龔正虎,王宏.現代數據中心網絡特征研究[J].計算機研究與發展,2014,51(02):395-407.
[4]朱桂明,謝向輝,郭得科,陸菲菲,陶志榮.一種高吞吐量、高可擴展數據中心網絡結構[J].軟件學報,2014,25(06):1339-1351.
[5]黃寧,伍志韜.網絡可靠性評估模型與算法綜述[J].系統工程與電子技術,2013,35(12):2651-2659.
[6]數據中心解決方案高可用技術白皮書. www.knowsky.com,2010.
[7]王琛,賈山剛,高三紅.冗余鏈路技術在測控計算機系統中的應用[J].飛行器測控學報,2011,30(02):55-58.
[8]洪嘉捷.數據中心中高可用性技術的應用[J].通訊世界,2015,2:1-3.
[9]黃小芳,劉敬彪,鄢能.BFD技術實現分層VPLS系統[J].計算機系統應用,2009,2:143-145.
[10]王二平.供電分公司雙核心網絡改造的研究與設計[J].山西電力,2008,149(05):50-52.
作者簡介
李鵬(1977-),男,碩士研究生,工程師。研究方向為測控技術。
作者單位
92941部隊 遼寧省葫蘆島市 125000