常春雷 馬軍 楊大偉 李凱
摘 要:SDN網絡極大的降低了網絡的復雜性,在現階段得到了大規模的應用。本文對SDN網絡故障以及其故障檢測和數據恢復技術進行了研究和探討,希望能夠起到拋磚引玉的作用。
關鍵詞:SDN網絡;故障檢測;數據恢復
中圖分類號:TP393.06 文獻標識碼:A 文章編號:1671-2064(2018)09-0018-02
進入新世紀后,隨著我國信息技術、網絡技術和通信技術的發展,在互聯網業務更加多樣化的同事,也對網絡功能提出了更為嚴苛的要求。傳統的網絡要想實現智能化,會大量增加相關的網絡設備而導致網絡更加臃腫和復雜,極大的降低了網絡的擴展性與靈活性,無法滿足現代網絡的發展趨勢。于此,SDN技術應運而生,通過讓SDN控制器來實現網絡控制功能,從而在實現網絡全局集中控制的同時,能夠更為簡單、便捷的開展網絡管理活動。因此,SDN網絡架構在目前得到了大規模的應用。
能否實現故障檢測和數據恢復的及時性是衡量SDN網絡的關鍵性評價指標,這是由于網絡如果發生短時間的中斷會對廣大使用者造成不可彌補的損失,最大限度的提升網絡的穩定性、可用性和可靠性是現階段對SDN網絡的關鍵指標要求。為了對相關故障進行及時、正確的應對,全面增強網絡的服務質量,就必須對SDN網絡下的故障檢測和數據恢復技術開展全面而深入的研究。
1 SDN網絡故障簡介
SDN網絡實現了數據平面和控制平面的分離,因此,其必須通過數據通道以及控制通道來傳輸數據信息和控制信號。就數據通道而言,完成了主機與交換機之間和交換機與交換機之間的數據信息的傳遞,是極其重要的通信鏈路。而就控制通道而言,則是交換機同控制器間的通信鏈路,能夠基于OpenFlow消息實現流表項的下發、設備狀態的報告以及信息的交換。總的來說,SDN網絡的故障域主要涵蓋以下方面:(1)控制域故障。主要指的是控制器之間的鏈接故障或者是控制器故障;(2)控制通道故障。主要指的是交換機和控制器之間的鏈接故障;(3)數據域故障。主要指的是鏈接故障或者是交換機故障。
以數據域的故障為例,包括的故障類別有:交換機之間的鏈路故障以及節點故障。首先,對于交換機之間的鏈路故障來說,包括網絡接口引發的故障以及鏈路中斷引發的故障。前者有可能是因為網卡硬件故障或者是網絡接口引發的故障。雖然上述兩類型的故障在表面上有著明顯的差異性,然而就其后果來說,都會導致交換機之間正常通信的中斷,所以,均被劃歸到鏈路故障的范疇之中。其次,對于節點故障來說,引發故障的原因多種多樣,從而對SDN正常的流量轉發功能造成具有明顯差異化的影響。其主要故障類別包括:(1)計劃的交換機關閉。處于對SDN網絡中的交換機進行例行維護和軟硬件升級的需要,會對交換機進行主動的關閉。數據信息的正常傳遞是確保網絡穩定性、可靠性和安全性的基礎。由于SDN網絡數據網絡的冗余性可以確保SDN網絡在一些鏈路和節點失效的狀態下繼續保持正常的工作;(2)交換機轉發功能失效。主要是由于流表儲存器出現問題或者是硬件故障所導致的;(3)交換機安全通道故障。由于控制器同交換機之間的安全通道產生相應的問題,從而引發兩者之間無法完成正常的通信活動,在無法接收到控制器管理指令的條件下,交換機只能按照流表儲存器來繼續完成相應的轉發動作。
2 SDN網絡的故障定位及檢測
2.1 SDN網絡的軟硬件監控
SDN網絡的自主資源池自身的組件服務在雙機狀態下運行,需要重點監控硬件指標、軟件服務狀態。其中硬件包括的各服務器的CPU、內存、硬盤、網絡,CPU若大于70%需要重點監控,定期檢查硬盤及內存狀態,當出現報警時應及時更換;通過機房檢查網絡及路由設備狀態,通過ping等命令檢查服務器之間網絡聯通情況及網絡延時情況。
2.2 主要的故障列表
如表1。
2.3 SDN網絡故障檢測及處理
2.3.1 網絡類
采用PING服務器的方式,判斷網絡是否連通。
2.3.2 硬件類
(1)硬盤。參照SDN網絡的自主資源池所采用硬件服務器廠商所提供的對應方法進行定位。(2)網卡。參照SDN網絡的自主資源池所采用硬件服務器廠商所提供的對應方法進行定位。(3)存儲。參照SDN網絡的自主資源池所采用存儲廠商所提供的對應方法進行定位。
對于SDN網絡故障的處理,主要可以采取以下方法:
(1)客戶端。
1)未授權 (1-0001)。
故障現象:Agent注冊失敗,后臺報找不到授權文件。
故障排除:安裝Agent時,缺少必要的文件,請檢查安裝包是否完整,安裝源是否配置正確。
2)Job執行失敗。
新增虛擬機硬盤失敗(2-0001)。
故障現象:為虛擬機增加硬盤失敗,后臺報xx.py某行代碼錯誤。
故障排除:代碼行存在tab鍵導致job執行失敗,換成空格后正常。
應用服務重啟失敗(2-0002)。
故障現象:系統管理員通過命令重啟服務,服務啟動窗口提示服務啟動未成功。
故障排除:查看后臺記載詳細信息的日志,進行相應的處理。
3)虛擬機狀態異常。
使用ssh登陸至agent查看KVM的相關信息,進行相應的處理。
(2)數據庫。
數據庫服務異常(3-0001)。
使用客戶端訪問數據庫,查看數據庫是否能正常連接。
使用ssh登陸至數據庫服務器,查看數據庫集群各節點各服務的狀態。
(3)硬件類。
1)硬盤損壞(H-0001)。當確定硬盤損壞,無法恢復時,應當重新安裝操作系統及相關軟件。安裝好以后重新配置和恢復已備份的數據。2)網卡損壞(I-0001)。SDN網絡的自主資源池應使用雙網卡綁定的模式,當其中一塊網卡壞掉,不影響正常訪問,但應當及時更壞掉該壞掉的網卡,如果兩個網卡同時壞掉,則應立即全部更換掉壞的網卡。
3 SDN網絡的數據備份與恢復
(1)確定數據庫處于歸檔模式:以數據庫用戶登錄操作系統,分別在兩個節點上執行命令進行備份。(2)如果數據庫不在歸檔模式,應使數據庫處于歸檔模式再進行備份。
4 結語
隨著SDN網絡應用范圍的提升,對于提升SDN網絡的可靠性、穩定性和安全性提出了更高的要求。可以預見,隨著SDN網絡的發展,起故障檢測和數據恢復技術將更為智能化、及時化和自動化,從而確保網絡正常、穩定地運行。
參考文獻
[1]左青云,陳鳴,趙廣松,邢長友,張國敏,蔣培成.基于OpenFlow的SDN技術研究[J].軟件學報,2013,(05):1078-1097.
[2]王水,馬玉軍.網絡/圖應用開發通用基礎架構JUNG[J].電腦編程技巧與維護,2010,(23):69-80.
[3]張民貴,劉斌.IP網絡的快速故障恢復[J].電子學報,2008,(08):1595-1602.