魏東紅,王其才,商 超
(中國電子科技集團公司第五十四研究所,河北 石家莊 050000)
任何一項新技術的發展都離不開需求的推動,傳統的運維過程中,對網絡業務的開通需要運維人員手動進行設備的配置。由于設備本身的多樣性以及設備配置參數、標準不統一,人工配置的方式耗時長、命令復雜且容易出錯,而網絡業務更換往往會導致網絡存在不穩定的狀況,使正常的網絡業務運行出現問題,經常出現回退至先前版本的情況。當網絡發生故障時,相關聯的告警激增,由于缺乏有效的故障診斷工具和方法,運維人員往往需要通過經驗判斷故障的根源,然后進行逐項排查確認,過程煩瑣且需要耗費大量的精力,導致工作效率低下,運維成本增加。因此,如何高效地進行網絡業務配置和故障診斷是運維領域亟須解決的關鍵問題。
自動化運維將運維流程自動化、智能化,盡可能降低人工成本,在實現方式上可依托以下技術手段。
SDN將對設備的控制和設備本身相分離,采用集中式的控制器管理整個網絡,其通過流表對網絡的控制,實現對流量、轉發的細粒度控制,使網絡的調整更加靈活和高效。SDN對網絡的全局視圖和優化也有著重要作用。另外,基于SDN可實現網絡業務路徑的自動切換,當發生故障時,保障網絡業務運行不受影響[1]。
NFV是未來網絡的發展方向,以軟件的形態定義物理的實體,在底層計算、存儲、網絡設備的基礎上提供定制的虛擬網絡功能,通過網絡功能虛擬化管理和編排(MANO)對虛擬化功能進行編排,對外提供統一的接口與SDN有著天然的互補特性。SDN和MANO相結合可以通過軟件的形式控制虛擬化網絡功能(VNF)之間的流量轉發,高效地進行流量調度[2]。
故障的準確性、實時性對故障的診斷有著十分重要的作用,在SDN技術中,通過網絡編排的方式,控制器能夠獲取網絡的綜合視圖,降低故障發現和診斷的難度。同時可通過故障關聯分析,提取故障的特征,通過粗糙集理論獲取特征集構成訓練樣本,并將訓練結果應用于故障診斷,提高故障診斷的準確率[3]。
在設備層面,通過對設備的監測,建立設備性能惡化與故障的決策模型,通過支持向量機、決策樹、神經網絡等模型進行故障決策。在網絡層面,對故障診斷的關聯數據和歷史故障進行分析,挖掘故障關聯衍生規則,建立故障預測模型。當判定故障條件滿足時,對網絡預先告警并提示網絡優化改進。
自動化運維系統以提高運維效率、減輕運維人員負擔為目標,通過對網絡業務流的控制以及故障智能診斷、故障預測等技術,降低故障發生概率以及故障處置時間,提高網絡運行的可靠性。
在本系統設計中,將SDN與NFV相結合,共同向上層應用提供服務,NFV在標準硬件設備的基礎上虛擬網絡、轉發設備。對SDN層提供編排底層基礎,運維人員通過SDN控制器控制虛擬網絡功能的生成和網絡業務流的轉發,并在此基礎之上獲取全網網絡視圖。網絡監控通過各類成熟的監視手段,全面地監視機房環境、設備、流量和網絡通聯,方便運維人員掌握網絡容量、資源利用情況及各類告警故障。系統運行過程中,運維人員可通過經驗庫增加知識積累,故障預測功能對可能發生的故障進行預警提示。發生故障時,故障診斷功能及時、快速定位故障根源,輔助決策功能能夠按既定規則提示故障解決方案,供運維人員選擇。系統數據交互如圖1所示。

圖1 自動化運維系統數據交互
系統數據是運行的基礎,網絡數據的采集貫穿運維的全流程,目前此方面的技術相對比較成熟,能夠通過設備支持的協議如SNMP、IPFIX、SFlow、軟硬探針、設備日志、動環系統接口等進行數據采集。
狀態監控是運維的核心功能,也是一系列運維功能的基礎,沒有準確的狀態顯示,就無法判斷當前的網絡形勢。網絡監控的主要指標有:設備的運行狀態、鏈路狀態、網絡設備的端口流量、設備的CPU、內存、磁盤空間占用率、設備的故障、鏈路帶寬利用率等,對網絡業務的監控十分重要。對于通過SDN配置的網絡業務,可實時監視網絡業務流,在具備動環系統的情況下采集并展示機房溫濕度、機柜溫度、煙霧等指標,輔以各類趨勢變化曲線圖,在實時監視的過程中評估網絡的穩定性。
通過在系統中配置巡檢周期,系統后臺按時調度實現自動巡檢。巡檢前,運維人員配置巡檢項、設計巡檢單、告警閾值等信息,并與系統提供的監視內容相關聯,系統進行巡檢時將數據填入巡檢單,判斷是否到達告警閾值并對超閾值情況進行告警。根據用戶制定的巡檢數據分析規則處理數據并對巡檢內容在一定周期內橫向對比分析,呈現數據指標變化趨勢,供運維人員查看和參考。
網絡業務隨著時代的進步,為方便人們的生活,承載的網絡業務也在不斷調整,通過SDN/NFV技術將線下的操作轉變為線上的配置,通過網絡編排器配置網絡業務參數、調整網絡業務占用資源直接控制網絡,按照其特性分配和擴容各類不同的網絡業務資源,提高網絡資源的使用效率。
NFV技術對底層硬件設備做適配處理,對上層SDN屏蔽了底層硬件的差異,提供統一的編排接口。SDN對虛擬的網絡設備功能進行流表的編排控制,降低了SDN的難度,提升了編排的效率。對于通過SDN建立的網絡業務路徑流表,在網絡視圖中按需進行圖形化展示。
在網絡業務流表編排的過程中,可設置主方案和備用方案。當主方案由于網絡變化或人為原因無法實施時,根據當前網絡資源配置自動切換至合適的備用方案,這個過程保障了網絡業務的持續性和穩定性。
3.6.1 工具協助診斷
在故障發生時,可借助外部的工具手段進行故障的初步診斷,如測試終端通過與測試設備互聯,調用測試設備接口對網絡和設備進行自動化測試。通過網絡故障測試工具測試,利用測試結果進行網絡和設備故障的初步判斷和定位。
3.6.2 智能診斷
基于大數據平臺的故障診斷,在網絡運行時間足夠長、數據量足夠多的情況下,能夠在大多數情況下準確推斷故障的源頭。在系統運行前期,通過歷史故障數據建立故障模型,提取典型的特征向量,通過機器學習算法優化故障特征關聯規則,增加判斷的準確性。系統運行中期,通過診斷運維中的實際故障,對于不準確的情況,將診斷結果和處理作為輸入,微調修正故障診斷模型,不斷提高診斷的準確率。
對通過系統操作直接能夠解決的故障事件,系統自動記錄運維人員處理故障的相關操作、配置參數,跟蹤故障發生至消除的全周期,并將處理過程轉化為經驗存儲,以便運維人員查詢。
在設備層面,通過采集設備自身內存、CPU負載、磁盤占用量、設備級日志,建立與設備故障的關聯關系,當設備性能滿足指標時,結合歷史故障數據的經驗規則預測故障的時間和類型。在網絡層面,對復雜故障利用智能診斷功能的故障關聯規則數據、當時的網絡運行情況以及對歷史故障關聯數據的挖掘結果,建立故障的時序衍生規則。在運行過程中,通過機器學習算法優化調整,結合故障發生時對網絡場景綜合判斷,進行故障的預測。
當網絡需要調整或發生故障時,如何進行處置十分關鍵。網絡調整需要評估網絡調整的風險和影響,網絡故障時需對故障的解決方案進行決策,如何處置決定著故障的處理難度和風險。
3.9.1 網絡調整策略推薦
基于網絡業務所需資源、當前所占資源、現有網絡業務分布、網絡業務沖突分析檢測等數據進行綜合評判分析,依照資源利用效率高低的排序推薦網絡業務流表配置策略,同時提示調整策略的風險點。
3.9.2 故障處置策略推薦
基于以往的故障處置數據、當前運行網絡的業務、設備當前性能等信息,推薦故障對應的處置方式,同時提示處置步驟。
對以上兩種情況,運維人員可進行策略的對比,按照提示信息處理并選擇最優策略,也可自行處置,將處置方式與故障關聯。
目前,自動化運維技術處于蓬勃發展的階段,還有諸多待解決的問題,本文將SDN/NFV技術應用于自動化運維系統,并提供了系統的初步設計。設計中網絡監控是基礎,是判斷決策的前提,網絡業務編排和故障診斷預測能夠提高運維人員的保障效能,決策輔助能夠輔助運維人員進行網絡的優化調整。自動化運維技術能夠有效提高運維工作的效率,有著重要的意義。