肖子玉
NFV系統可用性模型研究
肖子玉
(中國移動通信集團設計院有限公司,北京 100080)
電信網引入網絡功能虛擬化(NFV)的過程中,保證電信級高可用性成為運營商進行VNF云化部署關注的重要研究領域。通過分析系統服務的高可用性實現方法,結合運營商的應用實踐在第3章提出NFV系統可用性指標分配原則和可用性關鍵指標參數,第4章通過實例分析給出一種優化的NFV系統可用性模型。
NFV可用性模型 虛擬化網絡功能 虛擬網絡功能組件
由于“云”的特殊容錯措施可以采用極其廉價的節點來構成云,“云”的自動化集中式管理使大量企業無需負擔日益高昂的數據中心管理成本,“云”的通用性使資源的利用率較傳統系統大幅提升,因此用戶可以充分享受“云”的低成本優勢。網絡功能虛擬化(NFV)即是在電信網中引入云計算技術。NFV要解決的關鍵問題,一是使用廉價通用的COTS設備代替傳統昂貴的電信級專用硬件;二是采用云計算技術實現自動化集中式管理。因此,如何保證電信設備NFV的可用性成為運營商引入NFV技術的重要研究領域。本文將結合運營商的應用實踐提出一種可行的NFV可用性模型。
通常一個網絡服務(NF)是一個復雜的過程。它包括兩端的外部環境因素、傳統網絡功能(PNF)在路由中的影響、虛擬化網絡功能(VNF)在路由中的影響、兩端點間所有網絡連接的影響、數據中心環境策略的影響等。當一個網絡服務提供商向用戶提供服務時,用戶關注的服務質量指標通常有四類:
(1)服務宕機時間:服務完成不可用;
(2)服務可靠性:如呼叫完成率、掉話率、切換成功率、失敗率;
(3)服務時延:通常是指90%或95%概率下的服務時延統計值;
(4)特定應用質量:如MOS值是語音質量用戶感知度測試值。
通常運營商使用的端到端服務質量指標為服務宕機時間、呼叫完成率、95%服務時延統計值。為得到上述指標需定義:測量點、測量方法、計數和排除規則。在系統設計中,要預測端到端服務指標,估算可行的目標性能,以便使預測值更接近長期測量平均性能。以上服務質量指標都可以歸入通信技術中QoS質量保證的關鍵指標,包括可用性、吞吐量(滿足SLA)、時延、時延變化(包括抖動和漂移)和包丟失率。
常用的平均故障間隔時間(Mean Time Between Failures,MTBF)和平均恢復時間(Mean Time To Repair,MTTR)就是用來預測服務宕機時間的可用性可靠性指標。它們分別指在一段時間內系統正常運行的時間和一段時間內系統故障修復所需的時間。系統的可用性與MTBF和MTTR有關,可靠性僅與MTBF有關。
可靠性(Reliability)(%)=e-t/MTBF(t為觀測的時間間隔) (1)
可用性(Availability)(%)=正常運行時間/(正常運行時間+宕機時間)=MTBF/(MTBF+MTTR) (2)
從以上定義可知,提高系統可用性的方法為:
(1)縮短MTTR可有效提高單點設備可用性指標。縮短故障修復時間MTTR是NFV系統具備的天然優勢,過去對于單點故障需更換硬件,修復時間長,而NFV系統運行在VM上,只要重新分配VM并實例化即可實現。
(2)提高MTBF也可以提高單點設備可用性指標。目前使用的設備已經是電信級高可用系統,要再降低故障率可行性不大。而在NFV架構下,軟件、硬件解耦,過去由電信設備商通過系統內部軟硬件的可靠性可用性設計和優化實現的5個9的電信級高可用性能需要通過分層的軟件、硬件、管理策略協同完成。
(3)采用冗余配置可有效提高系統可用性,形成高可用性系統。
(4)端到端系統可靠性和服務可用性隨冗余并聯配置增大而增大,隨串聯配置節點數增加而減小。
因此,對于NFV系統高可用性設計,應能夠避免由于任何單點故障而導致不可接受的服務中斷。因此高可用性系統的設計需具備如下功能:
(1)自動故障檢測;
(2)自動故障遏制和隔離;
(3)自動故障恢復;
(4)服務恢復及完全冗余恢復。
不可抗力事件或災難事件會導致多個系統同時故障,這時需要容災系統來保證系統設計的高可用性。容災系統設計時關注兩個指標:恢復時間目標(RTO)和恢復點目標(RPO)。RTO是指從通過正式的災難聲明及災難恢復計劃被激活的時間開始,到把應用服務恢復到遠程災備中心的目標時間,通常幾小時到幾天不等。RPO是恢復到遠程災備中心系統狀態的最近時間點。通常如果數據每天遠程同步一次,則RPO應為24小時。
本文主要關注網絡功能虛擬化(NFV)系統可靠性和可用性架構模型研究。在NFV系統架構中硬件、虛擬層和軟件變為三層串聯模式——Hardware、Virtualisation Layer和VNF,如圖1所示:

圖1 NFV三層串聯架構模型
從模型的角度看,在一個完整的網絡服務中影響NFV可用性的獨立網絡服務組件如表1所示。
由于可靠性RNF=RHardware×RHypervisor×RVNF和可用性ANF=AHardware×AHypervisor×AVNF的定義,系統故障率特別是軟件、硬件故障率和故障修復過程就決定了在資源池中配置冗余設備的數量,以便保證提供穩定可靠的網絡服務。因此MTTR和MTBF是兩個可靠性和可用性的重要指標,直接影響服務質量保證和SLA的特性。

表1 影響系統可用性的相互獨立的網絡服務單元[1]
由于系統的高可用性是由冗余配置來保證的,以下針對冗余配置進行分析。冗余配置下影響系統可用性的有五個因素[2]:關鍵部件故障率、故障覆蓋率、故障檢測時延、保護切換時延和切換成功率。
(1)關鍵部件故障率是指發生影響服務的故障事件概率;
(2)故障覆蓋率是指系統快速檢測到故障并正確地將故障與可恢復模塊隔離的概率;
(3)故障檢測時延是指系統自動檢測并正確隔離故障所需的時間;
(4)保護切換時延是指系統在冗余單元上恢復服務所需的時間;
(5)切換成功率是指自動切換成功恢復服務的概率。
從以上定義可知,對于一次故障導致的系統不可用,當故障覆蓋率和切換成功率達到100%時,故障恢復時間=故障檢測時延+保護切換時延。
根據ETSI GS NFV-REL 001 V1.1.1[3]對業務服務等級SAL(Service Availability Classification Levels)的定義,本文取定SAL1和SAL2作為電信運營商在NFV系統中對可用性要求的指標,具體如表2所示:

表2 服務等級指標(SAL)表
SAL1、SAL2提出的系統恢復時間為5-15S這個數量級。
NFV系統由NFVI(網絡功能虛擬化基礎設施)和VNFC(虛擬網絡功能組件)組成。NFVI包括硬件資源和虛擬化軟件,由VIM管理;VNFC是部署于VM上的應用軟件組件,可以看作是應用軟件的最小單元,由VNFM進行生命周期的管理。對于應用層VNFC的故障檢測方法包括VNFM檢測、VNFC間的心跳檢測和來自負載均衡器組件(LB)的檢測;對于云基礎設施NFVI的故障檢測主要包括VIM檢測、VIM與VNFM關聯的故障檢測等。影響系統可用性指標的關鍵因素可以用故障檢測時長、服務恢復時長和故障次數來計算,具體如圖2所示:

圖2 NFV系統的故障檢測方法示意圖
由于虛擬化使應用能夠在相同的虛擬化配置中運行,而不管底層硬件的實際物理配置。理論上講,虛擬化可使應用軟件關于硬件適配方面的缺陷被屏蔽,從而提高應用軟件的可用性。
以下是分兩個場景的故障檢測和恢復時長分配實例。實例1由VNFC故障引起的服務中斷,如圖3所示。
實例1給出了三種不同冗余方式的故障檢測和服務恢復時間。當VNFC故障時,1+1熱備采用雙機心跳檢測,N+M熱備時采用前端負載均衡器檢測,N+M冷備時采用負載均衡器檢測。根據上節SAL1的要求,電信級應用故障檢測時間應<1 s,熱備的應用倒換時間應在6 s之內完成。冷備方式需要重新加載一臺VM,上例中給出的是負載均衡器通過負載調度,使系統由原來的N臺主用變為N-1臺主用,當業務量不飽滿時依然可以在6 s內完成切換。切換的同時,應用會上報VNFM,VNFM在原有VM上重啟或重新加載VNFC,這一過程就<10 min。在此之前,VNFC的運行處于無冗余保護的狀態。
實例2由NFVI故障引起的故障檢測和恢復如果圖4所示。

圖3 實例1由VNFC故障引起的故障檢測和恢復示意圖
實例2也給出了多種不同冗余方式的故障檢測和服務恢復時間。當NFVI故障時,1+1熱備采用雙機心跳檢測,N+M熱備時采用前端負載均衡器檢測,1+1/N+M熱備由VIM檢測,冷備時由VIM檢測。采用心跳檢測和前端負載均衡器檢測時,可以達到上節SAL1的要求,故障檢測時間<1 s,熱備倒換時間在6 s之內完成。采用VIM檢測時,由于需要通知VNFM進行倒換,因此倒換時間略長,可在10 s內完成。冷備方式需要重新加載VM,倒換恢復時間較長,可在10 min內完成。服務恢復的同時,由于是基礎設施故障,還需要VIM分配新的NFVI資源,VNFM實例化新的備份系統,在此之后,系統方可重新具備冗余備份能力。無論以上實例1還是實例2,NFV的故障恢復時間和冗余系統完成恢復時間均優于傳統PNF系統。表3給出了以上分析的總結。

圖4 實例2由NFVI故障引起的故障檢測和恢復示意圖
從以上實例可以看出,在為NFV的可用性進行建模分析時,表4中的指標均應作為輸入參數。
首先取定NFV三層架構可用性指標分別滿足99.9%時,則一個VNF組件組合在一起的可用性降為99.7%。如圖5,整體可用性=99.9%3=99.7%
如圖6,冗余熱備模型的可用性=1-(1-99.7%)2=99.9991%(達到5個9)
假設VNF由10個串行VNFC組成,且每個VNFC均1+1熱備,則這個VNF的可用性為4個9,如圖7所示。
通過網元VNF 1+1冗余配置可得:
可用性=1-(1-99.99%)2=99.999999%。
從以上實例的配置可得,為保證VNF網元的99.999%的可用性,從VNFC配置到網元VNF相當于1+3備份。因此需要尋求更優配置模型。


表3 冗余備份情況下一次故障不可用時間分配表

表4 NFV可用性關鍵指標參數表

圖8 N+M備份方式與系統可用性關系圖表
結論如圖8所示。由圖8可得以下結論:
(1)當可用性為99.7%的VNFC采用N+M冗余配置模型時,最優配置模型為N+M=12+2,可滿足VNFC 5個9的可用性要求。
(2)當N+M=5+2時,VFNC可用性達到6個9,串聯10個VNFC組成的VNF網元可達到5個9的可用性要求。
從NFV三層架構到組成VNFC組件,再到單VNF網元的可用性模型如圖5、圖6、圖9所示。

圖9 單VNF網元5個9可用性模型
本文研究了NFV架構下為達到電信級可用性的配置方法和配置模型,并得出以下結論:
當NFV三層可用性分別達到99.9%時,以VNFC(單獨部署在一臺VM上)為單位,均須采用1+1/N+1熱備部署方式才能保證99.999%的可用性。
每個VNFC+它的Hypervisor層+VM冗余熱備系統的月故障次數小于4次時,這個單元系統的可用性可以達到5個9。設備廠商的實現應優于該數值。
當可用性為99.7%的VNFC采用N+M冗余配置模型時,最優配置模型為N+M=12+2,可滿足VNFC 5個9的可用性要求。當N+M=5+2時,VFNC可用性達到6個9,串聯10個VNFC組成的VNF網元可達到5個9的可用性要求。
[1] ETSI GS NFV-REL 003. Network Functions Virtualisation(NFV); Report on Models and Features for End-to-End Reliability[Z]. 2014.
[2] Eric Barer, Randee Adams. 云計算實戰——可靠性與可用性設計[M]. 北京: 人民郵電出版社, 2014.
[3] ETSI GS NFV-REL 001 V1.1.1. Network Functions Virtualisation (NFV); Resiliency Requirements[Z].2014.★
Study on Availability Model for NFV Systems
XIAO Ziyu
(China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)
When the network function virtualization is introduced into telecommunications networks, the carrier-class high availability becomes the important research area of the VNF cloud deployment for operators. According the analysis on the implementation method of the high availability of the system service, the allocation principle of the VFN system availability metrics and the key parameter of the availability were presented in the third chapter based on the operators’ applications and practice. An optimized availability model of the NFV system was given based on the case analysis in the fourth chapter.
NFV availability model VNF VNFC
10.3969/j.issn.1006-1010.2017.22.011
TN929.5
A
1006-1010(2017)22-0051-06
肖子玉. NFV系統可用性模型研究[J]. 移動通信, 2017,41(22): 51-56.
2017-06-30
劉妙 liumiao@mbcom.cn

肖子玉:教授級高級工程師,現任職于中國移動通信集團設計院有限公司,主要從事通信工程咨詢和研究工作,在核心網5G、NFV、IMS、RCS、全業務、國際通信網、智能網、信令網、信息安全、投資評估等領域積累了豐富的咨詢設計和研究經驗。