雷多萍 鄧勇 彭莉



【摘? 要】通過對虛擬化IMS網絡可靠性需求分析,從滿足電信級可靠性要求的角度出發,在vIMS網元級可靠性和網絡級可靠性兩個層面,對虛擬化IMS網絡可靠性解決方案進行探討:在網元級層面,從網元架構設計、故障檢測和恢復手段等三個方面層層遞進給出解決方案;在網絡級層面,著眼網絡全局,結合不同網元在網絡中的角色、資源平衡等因素給出相應的解決方案。
【關鍵詞】NFV架構;vIMS;虛擬化;可靠性
doi:10.3969/j.issn.1006-1010.2020.03.011? ? ? ? 中圖分類號:TN915.07
文獻標志碼:A? ? ? ? 文章編號:1006-1010(2020)03-0056-06
引用格式:雷多萍,鄧勇,彭莉. 虛擬化IMS網絡可靠性解決方案探討[J]. 移動通信, 2020,44(3): 56-61.
The Discussion on Reliability Solution of Virtual IMS
LEI Duoping1, DENG Yong2, PENG Li1
(1. China Telecom Intelligent Network and Terminal Research Institute, Guangzhou 510630, China;
2. China Telecom Corporation Limited, Beijing 100033, China)
[Abstract]?Through analyzing the reliability requirements of virtual IMS networks, this paper discusses the solutions of vIMS network reliability at both network-element and network levels in view of meeting the reliability requirements of telecom level. At the network-element level, the solution is given in a progressive way with network-element architecture design, fault detection and recovery methods. At the network level, the solution is given by considering the overall network and combining the roles of different network elements and their resource balance in the network.
[Key words]NFV architecture; vIMS; virtualization; reliability
0? ?引言
NFV具有網絡部署高效彈性、通用硬件資源共享、業務快速上線等優勢,已成為未來通信網絡演進的主要趨勢。不同于傳統的專用設備,NFV采用通用的IT硬件設備部署網元,因此其可靠性機制與傳統的物理設備有一定的差異。如何提高和保證NFV網絡的可靠性是虛擬化網絡設備能否大規模商用的關鍵因素。
業界在NFV可靠性方面做了大量研究,比如網元架構設計中提供高可用HA(High Availability)和容錯FT(Fault Tolerance)兩種方案,在網元故障自動恢復方面也提供了進程重啟、虛機重啟和虛機重建等手段。但這些方案主要是針對單個虛擬化網元的通用手段,并沒有結合網元的實際業務需求和網絡整體架構的可靠性提供面向具體業務特性、端到端的解決方案。本文根據語音業務對網絡可靠性的要求和語音網絡虛擬化架構的特點,深入探討影響設備和網絡可靠性的因素,結合業界研究成果,從IMS網元可靠性架構設計、故障檢測和自動恢復等方面提出解決方案,并站在全網視角提出網絡級的可靠性解決方案。
1? ?vIMS/網絡設備虛擬化架構
圖1是建立在ETSI NFV(Network Functions Virtualiza-tion)定義的架構之上,vIMS實例化后的網絡架構圖,整個NFV架構由三部分構成:基礎設施NFVI(NFV Infrastructure)、網絡功能VNF(Virtual Network Function)和NFV 管理和編排MANO(NFV Management and Orchestration)。
虛擬化基礎設施層包括通用硬件、虛擬化軟件(Hypervisor)和操作系統(OS)。通用硬件是云資源池里的計算、存儲、交換機和路由器等實體資源。虛擬化軟件包括Hypervisor在內的一些中間件,是通用硬件和操作系統之間的交互通道。虛擬化軟件向上提供標準化接口,向下屏蔽底層不同硬件的差異,提供硬件和上層應用軟件交互通道。虛擬化軟件技術實現了軟硬件之間的隔離,使得上層應用軟件不再感知硬件的差異,實現傳統設備的軟硬解耦,使得多種業務軟件可以運行在統一的虛擬化基礎設施之上。
網絡功能是搭載在基礎設施層之上的各個虛擬機的應用軟件,完成各種業務邏輯。對于vIMS來說,主要是vCSCF、vMMTEL、vENUM/DNS、vHSS等網元軟件,提供包括語音、視頻和短信等服務。
協同編排由OSS/BSS和MANO組成。OSS/BSS提供開銷戶、計費等運營支撐。MANO由NFVO、VNFM和VIM組成,負責網絡功能VNF生命周期管理,包括VNF軟件鏡像管理、實例創建、啟用、停止、升級、擴縮容、網元管理策略以及對NFVI層資源管理、調度、運行監控等。
從NFV本質來看,vIMS實際就是一張IT化、云化的語音網絡。從傳統ATCA專用硬件到通用X86服務器,硬件翻天覆地的變化極大影響了語音網絡可靠性要求。
2? ?vIMS可靠性需求分析和影響因素
語音網絡的可靠性強弱采用系統可用性指標來對標。系統可用性是指語音網絡一年內正常服務的時間。目前運營商可用性指標大多要求一年內業務正常服務時間為99.999%。即一年內語音業務出現故障時間不能超過5.256分鐘。為保障業務的延續性,運營商在網絡重構時,這個嚴苛的可用性指標被繼承下來,并作為vIMS能否成為語音網絡重構技術的關鍵指標之一。
從傳統專用硬件構成的IMS網絡來看,軟硬件是一種緊耦合的關系,軟硬件之間溝通渠道由單廠家完成,協議是私有協議,不存在對協議理解溝通上的差異,不同硬件服務于不同功能軟件。這種架構軟硬件之間接口單一,轉發效率高,設備可靠性也高。
從NFV功能架構可知,vIMS實例化首先由協同編排MANO根據NFV鏡像和模板要求,組合NFVI層虛擬計算、存儲、網絡等資源構成一個個符合NFV規格的虛擬機,并在這些虛擬機上加載相應的IMS功能軟件,生成vIMS各種功能網元的過程。從單個虛機角度剖析,vIMS網元首先建立在虛機之上,而虛機又是由通用硬件、Host OS、Hypervisor、Guest OS、網絡等顆粒組成,所有接口都開放和標準化,不唯一地為某種軟件所使用,是一種松耦合關系。適用性廣也就犧牲了包括轉發效率在內的能力,設備可靠性也受到一定影響。除此之外,任何一個顆粒發生故障,都可能造成虛機故障,影響上層應用軟件運行,最終影響語音業務可用性,而虛擬化vIMS比傳統IMS顆粒度更細,顆粒更多。
綜上分析,影響虛擬化IMS網元可靠性有以下因素:
NFVI層面:計算資源、存儲資源等物理機層面故障直接影響虛擬機正常運行,網絡故障則影響虛機或網元之間信息交換。
虛擬機層面:包括Host OS、Hypervisor、Guest OS在內相關軟件和進程故障。
NFV層面:vIMS網元模塊故障發現(檢測效率)、個別進程運行故障、吊死。
3? ?vIMS可靠性部署方案
系統可用性指標考核的是業務正常服務時間,不是設備故障時間。局部設備故障,只要不影響業務正常服務,就不影響整個網絡可靠性。所以提高網絡可靠性可以從網絡和網元健壯性著手,最終提升整個語音系統的可靠性。
從網絡組成可知,網絡可靠性分為兩個層面:網元級和網絡級。網元級可靠性指單個網元的可用性,包括網元內各個模塊軟硬件和軟硬件之間交互網絡的可用性。網絡級可靠性指為提供某種功能所需要的所有網元可用性的合集。網元和網絡之間的可靠性可能會相互影響,單網元故障造成的雪崩可能會導致整個網絡癱瘓,網元級安全是可靠性部署的重點,做好充分可靠性保護方案是降低單個模塊軟硬件故障、網絡故障和由此產引發網元可靠性降低的重要舉措,甚至可以實現單點故障不影響整個網絡功能的可用性,從而提高網絡的健壯和安全。
3.1? ?vIMS網元級可靠性解決方案
作為網絡可靠性部署重點的網級元可靠性保護分三個層面,首先是在網元設計時充分考慮安全,其次是網元出現故障時要及時發現和隔離,最后應有措施自我修復。
(1)網元可靠性架構設計
vIMS的VNF由不同功能模塊VNFC(Virtual Network
Function Component)組成,VNFC之間互相協助共同完成協議分發處理、業務控制管理、數據存儲管理、媒體報文處理、告警和維護管理、營帳和業務發放幾大功能。
如圖2所示,從實現VNF功能的角度看,僅需要把每種VNFC部署一套即可實現VNF所有能力,考慮到設備使用一段時間后大概率會出現各種問題,如果每種VNFC只配置一套,單點VNFC故障必然影響VNF能力供給,所以在平衡資源利用率和網絡可靠性時,不同功能VNFC有不同的設計。對于協議分發處理、告警和維護管理、營帳和業務發放這類業務負荷不是非常繁忙的VNFC通常使用1+1主備方式,在主用故障時,備用及時接管業務。業務控制管理、數據存儲管理、媒體報文處理這類和業務處理密切相關,工作負荷大的模塊采用負荷分擔方式,在某一VNFC故障時,其他同種VNFC共同分擔故障VNFC的工作。網元內部網絡設計則需要保證在某一VNFC故障時不影響VNF相關功能,這就要求有消息交互關系的VNFC之間通過兩兩互聯保證其他VNFC即刻接管其工作。
VNFC除了在設計過程中需要考慮可靠性外,VNFC在部署時資源選取也是一個重要環節,即VNFC的NUMA親和性和反親和性部署。反親和性部署指vIMS同一網元同種VNFC(有主備關系或者有負荷分擔關系的功能模塊),實例化時必須部署在不同物理機,以防物理機發生故障,所有同種VNFC都故障,所有功能相同的模塊一起宕機,業務根本沒有倒換到備用或負荷分擔模塊的機會。NUMA親和性指在分配虛機資源時,vCPU、內存和PCI插槽等采用vCPU對應物理CPU所帶的內存和PCI插槽。如圖3所示,NUMA親和性避免了采用不同內存和PCI插槽需要經過QPI總線轉接。顯而易見,NUMA親和性不但提高數據轉發效率,數據轉發點減少也是提高數據轉發可靠性的舉措。圖3虛機B采用的是另一物理CPU所帶的內存和PCI插槽資源,造成數據轉發點增多,可靠性降低。
(2)網元內部故障檢測
提升網絡的可靠性離不開對網絡健壯性檢測,vIMS應具備自動檢測本身業務應用進程是否正常能力。同一設備內部故障檢測有幾種方式:
同種有負荷分擔關系的VNFC設置心跳,定期向控制VNFC匯報健康狀況。
1+1主備方式的VNFC通過內部網絡互發心跳,備用VNFC發現主用心跳異常時,即刻向控制VNFC發出警告,由控制VNFC決定下一步動作。
VNF和Hypervisor之間也應有心跳機制,互相檢測對方健康狀態,根據健康狀態采取不同恢復措施。當虛機啟用了HA和“故障本地重啟”后,會定期向Hypervisor發送心跳信息,上報運行狀態。當檢測到虛機沒有按照設定時間發送心跳時,Hypervisor就判斷虛機運行異常,并根據故障情況直接進行重啟虛機或者上報虛擬化基礎設施管理系統VIM,VIM進一步上報到NFVO,由上層設定的策略決定當前故障采用何種措施。
Hypervisor和硬件資源之間也存在互相檢查機制,當Hypervisor檢查到硬件故障,或者硬件監測到Hypervisor故障時,通知VIM,由VIM通知NFVO決策。
(3)故障自動恢復手段
業內虛擬化可靠性有兩種解決方案:高可用HA和容錯FT。vIMS網元的VNFC主要通過設計1+1主備、負荷分擔等方式實現HA。FT的解決方案是雙機熱備。備用VNFC和主用VNFC同步接收數據、處理數據,但是不輸出數據,實時同步主用VNFC數據(包括靜態數據和動態數據),在主用VNFC發生故障時備份設備可以立刻接管業務,不丟失任何數據,不影響業務運行。但在實際應用中,FT模式對主備VNFC實時同步要求較高,容易造成數據不一致,在vIMS網元內部應用不多。vIMS網元結合業務實現和HA方案對故障不同層級作了層層遞進的保護性措施,在故障被檢測到時首先啟動故障倒換,把受影響的業務倒換到備用或者負荷分擔VNFC之后,系統根據故障程度逐步升級恢復手段,從進程重啟、虛機重啟、到I層重建到最后網元級重建。I層重建按照發起者不同分為VIM主導發起和VNFM發起。
進程重啟:VNF某進程故障或吊死,操作系統自動重啟該進程。這個過程1、2秒內可完成,不影響業務。
虛機重啟:重啟和虛機是否支持HA無關,但虛機的“故障本地重啟策略”參數需要開啟。當虛機出現操作系統類故障時,故障將被I層檢測出來,I層啟動虛擬機的重啟功能,虛機重啟后恢復,業務也同步接管恢復。這個過程相當于電腦的重啟,對業務基本無影響。例如某個虛機操作系統崩潰,I層檢測到虛機故障后通知VIM,VIM通知VNFM,VNFM通知VNF進行業務倒換,同時I層重啟該虛機,嘗試恢復故障。
如果虛機重啟不能恢復,并且虛機HA開關打開。VIM檢測到虛機不能恢復時,將故障虛機下電并通知I層重建虛機。I層將通過故障虛機共享存儲中的操作系統、數據等在其他物理機上生成新虛機,這個過程也稱為I層重建。新虛機構建成功后,原虛機上所有業務也將被遷移到這個新建的虛機上。例如虛機所在的物理機故障、Hypervisor關鍵進程故障,無法通過重啟虛機恢復,I層在其他物理機使用共享存儲上的操作系統和數據自動復活。
如果虛機重啟不能恢復,并且虛機HA沒有打開。VIM便不能主導虛機自動復活。這個過程中VNF一直監測虛機恢復狀況,定時器終了時間仍未能恢復時,VNF主動向VNFM發起重建申請(虛機自愈告警),VNFM收到重建申請后,上報VIM,VIM確認原虛機確實處于故障態,把故障虛機下電后,進行虛機I層重建。這里需要說明VNF監測間不能太短,太短可能會造成VIM發起的重建和VNFM發起的重建沖突,即要避免造成VNFM發起重建時,VIM發起的重建已經在進行當中。所以虛機HA不開啟情況下,恢復時間要比打開要長,所以建議vIMS網絡HA開關打開。
如果I層重建所必須的,存放在共享存儲中的操作系統、數據、VNF配置已經損壞,I層就無法采用故障虛機數據直接生成替代虛機。系統則通過存放在NFVO上的鏡像文件、模板重建虛機。這個過程也稱為網元級重建。虛機重建成功后,將替代故障虛機恢復服務。
3.2? vIMS網絡級可靠性解決方案
vIMS語音網絡由多種設備組成,從功能的角度分為核心控制設備和媒體轉發設備,核心控制設備由vCSCF、vMMTEL、vMRFC、vENUM/DNS、vDRA、vHSS等,媒體轉發設備有vBAC、vMRFP。從平衡資源利用率和可靠性需求考慮,設備職能不同,部署時對資源傾斜度也有所差別。
vCSCF、vMMTEL、vMRFC這類核心控制設備采用組POOL方案,某一設備故障,其余N-1接管故障設備的工作。
vENUM DNS網元包含多個區域所有靜態查詢用戶數據,采用1主+2備方案,即在核心網絡節點城市異局址機房設置1主+1備2套vENUM/DNS,同時在另一核心網絡節點城市設置1套vENUM/DNS設備作為備份,主用設備對2套備用設備實時自動同步數據,以防地震、水災等自然災害影響所轄區域用戶使用業務。
vDRA主要用于轉發vIMS網Diameter信令,其作用類似PSTN網絡中信令轉接點STP。參考STP可靠性部署方案,根據vDRA所處位置的不同,部署L-vDRA和H-vDRA。 L-vDRA之間、H-vDRA之間采用1+1負荷分擔方式, L-vDRA和H-vDRA之間采用雙平面異構組網方式。
vHSS采用1+1互助方案,vHSS的兩套設備都處于主用狀態,但是對于用戶A,vHSS1是主用,vHSS2是備用,而用戶B則反過來。這種方法既盡量提高設備使用率,又保障安全可靠。
vBAC、vMRFP也采用組POOL負荷分擔方案,其中一套設備故障,由其他N-1套接管業務。
4? ?結束語
綜上,通過分析語音網絡對可靠性需求以及對NFV架構、vIMS整體架構和單網元設備各層面詳細分析影響vIMS可靠性的因素(包括計算、存儲等物理資源層面;Host OS、Hypervisor、Guest OS軟件層面以及網元故障檢測效率等方法論層面),建議在vIMS實際部署中,從網元級和網絡級兩方面加以考慮。
網元級可靠性從三個層面保障:網元架構設計中保證VNFC反親和性部署、虛機采用NUMA親和性部署,VNFC根據業務量繁忙程度采用雙機主備或者負荷分擔。為保證故障檢測實時性,有主備關系或負荷分擔關系的VNFC之間須設置心跳,VNF和Hypervisor之間、Hypervisor和硬件資源之間心跳也必須打開。在保證故障恢復手段方面要求虛機HA和 “故障本地重啟策略”開關必須開啟,定期檢查共享存儲和存放的操作系統、配置文件是否完好,以免因為共享存儲或者其中的數據和軟件損壞造成I層重建不成功。
在vIMS整體組網設計則組合采用網絡級可靠性組網,不同功能的網元分別采用不同方案。核心控制設備、媒體轉發設備采用組POOL方式、包含多個區域所有靜態用戶數據設備采用1主+2備方案,本區域用戶數據設備采用1+1互助方案,Diameter信令轉發設備采用雙平面異構組網。
通過網元級、網絡級可靠性組網方案最終從網元、網絡的角度全方位保障vIMS業務安全、穩定運行。
參考文獻:
[1]? ? ? 張靖. 網構軟件可靠性技術研究[M]. 成都: 西南交通大學出版社, 2017.
[2]? ? ? 曾聲奎. 可靠性設計分析基礎[M]. 北京: 北京航空航天大學出版社, 2015.
[3]? ? ?李素游,壽國礎. 網絡功能虛擬化NFV架構、開發、測試及應用[M]. 北京: 人民郵電出版社, 2017.
[4]? ? ? 顧炯炯. 云計算架構技術與實踐[M]. 北京: 清華大學出版社, 2016.
[5]? ? ?唐青昊,毛大鵬. 云虛擬化安全攻防實踐[M]. 北京: 電子工業出版社, 2018.
[6]? ? ?唐宏,秦潤峰,范均倫. 開源云OpenStack技術指南[M]. 北京: 科學出版社, 2017.
[7]? ? ? 戴夫· 沙克爾福. 虛擬化安全解決方案[M]. 北京: 機械工業出版社, 2015.
[8]? ? ? 凱文· 杰克遜,科迪· 邦奇.? OpenStack云計算實戰手冊 [M]. 北京: 人民郵電出版社, 2018.
[9]? ? ?何坤源. Linux KVM虛擬化架構實戰指南[M]. 北京: 人民郵電出版社, 2015.
[10]? ?謝朝陽. 云計算:規劃、實施、運維[M]. 北京: 電子工業出版社, 2015.
作者簡介
雷多萍(orcid.org/0000-0001-5597-605X):高級工程師,學士,現任職于中國電信股份有限公司智能網絡與終端研究院,從事網絡技術研究和支撐工作。
鄧勇:學士,現任職于中國電信集團公司網絡運行維護事業部,從事核心網維護管理工作。
彭莉:現任職于中國電信股份有限公司智能網絡與終端研究院,從事電信網技術和網絡發展戰略研究工作。