劉 作,陳 楊,黎 聰
(中國—東盟信息港股份有限公司,廣西 南寧 530200)
隨著向4G、5G核心網的演進,核心網網元功能在分組交換領域深度迭代。在模擬通信時代,信令與媒體不可分割。隨著對信令輕量化的需求,控制與承載分離成為2G、3G時代核心網架構的標志。但是,隨著網絡能力的提升和分組交換技術的深度發展,在當下的4G、5G時代,隨路信令再次回歸核心網架構。隨著控制與承載分分合合幾十年,如今的輕量化部署與靈活應用,對核心網功能網元的NFV化產生了硬性需求。
網關即完成兩個異構網絡之間信息(包括媒體信息和用于控制的信令信息)相互轉換的設備。國際互聯網工程任務組(The Internet Engineering Task Force,簡稱IETF)在RFC2719提出了網關的總體模型,將網關的特征分為3個功能實體——媒體網關(MG)功能、媒體網關控制(MGC)功能和信令網關(SG)功能。
5G網絡切片基于NFV和SDN技術,為了打破傳統核心網運行模式單一的狀況,采用各種運行業務綜合發展的模式,根據不同業務的優先等級,能夠實現端到端的業務編排;基于NFV化的媒體網關,可以實現對用戶業務進行切片定制化,針對不同業務實現端到端業務編排能力,符合5G核心網的發展方向。
ETSI網絡功能虛擬化行業規范工作組(NFV ISG)在GS NFV 002(Architectural Framework)中定義NFV基礎體系架構[1],整體架構由3部分組成。
網絡功能虛擬化設施(NFV Infrastructure,NFVI)基于傳統硬件的計算、存儲、網絡3大硬件模塊,將其組成節點和網絡鏈路通過hypervisor管理程序,將物理資源能力抽象為VNF應用調用,提供應用部署支撐環境。
虛擬網絡功能(Virtualized Network Functions,VNFs)是已定義好外部接口和功能行為的功能模塊。一個VNF就是某網絡功能部署在虛擬資源如VM中的一個實例。實際上,單個VNF可以劃分多個內部元件,部署在多個虛擬機中。每個虛擬機承載VNF的一個元件,打包作為方案向外提供定制化服務。
網絡功能虛擬化的管理與編排(NFV Management and Orchestration,NFV MANO),主要用于編排管理VNF組件、配置及基礎設施,并管理VNF的生命周期,主要聚焦于NFV架構中所需的所有虛擬化相關的管理任務[2]。
媒體網關VNF應用基于為用戶提供定制化切片服務,將媒體網關整體功能進行劃分,由多個子VNF共同構成基于VNF的微服務集群。
(1)MG_Core:輸出媒體轉碼、放音及錄音合成等核心媒體操控功能。
(2)Signaling Control:提供信令支撐功能,包括信令轉換、sdp媒體協商以及到核心網元偶聯的建立與維護。
(3)SCP(Service Control Point):核心業務邏輯控制與編排單元,基于面向服務架構設計,對其他子VNF網元提供業務邏輯控制,以及根據不同客戶需求提供定制化業務邏輯編排。
(4)DBS:提供數據庫和存儲支撐。
(5)ACP(Access Control Point):對接用戶,為用戶提供的切片入口用于滿足定制化需求請求及響應。
本文的分析流程劃分為3個部分:NFV平臺搭建與核心網對接、VNF應用部署、問題分析與改進總結。

媒體網關VNF應用指標,包括媒體協商轉碼,計算、網絡、存儲硬件指標,流媒體錄音生成,業務服務連續性;(2)核心網對接指標參數,包括M3UA偶聯、CIC使用率和流媒體帶寬占用率。
NFV環境搭建整體架構劃分。本文所述應用場景是一種基于語音通話的電信增值業務平臺,提供語音通話接續、錄音、彩鈴等定制化功能。為形成對比及方便測試,整體劃分為超融合NFV集群和基于物理機的VMWare資源池。參考論文《基于NFV的媒體網關軟化技術應用測試研究》的測試結論,軟化媒體網關組件CPU線程個數與響應網卡IRQ的線程個數最佳配置比為1:8的情況下,分配2個線程用于響應網卡中斷,使網卡SI%穩定在25%以下[3]。此外,與核心網T局、H/L局通過sigtran協議互配OPC、DPC、GT碼,互聯互通。
基于VNF應用能力輸出的靈活性和定制化需求,單粒度應用部署采取兩種應用標準。單粒度MG_Core支撐500媒體話路并發能力,各VNF應用均按錄音轉碼要求配置。
本文旨在研究基于NFV部署的VNF應用,在承載電信級核心網媒體業務時的系統穩定性,包括從Hypervisor抽象底層設施的能力輸出效果、底層變更對應用的影響以及VNF應用性能指標。
3.3.1 錄音合成延遲問題
基于系統周期性抽檢錄音合成監控機制,發現系統在業務高峰期存在錄音合成延遲問題。抽檢規模為500個隨機樣本,以失敗案例為分子進行統計,嚴重時刻能達到60%的延遲,通過對物理層資源的觀測顯示,部署MG_Core的子VNF應用會存在個別線程CPUIdle跳0,而集中在CPUWait等待資源釋放,持續時間0~9 s,此時CPU利用率超過60%。基于錄音合成優先級低于媒體轉碼、接續等優先級。此外,由于Hypervisor抽象物理資源所消耗的計算資源占比大概為30%,在系統媒體話路并發增高時,會出現底層計算資源搶占問題。
3.3.2 業務偶發閃斷問題
在系統上線使用過程中,觀測業務穩定性發現存在偶發閃斷現象。閃斷發生時表現為系統呼叫量從2 400媒體話路并發瞬間降至0,振鈴量由于存量呼叫的關系由2 300話路并發降至280,接通量由1 250降至150,部署的MG_Core的CPU空閑率從60%釋放至95%,網絡流入流量監控顯示流入的流量從600 kb/s降至30 kb/s,網絡流出流量從12 Mb/s降至0。IOPS讀寫由于媒體業務中斷原因寫入變緩,從500 r/s降至90 r/s,CIC使用率從1 200降至160。
通過排查發現,最早時刻發生中斷告警的為到核心網H/L局的sigtran偶聯中斷,每次中斷時間0~5 min。由于偶聯是支撐信令交互的傳輸通道,在偶聯發生中斷后無法對話路進行路由,導致發生業務中斷和底層物理資源的釋放。經研究排查,在sigtran偶聯閃斷時,Signaling Ctrl應用模塊所在的物理機存在突發重啟導致的冷遷移,導致5 min內的業務中斷。
3.4.1 錄音合成延遲問題解決
經3.3.2節對MG_Core子VNF應用的分析,它的承載業務擴容基線CPU利用率在60%。當高于60%時,系統會出現資源搶占問題導致的錄音合成延遲。由于其他子VNF應用模塊資源與MG_Core子VNF應用存在資源利用差值,在其他模塊資源未飽和之前,可以動態擴容MG_Core子VNF應用,降低整體資源利用率,解決資源搶占問題。此外,由于錄音合成基于ffmpeg組件,為防止單個線程被強占導致錄音合成掛死現象,通過配置ffmpeg錄音合成采用多進程綁定可避免該問題的發生。綜上,在部署MG_Core子VNF應用時,可調整ffmpeg配置綁定多線程工作,同時對虛擬機資源進行監控基線添加,當CPU利用率超過60%時,即可考慮動態擴容子VNF應用方案。
3.4.2 閃斷問題解決
雖然閃斷是基于物理層故障暴露出來的問題,但經分析可以從VNF應用部署角度盡力避免該問題,即采用分布式部署與負載均衡策略,將VNF應用部署在不同物理機上,采用偶數部署機制形成彼此互為熱備。當某個底層物理資源宕機遷移期間,部署在其他底層物理機所制成的虛擬機上的VNF應用即可起到熱備份作用。通過該解決方案策略部署VNF子應用后,系統業務閃斷問題修復,經數日觀測無閃斷發生。綜上,在部署VNF子應用時,將子應用針對底層物理機資源采取分布式部署與負載均衡策略,可極大提高對底層物理資源障礙的容錯性,提高業務系統穩定性。
5G網絡是萬物互聯的時代。NFV作為5G網絡切片的關鍵技術,是電信核心網的發展趨勢。本文以NFV為基礎環境,對媒體網關進行以VNF應用部署為目的的功能分解與部署,制定了核心網電信業務承載穩定性分析流程和技術指標,以系統承載業務所暴露出來的問題為基礎,分析得到了能夠提高系統穩定性的VNF應用部署方案和MG_Core擴容基線數值,為基于VNF的媒體網關承載電信級業務應用部署提供了參考。