鐘其柱+羅耀滿+楊彬



【摘 要】為了熟悉VoLTE復雜的網絡結構、發展趨勢和解決用戶感知問題,通過對VoLTE的發展現狀及其技術原理與優勢進行梳理和總結,分析了網絡升級改造中提出并選定的幾種關鍵技術方案,研究了在語音質量優化上提出的幾種基于MOS值的評估方法。結果表明,基于深度神經網絡DNN-MOS的評估方法是更佳的語音質量評估方法,可以有效地評估和提升用戶感知。
【關鍵詞】VoLTE 網絡優化 MOS值 DNN-MOS
Overview and Quality Evaluation Method of VoLTE Networks
[Abstract] In order to know the complex network structure and development trend of VoLTE and deal with the user perception, the developmental status, technical principle and advantages of VoLTE were arranged and summarized. Several key technical solutions which are proposed and selected in the network update and reform were analyzed. Several evaluation methods based the MOS value to optimize voice quality were studied. Results show that DNN-MOS method based on the deep neural network is the better evaluation method of voice quality, which can effectively evaluate and enhance the user perception.
[Key words]VoLTE network optimization MOS value DNN-MOS
1 背景介紹
2014年LTE網絡進入商用元年,這標志著4G時代的正式來臨。目前TD-LTE網絡主要承載數據業務,經過3GPP制定的VoLTE網絡技術方案、R8版本到R10版本的標準化工作以及IMS(IP Multimedia Subsystem,IP多媒體子系統)網絡相關技術,使得VoLTE技術逐漸完善。該技術對比CSFB(Circuit Switched Fallback,電路域回落)有較明顯優勢,VoLTE將是LTE語音發展的必然趨勢[1]。VoLTE網絡的發展進程如圖1所示。
1.1 VoLTE的發展形勢
VoLTE已成為國際運營商共識并納入發展路線,主要分為:
路線1:VoLTE/eSRVCC(Enhanced Single Radio Voice Call Continuity,增強的單一無線語音呼叫連續性)。主要由于2G/3G網絡積累較好或VoLTE推動初期難以快速實現LTE全覆蓋。
路線2:無線廣覆蓋實現VoLTE without eSRVCC。2G/3G為CDMA的運營商全部選擇路線2。
韓國三大運營商均已在2012年下半年商用;北美和日本幾大運營商在2014年商用;歐洲幾大運營商在2014年至2015年商用。而中國移動采用的是路線1的方案,2016年廣東省VoLTE已全面實現商用,圖2是VoLTE網絡在2015年的工作進度情況。
1.2 VoLTE的技術原理
相比LTE網絡,VoLTE是在LTE網絡的基礎上新增了IMS域,VoLTE用戶的所有業務觸發均由IMS域來進行控制。
終端同一時刻只能在一個網絡上進行業務(LTE或者2G/3G)。在LTE覆蓋區,數據/語音業務都承載在LTE網絡[2];在非LTE覆蓋區,由2G/3G網絡為其提供服務,支持LTE網絡到2G/3G網絡的切換。
VoLTE的技術原理示意圖如圖3所示。
2 技術優勢
VoLTE是一種IP數據傳輸技術,全部業務承載于4G網絡上,與目前在2G/3G網絡下通話相比,其帶給4G用戶最直接的感受就是接通等待時間更短[3]、更高質量以及更自然的音視頻通話效果。VoLTE和3G網絡的技術優勢對比如表1所示。
3 方案選擇
相比2G/3G或者CSFB網絡,VoLTE網絡具有明顯的優勢。但這些優勢是需要相應的技術支撐的,因此需要規劃一套較為完善的VoLTE技術方案。
3.1 LTE語音解決方案
4G網絡的技術演進歷經雙待機、CSFB和VoLTE這幾個階段。CSFB和雙待機都是VoLTE演進的過渡性技術,也將在一段時期內與VoLTE共存。其中,在支持國際漫游的前提下,CSFB的生命周期會相對較長,同時雙待機方案作為一種終端形態將長期存在[4]。
下面將對雙待機、CSFB和VoLTE三種LTE語音解決方案進行對比,具體如表2所示。
基于IMS控制的VoLTE是LTE語音的目標方案,中國移動商用VoLTE目前選擇的就是這種方案,此方案的前提是LTE網絡實現連續覆蓋要求。而在LTE網絡覆蓋邊緣,將利用SRVCC(Single Radio Voice Call Continuity,單一無線語音呼叫連續性)切換技術來回落到2G網絡,以確保用戶語音通話不會中斷。
3.2 SRVCC切換方案
在VoLTE語音方案中,涉及到從LTE網絡切換到2G網絡的場景,該場景下所使用的技術為SRVCC切換技術[5]。3GPP R9階段已經標準化SRVCC方案,R10階段標準化eSRVCC方案。這兩種切換方案的特點如下:
(1)SRVCC
SRVCC的媒體切換點是對端網絡設備(如對端UE),發生切換后需要在IMS網絡中創建新的承載。SRVCC切換導致的語音中斷時長在800 ms左右。
(2)eSRVCC
eSRVCC的媒體切換點改為更靠近本端的設備[6],具體方案就是在SBC(Session Border Control,會話邊界控制器)增加ATCF(Acess Transfer Control Functionality,接入轉移控制功能)/ATGW(Access Transfer Gateway,接入轉移網關)功能實體作為媒體錨定點。發生eSRVCC切換時,只需要創建UE與ATGW之間的承載通道,對端設備與ATGW之間的媒體流還是通過原承載通道傳輸[7]。eSRVCC切換導致的語音中斷時長小于300 ms。
3.3 錨定方案
錨定(Anchoring)是指將呼叫從CS網絡路由到IMS網絡進行業務處理的過程[8],也就是確定主被叫各自由哪個域的哪個網元來實現信令接續流程。在以下兩種場景中,與LTE用戶相關的呼叫請求需要通過錨定功能路由到IMS網絡:
場景一:LTE用戶通過CS網絡接入,并且簽約了IMS網絡業務;
場景二:LTE用戶作為被叫用戶,通過LTE網絡接入,并且主叫用戶為CS網絡用戶。
關于錨定,目前可供選擇的方案分別是:ICS(IMS Centralized Services,IMS集中業務)、主被叫全錨定、被叫錨定、國際漫游不錨定以及協同方案(主被叫都不錨定)。中國移動目前使用主叫不錨定、被叫錨定到IMS域的策略。如果主叫錨定,則效率較低,特別是主叫多數不存在一致性問題仍迂回IMS域,初期存在媒體面迂回,呼叫時延增加1~3 s;若采取主叫不錨定,由于主叫補充業務較少,即便存在業務一致性問題,市場也可以接受。
4 網絡優化
VoLTE的部署演進是一個復雜的系統工程,涉及除3G無線網絡之外的所有專業領域,全網改造量巨大,其主要改造內容如表3所示。
改造升級后的VoLTE網絡結構復雜,如何準確、高效、全面評估端到端用戶感知,進而保障網絡質量,提升用戶體驗,將成為巨大挑戰。語音質量評價方法可以分為主觀評價和客觀評價兩種。根據是否需要參考話音信號,客觀評價方法又分為全參考模型(雙邊評估)評價和無參考模型(單邊評估)評價,具體如下:
(1)全參考模型適用于定點撥測或路測場景,從最早的PSQM(Perceptual Speech Quality Measure,感知通話質量測量)算法到后面的PESQ(Perceptual Evaluation of Speech Quality,感知評估通話質量測量)算法,再到目前普遍使用的POLQA(Perceptual Objective Listening Quality Analysis,感知客觀語音質量評估)算法,各有各的優缺點。
(2)無參考模型適用于實時的全網范圍評估,ITU目前僅推出P.563算法,且該算法僅支持窄帶語音,而在評價寬帶語音質量方面仍未有統一標準,這是需要后續去努力研究的一個重點方向。
MOS(Mean Opinion Score,平均意見值)評估算法的發展歷程示意圖如圖4所示。
4.1 基于全參考模型的算法介紹及應用
基于全參考的客觀的語音感知質量評估方法中,目前最常用的是PESQ和POLQA,前者基于P.862算法,后者基于P.863算法。PESQ算法從初期適應窄帶語音的評估發展到目前適用寬帶語音的PESQ-WB算法,但該算法不支撐超寬帶語音的質量評估。為了解決PESQ的局限性,ITU發展了新的POLQA標準,這種算法支持窄帶、寬帶和超寬帶語音,是目前普遍使用的路測標準。
實際上,PESQ和POLQA這兩種算法都具有共同的缺點,那就是僅適用于一些定點撥測或路測的場景,適用的場景局限性較大,不能大范圍地實時評估網絡的語音質量。這兩種算法的對比如表4所示。
鑒于以上兩種算法的局限性,為了達到實時性地評估全網范圍語音質量的目的,ITU推出了一種基于無參考模型(單邊評估)的P.563算法。
4.2 基于無參考模型的算法介紹及應用
P.563算法是基于無參考模型的適用于窄帶語音的話音質量評估方法。該算法采用一個二元邏輯分類器判別話音信號的失真類型,將語音信號失真劃分為6個類型:強背景噪聲、信號靜音與間斷、乘性噪聲、話音機械化、不自然男聲及不自然女聲。P.563算法通過提取話音信號的43維特征參數,并根據8個關鍵參數來判決話音信號的主要失真類型,得到話音質量的粗略估計值,再結合11維話音特征矢量映射得到最終的話音質量評價結果。
P.563算法的優點是實時性好,僅需網絡側樣本即可完成評估,并可進行全網范圍評估;缺點是僅適用于窄帶語音,使用8個關鍵特征進行判決,模型不夠完善且評價體系不夠穩定。
下面將介紹一種新型的無參考算法,它是基于深度神經網絡結構[9]的DNN-MOS評估方法。DNN即深度神經網絡,深度學習(Deep Learning)是機器學習研究中的一個新領域[10]。DNN-MOS評估方法提取72維語音特征,共有5層非線性變化,同時適用于窄帶、寬帶語音,并高度擬合POLQA路測的結果,只需退化語音便可實時、大范圍分析,既彌補了P.563算法在寬帶語音質量分析的缺陷,又彌補了POLQA算法的高成本、低效率、單場景的不足。與P.563算法相比,DNN算法與時俱進,優勢明顯。在實踐數據驗證中,基于DNN算法的MOS值與傳統路測的MOS值相比,擬合度高達0.89,平均誤差僅0.17,這兩項數據比P.563算法和E-Model模型算法均有明顯的優勢。
DNN-MOS評估方法實際上就是基于DNN來進行數學建模,其基本原理如圖5所示。
在實際應用方面,利用DNN-MOS評估方法,結合用戶、終端、小區等維度數據,與大數據平臺的網管/Gn/IMEI/信令數據通過多維度數據聚合分析,可進行MOS質量監控、獲取質差用戶/終端、劣化小區、投訴定位以及終端質量評估等分析結果,為端到端業務優化提供有力支撐。
5 結論
VoLTE技術在國際上都是一種解決LTE語音接續的目標方案,而且近年來發展迅猛。廣東移動通過對終端側、無線網側、核心網側以及承載網側等各種網絡設備改造升級后,已于2016年實現全省VoLTE商用的目標。隨著VoLTE的用戶日益增多,語音質量將會成為關注的重點。基于此,本文通過研究幾種評估語音質量(MOS)算法的優缺點,提出了一種基于深度神經網絡的DNN-MOS評估方法,該方法是基于無參考模型且適用于寬帶語音的評估算法。經過實踐證明,該方法已完全可以輔助或者替代傳統的路測,并有望成為ITU在無參考模型的寬帶語音質量評估方面的新標準。
參考文獻:
[1] 周晶,葉丹. 運營商LTE語音解決方案研究[J]. 集成技術, 2013(3): 79-81.
[2] 夏曉威,周雄. LTE語音業務解決方案[J]. 中國新通信, 2014(17): 88-89.
[3] 顏軍,徐皓. 運營商VoLTE發展策略探討[J]. 科技創新與應用, 2015(35): 26-27.
[4] 劉燁瑋,張爍,彭巖,等. TDS/TDL系統互操作方案研究[J]. 信息通信, 2013(8): 252-253.
[5] 宗序梅,吳曉波. 中國移動TD-LTE語音模式優化解決方案研究[J]. 電信技術, 2015(1): 77-85.
[6] 周晶,師瑜. LTE終端語音解決方案現狀及下一步演進[J]. 電信科學, 2015(3): 14-22.
[7] 葉衛明,鐘正泉,朱震海,等. VoLTE核心網組網及其VPN互通研究[A]. 中國移動通信集團設計院第19屆新技術論壇[C]. 2013.
[8] 蔡家鵬,計寧,王遜. VoLTE信令和媒體流路徑優化方法研究[J]. 電信工程技術與標準化, 2015(7): 58-61.
[9] 撖書良,蔣嶷川,張世永. 基于神經網絡的高效智能入侵檢測系統[J]. 計算機工程, 2004(10): 69-70.
[10] 梅林. 視頻結構化描述(VSD)技術及在安檢中的應用[J]. 中國安防, 2014(20): 98-102.