周泉 邵春菊 唐本亭 黃成


【摘 ?要】介紹了一種基于云平臺架構的語音質量評測系統,該系統改變了傳統語音通話質量測試工具的實現方式,利用商用智能手機的能力,采用APP與后端平臺相結合的方式,實現了分散采集集中評測的方案,達到評測準確、便攜易用且低成本的目的。
【關鍵詞】語音質量;MOS;VoLTE
1 ? 引言
隨著運營商4G網絡的部署和VoLTE業務的開通,網絡支持的語音頻寬從2G時期的4 kHz提高了到了現在AMR-WB的16 kHz[1],后續若升級采用EVS編碼能提高到32 kHz或更高[2]。如何快速準確評測語音業務質量是電信運營商和OTT語音業務提供商掌握用戶真實感知的關鍵手段。傳統語音質量評測方法主要采用PC+專用MOS盒并捆綁路測軟件的方式獨立開展,由于其分散性、專用性、算法限制等問題,存在測試成本高、測試場景不真實、一致性差等諸多缺陷。
本文提出并實現了一種全新的基于商用終端和云平臺架構的MOS云測試系統。通過普通商用終端采集語音樣本上傳至集中部署的云平臺進行實時評測,并實時返回評測結果。該方法經過部署和應用,憑借其低成本、集中部署、高評測一致性等優勢,將逐漸成為運營商采用的主流測試方案。
2 ? 語音業務質量算法
2.1 ?MOS的基本概念
語音質量評價方法分為主觀評價和客觀評價。早期語音質量的評價方式是憑主觀的,也就是在打通電話之后通過人耳來感知語音質量的好壞。1996年在ITU-T P.800和P.830建議書開始制訂相關的評測標準:MOS(Mean Opinion Score)測試。它是一種主觀測試方法,將用戶接聽和感知語音質量的行為進行調研和量化,由不同的調查用戶分別對原始標準語音和經過無線網傳播后的衰退聲音進行主觀感受對比,評出MOS分值。實際網絡測試中,一般市區內MOS值達到3以上的時候,就表明網絡質量處于較好的水平[3]。表1為MOS分值定義表:
MOS值主觀測量方法成本太高,費時太長。因此,在后來的研究和探索中,先后出現了如PSQM/PSQM+、PESQ、POLQA、PAMS、E-Model等評測算法,其中PAMS為英國電信定義,E-Model定義在ITU-T G.107中,PSQM/PSQM+、PESQ、POLQA則分別定義在ITU-T G.861~863中。
2.2 ?語音質量打分算法
在GSM語音為主的時代,PESQ(Perceptual Evaluation of Speech Quality)是廣泛使用的語音質量算法,隨著寬帶語音業務的發展,越來越多的測試工具開始集成POLQA(Perceptual Objective Listening Quality Analysis,感知客觀語音質量評估)算法。POLQA能夠覆蓋最新的語音編碼和網絡傳輸技術,對于3G、4G/LTE和VoIP網絡有了更高的準確度[4]。POLQA算法在實現上是需要將經過網絡傳輸的受損語音與傳輸之前的參考語音進行比較計算,得到受損語音的MOS分值。在客觀語音質量評測算法中,這種需要輸入參考語音的算法,也叫全參考算法。
E-Model是歐洲電信標準協會(ETSI)開發的無參考算法,本來用作電信網絡的傳輸規劃工具,但該模型也在VoIP服務質量測量中得到了廣泛使用。使用E-Model算法進行語音質量評分時,不需要輸入參考語音,只需要在合適的位置提取語音數據流在網絡傳輸中的相關參數,如流量帶寬、丟包率等,根據這些實時參數按模型定義的方法進行計算,即可得到MOS分值。
E-Model實現比POLQA相對簡單,其打分準確率比POLQA低。E-Model的優勢在于可測試網絡時延并且通過在網絡節點上的部署可進行大規模通話量的同時評測。在實際運營商網絡中E-Model算法一般會基于信令監測系統部署,可以實現任意通話的質量評測。但這種方式的缺陷也是明顯的,不能反映端到端的語音質量。
目前在實驗室或外場測試中,應用最多的仍然是采用POLQA算法的測試工具。
3 ? MOS測試系統
3.1 ?MOS云測試架構
目前主流儀表廠商采用的語音質量測試解決方案大多如圖1所示,其中核心部分是MOS盒,MOS盒一般通過USB接口與PC連接,通過音頻線纜與測試手機連接。兩個測試手機開始通話后,由PC上安裝的測試軟件來控制放音和錄音。放音內容即為參考語音,而錄音所得即為受損語音。受損語音和參考語音通過PC上集成的POLQA算法進行對比打分,從而得到MOS值。
PC(含測試軟件)、MOS盒、測試手機組成了傳統的MOS測試工具,多用于外場路測。不難看出這樣的傳統MOS工具存在以下缺點:
(1)構成復雜,攜帶不變。MOS盒是有源設備,需要供電或配置電池,加上筆記本電腦和手機,整套系統難以手持進行測試,必須放置在車上才能開展。
(2)每臺PC都需要配置POLQA算法License,導致工具的成本上升,而算法的利用率往往很低。同時POLQA打分算法分散而孤立地安裝在筆記本電腦上,難以進行統一的版本管理。
(3)物理線纜連接限制了兩個手機的距離,難以進行跨基站甚至跨地域的測試。
本文提出一種全新的基于商用終端和云平臺架構的MOS云測試系統(如圖2所示)。通過普通商用終端采集語音樣本上傳至集中部署的云平臺進行實時評測,并實時返回評測結果。MOS云顛覆了傳統語音質量測試工具由一臺電腦配置一個專用MOS盒并綁定路測軟件的測試模式,新的測試架構由三個主要部分組成:測試終端及自動測試APP(負責執行測試及語料采集)、MOS云平臺(負責受損語料打分)、語料播放盒或者呼叫中心(播放標準語料)。其中語料播放盒的功能也可以集成在手機中,完全通過軟件實現。
3.2 ?MOS云測試工作流程
手機-手機測試過程由以下五步組成:
第一步,自動測試APP撥打被叫手機或者呼叫中心。
第二步,被叫手機(含語料播放盒)或者呼叫中心播放標準語料。
第三步,主叫手機記錄通過移動網絡傳過來的受損語料并上傳至MOS云平臺。
第四步,MOS云平臺對上傳的受損語料進行打分。
第五步,MOS云平臺反饋打分結果給主被叫手機,測試結束。
測試架構的變化和測試流程的優化使得整個語音質量測試完全自動執行,并擺脫了對傳統MOS盒的依賴。尤其對于部分型號手機,可將放音功能集成到手機上,實現測試前端僅需手機,無需其它任何外設,大大簡化了測試復雜度。
手機-呼叫中心測試方式類似,只是放音功能從手機(語料播放盒子)變為了自動放音服務器。
3.3 ?云端集中評測方案實現
在云端部署方面通過優化線程應用、引入新排隊機制、設置分布式模塊等舉措攻克并發吞吐量集中處理的難題,大幅提升算法使用效率,降低部署成本。傳統方法下,一個打分模塊每天在正常工作模式下可完成約3 000個采樣評測打分,而MOS云系統中一個算法模塊每天最多可完成約28萬次評測打分,將打分效率提升了近百倍。
3.4 ?終端語料采集方案實現
在終端語料采集方面,通過自主研發和深度定制,基于安卓系統底層優化的方案在多款商用終端上實行深度定制,解決了長期以來困擾業界的語料播放和采集難題。MOS云測試系統對于傳統的測試工具進行改良,提出兩種新型的語料播放方法:一是在音頻接口只傳輸音頻語料模擬信號的基礎上,將控制信號進行編碼之后通過音頻接口來傳輸;二是利用安卓終端在軟件上的可擴展性,定制修改通話時播放內置標準語料來代替原有MIC聲音。
4 ? 實測分析與驗證
4.1 ?POLQA算法打分一致性對比
采用傳統MOS工具測試獲得10個MOS分值以及對應的受損語音錄音文件,將這些錄音文件上傳到MOS云平臺,通過MOS云打分模塊對這些錄音文件進行打分。打分結果顯示,MOS云打分結果與傳統MOS工具打分結果基本一致(如表2所示)。
4.2 ?MOS云終端錄音質量驗證
采用傳統MOS工具進行語音通話質量測試,在測試手機上同時安裝MOS云APP進行錄音。測試結束后,把MOS云的錄音文件再次使用該傳統MOS工具進行離線打分,從而對比出傳統MOS工具錄音打分結果與MOS云APP錄音打分的差異。測試約3小時,共5組數據。傳統MOS工具采集859個MOS分,平均MOS值為4.190,MOS云APP錄制了865個錄音,通過傳統MOS工具離線打分后,獲得865個MOS分,平均MOS值為4.169。
從圖4的各組測試MOS均值統計,MOS云終端錄音進行測試與傳統MOS盒工具通過MOS盒與電腦進行錄音,兩者在錄音質量上基本一致。
4.3 ?外場測試對比
選擇廣州和遵義兩市區,進行MOS云和傳統MOS工具的外場對比測試。其中廣州的測試方式為MOS云測試手機和傳統MOS工具同車輛進行測試,讓兩種工具進行同時同網絡環境下的測試。貴州遵義的測試則為兩種工具同時間段進行測試,但不同車輛。測試中所有手機型號均為HTC M8。
從表3的測試統計數據可以看出,廣州進行的同網絡環境測試,MOS云和傳統MOS工具的測試結果非常接近,考慮即便是在同車輛同時的情況下,無線網絡覆蓋也會存在一定差異,這兩種方式的測試結果基本可以認為是一致的。遵義的測試數據兩種工具的差異稍大,分析差異原因主要在于測試路線差異導致業務質量水平差異。
考慮到即便是兩套同樣型號的MOS盒工具同樣的網絡環境下測試結果也會存在差異,從上面的兩個外場測試結果來看,可以認為MOS云測試與傳統MOS盒工具測試結果一致。
4.4 ?錄音上傳帶寬需求分析
MOS云的測試手機在測試過程中需要將手機錄音通過網絡上傳MOS云平臺,雖然上傳可以采用Wi-Fi甚至有線網絡,但是為了測試便利,更多將直接通過LTE上傳。上傳帶寬需求測算如下:
標準語料時長:10 s;
錄音文件大小:10 s WAV文件大小為800 kB;
每小時錄音數量:3600/10=360個;
平均帶寬需求=360×800×8/3600=640 kb/s。
640 kb/s帶寬需求相對于LTE網絡的能力以及目前主流的LTE終端能力都不是高需求,不會對網絡造成壓力,對VoLTE語音業務也不會形成實質性影響。
5 ? 結束語
本文提出并實現了一種基于云平臺架構的語音質量評測系統。通過架構設計,將語音質量打分算法功能轉移到云端,前端只負責放音錄音以及測試結果展示。通過在實驗室以及外場的驗證測試,證明該系統可以在保證測試準確性和一致性的同時,達到測試前端便攜、低成本的目標。
參考文獻:
[1] 3GPP. 3GPP TS 26.114: AMR speech codec, wideband; Source Controlled Rate operation[S]. 2008.
[2] 3GPP. 3GPP SA4 S4-470030: Codec for Enhanced Voice Services (EVS_codec)[S]. 2011.
[3] 耿彥玲. 通過對MOS的優化改善3G用戶感受[J]. 中小企業管理與科技, 2012(22): 281-283.
[4] 周平,謝炳岳,方建強,等. 移動網絡語音質量分析技術在云計算平臺的實現[J]. 移動通信, 2012,36(15): 72-76.
[5] 肖累累,張偉偉. 客觀語音質量評估算法的研究[J]. 無線通信, 2013,3(6): 149-154.
[6] 姚玉華,朱為鈺. 探究VoLTE語音質量的評價方法及測試方案[J]. 通訊世界, 2017(4): 36-37.
[7] 袁滿,王科. 高鐵場景下VoLTE語音質量的優化提升[J]. 郵電設計技術, 2019(2): 21-25.