基于動(dòng)態(tài)競(jìng)爭(zhēng)的實(shí)時(shí)多媒體會(huì)議混音算法

2014-07-18 11:53:37王立煒廖延娜

西安郵電大學(xué)學(xué)報(bào) 2014年5期

王立煒, 廖延娜

(1.西安郵電大學(xué) 電子工程學(xué)院, 陜西西安 710121； 2.西安郵電大學(xué) 理學(xué)院，陜西西安 710121)

王立煒, 廖延娜

(1.西安郵電大學(xué) 電子工程學(xué)院, 陜西西安 710121； 2.西安郵電大學(xué) 理學(xué)院，陜西西安 710121)

為了解決大規(guī)模會(huì)議中的混音噪聲問題，提出語音短時(shí)累積能量的概念，并據(jù)此設(shè)計(jì)基于動(dòng)態(tài)競(jìng)爭(zhēng)模式的實(shí)時(shí)多媒體會(huì)議混音算法。該算法依據(jù)會(huì)議所有成員的語音短時(shí)累積能量，通過動(dòng)態(tài)競(jìng)爭(zhēng)、自我淘汰、強(qiáng)制淘汰三個(gè)過程，實(shí)時(shí)從會(huì)議所有成員中選擇當(dāng)前的發(fā)言者，并進(jìn)行混音。仿真結(jié)果顯示，該算法可解決大規(guī)模會(huì)議中混音質(zhì)量與會(huì)議人數(shù)成反比的問題。

大規(guī)模多媒體會(huì)議；短時(shí)累積能量；動(dòng)態(tài)競(jìng)爭(zhēng)；混音

近年來,多媒體會(huì)議成為多媒體通信發(fā)展的熱點(diǎn)之一；ITU-T在H.323中建議了集中控制的會(huì)議模式，使用多點(diǎn)控制單元(Multipoint Control Unit, MCU)對(duì)全體會(huì)議成員輸入的音頻、視頻及數(shù)據(jù)信號(hào)進(jìn)行集中處理[1]。在多媒體會(huì)議中,實(shí)時(shí)音頻交流最為重要，MCU對(duì)多路音頻信號(hào)進(jìn)行混音處理，再將混音后的音頻信號(hào)輸出傳送到每個(gè)成員，使其能夠同時(shí)聽到多個(gè)發(fā)言者的聲音。

混音算法的基本原理是對(duì)多路輸入音頻信號(hào)的采樣數(shù)據(jù)進(jìn)行疊加，如平均權(quán)重混音算法、對(duì)齊法、非均勻波形收縮算法[2]、鉗位算法[3]等。這些算法的共同點(diǎn)是：利用不同的算法得到不同的權(quán)系數(shù)后，將所有會(huì)議成員的多路音頻輸入信號(hào)進(jìn)行加權(quán)，然后疊加得到混音輸出。隨著會(huì)議成員數(shù)目的增加，混音后的音頻信號(hào)的噪聲必然也隨之增加。在大規(guī)模會(huì)議中，上述的混音算法的噪聲均超出人耳的承受范圍，影響多媒體會(huì)議質(zhì)量和用戶體驗(yàn)[4]；因此，在大規(guī)模會(huì)議中，一般使用“申請(qǐng)—授權(quán)—發(fā)言”的會(huì)議方式，控制實(shí)際發(fā)言人數(shù)，以保證會(huì)議混音效果。這種方式控制復(fù)雜，且與會(huì)者發(fā)言不自由。為了解決上述問題，本文研究了基于動(dòng)態(tài)競(jìng)爭(zhēng)模式的實(shí)時(shí)快速混音方案，自動(dòng)從所有與會(huì)者中選取當(dāng)前的發(fā)言者。

1 動(dòng)態(tài)競(jìng)爭(zhēng)混音原理

動(dòng)態(tài)競(jìng)爭(zhēng)混音算法的原理如圖1所示。當(dāng)前時(shí)間單元ΔT內(nèi)，根據(jù)會(huì)議電話各個(gè)成員的語音能量，進(jìn)行競(jìng)爭(zhēng)和淘汰，動(dòng)態(tài)更新當(dāng)前發(fā)言者的名單，然后將發(fā)言者的語音信號(hào)進(jìn)行混音合成，作為當(dāng)前時(shí)間單元內(nèi)的語音輸出。

實(shí)時(shí)動(dòng)態(tài)競(jìng)爭(zhēng)選擇淘汰算法主要由兩個(gè)部分組成：語音短時(shí)累積能量計(jì)算，實(shí)時(shí)動(dòng)態(tài)競(jìng)爭(zhēng)和淘汰。

圖1 實(shí)時(shí)動(dòng)態(tài)競(jìng)爭(zhēng)模式的混音原理

2 語音短時(shí)累積能量

每個(gè)時(shí)間單元ΔT內(nèi)的語音信號(hào)記為一幀，設(shè)幀長度為n，則當(dāng)前語音幀信號(hào)x(i)的能量計(jì)算公式為

考慮到聽覺效果的實(shí)時(shí)性和延續(xù)性，提出語音短時(shí)累積能量的概念：設(shè)定一個(gè)時(shí)間窗Tw，對(duì)應(yīng)窗長度為Nw；Tw>ΔT，即Nw>n。時(shí)間窗Tw以ΔT為單位向前推進(jìn)，計(jì)算時(shí)間窗Tw內(nèi)語音信號(hào)x(i)的加權(quán)平方和，作為Tw內(nèi)最后一幀語音的短時(shí)累積能量，即

其中窗函數(shù)w(i)可以是簡(jiǎn)單的矩形窗函數(shù)，或取正單調(diào)遞增函數(shù)，如線性單調(diào)遞增窗函數(shù)或四分之一正弦窗[5]。使用矩形窗函數(shù)即是將時(shí)間窗Tw的語音信號(hào)能量無差別累加；使用單調(diào)遞增形式的窗函數(shù)則在Eaccu中更多地體現(xiàn)了臨近當(dāng)前時(shí)刻的語音信號(hào)能量。使用四分之一正弦窗，則有

如時(shí)間窗長度Nw為幀長度為n的整數(shù)K倍，從提高計(jì)算效率的角度出發(fā)，可以用Nw內(nèi)的每幀能量Eframe的加權(quán)和代替當(dāng)前幀的短時(shí)累積能量，即

多媒體會(huì)議系統(tǒng)中的音頻信號(hào)一般采用壓縮編碼傳送[6]，常見的有G.729協(xié)議和G.723協(xié)議語音壓縮算法，其中G.729采用的語音幀長度為10 ms， G.723采用的語音幀長度為30 ms。本算法中的語音幀時(shí)間單元ΔT的選取兼顧G.729和G.723協(xié)議，取ΔT等于10 ms；PSTN規(guī)定電話質(zhì)量的語音信號(hào)采樣率為8 000 Hz，即幀長度n=80。短時(shí)累積能量時(shí)間窗Tw的長度建議為ΔT的8～15倍，本文取短時(shí)累積能量時(shí)間長度Tw為100 ms，即Nw=800。

3 實(shí)時(shí)動(dòng)態(tài)競(jìng)爭(zhēng)淘汰算法

在實(shí)時(shí)動(dòng)態(tài)競(jìng)爭(zhēng)選擇淘汰算法中，將會(huì)議成員M分為三個(gè)集合：主發(fā)言者集合，成員數(shù)為X；次發(fā)言者集合，允許最大成員數(shù)為Y；其他會(huì)議成員則屬于靜默者集合。X+Y為最終參與混音的成員數(shù)，從人耳聽覺有效分辨的角度考慮，一般建議[7]

(X+Y)<8。

首先在會(huì)議電話開始的第一個(gè)時(shí)間單元ΔT，根據(jù)會(huì)議電話各個(gè)成員第一幀語音信號(hào)的能量Eframe，選擇能量最大的X個(gè)成員作為主發(fā)言者，其余為靜默者。在其后的每個(gè)時(shí)間單元，根據(jù)每個(gè)成員在當(dāng)前幀的語音信號(hào)短時(shí)累積能量Eaccu，通過動(dòng)態(tài)競(jìng)爭(zhēng)、自我淘汰和強(qiáng)制淘汰，動(dòng)態(tài)更新三個(gè)集合的成員。

3.1 動(dòng)態(tài)競(jìng)爭(zhēng)

競(jìng)爭(zhēng)過程如圖2所示，主要包括4個(gè)步驟。

步驟1 選擇主發(fā)言者集合中Eaccu最小的成員，標(biāo)記為A；選擇次發(fā)言者集合和靜默者中Eaccu最大的成員，標(biāo)記為B。

步驟2 如果A、B滿足競(jìng)爭(zhēng)條件

Eaccu(B)>Eaccu(A)，

則記錄A和B為一對(duì)競(jìng)爭(zhēng)對(duì)手，并開啟競(jìng)爭(zhēng)計(jì)時(shí)器T1。

步驟3 在下一個(gè)時(shí)間單元，若成員A和B依然滿足競(jìng)爭(zhēng)條件，競(jìng)爭(zhēng)計(jì)時(shí)器T1遞增；否則，競(jìng)爭(zhēng)失敗，清除A、B標(biāo)記，同時(shí)計(jì)時(shí)器T1清零。

步驟4 設(shè)置競(jìng)爭(zhēng)時(shí)間門限Th1；如果T1>Th1，則競(jìng)爭(zhēng)成功，成員B轉(zhuǎn)入主發(fā)言者集合，成員A轉(zhuǎn)入次發(fā)言者集合。

競(jìng)爭(zhēng)時(shí)間門限Th1的大小影響競(jìng)爭(zhēng)成功的頻率。Th1過小將導(dǎo)致競(jìng)爭(zhēng)過于頻繁，最終混音合成的語音連續(xù)性較差，Th1過大將導(dǎo)致競(jìng)爭(zhēng)成功困難。建議Th1取值在500～1 500 ms之間[8]。

圖2 動(dòng)態(tài)競(jìng)爭(zhēng)過程

3.2 自我淘汰

顯然，在上述競(jìng)爭(zhēng)過程中，競(jìng)爭(zhēng)成功將導(dǎo)致次發(fā)言者集合中的成員數(shù)增加，最終會(huì)超過集合允許的最大成員數(shù)Y，故必須對(duì)次發(fā)言者集合中的成員進(jìn)行控制，即自我淘汰。自我淘汰過程如圖3所示，其主要步驟可描述如下。

針對(duì)次發(fā)言者集合中的每個(gè)成員，對(duì)比當(dāng)前時(shí)間單元的短時(shí)累積能量的Eaccu_current與上一時(shí)間單元的短時(shí)累積能量的Eaccu_last，如果

Eaccu_current<αEaccu_last，

則該成員進(jìn)入預(yù)淘汰狀態(tài)，標(biāo)記為C，啟動(dòng)預(yù)淘汰計(jì)時(shí)器T2，并定義對(duì)應(yīng)的預(yù)淘汰能量門限

ETh=αEaccu_last。

參數(shù)α的取值范圍為0～1，建議取α=0.5。

在下一個(gè)時(shí)間單元，如果成員C滿足

Eaccu_current

計(jì)時(shí)器T2遞增；否則，該成員退出預(yù)淘汰狀態(tài)，對(duì)應(yīng)的計(jì)時(shí)器T2清零。

設(shè)置預(yù)淘汰時(shí)間門限Th2；如果成員C的預(yù)淘汰計(jì)時(shí)器T2>Th2,則認(rèn)為成員C的發(fā)言結(jié)束，將成員C更新為靜默者，即該成員被自我淘汰。

預(yù)淘汰時(shí)間門限Th2的取值可參考競(jìng)爭(zhēng)時(shí)間門限Th2的的取值建議。

圖3 自我淘汰過程

3.3 強(qiáng)制淘汰

上述自我淘汰過程可以減小次發(fā)言者集合中的成員數(shù)，但是邏輯上，依然無法摒除次發(fā)言者集合的“超員”現(xiàn)象。當(dāng)出現(xiàn)“超員”時(shí)，可將預(yù)淘汰成員C直接強(qiáng)制淘汰；如果沒有預(yù)淘汰成員，則淘汰次發(fā)言者集合中當(dāng)前累積能量最小的一位。

通過動(dòng)態(tài)競(jìng)爭(zhēng)、自我淘汰和強(qiáng)制淘汰，在每個(gè)時(shí)間單元，主發(fā)言者集合和次發(fā)言者集合內(nèi)的成員可實(shí)時(shí)動(dòng)態(tài)更新。適當(dāng)設(shè)置主發(fā)言者集合成員數(shù)X和次發(fā)言者集合成員數(shù)Y，即可有效控制最終進(jìn)行混音的語音信號(hào)路數(shù)，避免大規(guī)模會(huì)議中成員數(shù)目過多導(dǎo)致的混音噪聲增加現(xiàn)象。

4 算法仿真

本文使用Matlab進(jìn)行了競(jìng)爭(zhēng)淘汰算法仿真。設(shè)置會(huì)議成員數(shù)為20，主發(fā)言者集合成員數(shù)X=2，次發(fā)言者集合成員數(shù)Y=4；設(shè)置競(jìng)爭(zhēng)時(shí)間門限Th1為500 ms，預(yù)淘汰時(shí)間門限Th2為800 ms。

圖4和圖5對(duì)比了CoolEdit軟件[9]呈現(xiàn)的時(shí)長為26 s的會(huì)議混音結(jié)果。圖4為直接使用平均加權(quán)將20路語音進(jìn)行混音合成，圖5為使用競(jìng)爭(zhēng)淘汰算法，將每個(gè)時(shí)間單元?jiǎng)討B(tài)更新的發(fā)言者的語音信號(hào)進(jìn)行平均加權(quán)混音合成輸出。從波形上可以明顯看出，競(jìng)爭(zhēng)淘汰算法有效減小了混音合成的噪聲。從主觀聽覺效果上，20路直接平均加權(quán)合成的輸出噪聲大，語音幾乎無法分辨，競(jìng)爭(zhēng)淘汰后合成的輸出，能夠分清楚不同與會(huì)者的語音信號(hào)，語音清晰連貫。隨著會(huì)議成員數(shù)增加，仿真結(jié)果的對(duì)比更加明顯。

圖4 平均加權(quán)算法混音輸出

圖5 動(dòng)態(tài)競(jìng)爭(zhēng)算法混音輸出

5 結(jié)論

使用語音短時(shí)累積能量作為依據(jù)，動(dòng)態(tài)競(jìng)爭(zhēng)淘汰算法可有效選取當(dāng)前的發(fā)言成員，合成輸出的語音清晰連貫，噪聲不隨會(huì)議成員總數(shù)的增加而增加。該算法計(jì)算量小，可有效使用于大規(guī)模多媒體會(huì)議的實(shí)時(shí)混音。動(dòng)態(tài)競(jìng)爭(zhēng)淘汰的結(jié)果還可以與其它混音算法結(jié)合，如在競(jìng)爭(zhēng)淘汰的基礎(chǔ)上，結(jié)合文獻(xiàn)[3]中的非均勻波形收縮算法，對(duì)發(fā)言者的語音信號(hào)進(jìn)行混音，以得到更佳的混音效果。

[1] 周敬利，馬志龍，范曄斌，等. 一種新的多媒體會(huì)議實(shí)時(shí)混音方案[J].小型微型計(jì)算機(jī)系統(tǒng)，2009，30(1)：169-172.

[2] 李宇，郭雷勇，陳建銘，等. 一種多媒體會(huì)議系統(tǒng)的實(shí)時(shí)同步混音轉(zhuǎn)發(fā)算法[J]. 中山大學(xué)學(xué)報(bào):自然科學(xué)版，2010，49(2)：31-36.

[3] 張海峰，白騁宇. 多媒體會(huì)議系統(tǒng)音頻多點(diǎn)處理器的軟件設(shè)計(jì)[J]. 機(jī)電工程，2010，27(6)：104-107.

[4] 吳冀衍，喬秀全，程渤，等. 延遲敏感的移動(dòng)多媒體會(huì)議端到端服務(wù)質(zhì)量保障[J]. 計(jì)算機(jī)學(xué)報(bào)， 2013，36(7)：1399-1412.

[5] 李杭生，陳丹. 頻譜分析中窗函數(shù)的研究[J].微計(jì)算機(jī)信息，2008，24(4-1)：272-273.

[6] 胡建洲，田裕鵬. 基于FreeSwitch和DSP的多媒體會(huì)議系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用與軟件，2013，30(8)：264-266.

[7] 靳鵬飛.基于DSP的自適應(yīng)會(huì)議電話算法設(shè)計(jì)與實(shí)現(xiàn)[J].西安郵電學(xué)院學(xué)報(bào)，2010，15(3)：30-33.

[8] 李衛(wèi)華，廖延娜，戴明，等. 會(huì)議電話語音選擇合成的方法：中國，200410073391.6[P].2005-05-25.

[9] 徐洊學(xué)，徐秀珍. 利用CoolEdit Pro及其效果器插件搭建簡(jiǎn)易錄音棚的方法[J].內(nèi)蒙古民族大學(xué)學(xué)報(bào):自然科學(xué)版，2009，24(6)：629-631.

[責(zé)任編輯:王輝]

Real-time audio mixing algorithm based on dynamic competition used in multimedia conference

WANG Liwei1, LIAO Yanna2

(1. School of Electronic Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121, China；2.School of Science, Xi’an University of Posts and Telecommunications, Xi’an 710121, China)

In order to solve the problem of mixing noise in large scale multimedia conference, a concept of short-term cumulative energy of speech signal is put forward, and a real-time audio mixing algorithm based on dynamic competition is given in this paper. In this algorithm, three processes: dynamic competition, self-obsolescing and forcible obsolescing are gone through according to short-term cumulative energy of speech signal which come from each member of the conference. Current spokesmen are selected, and their speech signals are mixed as output. Simulation results show that this algorithm can solve the problem that the audio mixing quality has an inverse relationship with membership of large scale multimedia conference.

Large-scale multimedia conference, short-term cumulative energy, dynamic competition, audio mixing

10.13682/j.issn.2095-6533.2014.05.010

2014-05-04

陜西省教育廳科學(xué)研究計(jì)劃基金資助項(xiàng)目(12JK0559)

王立煒(1968-)，男，講師，從事電路與系統(tǒng)研究。E-mail:wlw@xupt.edu.cn 廖延娜(1974-)，女，碩士，副教授，從事電路與系統(tǒng)、信號(hào)與信息處理研究。E-mail:liaoyn@xupt.edu.cn

TN912

2095-6533(2014)05-0051-05

西安郵電大學(xué)學(xué)報(bào)2014年5期

西安郵電大學(xué)學(xué)報(bào)的其它文章: 基于物理關(guān)聯(lián)的學(xué)術(shù)期刊引用網(wǎng)絡(luò)影響力分析; 宿主環(huán)境下嵌入式軟件白盒測(cè)試方法; 基于快速回波算法的雷達(dá)仿真; 增強(qiáng)偽自協(xié)方差矩陣直接數(shù)據(jù)域波束合成; 基于諧波小波包變換的信號(hào)檢測(cè); 模糊C-均值聚類圖像分割算法的一種改進(jìn)