楊立東 王 晶 謝 湘 趙 毅 匡鏡明(北京理工大學信息與電子學院 北京 100081)(內蒙古科技大學信息工程學院 包頭 014010)
?
基于低秩張量補全的多聲道音頻信號恢復方法
楊立東①②王晶*①謝湘①趙毅①匡鏡明①
①(北京理工大學信息與電子學院北京100081)
②(內蒙古科技大學信息工程學院包頭014010)
摘要:多聲道音頻信號在r采集、壓縮、傳輸過程中可能造成音頻數據丟失,為了確保給聽眾帶來更真實的聽覺感受,該文提出一種基于低秩張量補全的音頻丟失數據恢復方法。首先,把多聲道音頻信號表示為一個張量;其次,把張量補全作為一個凸優化問題建模,利用松弛技術和變量分離技術得到閉合的增強拉格朗日函數;最后,通過交替迭代方法求解得到恢復的音頻張量。在不同數據丟失率的實驗中,通過與線性預測、加權優化的CANDECOMP /PARAFAC分解方法進行對比分析,表明利用張量補全方法具有更高的音頻信號恢復精度,隱藏參考和基準的多激勵測試結果也顯示低秩張量補全方法能夠有效地恢復多聲道音頻的丟失數據,從而獲得更好的聽覺效果。
關鍵詞:音頻信號恢復;張量補全;跡范數;凸優化
隨著壓縮技術和網絡存儲技術的發展,人們可以享受到高清多媒體數據帶來的視聽快感,而以多聲道音頻為代表的高質量音頻也正逐步得到廣泛的應用。例如5.1聲道、7.1聲道、9.1聲道音頻等,近期日本廣播公司NHK還開發出一個多達 22.2聲道的音頻系統,分為3個空間層,分別是9個聲道的上層、10個聲道的中層、3個聲道的下層,此外還有2個與下層聲道放在一起的低音聲道。這些多聲道音頻主要為了追求更加逼真的3維音頻效果。
然而多聲道音頻數據在獲取或傳輸過程中的某些時刻,可能會出現一個或幾個聲道采集設備故障或者傳輸中出現異常情況,導致最終獲得的音頻信號質量下降的現象。另外,因為多聲道音頻占用空間大、數據量多,在進行數據的存儲及傳輸時可能主動丟失一些數據,例如多聲道編解碼中通過舍棄部分聲道來降低碼率,而當使用時再對其進行恢復。
音頻信號恢復的核心問題是如何在丟失數據與已知數據之間建立聯系。傳統的信號恢復技術主要包括:基于貪婪迭代的匹配追蹤(Matching Pursuit,MP)算法,但該算法每次迭代逼近的結果可能是次優的,因而算法收斂需要較多的迭代次數[1];線性預測(Linear Prediction,LP)算法[2,3]主要對丟失數據通過前后向預測進行預測恢復,但是隨著丟失數據的增加,該算法模型階數會快速增長;基于神經網絡的非線性預測方法[4]在時域恢復信號的時候,針對連續丟失采樣值現象恢復效果較差,在頻域插值過程中會帶來復數運算和相位不連續的現象。另外,一些恢復算法都是針對某些特定應用對象,例如文獻[5]中用盲解卷積方法進行水聲信號的恢復。
目前,專門針對多聲道音頻信號恢復的算法較少,大部分都是采用一些通用信號恢復算法,沒有充分利用多聲道音頻信號在幀結構、空間位置的相關性。文獻[6 ]中提出了利用加權優化CANDECOMP/PARAFAC(CP-WOPT)張量分解方法恢復數據,但在分解過程中選擇不合適的秩,將導致過擬合現象,造成恢復性能嚴重惡化[7]。本文采用低秩張量補全(Low Rank Tensor Completion,LRTC)方法對有數據丟失的多聲道音頻信號進行恢復,充分利用張量模型可以很好體現多因素信號內在關系的特性[8],對多聲道音頻信號進行建模,針對音頻張量各階之間的相互關系,在保留多階音頻信號本質屬性的基礎上,挖掘丟失數據與已知數據之間的聯系,充分利用低秩張量補全能從部分缺失的高維觀測數據中發現它的本征低維空間的特性,有效地恢復觀測樣本的低維子空間并恢復受損的數據[9]。
張量是由多個矢量空間乘積構造而成的多階陣列,最近開始在信號處理領域得到廣泛應用,尤其是圖像和視頻處理領域。在實際的信號獲取過程中,觀測的高階信號的某些數據可能丟失,如何利用已知的數據信息,恢復那些未知的數據,這個任務被稱為張量補全[10]。張量補全與張量分解都可用于數據恢復,但是前者追求的是所補全的丟失數據的精度,而后者的目的是得到合適的因子矩陣[11],即追求的是分解后因子矩陣的精度。
2.1 相關運算
(1)χ與у的內積定義為兩個張量元素乘積的和:

(2)張量χ的Frobenius范數定義為

(4)奇異值收縮(Singular Value Shrinkage,SVT):設矩陣的秩為r,其奇異值分解為,其中,對于任意τ>0,收縮操作定義為

2.2 低秩近似
很多實際的高維觀測信號可近似為多個低維的線性獨立子空間,并且這些子空間類別數以及每個樣本隸屬于哪個空間均是未知的[13]。正確劃分這些樣本到各自的子空間并且得到這些低維子空間成為了研究熱點,一些常用的解決方法,例如主成分分析(Principal Component Analysis,PCA)、奇異值(Singular Value Decomposition,SVD)等已經被應用于音頻分類、人臉聚類等。然而,這些實際的信號常常被強噪聲污染或者丟失,針對這樣的問題,秩函數最小化正則的方法被提出,其目的是通過求解一個非凸的優化問題能夠同時得到原始信號及相應的子空間結構。
以低秩矩陣近似為例,給定一個矩陣M∈Rp×q,低秩矩陣近似是要解決式(4)所描述的優化問題。

式(4)也可以表示成拉格朗日形式:

但是,因為秩函數是離散的,且非凸的,不能保證得到全局最優,因此秩最小化其實是一個NP-hard問題[14]。文獻[15]中指出,秩函數的凸包可以用矩陣的跡范數表示,這樣可以利用凸松弛方法把式(5)表述為

2.3 張量補全算法

利用2.2小節的凸松弛方法,上述模型可以表示為

把此模型泛化到張量,可得


從式(9)和式(10)中可以看出,張量矩陣化后每階矩陣之間共享變量,而不是獨立的,從而導致不能簡單對每個跡范數進行求解。因此,本文使用變量分離的技術來求解式(9)對應的優化問題。為此,引入N個輔助張量Pi,把式(9)描述的模型表示為


其中ρ>0,該模型的增強拉格朗日函數為

使用文獻[17]中的交替迭代方法,分別求解式(14)和式(15)描述的子問題:


式(16)可通過式(3)定義的奇異值收縮求解得到閉合形式:

拉格朗日算子用式(18)完成更新:

本文采用的低秩張量補全算法流程如表1所示。

表1 低秩張量補全算法流程
對一些可觀測的高階信號,使用張量表示更能體現信號的原始結構,而且張量補全能夠充分利用數據所有維的信息,而矩陣補全僅僅利用數據的某兩維信息,所以本文對多聲道音頻信號采用張量建模。
例如,一個時長10 s的5.1聲道音頻,采樣率為48 kHz,采樣精度為16 bit,幀長為20 ms,幀與幀之間有50%的重疊,此段音頻共分為999幀,每幀得到480個MDCT系數,即可構造一個多聲道音頻信號張量。
實驗采用的多聲道音頻信號是通過實際多個不同位置音頻采集設備生成,并且各聲道音頻之間具有較強的相關性。測試音頻包括5條5.1聲道音頻,每條音頻截取出20 s,采樣率為48 kHz,采樣精度為16 bit,使用漢明窗分幀后的幀長為20 ms,即每幀包含960個采樣值,并且幀與幀之間有50%的重疊(10 ms的幀移)。5.1聲道音頻由左聲道(left)、右聲道(right)、中置(center),低頻增強(low frequency effects),左環繞(left surround),右環繞(right surround)6個聲道構成。實驗都是在Intel core i3 2.3 G,2 G RAM的計算機上進行,仿真軟件為MATLAB(R2010a)。
音頻數據丟失采用隨機丟失方式,定義一個有數據丟失的音頻張量M,目標就是通過LRTC從M中恢復原始音頻χ。
4.1 音頻恢復及客觀評價
實驗使用張量工具箱[18](tensor_toolbox2.6)構建多聲道音頻張量,張量中元素進行歸一化處理,即元素值除以張量的Frobenius范數,分別采用LRTC方法、文獻[3]中的LP方法和文獻[6]中提出的CP-WOPT方法進行音頻恢復。在LRTC實驗中設置正則參數,容許誤差,最大迭代次數為400次,初始化時丟失數據部分的值用可觀測到數據的均值代替。在LP實驗中,預測階數設置為16。在CP-WOPT實驗中,秩選取R=2,4兩種情況,初始化時丟失數據部分的值設置為0,并且使用SVD初始化CP分解的因子矩陣。
實驗分別設置25%,50%,75%的數據丟失率,采取隨機丟失方式,音頻的客觀恢復質量評價采用相對標準差(Relative Standard Error,RSE)或者信噪比(Signal-Noise Ratio,SNR)進行評價,RSE定義為

從式(19)容易得出恢復音頻的SNR為

表2和圖1分別顯示了幾種不同方法恢復音頻的SNR和恢復所用時間(5條多聲道音頻測試結果的平均值)。可以看出,LP方法雖然在音頻恢復過程中用時相對較少,但是SNR較低;LRTC方法恢復音頻的SNR最高,但恢復用時比LP略多,也就是說LRTC以提高算法復雜度為代價換來了較好的音頻恢復效果;CP-WOPT方法恢復音頻的性能居中。整體來看,在3種方法的恢復時間相當的情況下,LRTC具有更好的恢復精度。

表2 音頻恢復的SNR(dB)
4.2 MUSHRA測試
多聲道音頻恢復的主要目的是為了讓聽眾獲得更好的聽覺效果,下面采用隱藏參考和基準的多激勵(MUSHRA)方法測試其主觀聽覺上的恢復質量。
測試中,5個聽音人通過對比已知的參考音頻和待測的恢復的音頻,用0~100評分尺度進行打分,分級是連續的,從“非常好”到“差”,0分對應的是最低的“差”,100分對應的是最高的“非常好”,打分時給出評分值為0~100的整數值。測試結果如圖2所示。圖2顯示了在不同數據丟失率的情況下,LRTC方法、LP方法和CP-WOPT方法的MUSHRA分數。從測試結果中可以看出,LRTC方法恢復音頻的MUSHRA測試分數均在80分以上,都高于另外兩種方法所恢復音頻的MUSHRA測試分數。隨著數據丟失率的上升,3種方法恢復的音頻質量都有所下降。
多聲道音頻信號的丟失數據恢復方法優劣直接影響到重構后3維音頻的展示效果。本文針對音頻數據丟失采用低秩張量補全方法,首先將多聲道音頻信號進行張量建模,然后把一個低秩近似問題通過凸松弛和變量分離技術轉化為張量跡范數的凸優化問題,并且通過交替迭代算法求解原始音頻的近似張量,進而恢復音頻數據。通過主客觀測試實驗表明該方法具有較高的數據恢復能力,用于多聲道音頻信號的恢復是有效的,對于空間音頻數據恢復以及多聲道音頻壓縮重構場合都有很好的應用前景。

圖1 音頻恢復所用時間比較

圖2 MUSHRA測試平均分數
參考文獻
[1]王磊,周樂囡,姬紅兵,等.一種面向信號分類的匹配追蹤新方法[J].電子與信息學報,2014,36(6):1299-1306.doi:10.3724/SP.J.1146.2013.00942.WANG Lei,ZHOU Lenan,JI Hongbing,et al.A new matching pursuit algorithm for signal classification[J].Journal of Electronics & Information Technology,2014,36(6):1299-1306.doi:10.3724/SP.J.1146.2013.00942.
[2]VASEGHI S and FRANYLING C.Restoration of old gramophone recordings[J].AES Journal of the Audio Engineering Society,1992,40(10):791-801.
[3]高悅,陳硯圃,閔剛,等.基于線性預測分析和差分變換的語音信號壓縮感知[J].電子與信息學報,2012,34(6):1408-1413.doi:10.3724/SP.J.1146.2011.01001.GAO Yue,CHEN Yanpu,MIN Gang,et al.Compressed sensing of speech signals based on linear prediction coefficients and difference transformation[J].Journal of Electronics & Information Technology,2012,34(6):1408-1413.doi:10.3724/SP.J.1146.2011.01001.
[4]COCCHI G and UNCINI A.Subbands audio signal recovering using neural nonlinear prediction[C].Proceedings of the 2001 International Conference on Acoustics,Speech and Signal Processing(ICASSP),Salt Lake City,UT,USA,2001:1289-1292.
[5]朱墨,吳國清,郭新毅.基于盲解卷積的水聲信號恢復技術[J].應用聲學,2011,30(3):177-186.doi:10.3969/j.issn.1000-310X.2011.03.003.ZHU Mo,WU Guoqing,and GUO Xinyi.An underwater signal recovery technique based on blind deconvolution[J].Journal of Applied Acoustics,2011,30(3):177-186.doi:10.3969/j.issn.1000-310X.2011.03.003.
[6]ACAR E,DUNLAVY D M,KOLDA T G,et al.Scalable tensor factorizations with missing data[C].Proceedings of the 10th SIAM International Conference on Data Mining,Columbus,OH,United States,2010:701-712.
[7]ZHAO Qibin,ZHANG Liqing,and CICHOCKI A.Bayesian CP factorization of incomplete tensors with automatic rank determination[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,37(9):1751-1763.doi:10.1109/TPAMI.2015.2392756.
[8]TAN Huachun,WU Yuankai,FENG Guangdong,et al.A new traffic prediction method based on dynamic tensor completion[J].Procedia-Social and Behavioral Sciences,2013,96(8):2431-2442.doi:10.1016/j.sbspro.2013.08.272.
[9]LIU Yuanyuan and SHANG Fanhua.An efficient matrix factorization method for tensor completion[J].IEEE Signal Processing Letters,2013,20(4):307-310.doi:10.1109/LSP.2013.2245416.
[10]劉園園.快速低秩矩陣與張量恢復的算法研究[D].[博士論文],西安電子科技大學,2013.doi:10.7666/d.D363665.LIU Yuanyuan.Algorithm research of fast low-rank matrix and tensor recovery[D].[Ph.D.dissertation],Xidian University,2013.doi:10.7666/d.D363665.
[11]樊勁宇,顧紅,蘇衛民,等.基于張量分解的互質陣MIMO雷達目標多參數估計方法[J].電子與信息學報,2015,37(4):933-938.doi:10.11999/JEIT140826.FAN Jinyu,GU Hong,SU Weimin,et al.Co-prime MIMO radar multi-parameter estimation based on tensor decomposition[J].Journal of Electronics & Information Technology,2015,37(4):933-938.doi:10.11999/JEIT140826.
[12]CICHOCKI A,ZDUNEK R,PHAN A H,et al.Nonnegative matrix and tensor factorizations[M].Chichester,WS:John Wiley & Sons,2009:28-31.
[13]LERMAN G and ZHANG T.Robust recovery of multiple subspaces by geometric lpminimization[J].Annals ofStatistics,2011,39(5):2686-2715.doi:10.1214/11-AOS914.
[14]CHEN Y,HSU C,and LIAO H M.Simultaneous tensor decomposition and completion using factor priors[J].IEEE Transactions on Software Engineering,2014,36(3):577-591.doi:10.1109/TPAMI.2013.164.
[15]RECHT B,FAZEL M,and PARRILO P.Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization[J].SIAM Review,2010,52(3):471-501.
[16]LIU Ji,MUSIALSKI P,WONKA P,et al.Tensor completion for estimating missing values in visual data[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):208-2121.doi:10.1109/TPAMI.20125.39.
[17]GANDY S,RECHT B,and YAMADA I.Tensor completion and low-n-rank tensor recovery via convex optimization[J].Inverse Problems,2011,27(2):25010-25028.
[18]KOLDA T G,BADER B,SUN Jimneg,et al.MATLAB tensor toolbox version 2.6[OL].http://www.sandia.gov/~tgkolda/ Tensor Toolbox/index-2.6.html,2015.2.
楊立東:男,1978年生,副教授,主要從事模式識別、音頻信號處理方面的研究.
王晶:女,1980年生,副教授,主要從事音頻信號處理、音頻壓縮方面的研究.
謝湘:男,1976年生,副教授,主要從事模式識別、語音信號處理方面的研究.
Low Rank Tensor Completion for Recovering Missing Data in Multi-channel Audio Signal
YANG Lidong①②WANG Jing①XIE Xiang①ZHAO Yi①KUANG Jingming①
①(School of Information and Electronics,Beijing Institute of Technology,Beijing 100081,China)
②(School of Information Engineering,Inner Mongolia University of Science and Technology,Baotou 014010,China)
Abstract:The data maybe miss due to problems in the acquisition,compression or transmission process of multichannel audio signal.In order to take audiences real auditory sense,an approach of signal recovery based on low rank tensor completion is proposed.First,multi-channel audio signal is represented as a signal tensor.Second,tensor completion is formulated as a convex optimization problem.A closed form for augmented Lagrangian function is obtained via relaxation technique and separation of variables technique.At last,the audio tensor is recovered by alternating iteration.In experiments of varying number of missing entries,the comparisons show that the proposed method is more accurate than linear prediction and CANDECOMP/PARAFAC weighted optimization.The results of multiple stimuli with hidden reference and anchor indicate that low rank tensor completion method is validated for multi-channel audio signal recovery.The better auditory effects are obtained by recovered audio.
Key words:Audio signal recovery; Tensor completion; Trace norm; Convex optimization
基金項目:國家自然科學基金(61473041),內蒙古高校科研項目(NJZY13139)
*通信作者:王晶wangjing@bit.edu.cn
收稿日期:2015-05-18;改回日期:2015-11-02;網絡出版:2015-12-04
DOI:10.11999/JEIT150589
中圖分類號:TN912.3
文獻標識碼:A
文章編號:1009-5896(2016)02-0394-06
Foundation Items:The National Natural Science Foundation of China(61473041),Scientific Research Project in Colleges and Universities of Inner Mongolia(NJZY13139)