999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聽覺外圍模型的音頻基頻估計方法

2014-07-08 08:31:42劉鑫鮑長春
計算機工程與應用 2014年17期
關鍵詞:信號方法模型

劉鑫,鮑長春

北京工業大學電子信息與控制工程學院,北京 100124

基于聽覺外圍模型的音頻基頻估計方法

劉鑫,鮑長春

北京工業大學電子信息與控制工程學院,北京 100124

針對音頻信號中的暫態成分對基頻檢測可靠性的影響,提出了一種基于聽覺外圍模型的基頻估計方法。該方法根據聽覺外圍模型來模擬聲音在人耳內耳聽覺神經上傳導過程,并利用循環平均幅度差函數判斷每個神經傳導信號上呈現的時域周期性,進而提取音頻信號的基頻。實驗結果表明,在純凈音頻條件下,該方法能準確地估計出音頻信號的基頻,并且在不同音量打擊樂信號的干擾下,所提方法的平均錯誤率低于三種參考方法。

基頻估計;聽覺外圍模型;循環平均幅度差函數

1 引言

基頻定義為語音和音調性音樂等準周期信號的最低頻率,其倒數為信號周期,描述了發聲體振動所引起的周期性特征[1-2]。在語音與音頻信號的壓縮編碼、語音分析合成以及音頻信息檢索等應用中,基頻估計直接決定了系統的最終性能。為此,研究人員針對純凈音頻相繼提出了眾多的基頻估計方法[2-8]。然而在噪聲條件下,基頻估計的性能還有待進一步提升,特別是背景聲中打擊樂所蘊含的暫態成分嚴重影響著基頻估計的可靠性。為此,本文針對打擊樂干擾下音調性器樂信號的基頻估計問題展開研究。

傳統的基頻估計方法通常分為時域估計法、頻域估計法和時頻聯合估計法。由于時域估計法具有較高的計算效率,該方法在語音與音樂信號的基頻檢測中得到了廣泛的研究。其中,平均幅度差函數(Average M agnitude Difference Function,AMDF)法與自相關函數(Autocorrelation Function,ACF)法在準確度以及魯棒性方面都具有良好的性能,被廣泛應用于語音與音頻編碼系統中[2]。近年來,有學者在此基礎上分別利用循環AMDF[3]、加權ACF[4]來改善傳統時域基頻估計的準確性。而Cheveigne等根據累積幅度差函數提出了YIN方法[5],在附加不同噪聲成分的條件下降低了基頻估計的總錯誤率。此外,也有學者在時域估計的基礎上借助音頻頻譜上的諧波相關性修正基頻[6-8],進而在外加白噪聲和babble噪聲條件下有效地提取出音頻信號的基頻。在實際音頻信號中,打擊樂器的伴奏會嚴重影響音調性器樂或者人聲演唱音頻信號基頻估計的準確性。這類暫態性聲音具有時域突變性,除了在特定頻段存在較高能量的非諧波性成分外,還會在全頻帶上形成類噪聲性頻譜。這樣的暫態干擾下,如何獲得可靠的基頻估計就成為了一個具有挑戰性的問題。

基頻感知理論[9-11]表明,人耳對聲音基頻的感知并不完全等同于準周期信號的振動頻率,而是聲音的主觀心理聲學屬性。在含噪或者暫態干擾的條件下,盡管信號的周期性受到了嚴重的破壞,人耳仍能夠感知到聲音的基頻。為此,有學者[9-10]針對人耳外圍聲學系統展開研究,以圖通過分析在人耳基底膜上聽覺神經動作電位的時間結構來確定聲音信號的感知基頻。受此啟發,本文提出了一種基于聽覺外圍模型的音頻基頻估計方法,用于在打擊樂干擾下提取音調性器樂信號的基頻。該方法首先根據聽覺外圍模型[9,11]將音頻信號分解到不同的臨界頻帶中,有效地分散了暫態干擾信號對音頻信號時間相關性的影響。接下來,通過一系列非線性處理來模擬聲音在人耳內耳聽覺神經上傳導過程,借助其蘊含的積分特性抑制了各個臨界帶上的暫態干擾。最終,利用循環AMDF判斷每個神經傳導信號上呈現的時域周期性,進而提取音頻信號的基頻。實驗結果表明,相比于參考方法,所提方法有效地改善了在暫態干擾下器樂信號基頻估計的準確性。

2 基于聽覺外圍模型的基頻估計算法

所提出基頻估計方法的原理如圖1所示。該方法可粗略地劃分為四個部分:(1)聽覺外圍模型;(2)基于循環AMDF的基頻粗估計;(3)后處理;(4)精細搜索。首先,利用Meddis聽覺外圍模型模擬各個臨界帶上聽覺神經的傳導過程,獲得神經刺激信號。由于該信號與基頻感知直接相關,因此本文利用循環AMDF來分析各個神經信號的時域周期特性。接下來,將各個臨界帶的時域結構擬合起來,結合基頻增強方法實現對音頻信號周期的粗估。最終,借助拋物線內插,進一步提升基頻檢測的精確度。下面將針對各個部分逐一進行介紹。

圖1 基于聽覺外圍模型的基頻估計方法原理框圖

2.1 聽覺外圍模型

聽覺外圍模型能夠模擬聲音信號在人耳耳蝸基底膜上傳導機制和內耳毛細胞的神經傳導過程,進而分離出聽覺神經刺激信號。相關聽覺研究表明[10],該信號與原始音頻具有相同的周期性,因此可用于分析音頻信號的基頻。

2.1.1 Gamm atone濾波器組

令輸入信號為32 kHz采樣、14 kHz帶寬的寬帶音頻x(i),i=0,1,…,N,N=640對應20 m s的分析幀長。聽覺外圍模型首先采用Gammatone濾波器組在100 Hz~ 10 kHz頻率范圍內將x(i)分解到25個臨界帶上,從而模擬了耳蝸基底膜上特定位置受聲音信號刺激后發生的波動現象。每個Gammatone濾波器采用4階線性帶通濾波器實現,其中心頻率均勻分布在等效矩陣帶寬尺度下。各個濾波器的帶寬會隨其中心頻率的上升逐漸增加。這樣,第j個頻帶的Gammatone濾波器的輸出值xg(j,i)可描述基底膜特定位置上所受到的聽覺刺激,如下式所示:

其中,gj(i)表示第j個Gammatone濾波器的脈沖響應。

2.1.2 內耳毛細胞模型

聲音信號經過Gammatone濾波器組后,轉化為各個臨界頻帶上基底膜所接收的聽覺刺激。根據Meddis內耳毛細胞模型[9],內耳毛細胞在受到這些刺激后會釋放自由傳導物質,觸發聽覺神經纖維產生電信號,進而傳導到聽覺神經中樞中,其具體過程如圖2所示。

圖2 Meddis內耳毛細胞模型原理框圖

假設毛細胞內包含一定量的自由傳導物質,并以一定速率釋放到聽覺神經突觸間隙中。設t時刻毛細胞中自由傳導物質的數量為q(t),其釋放速度k(t)與接收到聽覺刺激的幅度xg(t)有關,如下式所示:

其中,gk、A、B均為正整數。由上式可見,當沒有聽覺刺激存在時,自由傳導物質仍以gkA/(A+B)的速率釋放。那么,在d t時間段內釋放的自由傳導物質數目為k(t)q(t)d t,而在內耳毛細胞內還會補充一定的傳導物質gy[m-q(t)]d t。若神經突觸間隙中自由傳導物質的數量為c(t),則會有數目為grc(t)d t的傳導物質返回到毛細胞,而數目為glc(t)d t的傳導物質則將耗散掉。將以上過程總結為動態系統可表示為:

最終,根據接收到聽覺刺激xg(t)的強度可以動態地控制傳導物質在內耳毛細胞和聽覺神經突觸間隙間的雙向傳導。根據Meddis聽覺研究結果[11],內耳毛細胞模型中的相關參數分別設置為:m=1;A=5;B=300;gk=200;gy=5.05;gl=2 500;gr=6 580。相關聽覺實驗表明,在突觸間隙中傳導物質的數目c(t)與聽覺神經上產生電信號的概率成正比,且其周期性與人耳對音頻信號的主觀基頻感知相關,那么可以將式(3)所示的連續動態系統離散化,并得到各個臨界帶的神經刺激信號離散時間序列c(j,i)。

以某一段響板干擾下的口琴音頻信號為例,圖3和圖4分別表示其時域波形及聽覺外圍模型各個通道輸出的聽覺刺激波形。在時域波形中,響板信號的幅度超過了口琴信號的幅度,嚴重影響到該信號的周期性。利用聽覺外圍模型進行處理后,響板信號隨著口琴音頻一起分解到不同的聽覺通道中,其時間暫態特性被大大的削弱了。由圖4可知,前10個通道的聽覺刺激信號基本上沒有受到響板信號暫態成分的過多影響,而在高頻通道中,響板信號的暫態干擾僅僅改變了聽覺刺激的時間包絡信息,對其周期性的干擾作用十分有限。因此,可以看出利用聽覺外圍模型對音頻信號進行分解,能夠有效地抑制暫態成分對基頻感知的消極影響。

根據基頻感知原理,人耳基底膜上聽覺激勵的周期性與聲音信號的基頻息息相關。為此可以通過分析各個通道下聽覺刺激信號的周期特性,進而實現對原始音頻信號基頻的有效估計。

2.2 循環AMDF

圖3 響板干擾下口琴音頻的時域波形

本文利用循環AMDF方法對各個臨界帶上神經刺激信號的周期性進行分析。該方法借助循環移位法,降低當前信號與其多倍周期延遲信號的相關性,進而有效抑制信號時頻包絡浮動所造成的周期加倍現象[3]。對于第j臨界帶下神經刺激信號c(j,i),其循環AMDF可以表示為:

其中,τ為時間延遲,N=640為音頻信號的分析幀長,mod(i+t,N)表示i+τ模N的余數。

為了初步判定音頻信號的周期,定義各個臨界帶下循環AMDF值dcamdf(j,τ)和dscamdf(τ)作為本段音頻的總循環AMDF,如下:

最終,根據總循環AMDF曲線判定音頻信號的周期。

同樣以響板干擾下口琴音頻信號為例,聽覺外圍模型各個通道輸出聽覺刺激波形的循環AMDF曲線和總循環AMDF曲線如圖5、圖6所示。可見,盡管響板干擾對口琴音頻的時域干擾比較強烈,但是經過聽覺外圍模型,其暫態成分分解到各個臨界帶通道上,因而對各個通道聽覺刺激信號周期性的影響并不顯著。并且循環AMDF方法利用循環移位技術降低了較大延遲下信號的相關性,有效地抑制了周期加倍的現象。因此,利用簡單的最小值搜尋方法很容易在總循環AMDF曲線上確定真實周期,即τ=112。圖7描述的是對原始音頻信號時域波形進行處理后得到的循環AMDF曲線,可見由于響板信號的暫態特性嚴重影響到了口琴信號時域波形的周期特性,很難根據循環AMDF曲線確定真實的周期。

2.3 后處理

為了改善基頻的穩定性,本文還會引入信號周期的歷史值來對基頻估計進行后處理。

令上一幀音頻信號最終獲得的周期估計值為Pold,則可在總循環AMDF曲線上以τ=Pold為中心加以一個對稱窗函數來減小Pold附近的幅度差函數值,進而實現基頻增強。對稱窗函數定義為:

圖4 聽覺外圍模型各個通道輸出的聽覺刺激波形

圖5 聽覺外圍模型各個通道的循環AMDF曲線

圖6 總循環AMDF曲線

圖7 時域波形對應的循環AMDF曲線

其中,α決定了窗中心位置的函數值,并與前一幀音頻的諧波程度相關。若前一幀信號為強諧波信號則α=0.9,否則α=1,即不對周期歷史進行增強。隨著與窗中心位置逐漸遠離,對稱窗函數的值將趨近于1。根據實驗結果,當Nw=5時,基頻增強的效果最好。

接下來,在基頻增強后總循環AMDF首次達到極大值后的延遲范圍內,找出該曲線的最大值dmax和最小值dmin,并確定閾值為T=dmin+0.05(dmax-dmin)。在總循環AMDF值小于閾值T的范圍里,搜索第一個局部極小值,并判定其所在時間延遲位置為周期P。

2.4 精細搜索

為了提升基頻估計的精度,本文所提方法還需要進一步在整數周期P附近確定分數周期。首先,在[P-3,P+3]范圍內,以1/4的時間延遲為分辨率對原始的總循環AMDF進行拋物線內插。然后,選擇該范圍內插值后總循環AMDF的最小值。最終,以該延遲作為最終的分數周期Pfin,其倒數則表示音頻信號的基頻。

3 實驗測試與結果

3.1 測試樣本

為了評價本文所提方法的基頻估計性能,本文選擇歐洲廣播聯盟錄制的聲音質量評測材料[12]中的4種典型音調性器樂(短笛、鋼琴、小號、小提琴)和3種打擊樂信號(響板、低音鼓、鐃鈸)作為測試樣本。其中,短笛和鋼琴信號低頻諧波相對豐富,而高頻能量衰減較快。小號和小提琴信號在全頻帶上均存在豐富的諧波,且小提琴信號具有明顯的顫音結構。而3種打擊樂都具有清晰的暫態特性。響板信號在時域上收斂較快,具有一定的音調性,而低音鼓和鐃鈸信號收斂較慢,且在4 kHz以上的頻段中鐃鈸的能量要明顯高于低音鼓。

測試前,需要去除所有信號中的靜音段,且每種音調性器樂演奏時分別附加不同的打擊樂信號,構成含噪音頻,進而在不同的器樂與打擊樂平均功率比下對所提基頻估計方法的魯棒性進行研究。最終,獲得的36段測試樣本采樣頻率為32 kHz,有效帶寬為14 kHz,長度在10 s左右。基頻估計過程中所選用的分析幀長為20 ms,幀間無交疊。所有音頻的真實基頻通過人工標注的方法確定,其分布在200~1 600 Hz范圍內,即周期搜索范圍為20~160。

3.2 參考算法

為了測試算法的有效性,本文所提出的基頻估計算法將進一步與三種參考算法(AMDF法[2]、YIN法[5]和Meddis基頻估計法[9])進行比較。AMDF法采用了傳統的AMDF來判定信號的周期;YIN法則引入累積均值歸一化差函數來改進AMDF,提升了較小周期下基頻估計方法的準確性;而Meddis基頻估計法同樣采用Meddis聽覺外圍模型并利用ACF衡量聽覺刺激信號的周期性。為了公平起見,這三種參考方法采用與本文所提方法相同的后處理和精細搜索過程,并分別在純凈器樂信號和不同器樂與打擊樂平均功率比下與本文所提方法進行基頻估計的性能對比。

3.3 誤差測度

令第n幀測試信號的真實周期為Ptrue(n),由算法提取出的周期為Pest(n),則基頻估計方法的誤差測度可根據基頻誤差e(n)得到,如下所示:

若某一幀的基頻誤差e(n)大于10 Hz,則認定該幀具有較大估計誤差。對于整段音頻信號,較大誤差幀的數目占總幀數的比例可作為基頻估計方法的總錯誤估計率。

3.4 純凈信號下基頻估計性能

表1中顯示了在純凈音頻信號下不同基頻估計方法的總錯誤率。結果表明,在不含噪聲的條件下,AMDF法和Meddis法具有較大的總錯誤估計率,這主要是因為周期搜索范圍比較寬,在不做特別優化的前提下,AMDF法和Meddis法容易出現周期加倍的現象。Yin法和本文方法有效地抑制了穩態信號下的周期加倍減半,并將總錯誤率控制在10%以內。但是在不同音調間的過渡階段,兩個不同周期的音調成分同時出現,這改變了音頻時域信號的周期性,進而出現估計誤差。

表1 不同基頻估計法對純凈音頻的總錯誤估計率

3.5 打擊樂信號干擾下基頻估計性能

在實際音頻信號中,打擊樂中的暫態成分會影響音調性器樂信號的基頻估計。本文分別在兩種器樂與打擊樂平均功率比(20 dB和0 dB)下,利用鈸鐃、低音鼓、響板三種打擊樂作為伴奏,構造成含噪音頻。不同打擊樂干擾下四種基頻估計方法的總錯誤估計率如表2~表4所示。

表2 在鈸鐃干擾下不同基頻估計法總錯誤估計率

測試結果表明,受到打擊樂信號的干擾,AMDF法和Meddis法相比于純凈信號條件下總錯誤估計率平均上升10%~20%,且器樂與打擊樂平均功率比為0 dB時,這兩種方法的平均總錯誤估計率進一步上升到40%以上。而YIN法和本文方法錯誤估計率在10%~20%,且隨著器樂與打擊樂平均功率比上升,本文方法總錯誤估計率小幅上升,并比YIN法的錯誤率低5%~10%。此外,從測試結果中還可以看出,鋼琴信號受到打擊樂干擾時,總錯誤估計率上升幅度比另外三種器樂信號要小,這主要是因為鍵盤樂器相比于管弦樂器起振時間短,且中低頻諧波豐富而穩定,無明顯顫音結構。在受到暫態噪聲干擾時,利用后處理方法能夠有效增強基頻軌跡的連續性。

表3 在低音鼓干擾下不同基頻估計法總錯誤估計率

表4 在響板干擾下不同基頻估計法總錯誤估計率

綜上所述,打擊樂信號會明顯干擾音調性器樂音頻的基頻,而本文方法估計基頻的總錯誤率要低于三種參考方法。

4 結論

本文提出了一種基于聽覺外圍模型的音頻信號基頻估計方法。該方法借助Meddis聽覺外圍模型和循環AMDF來估計音調性器樂信號的基頻。測試結果表明,在純凈音頻條件下本文提出方法有效地抑制了信號周期加倍減半現象,并準確地估計出音頻信號的基頻;在不同能量水平打擊樂信號的干擾下,本文方法基頻估計的平均錯誤率仍能控制在20%以下,并優于三種參考方法。

[1]Vary P,Martin R.Digital speech transmission-enhancement,coding and error concealment[M].UK:John Wiley & Sons Ltd,2006.

[2]Hess W.Pitch determination of speech signals[M].New York:Springer-Verlag,1983.

[3]Zhang W,Xu G,Wang Y.Pitch estimation based on circular AMDF[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing,Orlando,USA,2002,1:341-344.

[4]Shimamura T,Kobayashi H.Weighted autocorrelation for pitch extraction of noisy speech[J].IEEE Transactions on Speech and Audio Processing,2001,9(7):727-730.

[5]Cheveigné A D,Kawahara H.YIN,a fundamental frequency estimator for speech and music[J].The Journal of the Acoustical Society of America,2002,111(4):1917-1930.

[6]Zahorian S A,Hu H.A spectral/temporal method for robust fundamental frequency tracking[J].The Journal of the Acoustical Society of America,2008,123(6):4559-4571.

[7]Shahnaz C,Zhu W P,Ahmad M O.A pitch extraction algorithm in noise based on temporal and spectral representations[C]//IEEE International Conference on Acoustics,Speech and Signal Processing,Las Vegas,Nevada,USA,2008:4477-4480.

[8]Hsu C L,Wang D L,Jang J S R.A trend estimation algorithm for singing pitch detection in musical recordings[C]//IEEE International Conference on Acoustics,Speech and Signal Processing,Prague,Czech Republic,2011:393-396.

[9]Meddis R.Simulation of mechanical to neural transduction in the auditory receptor[J].The Journal of the Acoustical Society of America,1986,79(3):702-711.

[10]Rao P,Shandilya S.On the detection of melodic pitch in a percussive background[J].Journal of the Audio Engineering Society,2004,52(4):378-390.

[11]Meddis R,Hewitt M J,Shackleton T M.Implementation details of a computation model of the inner hair-cell/auditory-nerve synapse[J].The Journal of the Acoustical Society of America,1990,87(4):1813-1816.

[12]EBU.Tech 3253 Sound quality assessment material recordings for subjective tests[S].Geneva:EBU,2008.

LIU Xin,BAO Changchun

School of Electronic Information and Control Engineering, Beijing University of Technology, Beijing 100124, China

The transient components of audio signals may reduce the reliability of fundamental frequency estimation. A fundamental frequency estimation method based on auditory peripheral model is proposed in this paper. The auditory peripheral model is adopted to mimic the transduction in the auditory nerve of the inner hair cells, and a circular average magnitude difference function is used to judge the periodicity of the response of auditory nerve for estimating the fundamental frequency of audio signals. Experimental evaluations show that the proposed method can accurately estimate the fundamental frequency of the clean audio signals. With the percussive interference in different volumes, the proposed method also achieves a lower error rate in comparison with three reference methods.

fundamental frequency estimation;auditory peripheral model;circular average magnitude difference function

LIU Xin, BAO Changchun. Fundamental frequency estimation method for audio signals based on auditory peripheral model. Computer Engineering and Applications, 2014, 50(17):29-33.

A

TN912.3

10.3778/j.issn.1002-8331.1403-0174

國家自然科學基金(No.61072089)。

劉鑫(1986—),男,博士研究生,研究領域為語音與音頻信號處理;鮑長春(1965—),男,博士,教授,博士生導師,研究領域為語音與音頻信號處理。E-mail:chchbao@bjut.edu.cn

2014-03-14

2014-04-28

1002-8331(2014)17-0029-05

CNKI網絡優先出版:2014-05-05,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1403-0174.htm l

猜你喜歡
信號方法模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
基于LabVIEW的力加載信號采集與PID控制
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 一级毛片免费观看久| 538精品在线观看| 无码免费视频| 日本www在线视频| 亚洲第一天堂无码专区| 欧美日韩精品在线播放| 青青草原国产精品啪啪视频| 国模视频一区二区| 日韩乱码免费一区二区三区| 欧美国产综合色视频| 日韩精品成人在线| 浮力影院国产第一页| 国产91精品最新在线播放| 91精选国产大片| 免费毛片a| 女高中生自慰污污网站| av性天堂网| 一级毛片不卡片免费观看| 在线人成精品免费视频| 色哟哟精品无码网站在线播放视频| 亚洲日韩精品欧美中文字幕| 男人的天堂久久精品激情| 午夜国产在线观看| 3344在线观看无码| 91成人在线免费观看| 无遮挡一级毛片呦女视频| 手机精品视频在线观看免费| 成人在线天堂| 国产亚卅精品无码| 亚洲中文在线看视频一区| 亚洲福利网址| 中文字幕亚洲电影| 香蕉国产精品视频| 欧美一区二区三区香蕉视| 久久精品无码一区二区日韩免费| 精品无码视频在线观看| 福利一区在线| 色噜噜在线观看| 毛片基地视频| 刘亦菲一区二区在线观看| 欧美丝袜高跟鞋一区二区| 极品私人尤物在线精品首页 | 成人亚洲国产| 亚洲激情区| 亚洲精品天堂在线观看| 欧美一区福利| 国产自在线播放| 欧美成人h精品网站| 亚洲h视频在线| 东京热一区二区三区无码视频| 久久人与动人物A级毛片| 99在线国产| 青草国产在线视频| 香蕉视频国产精品人| 欧美国产在线一区| 日本人又色又爽的视频| 亚洲成A人V欧美综合| 成人国产免费| 欧美日韩精品在线播放| 国产一级妓女av网站| 亚洲第一中文字幕| 亚洲精品无码av中文字幕| 国产精品亚洲αv天堂无码| 国产成人一区| 亚洲高清在线天堂精品| 99视频免费观看| 日本手机在线视频| 成人精品午夜福利在线播放| 日本一区二区三区精品国产| 最新亚洲人成网站在线观看| 亚洲一区精品视频在线| 成人精品午夜福利在线播放| 国产在线91在线电影| h视频在线播放| 国产成年女人特黄特色毛片免 | 日韩亚洲综合在线| 亚洲国产理论片在线播放| 国产亚洲欧美在线视频| 99青青青精品视频在线| 操国产美女| 国产成人综合亚洲网址| 色综合久久88色综合天天提莫|