999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于計算聽覺場景分析的單通道信噪分離方法?

2019-06-01 08:07:54王凱龍張二華曹冠彬
計算機與數字工程 2019年5期
關鍵詞:信號

王凱龍 張二華 曹冠彬

(南京理工大學計算機科學與工程學院 南京 210094)

1 引言

人類的聽覺系統具有很強的語音分離能力,在嘈雜的雞尾酒會上,人們能有效地傾聽感興趣的聲音,甚至只用一只耳朵也能很好地辨別并專注于某個人的聲音,排除其他語音的干擾,1953年英國科學家E.Cherry將該現象稱為“雞尾酒會”問題。

盡管目前人們對聽覺感知的機理還沒有完全了解清楚,但通過一些聽覺實驗,揭示了聽覺感知的一些線索。1990年,加拿大麥吉爾大學的Bregman經過20多年的研究,出版了《聽覺場景分析》(Auditory Scene Analysis,ASA)[1]。該書中他沿用了視覺場景分析的概念,提出了聽覺場景分析的理論,并對聽覺場景分析的一系列準則進行了歸納。此后,人們根據這一理論,模仿人類聽覺的智能,對語音分離做了大量研究工作,取得了一系列成果。2006年美國俄亥俄州立大學的DeLiang Wang出版了《計算聽覺場景分析》(Computational Auditory Scene Analysis,CASA),目前基于計算聽覺場景分析的語音分離是該領域的主流方法[2]。

2 計算聽覺場景分析

Bregman提出人耳對聲音的處理是按照一定的感知規則對聲音信號進行分離,再按照一定的方法對感知流進行整合的過程,通過這樣的步驟,人可以將聲源與感知流分別對應,從而分辨不同的說話人語音。這一理論對于人們理解與再現復雜聲音環境中人的信息處理機制有著重要的指導意義。

2.1 人耳聽覺特性

人在聽到某種聲音的情況下的主觀感知被稱作聽覺事件(auditory events)。這個術語是由Jens Blauert于1966年提出的,以便在物理聲場和聲音的聽覺之間清楚地區分出來。聽覺事件是心理聲學研究的中心對象,這些研究的重點是物理聲場的特征與聽眾的相應感知之間的關系,從這個關系可以得出人類聽覺系統的有關處理方法[3]。

一系列的心理學實驗證明,人耳對信號的分流有如下一些規律:

1)兩個聲音成分的頻率與出現時間越接近,越容易被整合進同一感知流;

2)一組聲音成分呈諧波關系,即為同一基頻的不同整數倍,則易被整合進同一感知流;

3)若聲音成分的頻率成分連續變化,即在譜中呈現連續的軌跡,或不連續但平滑,則易被整合進同一感知流;

4)人耳還更傾向于將同時開始同時結束的聲音成分歸于同一感知流。

2.2 計算聽覺場景分析方法

CASA一般包括四個階段[4]:

1)仿人耳聽覺機制,將輸入的混合聲音信號分解到一組基本感知單元。通常,混合聲信號被轉換到能夠區分各個聲源分量的變換域。這種轉換一般用類耳蝸頻響的聽覺濾波器組來實現。這種轉換的原因是原始混合信號在單個時間軸和頻率軸上具有嚴重的重疊。因此,難以通過經典的頻域濾波方法有效地區分聲源。那么可以推斷,如果轉換后的單個感知單元足夠小,那么它將不太可能同時受到多個源的影響;

2)假設基本感知單元之間存在連續性,將時頻(Time-Frequency,T-F)空間劃分成若干區域,這一階段可視為將上階段得到的感知單元進行類內聚合。實驗表明,同一聲源會占據某些特定的局部區域,那么可以假設,在時頻空間越接近的感知單元,屬于同一聲源的可能性越高;

3)第三階段將上階段得到的分塊區域按聲源感知差異進行分組,從而將屬于同一聲源的成分歸于同一感知流。按具體操作的差異,此階段可再分為“同時組合”(simultaneous grouping)和“時序組合”(sequential grouping),如圖1所示,B與C的組合屬于“同時組合”,指將相同時間段內屬于同一聲源不同頻段的感知分塊進行組合,而A與B的組合屬于“時序組合”,則是進一步沿時間軸對聽覺分塊進行拼合;

4)最后階段在前述得到的感知流基礎上進行語音重建,還原聲音信號。

整個CASA系統的難點在于分離和組合的過程[5],首先要找出較為合適的分離依據,從2.1節歸納的幾組規律中總結出分離依據,包括同時起始/結束、諧波關系、連續性與平滑性、節奏與空間位置等,然后在應用合適的規則將分塊區域進行拼合。

圖1 同時組合與時序組合示意圖

CASA 提出之后出現了 Brown-Cooke系統[6],Hu-Wang系統[7~9],Jin算法[10]等一系列語音分離方法,在這些方法中,基音周期都作為分離和組合的重要依據,因而待分離目標語音基音周期的精度對分離效果具有決定性影響。然而,目標語音的基音周期常常受到噪聲的影響,尤其是在信噪比較低的情況下影響更明顯[11],因此,如何得到魯棒性的基音周期估計是一大難點,受到研究人員的廣泛關注[12]。

本文在提高基音周期準確性的基礎上,研究了一條新的思路,先以語音信號的短時穩定性為依據利用傅里葉變換將其轉到頻域,每一時段內按濁音的諧波特性,以基音周期為依據進行同時組合,同一說話人時序組合,最后得到分離后的語音。

3 語音信號的頻域分析

“短時分析技術”貫穿整個語音分析過程[13]。因為從整體的角度來看語音信號,其特性和特征其參數的隨著時間的推移而變化,由于聲音是人體口腔肌肉運動構成通道形狀產生的響應,而這個運動相對于語音頻率非常慢,因此在短時范圍內(10ms~30ms),其特征基本不變,即語音信號具有短期穩定性。每一段稱為幀,幀長通常需取10ms~30ms,所以對于整體語音信號,分析的是每一幀特征參數組成的特征參數序列。

對第n幀信號進行離散時域傅里葉變換可得單幀頻譜,其定義如式(1):

定義中的w(n-m)表示一個滑動窗口,隨n的變化沿序列x(m)移動,窗口長度滿足絕對可和條件,窗口函數也影響著變換的結果,這里我們選用漢明窗,如式(2)進行預處理:

α一般選用0.46,在后續實驗中用到的頻譜(即振幅譜)與短時傅里葉變換之間的關系如式(3):

單純的頻譜只包含頻域信息,無法提供時域信息,不能體現感知單元之間的連續性,因此不能用于CASA的分離與組合過程,我們選用了能同時體現時域與頻域信息的語譜圖(Spectrogram)。

人們將和時序相關的傅里葉分析的顯示圖形稱為語譜圖,語譜圖為偽三維圖譜,垂直軸為頻率,水平軸為時間,任何給定頻率給定時刻的強弱由相應位置灰度表示。在語譜圖中,由于色彩深度有差異,連續變化的相鄰幀頻率點會形成不同的紋線,稱為“聲紋”,可以清楚地觀察到濁音部分有一系列深色條紋,這即是濁音的一組諧波,后續的處理便是以準確提取各組諧波為目的。

4 基音周期檢測

基音周期是指發濁音時聲帶振動的周期性,基音周期是指聲帶振動頻率的倒數,基音周期是語音信號最重要的參數之一,描述了語音激勵源的重要特征[14]?,F有的基音檢測算法包括自相關函數(ACF)法,峰值提取算法(PPA)、平均幅度差(AMDF)法、倒譜法、SIFT、譜圖法、小波分析法等。多數算法采用了濾波處理和峰值提取方法來檢測基音。由于基音周期本身具有多變性且范圍較寬,在加入寬帶噪聲或語音干擾后,基音周期的檢測精度受極大影響,低信噪比情況下算法表現更加不理想,在以上的諸多方法中,倒譜法為目前最有效的方法。

4.1 倒譜法

倒譜法作為傳統的基音周期檢測算法,利用了語音信號的倒譜特征來檢測基音信息[15]。

由語音模型可知,語音s(n)是由聲門脈沖激勵e(n)經聲道響應v(n)濾波而得,即有

倒譜的本質是頻譜的頻譜,設三者的倒譜分別為 s(n)、e(n)、v(n),則有

可以看出,包含基音信息的聲學脈沖倒譜可以與信道響應倒譜完全分離,因此從倒譜頻域分離e(n)后恢復出e(n),可從中求出基音周期。

4.2 倒譜域中基音周期的確定

設語音信號的采樣率為w,則有效信號的最高頻率為w/2,時間采樣間隔Δt為1/w,設每幀的長度為N個數據點,通過短時傅里葉變換進行頻譜分析時,隱含條件是該信號為周期信號,取該信號的一個周期進行分析,即信號周期T為NΔt,基頻 f0為w/N,其他頻率成分都是基頻的整數倍,頻率采樣間隔為w/N。

進行倒譜分析時,數據采樣間隔為Δf,取一幀的振幅譜進行頻譜分析,也隱含著取該信號的一個周期分析,振幅譜信號的周期為NΔf,倒譜域的基頻為1/T=1/NΔf=Δt,倒譜域的采樣間隔為Δt。

若倒譜域中諧波信號的峰值出現在第n個“頻率”成分位置,則諧波位置在倒譜中的“頻率”為NΔt,意味著諧波信號在頻率域中起伏變化的“周期”為1/NΔt,而各諧波的頻率為基音周期的整數倍,諧波之間的間距就是基音頻率,基音周期為NΔt,另,實驗表明,幀長必須包含約4個基音周期,濁音在倒譜曲線上才能顯現明顯峰值。

A:通過這幾年的實踐,我們認為,VOCs治理應該從源頭入手,對過程進行控制,并輔以末端治理。源頭,是我們治理的重點,目前我們使用的是無醇潤版液,因為不用酒精了,整個生產車間的空氣質量大大改善,幾乎聞不到刺鼻的氣味。過程控制,主要是做好各項管理,使VOCs排放源處于管控之中。末端治理,即VOCs的收集系統,這也是非常關鍵的一環。

4.3 基音譜圖

以語譜圖為啟發,采用偽三維形式顯示倒譜,由于相鄰幀基音周期的變化具有連續性,在圖中可表現出連續軌跡,通過對軌跡進行提取,即可得到較準確的基音周期。圖2所示為一段男聲語音“那年正月新春”的波形圖與基音譜圖。

圖2 語音“那年正月新春”波形圖與基音譜圖

4.4 基音譜圖幀長選取

基音譜圖能清楚地顯示基音周期軌跡曲線,但若幀長選取不當,倒譜曲線上會出現虛假的二次、三次、四次等多次倒譜峰值,這些虛假的倒譜峰值對應的基音周期是真實周期的2倍、3倍、4倍等,相應地在基音譜圖上也會出現虛假的二次、三次、四次等多次基音周期軌跡,這些虛假的二次、三次、四次等多次倒譜峰值及多次基音周期軌跡的幅值會依次降低。如圖3是某女聲幀長為512時“我不滿六周歲”的語譜基音譜圖,圖中就出現了虛假的二次基音周期軌跡。

圖3 語音“我不滿六周歲”波形圖與基音譜圖

虛假的多次倒譜峰值及基音周期軌跡,是由于幀長過長引起的。一般幀長接近4倍的基音周期時比較合適,若幀長再增加,則會出現虛假的多次倒譜峰值。若幀長合適,倒譜峰值大致位于倒譜曲線中部,虛假的多次倒譜峰值及多次基音周期軌跡會消失。圖4是幀長為256時“我不滿六周歲”的語譜基音譜圖,圖中虛假的二次基音周期軌跡基本消失。

圖4 語音“我不滿六周歲”波形圖與基音譜圖

綜上所述,為了準確提取基音周期軌跡,必須合理選取幀長。一般情況下,幀長取512對男聲和女聲均比較合適。

4.5 基音周期的后處理

常見的基音周期估計算法由于未考慮幀間的基音周期連續性變化特性,需要對求得的基音周期軌跡進行平滑[16]。

4.5.1 中值平滑處理

令x(n)為輸入信號,y(n)為中值濾波器的輸出,并使用滑動窗口,n0處的輸出值y(n0)是窗口中心移動到n0處時窗內的中位數。換句話說,在n0左右取L點。與平滑點一起形成一組信號樣本,將隊列的中位數作為輸出。L值通常取1或2,稱為3點或5點中值平滑[5]。

4.5.2 線性平滑處理

其 中 ,{ω(m),m=-L,-L+1,…,0,1,2,…,L} 為2L+1點平滑窗,滿足

線性平滑窗口在校正輸入信號中相鄰點的值時也對附近點值進行了修改。因此盡管增加窗口長度可以增強平滑效果,但也可能導致兩個平滑段之間的階躍更加模糊。

5 信噪分離

5.1 目標說話人頻譜的提取

根據4.2節的推論,得到濁音的基音周期后可推斷其各諧波成分位置,已獲取的各幀基音周期值已經加入了軌跡連續性特征,可獲得較為準確的基音周期,因此可以忽略基音周期的后處理,但仍不能確信基音周期所指示的諧波位置完全準確,我們參考4.5節中提到的動態窗口平滑處理,結合對數據的大量觀察,總結出了一套準確度較高的諧波位置自動提取方法。

1)盡量遵從各諧波點的理論位置,具體諧波點合理調整。

2)諧波能量較強時,規律明顯,連續性好、抗干擾能力強、穩定、可靠,諧波能量較弱時,可靠性較差,可舍去。

3)對于兩條軌跡不重合的諧波點,在諧波的理論位置為中心,單元格振幅為A中,再取上、下兩個單元格,振幅分別為,A上,A下。若A中為局部極大值,則該諧波點位置取A中。若諧波點的理論位置不是局部極大值,但A上或A下為局部極大值,且不是其它軌跡的理論諧波點位置,則將該諧波點的位置調整為局部極大的A上或A下所在位置。若A上或A下都為局部極大值,則將該諧波點的位置調整為A上或A下的較大者。

4)同一次諧波在橫向上進行平滑、協調。調整后的頻譜數據,對于同一次諧波,若某幀的諧波位置明顯偏離總體趨勢,則將該幀的諧波點位置進行合理平滑。利用5點中值濾波,若該幀的諧波頻率點序號與中值頻率點序號相差較大,則將該幀諧波點的位置調整為中值點所在的位置。

由大量觀察得到絕大多數元音頻譜中諧波寬度不超過5個頻點,我們取一組寬度為5個頻率點的濾波器,濾波函數選擇余弦函數前半周期,濾波器間距為該幀基音頻率,對每幀頻譜進行提取,得到目標說話人的各幀頻譜。

5.2 分離后語音信號的重構

由5.1節得到目標說話人的分幀頻譜,沿時間軸組合便可得到目標說話人的完整頻譜,進行逆傅里葉變換即可得到單幀信號,序列逆傅里葉變換定義如下:

由于不同幀時域上有重合,我們在得到分離后的單幀語音后,將同一基音周期軌跡段內的相鄰多幀按語音幀的位置對齊后進行疊加,并按參與疊加的語音幀個數取均值,來重構該語音段,即可得到目標說話人的語音。

6 實驗結果

為驗證方法的可行性,我們首先選用了女生語音“我不滿六周歲”,人工標記頻譜諧波位置后對原始語音進行語音重構效果試驗,實驗結果如圖5所示,聽覺實驗證明該方法能較好地恢復源語音。

圖5 原始語音重構效果

本文進行了一系列信噪分離實驗,噪聲可以是加性的,也可以是非加性的(非加性噪聲往往可以通過某種變換,轉化為加性噪聲)。加性噪聲分為沖激噪聲、周期噪聲、寬帶噪聲、語音干擾噪聲等。

1)沖激噪聲:如放電,點火,爆炸會引起沖激噪聲。

2)周期性噪聲:電動機,風扇等的周期性運行產生的周期性噪聲,頻譜中表現為離散的窄譜,通??梢酝ㄟ^陷波濾波方法去除。

3)寬帶噪聲:噪聲譜遍及語音信號頻譜,噪聲難以消除。

4)語音干擾:干擾語音信號與待傳語音信號由同一信道傳輸造成的干擾。

我們將語音信號與沖激噪聲、寬帶噪聲以不同信噪比(Signal-Noise Ratio,SNR)進行混合,分別進行分離試驗,結果如圖6~圖8所示

圖6 加入白噪聲去噪前后對比圖

圖7 加入沖激噪聲去噪前后對比圖

圖8 加入水聲去噪前后對比圖

實驗所采用的信噪比如式(9),其中 Ps和Pn分別代表信號和噪聲的有效功率。

聽覺實驗結果聽音效果良好,噪聲去除比較干凈,波形圖上也不難看出,濁音部分噪聲明顯減弱,證實了方法的有效性。

7 結語

本文介紹了一種基于基音周期的單通道信噪分離方法,首先以圖譜分析方法利用基音周期變化的連續性對基音周期進行了較準確的提取,后依據基音周期準確定位到說話人語音每幀頻譜中的諧波位置,以梳狀濾波方式提取目標頻譜,進而通過反變換與分幀疊加得到分離后的語音,實驗結果來看取得了較好的效果,驗證了方法的有效性。

猜你喜歡
信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
7個信號,警惕寶寶要感冒
媽媽寶寶(2019年10期)2019-10-26 02:45:34
孩子停止長個的信號
《鐵道通信信號》訂閱單
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
基于Arduino的聯鎖信號控制接口研究
《鐵道通信信號》訂閱單
基于LabVIEW的力加載信號采集與PID控制
Kisspeptin/GPR54信號通路促使性早熟形成的作用觀察
主站蜘蛛池模板: 久久亚洲美女精品国产精品| 亚洲成在线观看| 秋霞国产在线| 青青草国产免费国产| 999国内精品视频免费| 欧美激情二区三区| 久久香蕉欧美精品| 国产成人a毛片在线| 日韩精品毛片| 久青草免费在线视频| 久久久久久久97| 亚洲成人黄色在线观看| 欧美日韩一区二区三区四区在线观看| 久久精品人妻中文系列| 亚洲成年人片| 国产自在线播放| 国产理论最新国产精品视频| 2021国产精品自产拍在线| 欧美在线综合视频| 天天色天天综合| 91成人在线观看视频| 亚洲成人在线免费观看| A级毛片无码久久精品免费| 国产第一页亚洲| 波多野结衣一区二区三区四区视频| 97se亚洲综合不卡 | 色悠久久综合| 国产人成网线在线播放va| 伊人久热这里只有精品视频99| 99久久精品无码专区免费| 免费看av在线网站网址| 国产又色又爽又黄| 中文字幕一区二区人妻电影| 日韩一区精品视频一区二区| 91久久国产成人免费观看| 欧美伦理一区| 婷婷激情亚洲| 免费国产无遮挡又黄又爽| 日韩性网站| 色妺妺在线视频喷水| 亚洲Av综合日韩精品久久久| 色欲不卡无码一区二区| 九九视频免费在线观看| 丝袜高跟美脚国产1区| 无码福利视频| 毛片久久久| 欧美成人午夜视频| 久久一色本道亚洲| 在线99视频| 欧美中文字幕在线视频| 欧洲欧美人成免费全部视频| 欧美成人精品一区二区| 67194成是人免费无码| 亚洲精品免费网站| 欧美激情一区二区三区成人| 一区二区理伦视频| 影音先锋亚洲无码| 久久精品国产亚洲AV忘忧草18| 精品小视频在线观看| 国产成人免费高清AⅤ| 美女一级毛片无遮挡内谢| 伊人激情综合| 免费观看精品视频999| 国产第一页亚洲| 久久这里只精品热免费99 | 黄网站欧美内射| 日韩精品视频久久| 亚洲无码37.| 国产精品无码一区二区桃花视频| 亚洲第一黄色网址| 国产一区二区三区在线精品专区| 国产精品尹人在线观看| 欧美成人精品欧美一级乱黄| 在线一级毛片| 88av在线| 国产精品刺激对白在线| 爱做久久久久久| 亚洲第一中文字幕| 麻豆国产精品| 亚洲男女在线| 中国毛片网| 亚洲动漫h|