999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度雙向LSTM網絡的說話人識別

2020-06-12 09:18:12王華朋
計算機工程與設計 2020年6期
關鍵詞:數據庫

王華朋

(中國刑事警察學院 聲像資料檢驗技術系,遼寧 沈陽 110854)

0 引 言

研究說話人識別[1]的文獻非常多,目前主流的方法是基于i-vector或者GMM-UBM的說話人識別[2,3],并且逐漸出現了傳統方法與深度神經網絡(deep neural networks,DNN)相結合的研究[4],獲得成功的研究之一是使用局部連接網絡(locally connected networks,LCN)實現文本相關的說話人識別[5]。深度神經網絡也被用來作為語音特征提取器來表示說話人模型[6,7],有學者使用受限玻爾茲曼機[8]、深度置信網絡[9]等來開展說話人識別研究。鑒于CNN在計算機視覺方面獲得的巨大成功,不少學者使用CNN來提取語音的聲譜圖特征,進行類似于圖像識別的方法,進而進行文本相關的說話人識別[10-12]。但是CNN不能充分提取序列數據的特征,對于處理時序數據的能力不如循環神經網絡(recurrent neural networks,RNN)。在RNN的諸多結構設計中,LSTM神經網絡是應用最廣泛的RNN之一。目前,LSTM廣泛應用于語種識別[13]、語音情感識別[14,15]、音素分類[16]、語音識別[17,18]、唇語識別[19]等領域。在說話人識別領域,文獻[6]使用LSTM進行文本相關的說話人識別,本文提出使用雙向LSTM深度網絡進行文本無關的說話人識別,據作者調研,目前尚無應用深度雙向LSTM網絡進行說話人識別研究報道。

1 RNN與雙向LSTM

與前饋網絡相比,RNN是循環的,按照時間步進行反饋,這使得RNN特別適合學習序列信息,因為RNN按照時間順序提供了一種記憶模式。經典的RNN在當前的時間步和之前的時間步建立了直接連接,但是,當時間步跨度很大的情況下,這種直連不能有效學習時間序列之間的關系。因為,這種架構的網絡具有很多的反向傳播設置,當時間步數目較大的時候,就會導致梯度消失和爆炸的問題,目前,Hochreiter和Schmidhuber提出的LSTM是解決時間序列的最好方法[20]。許多其他學者也指出,使用嵌入記憶單元LSTM網絡結構來保存信息,對于處理較大范圍的信息關聯具有更好的性能[17,21]。

1.1 LSTM循環神經網絡

圖1描述了LSTM網絡的記憶單元。在循環神經網絡中,通過下面的公式的迭代,從時間步1到時間步T,對輸入向量序列x=(x1,…,xT),計算隱層向量序列h=(h1,…,hT)和輸出向量序列y=(y1,…,yT)

ht=φ(Wxhxt+Whhht-1+bh)

(1)

yt=Whyht+by

(2)

其中,W表示權重矩陣,比如Wxh表示輸入層到隱含層的權重矩陣,b表示偏置向量,比如bh表示隱層偏置向量,φ為隱層函數。φ函數的運算通過下面的公式來實現

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

(3)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

(4)

ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)

(5)

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

(6)

ht=ottanh(ct)

(7)

其中,σ為logistic sigmoid函數,i、f、o和c分別為輸入門、遺忘門、輸出門和記憶單元激活向量,它們和隱層向量h具有相同的大小。從記憶單元到門的權值矩陣(比如Wci)為對角矩陣。

圖1 LSTM記憶單元

1.2 雙向LSTM神經網絡

(8)

(9)

(10)

組合雙向RNN和LSTM即可得到雙向LSTM,該網絡可處理較大范圍的雙向輸入數據。

圖2 雙向循環神經網絡結構

2 實驗設置

2.1 實驗步驟

(1)配置實驗環境。實驗采用Matlab2018B軟件運行環境,硬件配置采用i7-6700HQ處理器,8 GB內存,單GPU NVIDIA GeForce 940MX顯卡;

(2)建立具有標簽的音頻數據庫;

(3)去除語音文中的靜音段和非語音片段;

(4)提取語音特征序列;

(5)基于特征序列訓練LSTM網絡;

(6)在訓練集上測量和可視化分類器準確度;

(7)創建測試語音庫,對完成訓練的LSTM網絡進行性能評測;

(8)去除測試數據庫中的非語音段,產生特征序列并通過訓練好的網絡,通過比較預測標簽和說話人真實標簽,生成訓練網絡的測試識別率。

2.2 數據庫

數據庫包含60名20歲左右年齡相仿(年齡差5歲以內)的男性說話人,每人錄音2次,錄音間隔約為30天,錄音方式為說話人朗讀指定的文本內容。錄音信道為固定電話線路,音頻經去除靜音段處理后,被分割成5 s時長的音頻文件,采樣率為8000 Hz,每名說話人錄音包含約10個左右的5 s時長的音頻文件,共790個音頻文件。從中隨機選取70%(550個)的音頻文件作為訓練LSTM網絡的樣本,剩余的30%(240個)音頻文件作為測試語音。

2.3 語音特征提取

本文提取了Mel-frequency cepstrum coefficients (MFCC)、Delta MFCC、Delta-Delta MFCC、基頻和諧波能量占比作為訓練LSTM的語音特征。MFCC的特征維度為13維,即13維的MFCC、13維的Delta MFCC和13維的Delta-Delta MFCC,加上基頻和諧波特征,共41維語音特征。在語音特征提取過程中,選擇窗的長度為30 ms的漢寧窗,窗之間的重復度為75%,每40幀語音特征組成一個序列。

2.4 雙向LSTM網絡設置

本文提出的深層雙向LSTM網絡結構如圖3所示。網絡第一層為序列輸入層,輸入數據的大小為特征的維度,即41;第二層為具有100個隱層節點的雙向LSTM網絡,用來傳遞信息到下一層;第三層為Relu層,第四層為具有100個隱層節點的雙向LSTM網絡,用來輸出序列的最后一個元素;第五層為全連接層,節點數目為說話人的數量;第六層為Softmax層;第七層為分類層。

網絡的迭代周期輸入設置為50,MiniBatchSize設置為128,即網絡一次訓練128個訓練數據;Shuffle設置為’every-epoch’,即每個周期訓練前都會隨機選擇訓練數據;LearnRateSchedule設置為‘piecewise’,即每5個訓練周期,學習速率按確定因子0.5降低。選擇ADAM(adaptive moment estimation)算法作為深度雙向LSTM網絡訓練算法,因為它比隨機梯度下降算法(stochastic gra-dient descent with momentum,SGDM)在RNN網絡訓練中具有更好的性能。

圖3 基于雙向LSTM的深度神經網絡結構

3 實驗結果及分析

圖4顯示的訓練過程的識別準確度變化曲線,即每次處理完mini-batch的分類準確度。圖5顯示的是訓練損失大小變化曲線,為每次處理完mini-batch的互熵函數值。分析上述兩圖可得,在迭代30個周期后,上述兩曲線即進入收斂狀態,識別準確率穩定在100%附近,互熵函數值穩定在最小值附近,說明本網絡還可以容納更大規模的說話人識別,對于組建大規模數據庫識別具有良好的潛力,從另一個方面也反映出該網絡不容易出現梯度爆炸或消失等問題,具有良好的穩定性。測試結果的識別準確率為97.92%,這對于只有5 s時長的短語音說話人識別是非常高的結果,并且本文數據庫只是年齡接近的男性話者錄音,如果在實際應用中擴大年齡段范圍或存在女性錄音,識別結果應該更高。

為清晰顯示訓練結果,本文以10人的混淆矩陣為例對結果進行說明,如圖6所示,縱軸表示真實類,橫軸表示預測類結果,圖中數字代表序列預測結果的個數,比如左上角234,表示有234個序列的預測結果為“0001 白天明”,每一行數字之和,表示某一個時長5 s的音頻去除靜音段后組成序列的個數,如果位于對角線上的數字越大,代表有越多的序列被正確歸類。圖7是按照“多數決定規則(majority rule)[22]”的訓練結果,對角線上的數字代表參與訓練的音頻文件的個數,按照多數決定規則,所有的訓練音頻都被正確分類。圖8、圖9為對應的測試集結果,按照多數決定規則,所有音頻文件的分類結果都是正確的,未出現梯度爆炸或消失的情況。

圖4 訓練過程的識別準確度變化曲線

圖5 訓練過程損失函數互熵值變化曲線

圖6 訓練集序列結果的混淆矩陣

圖7 訓練集單個音頻文件的混淆矩陣

圖8 測試集序列結果的混淆矩陣

圖9 測試集單個音頻文件的混淆矩陣

為評估該網絡的抗噪聲干擾特性,本文對數據庫中所有音頻文件分別加入不同程度的白噪聲進行測試,表1為不同信噪比條件下的測試結果。在普通辦公室環境(未加入白噪聲)下,準確率為97.92%,比使用相同數據庫文獻[23]中GMM-UBM方法的準確率提高1.92%。在信噪比為20 dB的條件下,準確率為95.83%,在信噪比為10 dB的條件下,準確率為94.17%,在信噪比為0 dB的條件下,準確率下降為72.92%。分析可得,只要語音的信噪比在10 dB以上,都可獲得令人滿意的結果,這對于只有5 s時長的短語音說話人識別,具有良好的實用價值。

測試結果得分為預測為某一個說話人的概率,其中,包含240個相同說話人語音樣本比對,14 160個不同說話人語音比對樣本。在相同人語音樣本測試中,97.5%的測試樣本的預測概率大于30%,絕大部分測試樣本的預測概率在70%以上,如圖10所示,說明預測結果能為實際應用提供更大的置信度;在14 160個不同說話人語音樣本比對中,預測概率大于10%的僅占0.4%,最高值為30%左右,絕大部分的預測概率都極低,說明錯誤認定的幾率非常小,能保證不同人不會被錯誤的認定為同一個人,適合在法庭說話人確認領域應用。

表1 不同信噪比白噪聲影響下網絡的正確識別率/%

圖10 相同說話人語音對預測概率分布

4 結束語

為拓展深度學習在說話人識別領域的應用,本文提出了一種端到端的基于深度雙向LSTM網絡結構的說話人識別方法。該網絡可充分使用語音序列數據的前后時間步的信息,增強了網絡上下層之間的聯系。在年齡相仿的60人男性漢語數據庫中,使用5 s時長的短語音,取得了97.92%的正確識別率。實驗結果表明,該網絡還具有更大的容積能力,適合進行大規模數據庫的說話人識別任務,并且對白噪聲表現出較強的魯棒性。鑒于基于深度學習的說話人識別的強大學習能力和抗干擾能力,為進一步讓深度學習技術在說話人識別領域走向實際應用,實際情況下常見的混合信道說話人識別是未來的研究方向。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 麻豆国产原创视频在线播放| 亚洲精品国产精品乱码不卞| 日韩人妻精品一区| 婷婷六月综合网| 69综合网| 夜色爽爽影院18禁妓女影院| 在线精品亚洲一区二区古装| www欧美在线观看| 国产精品视频系列专区| 亚洲熟妇AV日韩熟妇在线| 国产成人一区二区| 国产免费久久精品99re丫丫一| 高清码无在线看| 国产在线观看第二页| 国产91视频免费| 欧美成人免费午夜全| 色婷婷综合在线| 黄色网址免费在线| 亚洲91在线精品| 日韩欧美成人高清在线观看| 欧美国产日韩一区二区三区精品影视| 97青青青国产在线播放| 色噜噜在线观看| 99在线观看免费视频| 国产精品真实对白精彩久久| 亚洲天堂视频在线观看| 国产成人久久综合777777麻豆| 亚洲欧洲日韩国产综合在线二区| 高h视频在线| 91视频精品| 亚洲天堂成人在线观看| 国产精品欧美日本韩免费一区二区三区不卡 | 亚洲欧美国产五月天综合| 日韩在线欧美在线| 久久99热66这里只有精品一| 中文字幕人妻av一区二区| 玩两个丰满老熟女久久网| 日韩视频免费| 无码人妻热线精品视频| 国产精品久久久久久久久kt| 人人妻人人澡人人爽欧美一区| 日本久久网站| 精品1区2区3区| 久久黄色小视频| 天天综合天天综合| 国产精品福利尤物youwu| 无码aⅴ精品一区二区三区| 日韩乱码免费一区二区三区| 一级在线毛片| 色欲色欲久久综合网| 国产丝袜无码一区二区视频| 欧美综合区自拍亚洲综合天堂| 国产美女在线免费观看| 精品国产Av电影无码久久久| 国产高清精品在线91| 亚洲欧美在线精品一区二区| 国产成人久久综合777777麻豆| 99资源在线| 国产欧美日韩免费| 免费99精品国产自在现线| 小蝌蚪亚洲精品国产| 国产毛片基地| 狠狠久久综合伊人不卡| 亚洲人成网7777777国产| 欧洲一区二区三区无码| 亚洲日韩精品欧美中文字幕| 内射人妻无码色AV天堂| 在线视频亚洲色图| lhav亚洲精品| 亚洲日韩国产精品综合在线观看| 97在线免费| 亚洲码在线中文在线观看| 日韩A∨精品日韩精品无码| 午夜在线不卡| 国产精品毛片一区| 亚洲高清日韩heyzo| 亚洲Aⅴ无码专区在线观看q| 国产美女在线观看| 国产主播福利在线观看| 午夜福利无码一区二区| 国产h视频免费观看| 国产福利小视频在线播放观看|