999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的DNN瓶頸特征提取方法*

2019-05-31 03:19:14張玉來李良榮
通信技術 2019年3期
關鍵詞:特征提取特征信息

張玉來,李良榮

(貴州大學 大數據與信息工程學院,貴州 貴陽 550025)

0 引 言

語音識別技術已經被廣泛應用到社會很多的領域中(智能查閱、自動控制、文化、教育等),但傳統語音識別系統越來越難以滿足對海量數據建模的需求,自然語音對話識別的泛化能力差等缺點逐漸暴露,因此重點研究大詞匯量連續語音識別技術,進而提出更有效的語音識別方法,對推動人工智能語音產業的發展具有重要意義。

當前大詞匯量連續語音識別系統主要由三部分組成:特征提取、聲學模型建立、解碼[1]。其中在特征提取部分,主要是從原始語音中提取出有利于分類識別的語音特征,并對這些特征降維和后續運算處理。而當前很多算法都可以應用在語音特征參數提取中,其中梅爾頻率倒譜系數(MFCC)是應用最為廣泛的一種特征提取方式。以MFCC為代表的語音特征一般被稱為短時靜態特征,MFCC特征語音時長較短,一般每幀語音信號大約20~30 ms,因此導致其易受到噪聲干擾,而且特征之間相關性不高。另外一種特征提取方法——Mel標度濾波器組(Fbank)特征提取,與MFCC相比,Fbank不經過離散余弦變換的去相關操作,保留了更多的原始語音信息,特征之間相關性更高,并且減少了運算量。相關實驗表明:Fbank特征更有利于深度學習神經網絡(DNN)的訓練,但是冗余信息較多,說話人特征信息表征能力還是不夠強。

針對上述語音特征提取算法的不足,本文提出了使用L2,1范數懲罰函數和重疊組套索算法來改進深度神經網絡的語音瓶頸特征提取方法[2-4],將其用于解決冗余信息過多、表征能力不足的問題,能夠有效提高語音相關性信息的特征。

1 基于DNN的瓶頸聲學特征提取

近年來,深度學習廣泛應用語音識別,尤其是Grézl等提出了瓶頸深度置信網絡(BN-DBN)并應用于連續語音識別中[5],取得了很好的效果。瓶頸特征中的“瓶頸”就是指多層感知器(MLP)中位于最中間層的神經元(即瓶頸層),其個數相對于其它層要少得多,整個神經網絡酷似一個瓶頸[6]。瓶頸深度置信網絡通過引入瓶頸層,減少了輸出特征的維度、降低了后續的運算復雜度。

DNN模型有輸入層、隱含層、輸出層。同一層中節點間不能連接,相鄰層間的節點則采用全連接的方式;隱含層權值要通過當前網絡層以及前一層權值加權計算得到。

深度神經網絡瓶頸特征模型(BN-DNN)是在DNN模型的基礎上,在隱藏層之間引入瓶頸層來減少輸出特征的維度[7]。其模型結構如圖1所示。

圖1 BN-DNN模型結構

由于瓶頸層中的節點數量小于其他隱藏層,因此通過DNN的連續訓練盡可能地將后續分類信息壓縮為瓶頸單元的激勵信號。DNN中的每個隱藏層都可以視為多輸入特征的非線性變換。隱藏層的輸出是原始輸入的新表達形式。越深層的生成特征就越具有不變性和辨別性。通過DNN學到的特征表示在不同人和環境變化方面比原始特征更具有魯棒性。由于BN-DNN模型引入了瓶頸層,可以有效減少輸出特征的維度,以降低計算的復雜度。

訓練方法:以MFCC聲學特征作為輸入數據,首先,將BN-DNN當作深度置信網絡進行無監督預訓練調整網絡合適的初值,同時將MFCC未標注的數據輸入BN-DNN訓練,全面有效地提取語音特征;其次, BN-DNN進行微調優化,采用標注數據進行網絡的監督訓練,對網絡模型更加精細的調整;最后,BN-DNN模型提取出語音瓶頸特征[8-12]。語音瓶頸特征提取過程與原始語音特征提取過程不同,它是在原始語音特征的基礎上從BN-DNN中得到更具有說話人特性的語音瓶頸特征,該特征消除了冗余信息,其結構先驗信息更加突出。特征提取流程如圖2所示。

圖2 基于DNN的語音瓶頸特征提取流程

2 基于改進的DNN模型語音瓶頸特征提取方法

針對大詞匯量連續語音識別,目前基于DNN模型語音瓶頸特征提取方法在識別準確率的表現仍達不到期望目標,需要去掉大量的冗余信息,突出容易分類的說話人特性信息以至于特征數據不會過于龐大而增加不必要的計算量。此外,連續語音中前后幀信息之間具有一定的相關性,這些前后幀相關信息也是提高語音識別率的關鍵。

科學研究表明,人類大腦皮層中的神經元在處理信息的過程中是稀疏的,神經元在大多數情況下都處于非激活狀態。因此模仿人類神經系統,將DNN中不工作的神經元設置為非激活狀態,即對其進行稀疏化,并從中提取更有效的特征信息[13-15]。此外,對DNN進行稀疏正則化處理,在一定程度上提高了網絡的泛化能力。

套索模型是Tibshirani提出的基于正則化的能夠同時實現稀疏特征選擇和模型參數估計的方法。BN-DNN中重疊組套索算法是在將每層神經元分成幾個兩兩相互重疊,之后把組間的重疊結構作為先驗信息引入到懲罰函數中,對整個神經網絡進行稀疏化處理。

已知線性模型為:

其中,y=RN為響應向量,X∈RN×P為設計矩陣,β∈RP為回歸系數向量,b∈RN為誤差向量且全部誤差變量獨立同分布bn~N(0,σ2),n∈ (1,2,…,N),N為樣本數,P為變量數。

重疊組套索模型,將P個輸入特征分為J個組G={gj|j=1,2,…,J},其中gj∈ {1,2,…,P}表示組的索引集,且但不同的是重疊組套索模型允許相鄰組之間的特征出現重疊。則重疊組套索模型為:

本文采用損失函數為交叉熵,即對目標概率p(x)和sigmoid函數的輸出q(x)進行交叉熵運算。DNN網絡參數訓練采用反向傳播算法,其目標函數表示為:

加入L2,1懲罰函數λ||p(h=1|v)||2,1。得到最終的目標函數:

其中,||·||2,1為L2,1范數,p(h=1|v)表示隱含層神經元h的激活概率。對回歸系數進行懲罰來壓縮回歸系數的大小,較小的回歸系數自動被壓縮為0,從而使目標函數學習的結果具有重疊組稀疏的特征。選擇L2,1范數的原因有兩方面:在組間,L1范數可以促進部分隱含層單元組的范數為0;在組內,L2范數具有組內相關性特征選擇的作用。在語音瓶頸特征提取的過程中,BN-DNN參數訓練時不僅受到組間稀疏化影響,還受到組內不同語音幀之間相關性信息的影響,因此提取到的語音瓶頸特征具有前后幀相關性優點。

對于式(4)中的重疊組套索L2,1范數稀疏正則項分解得到:

其中,Gm表示M個重疊組中的第m組神經元,n為Gm中對應的第n個隱層神經元,p(hn=1|vl)表示第l層隱含層中第n個隱層神經元的激活概率。

確定目標函數后,利用梯度下降算法計算目標函數的對數似然概率,從而推導出針對重疊組稀疏正則項的更新公式:

因此可得到BN-DNN訓練的權值和偏置的更新公式:

其中,λ≥0,L表示BN-DNN的目標函數,Δwi,j表示從節點i到節點j的更新權值,Δbi表示節點i的更新偏置。改進后的語音瓶頸特征提取方法如圖3所示,在BN-DNN預訓練之后加入重疊組套索算法、L2,1范數稀疏正則化,在BN-DNN訓練的過程中進行稀疏化處理和參數調優。

訓練方法:第一步仍然是初始化初值;第二步在BN-DNN目標函數后加入L2,1范數懲罰函數,使目標函數學習的結果具有重疊組稀疏的特性;第三步將原始聲學特征MFCC作為BN-DNN的輸入數據,使用BP算法對BN-DNN的參數進行調優。在訓練的過程中,重疊組套索算法對回歸系數進行懲罰來壓縮回歸系數,當回歸系數較小時自動被壓縮為0,這樣在訓練參數的同時對系數進行稀疏化處理,逐層更新網絡權重集,獲得訓練好的稀疏BN-DNN模型;最后輸出瓶頸層的語音瓶頸特征。

圖3 改進的DNN語音瓶頸特征提取流程

3 實驗與結果分析

本文使用Kaldi語音識別開源工具箱進行實驗驗證分析,其部署在Linux系統上,本實驗選用500名說話人約5小時的Switchboard語音數據;測試集選用約1小時的語料庫。實驗中BN-DNN模型設置5個隱含層,將第3個隱含層設置為瓶頸層,其余各隱含層的神經元個數均為1 024;輸入數據為連續11幀的40維MFCC瓶頸特征,因此,輸入層的神經元均設為440(40×11)。本文將DNN網絡結構設置為:440-[1024-1024 -1024-1024-1024]-440。

首先確定最優參數每組神經元個數Q和稀疏組重疊系數α。實驗設置Q為64、128、256,重疊系數α為0%、20%、30%、40%。利用神經元中激活概率hi等于0的比例來度量網絡的稀疏性,稀疏度定義為:

其中,D表示一層神經元個數,hi(i=1,2,…,D)表示神經元,由式(9)可知稀疏度的區間為[0,1],稀疏度越大表示該隱含層中神經元越稀疏,即權值為0的神經元個數越多。對于每個模型,首先使用訓練集對模型進行訓練,得出每一層神經元中的激活概率,然后將其代入式(9)中即可計算出該層的稀疏度,最后,計算出所有隱含層稀疏度的平均值作為整個神經網絡的稀疏度[16]。重疊組套索稀疏DNN中不同Q和α情況稀疏度及詞錯誤率(Word Error Rate,WER)的變化如表1所示。

表1 不同Q和α情況稀疏度及WER的變化

從表1可以看出改進的重疊組套索稀疏BNDNN模型提取到的瓶頸特征比沒有稀疏的BNDNN(α=0%)模型識別效果更好,隨著稀疏度的增加,WER也會有一定程度的減小,但并不是稀疏度越大WER的值越小,當WER達到最小值16.29%后,其并不隨著稀疏度的增加而繼續減小,反而增加。所以稀疏度對WER有一定程度的影響,但并不是稀疏度越大越好,效果最好的參數選擇是每組神經元個數Q=128,稀疏組重疊系數α=30%。

在表1中重疊系數α=30%與α=0%相比,其WER平均降低了0.29%,這說明改進后的重疊組套索算法BN-DNN模型提取到的語音瓶頸特征能降低一定程度的錯誤率。其原因是將L2,1范數稀疏正則項作為目標函數的懲罰函數,提高了目標函數的泛化能力,從而識別率也相應提高。

本文為驗證改進語音瓶頸特征提取方法的有效性,設置Q=128,α=30%,網絡結構設置為440-[1024-1024 -39-1024-1024]-440,將其提取到的語音特征與MFCC、Fbank語音特征進行了對比實驗。實驗結果如表2所示。

表2 不同語音特征的WER

從表2中可看出與其它語音特征相比,改進的瓶頸特征的語音識別效果最佳,使用瓶頸特征均比其它聲學特征(MFCC、Fbank)的詞錯誤率低。其原因是瓶頸特征比一般特征更具有前后幀相關信息表達能力,能很好地利用結構先驗信息,同時利用重疊組套索算法對BN-DNN網絡中的目標函數進行稀疏正則化處理,有效控制了深度神經網絡的泛化能力,從而進一步提高了語音識別效率。

4 結 語

本文研究了聯合L2,1范數懲罰函數和重疊組套組稀疏改進BN-DNN的語音瓶頸特征提取方法,該方法將L2,1范數懲罰函數、重疊組套索模型與BNDNN相結合,目的是提取出低維、更具有表征能力的語音特征,該網絡架構是將兩個BN-DNN串聯,其中第1個BN-DNN主要用來對特征進行后驗概率估計初始化,減少外界干擾對特征的影響;第2個DNN將監督性信息嵌入到提取的特征當中,同時實現稀疏降維。最后通過實驗將該語音瓶頸特征與原始聲學特征進行實驗對比分析,驗證了該方法的有效性,為后續語音識別聲學模型環節提供較好的語音特征信息。

猜你喜歡
特征提取特征信息
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
Walsh變換在滾動軸承早期故障特征提取中的應用
軸承(2010年2期)2010-07-28 02:26:12
主站蜘蛛池模板: 久草国产在线观看| 亚洲无码高清免费视频亚洲| 日韩AV无码一区| 人妻出轨无码中文一区二区| AV不卡无码免费一区二区三区| 亚洲天堂网在线观看视频| 热九九精品| 日本在线免费网站| 国产18在线播放| 久久人体视频| 久久久久免费精品国产| 欧美精品影院| 欧美国产日本高清不卡| 99久久国产综合精品2020| 91色国产在线| 婷婷99视频精品全部在线观看| 国产成人高精品免费视频| 日韩福利在线视频| 在线观看91香蕉国产免费| 五月天天天色| 精品国产污污免费网站| 伊人成人在线| 午夜福利无码一区二区| 日韩在线影院| 亚洲成人高清无码| 亚洲精品片911| 国产麻豆精品久久一二三| 精品撒尿视频一区二区三区| 97青草最新免费精品视频| 不卡国产视频第一页| 国产精品分类视频分类一区| 国产国拍精品视频免费看| 青青草国产在线视频| 中文字幕久久亚洲一区| 精品一区二区三区中文字幕| 久久香蕉国产线看观看亚洲片| 国产男人天堂| 夜夜爽免费视频| 亚洲美女一区| 久久美女精品国产精品亚洲| 国产欧美精品一区二区| Aⅴ无码专区在线观看| 99在线免费播放| 婷婷五月在线| 麻豆精品国产自产在线| 全部无卡免费的毛片在线看| 亚洲欧美激情另类| 欧美日韩成人在线观看| 国产成人无码AV在线播放动漫| 国产在线观看成人91| 国产成人免费观看在线视频| 亚洲一区色| 日本成人一区| 中文无码日韩精品| 久久99国产乱子伦精品免| 精品人妻系列无码专区久久| 国产情精品嫩草影院88av| 99精品免费在线| 中文字幕永久在线观看| 欧美日韩午夜| 就去色综合| 色亚洲激情综合精品无码视频 | 国产在线精品美女观看| 91免费国产高清观看| 波多野结衣二区| 欧美 亚洲 日韩 国产| 四虎永久免费地址| 成人在线亚洲| 蜜臀AV在线播放| 国产大片黄在线观看| 精品国产毛片| 国产成年无码AⅤ片在线| 国内精品久久人妻无码大片高| 亚洲性视频网站| 欧美在线国产| 性色在线视频精品| 日韩av高清无码一区二区三区| 亚洲天天更新| 国产在线观看91精品| 国产香蕉97碰碰视频VA碰碰看| 免费a在线观看播放| jijzzizz老师出水喷水喷出|