999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于鏈接時序分類的日語語音識別

2018-10-17 12:25:34健,
小型微型計算機系統 2018年10期
關鍵詞:模型系統

孫 健, 郭 武

(中國科學技術大學 語音及語言信息處理國家工程實驗室, 合肥 230027)

1 引 言

隨著深度學習的快速發展,神經網絡取代混合高斯模型[1](Gaussian Mixture Model,GMM) ,并與隱馬爾可夫模型[2](Hidden Markov Model,HMM)相結合,對狀態進行建模,使得大規模連續語音識別的性能獲得了顯著的提高.近年來,循環神經網絡(Recurrent Neural Networks,RNN)及其變體--長短時記憶網絡[3](Long Short-Term Memory,LSTM)成功應用于語音識別,解決了普通的深度神經網絡[4](Deep Neural Network, DNN)無法對語音信號時序特性建模的缺點,語音識別性能進一步提升.但是以HMM為框架的識別算法對語言學知識的要求較高,包括上下文相關音素狀態綁定,發音字典的準備等等,開發難度較大.另外訓練過程中,需要通過強制對齊,獲得幀級標注,任務復雜程度較高,且忽略了語音序列內在特性,無法全局優化整個語音序列.

為解決上述問題,A.Graves等人提出鏈接時序分類技術[5,6](Connectionist Temporal Classification,CTC)和端到端的識別系統,解決了輸入和輸出標簽對應關系未知情況下的序列分類問題,全局優化語音序列.與之前提到的混合模型不同,CTC不需要隱馬爾可夫模型,僅需要單獨的神經網絡即可完成整個語音識別任務.在基于CTC的端到端系統中,將語音序列直接映射到標注序列所在的空間,消減了發音詞典,語言模型等成分,極大地簡化了語音識別的步驟[7,8].

本文探討了日語語音識別的相關問題.日語是日本國的官方語言,日語中主要使用的文字包括平假名(例如:"あ"),片假名(例如:"テ"),和日語漢字(例如:"日本語").平假名包含了日語中所有的發音[9],片假名用于書寫外來詞,擬聲詞,擬態詞和一部分動、植物的名稱,日語漢字用于表示實物的名稱或動作.日語中一般混合使用三種字體,其中平假名和片假名一一對應,由于假名同音歧義的現象比較嚴重,因此日語中漢字使用十分廣泛,常用漢字有2000多個,而且所有的漢字均可通過假名表達.雖然日語中的發音單元并不多,但書寫單元種類繁多,表現形式復雜,因此以CTC技術為核心的端到端語音識別系統中,選擇合適的建模單元能夠對識別性能進一步優化.本文首先采用字型(gra-phoneme)即全部的假名和常用漢字共2795個單元進行建模,實驗結果與雙向長短時記憶網絡(BiLSTM-HMM)系統差距較大.進一步,在已經知道日語語音學知識的情況下,將其結合到端到端識別系統中.選擇以音素為建模單元訓練任務,系統性能得到提升.

在進行CTC的實驗中,我們發現字型作為建模單元的神經網絡輸出的后驗概率比較尖銳,隨機初始化的網絡容易陷入局部最優解,因此本文把以音素為建模單元的訓練模型作為初始網絡以提升前者模型的魯棒性,使得識別性能大幅提高,此外我們將傳統的語言模型與CTC相結合,系統效果獲得明顯的提升,超過當前主流的BiLSTM-HMM系統.

2 基于深度神經網絡的聲學模型

當前語音識別的主要方法是采用循環神經網絡(RNN)及其變體和隱馬爾可夫模型相結合進行聲學模型的訓練.循環神經網絡利用過去的信息,將上一時刻隱層輸出輸入到當前時刻的隱層中,保留了之前的信息,如圖1所示.語音信號作為一個時間序列,上下文依賴性較強,因此循環神經網絡很快被應用于語音識別.理論上RNN可以處理任意長的序列,但是由于梯度消失,導致RNN無法利用較遠時刻的信息.

圖1 RNN時間展開圖 Fig.1 Unfolded RNN structure

為解決這一問題,RNN衍生出一種變體--長短時記憶網絡[10](LSTM).原始的RNN網絡中,隱藏層只有一個狀態,無法解決序列的長時依賴問題,所以在隱藏層節點中額外引入一個cell單元,cell單元利用了門的概念,通過門的控制保留長時信息.Cell單元包含"輸入門","輸出門"和"遺忘門",其中輸入門決定當前語音信號如何保存到cell單元中,輸出門決定cell單元狀態如何作為隱藏層的輸出,遺忘門決定上一時刻的cell單元狀態如何保存到當前時刻的cell單元中.

圖2展示了cell單元的工作原理,輸入信號包括當前輸入信息xt,上一時刻隱藏層的輸出ht-1,以及上一時刻的cell單元狀態Ct,cell單元的輸出包括隱藏層當前狀態ht,以及Cell單元的當前狀態Ct.

圖2 cell結構 Fig.2 Architecture of memory cell

具體計算見式(1)到式(6),其中ft,it,ot分別表示遺忘門,輸入門和輸出門,° 表示按元素乘運算.

ft=σ(Wf[ht-1,xt]+bf)

(1)

it=σ(Wi[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(Wo[ht-1,xt]+bo)

(5)

ht=ot°tanh(Ct)

(6)

長短時記憶網絡利用cell結構解決了時間序列的長時依賴問題,有效使用了當前時刻之前的信息,然而在一些任務中,除了過去的信息,未來信息也很重要,因此雙向長短時記憶網絡[11]登上舞臺.本文在后續實驗中,采用雙向長短時記憶網絡完成CTC系統的搭建.

3 鏈接時序分類

3.1 鏈接時序分類簡介

鏈接時序分類(CTC)主要用于處理時序分類任務,尤其是輸入信號與目標標簽對齊結果未知的情況.鏈接時序分類技術在整個輸入序列的任何一點都可以進行標簽預測,解決了傳統語音識別中需要強制對齊的問題.通過鏈接時序分類技術進行神經網絡訓練的準則稱為CTC準則.

(7)

基于集合A′得到序列l,需要映射到集合A所對應的空間,因此定義函數F:A′T→A

(8)

O=-lnP(L|x)

(9)

3.2 目標函數計算

(10)

根據上述公式,目標函數可表示為時刻T輸出blank或者沒有輸出blank的前向概率之和,即:

P(L|x)=α(T,2M+1)+α(T,2M)

(11)

所有正確的路徑必須起始于blank,或者是L的第一個輸出標簽.

(12)

(13)

α(1,m)=0,?m>2

(14)

故前向概率的迭代形式如下:

(15)

其中

(16)

在每一個時間點都要考慮是否有足夠的時長來完成剩余序列,故前向概率需要滿足下式:

α(t,m)=0 ?m<2M-2(T-t)

(17)

同理定義后向概率β(t,m)表示滿足前向概率α(t,m),且從t+1時刻開始到輸出序列L結束的所有可能路徑的概率之和,計算過程與前向概率類似,不再贅述.

因此,在訓練樣本集合S={x,L}上的神經網絡的損失函數可表示為:

(18)

(19)

3.3 基于CTC的日語識別單元選擇

日語擁有復雜的書寫系統,主要包括平假名、片假名和日語漢字三種文字系統,同時也可以以日語羅馬字轉寫為拉丁字母.日語漢字的讀音復雜,大多包含音讀(音読)和訓讀(訓読)兩類,音讀將古代漢語讀音日語化,訓讀保留漢字含義,采用日語固有讀音方法,通常使用平假名和片假名為日語漢字注音(見圖3).羅馬字多用于商標和招牌,文章中一般很少使用.

圖3 假名注音方式 Fig.3 Pronunciation in kana

現在語音識別有發音字典,在圖4中,左邊是我們圖3中的假名以及漢字分詞后的詞單元,右側則是在經典的語音識別中用到的所謂音素,根據每個字的發音組成進行處理.

圖4 發音字典 左側是假名,漢字以及兩者構成的詞語,右側是音素組成 Fig.4 Pronunciation dictionary on the left side of the pronunciation dictionary are kana, kanji and the words formed by the two. The right side is composed of phonemes

在經典的DNN-HMM或者LSTM-HMM框架下,將圖4中的音素的綁定三音子單元(tri-phone)中的狀態作為神經網絡的建模單元.另一方面,采用CTC建模的策略下,可以直接忽略圖4所示的詞典,直接采用圖3所示的標注來進行模型訓練.本文中,采用兩種策略實現CTC的日語識別,首先是直接采用假名(平假名、片假名)和漢字作為聲學建模的輸出單元,也就是最常用的日語分詞都不再采用,直接根據字型(gra-phoneme)來做輸出單元,而不考慮這些字到底是單音節還是多音節,或者根本都無法組成一個音節,本文的策略對非拉丁字母的端對端識別具有一定的參考;第二種策略是,既然有日語分詞和日語詞典,我們將其應用到CTC的聲學建模中,也就是把一句話的gra-phoneme拆解成以單音素(mono-phone)為單元的音素串,但是采用CTC的優化準則來訓練聲學模型,從訓練語句一句話的角度來優化模型參數.

3.4 CTC模型訓練參數初始化

相對英語和漢語這兩種世界廣泛應用的語言而言,日語識別語料還是相對較少,如何在語料較少的情況下訓練一個穩健的聲學模型也是一個很重要的研究點.對于深度學習而言,首先采用相對好的參數來初始化模型參數,避免陷入局部最優解,是目前最常用的一種策略.最常用的初始化策略是采用大語種(如英漢)的模型參數作為初始值.故本文在搭建BiLSTM-HMM系統時,采用300小時的switchboard英語數據集的訓練結果作為初始網絡,增強系統魯棒性.

正像漢語一樣,日語中也存在著多發音字現象,而直接把字形拿來建模是無法考慮這種情況的;另外,不同字的字頻分布也很不均勻,在基于日語字的CTC系統的訓練過程中,我們發現隨機初始化的CTC相較于傳統的HMM模型,神經網絡輸出的后驗概率比較尖銳,訓練過程不穩定,容易過早收斂,陷入局部最優解.考慮到已經有日語的音素信息的詞典,而這種音素信息相對而言比較可靠,以音素為建模單元的模型相對而言穩健性更好,將其作為以字為建模單元的初始網絡,從而可以避免陷入局部最優解的不足.

4 實驗結果及分析

4.1 實驗數據集和實驗平臺

本文在King-ASR-117日語數據集上進行實驗.該數據庫收集了安靜環境下122945條語音數據,長達145.2小時,所有語音數據均為16KHz采樣率、16bit、單通道的格式.在實驗中我們挑選了~106.2k條語音數據(~123h)作為訓練集,~5.4k條語音數據(~6.21h)作為開發集,~2.5k條語音數據(~2.88h)作為測試集.本文以Kaldi[12]和Eesen[13]作為實驗平臺,比較了基于隱馬爾可夫模型的語音識別系統和基于鏈接分類技術的端到端系統的識別效果.

4.2 基于HMM的語音識別系統

實驗中將39維梅爾頻率倒譜系數 (MFCC特征)作為GMM-HMM混合系統的輸入信號,在GMM-HMM系統中,通過高斯分裂和決策樹聚類最終綁定狀態數目為12970,用得到的模型對訓練數據做強制對齊得到幀級標簽,作為后續神經網絡的訓練數據.

在LSTM-HMM訓練中,采用108維filterbank特征進行訓練.當前幀利用之前發生的40幀信號獲得過去信息,同時在輸入語音幀和輸出標簽中加入一定時延得到一部分之后的信息.網絡共有3層隱藏層,隱層節點為1024,輸出維度仍然是12970.

為更好地利用上下文信息,我們采用雙向長短時記憶網絡,BiLSTM-HMM系統與LSTM-HMM結構基本一致,只是在當前幀的前后各使用了40幀語音數據.另外,我們采用英語的SwitchBoard作為初始網絡來提高系統的識別正確率.

4.3 基于CTC的語音識別系統

基于鏈接時序分類的語音識別系統,擯棄了隱馬爾可夫模型,直接從輸入序列映射到輸出序列.本實驗中采取3層隱藏層,每層1024個隱藏節點的BiLSTM網絡,和108維filterbank特征進行聲學模型的訓練.我們訓練了兩個CTC的基本系統,一個是以字作為神經網絡輸出節點,也就是基于gra-phoneme的系統,另外一個是以音素為神經網絡輸出節點,也就是基于phoneme的系統.在這兩個基本系統的基礎上,用后者的訓練得到的網絡來作為初始網絡,再重新優化以字作為輸出節點的系統,得到識別性能更優的系統.

在搭建以日字為建模單元的CTC系統時,經統計,數據集中假名、漢字共有2794個單元,測試集中包含少量的集外英語詞匯,故添加1個blank單元,利用2795個建模單元進行實驗.實驗采取多句并行的方法,利用GPU,加快訓練速度.在實驗過程中,我們發現了不同單元詞頻差異很大,如圖5.這種字頻差異很大會導致模型相對魯棒性較差.

圖5 以字為建模單元,以頻率對不同建模單元分類Fig.5 Gra-phoneme as modeling unit, frequency of different modeling unit

考慮到資源稀疏性對實驗結果的影響,我們利用發音詞典,以音素為建模單元進行實驗,數據集中共有音素237個,加入blank后,網絡的輸出節點為238,統計各個音素出現的頻率如圖6所示,相對均衡性更好,訓練得到的模型理應更穩健.

圖6 以音素為建模單元,以頻率對不同建模單元分類Fig.6 Phoneme as modeling unit, frequency of different modeling unit

得到以音素為建模單元的CTC網絡后,將其作為日字CTC訓練系統的初始網絡,增強系統的魯棒性,避免訓練過程陷入局部最優解.

由于基本的CTC方法不考慮語言學知識,嚴重影響識別效果[14-16],因此本文采用加權有限狀態轉換機[17](Weighted Finite-State Transducer, WFST)的方法,將語言模型,詞典,標注符號打包在一起生成龐大的搜索網絡進行解碼,提高了解碼效率和識別的準確率.

以上描述的多個系統的識別詞錯誤率如表1所示.

4.4 實驗分析

在隱馬爾可夫模型的框架下,LSTM的實驗結果相較于GMM提高了6.57個百分點,可見神經網絡對人類認知世界的擬合能力非常強大.將LSTM替換為BiLSTM,神經網絡高效地利用上下文的信息,最終我們的基線系統詞錯誤率為16.22%.

表1 實驗結果 Table 1 Experimental results

在基于鏈接時序分類的語音識別系統,我們首先以日字作為建模單元(CTC-Gra-phoneme),隨機初始化網絡模型,詞錯誤率為17.80%.降低建模單元的顆粒度之后,利用音素作為建模單元(CTC-Phoneme),實驗性能得到進一步提升,詞錯誤率為17.37%,但相對于BiLSTM-HMM仍有差距,這主要是傳統的HMM建模單元采用的是三音子單元(tri-phone),而CTC采用的是單音子(mono-phone),區分性差一些.但是,將CTC-Phoneme系統得到的網絡作為初始模型添加到日字CTC系統中,最終詞錯誤率為15.53%,這也證明了將音素初始信息加入后,模型參數更加可靠穩健.

基于CTC的日字識別系統對日字進行建模,能夠從語音空間直接映射到手寫空間,針對日語中存在大量的同音歧義字,有比較好的建模能力.在下例中,標注為日語漢字,括號中是日語漢字對應的假名,表明其發音,其中"次官"和"時間"假名注解相同.可以看到CTC系統和HMM系統的識別結果發音相同,但是HMM系統的識別結果卻不同于標注.因此選擇端到端的方式針對日語語音識別具有一定的合理性.

例:

標注:次官(じかん) 空(から)

CTC識別結果:次官 空

HMM識別結果:時間(じかん) から

5 實驗總結

本文研究了基于鏈接時序分類的端到端技術,在日語數據集上,根據日語文字的特點,搭建了完整的語音識別系統,通過實驗比較了不同顆粒度建模單元對識別性能的影響,最終基于CTC的語音識別系統性能超越BiLSTM-HMM系統,證明了CTC技術在日語語音識別上的有效性,也驗證了如果能夠將音素信息結合到模型訓練中,可以進一步提升性能.

猜你喜歡
模型系統
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 91小视频在线观看| 亚洲天堂网2014| 狠狠色噜噜狠狠狠狠色综合久| 国产在线麻豆波多野结衣| 手机成人午夜在线视频| 欧美精品三级在线| 狠狠色丁香婷婷| 99精品欧美一区| 国产91av在线| 福利小视频在线播放| 国产免费黄| 欧美精品啪啪一区二区三区| 精品国产网| 九九久久99精品| 亚洲一欧洲中文字幕在线| 女人av社区男人的天堂| 老汉色老汉首页a亚洲| 色成人综合| 色婷婷国产精品视频| 欧美中文字幕一区| 五月天福利视频| 色婷婷丁香| 五月婷婷伊人网| 99re热精品视频国产免费| 在线精品视频成人网| 精品一区二区三区波多野结衣| 最近最新中文字幕在线第一页| 99一级毛片| 国产免费精彩视频| 波多野结衣无码中文字幕在线观看一区二区| 精品自窥自偷在线看| 激情成人综合网| 日韩高清中文字幕| 亚洲黄网视频| 97在线免费| 久久久久久久久亚洲精品| 亚洲综合经典在线一区二区| 91精品福利自产拍在线观看| 亚洲AV无码乱码在线观看代蜜桃| 黄色网站在线观看无码| 日韩国产一区二区三区无码| 国产精品女在线观看| 精品一区二区久久久久网站| 亚洲成肉网| 国产福利小视频在线播放观看| 国产乱视频网站| 青草午夜精品视频在线观看| 欧美日本二区| 亚洲国内精品自在自线官| 无码久看视频| 日韩欧美国产三级| 欧美亚洲一二三区| 激情综合图区| 亚洲中文久久精品无玛| 亚洲精品午夜天堂网页| 久久久久无码精品国产免费| 欧美性爱精品一区二区三区| 亚洲人成网站观看在线观看| 欧美v在线| 秋霞一区二区三区| 欧美在线国产| 国产丰满大乳无码免费播放 | 日本精品中文字幕在线不卡 | 免费在线国产一区二区三区精品| 久久免费观看视频| 国产精品中文免费福利| 超碰91免费人妻| 成人va亚洲va欧美天堂| 国产原创第一页在线观看| 久久亚洲国产一区二区| 亚洲男人在线| 国产日本欧美亚洲精品视| 日本道中文字幕久久一区| 国产精品刺激对白在线| 亚洲成人在线免费| 国产成人一级| 一本综合久久| 中文字幕永久视频| 91人妻在线视频| 亚洲天堂网在线观看视频| 欧美中文字幕在线视频| 成人在线观看一区|