999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NAO機器人的BLSTM-CTC的聲學模型研究

2021-08-09 10:53:20胡希穎王大東陳佳欣
智能計算機與應用 2021年3期

胡希穎 王大東 陳佳欣

摘 要: 針對于NAO機器人自身語音識別準確率低的問題,提出一種基于NAO機器人的BLSTM-CTC的聲學模型研究方法。基于BLSTM-CTC的聲學模型進行建模,以BLSTM為聲學模型和CTC為目標函數,以音素作為基本建模單元,建立中文語音識別端到端系統。實驗結果證明,本文算法相較于NAO機器人自身,取得了良好識別效果。

關鍵詞: 語音識別; BLSTM-CTC; NAO

文章編號: 2095-2163(2021)03-0076-05 中圖分類號: N33 文獻標志碼:A

【Abstract】Aiming at the problem of low accuracy of NAO robot's own speech recognition, an acoustic model research method based on NAO robot BLSTM-CTC is proposed.Based on the acoustic model of BLSTM-CTC, an end-to-end system for Chinese speech recognition is established by taking BLSTM as the acoustic model and CTC as the objective function, and taking phonemes as the basic modeling unit.Experimental results show that compared with NAO robot itself, the proposed algorithm achieves good recognition performance.

【Key words】 speech recognition; BLSTM-CTC; NAO

0 引 言

語音識別是語音信號處理領域的一項重要研究內容,其中的基于深度學習的識別方法則在近年來引起了學界的廣泛關注[1]。基于深度學習的識別方法是利用神經網絡來構建模型、訓練數據,并已取得了較好的識別效果,現正廣泛應用于智能家居以及相關的學術研究等領域。作為備受學界矚目的智能機器人,NAO本身自帶語音識別模塊,但卻因受到自身處理速度和存儲能力的限制,識別效果一般。考慮到NAO機器人自身的軟硬件資源較為有限,只依靠NAO自身來提高語音識別準確率的難度較大。基于此,本文即提出以了BLSTM[2]為聲學模型和CTC為目標函數,利用WFST進行解碼,對模型結構進行訓練和學習,并將其移植到NAO機器人上,從而獲得更好的識別結果,提升機器人的學習能力。

1 模型結構

LSTM(Long Short-Term Memory)最早由Hochreiter & Schmidhuber在1977年提出[3],后經Alex Graves完善并獲得廣泛應用[4]。LSTM主要由2部分組成。一個是傳統的外部RNN循環;一個是內部精致的“門”結構,包括sigmoid神經網絡層和按位乘法操作。LSTM的“門”分別是輸入門、輸出門、遺忘門,3個門控單元控制和保護cell的信息到細胞狀態[5]。LSTM基本結構如圖1所示。

圖1中,遺忘門f決定從細胞狀態cell中遺棄哪些數據信息。其對應數學公式可寫為:

細胞狀態cell確定可存放信息數據,輸入門it,確定信息的更新與否,并在tan h層創建新的候選向量t,如此則用新的主語來更新代替舊的細胞狀態。

2 基于連接時序分類的語音識別系統

采用傳統神經網絡訓練聲學模型方法時,先是根據聲學模型的基本單元進行建模,在訓練時還需使用GMM與標簽進行對齊,并將目標函數作為訓練標準。本文用BLSTM-CTC系統在訓練聲學模型時采用端到端的訓練方式,不同于傳統的混合方法基于eesen框架的RNN使用基于交叉熵(CE)準則訓練幀級標簽,而是采用CTC函數學習幀與序列的對齊,并使用WFST進行解碼[6],BLSTM-CTC系統結構如圖3所示。

2.1 連接時序分類CTC技術

CTC(Connectionist Temporal Classification)技術作為目標函數無需強制預先對齊輸入與輸出幀級別信息,可直接對標簽和語音特征之間的映射進行建模。RNN中softmax層的輸出序列、即CTC層的輸入,softmax層中的k個節點與CTC中訓練數據的標簽序列一一對應;對未輸出的標簽也需建模,在此基礎上,增加一個單元(blank)。假定長度是T的輸入序列x,輸出向量yt,在t時刻softmax分類層輸出音素或空白的概率k表示為:

CTC經過學習后得到由音素和blank組成的標注序列a的輸出路徑概率為:

由于標注的重復性和blank插入的影響,音頻序列與轉錄后去掉空白標簽的路徑具有多重對應關系,因此,輸入序列x對應的輸出標簽概率為:

其中,a→y的映射獲取β,β的逆過程表示為β-1,映射過程把空白類去除的同時將重復序列合并得到y目標函數,即:

通過已知的輸入序列找到最大概率的輸出路徑、即CTC網絡解碼的最佳路徑為:

CTC路徑求和隨著輸入序列的增加,計算復雜度越來越增大,為解決這一實際問題,在輸出序列z的首尾及每對輸出標簽序列之間插入索引是“0”的blank標簽,從而將得到的增廣式擴充標簽序列l=(l1,…,l2U+1)用于語音識別中前后向算法(Forward-backward Algorithm)計算路徑似然估計[7]。

標簽序列z的似然估計概率計算如下:

其中,t為1到T時刻中的任意一幀。CTC目標函數lnPr(z|X)對RNN網絡輸出yt求微分,則lnPr(z|X)相對于ykt的一階導為:

由式(11)可見,目標函數可進行微分,所以bt、bi、bo、bf在求導過程中誤差影響可以忽略,RNN在接收softmax層反向傳播過程中即可更新參數。

2.2 WFST解碼

一般情況下,應用于CTC訓練輸出模型的解碼方法均有些不足。一是不能把單詞級語言模型進行有效的整合[8];二是只能在特定約束條件下進行集合[9],因此需要高效解碼。本文基于發聲特點將語言模型、詞典和CTC輸出用WFST進行編譯,建立一個基于WFST的搜索圖實現高效完整性的解碼操作。WFST實質上是一個FSA(Finite-state Acceptor),相應的每個轉換都包含輸入符號、輸出符號和權重[10]。

WFST解碼由3個部分組成,分別是:標記(Token)、語法(Grammar)和詞典(Lexicon)。對此擬做闡釋分述如下。

(1)語法G:基于語言模型n-gram編碼了符合語法的單詞序列。初始節點用節點O表示,每個邊的權重即當前對應字或詞的概率。

(2)標記T:編碼了語音CTC標簽序列L到詞典單元L的一對多的映射關系(l)。在詞典單元中,幀級別標簽序列進行WFST存在空白標簽Φ和重復序列,例如處理五幀后的RNN可能存在的標記序列“AAAAA”、“ΦΦAAΦ”、“ΦAAΦΦ”,token的WFST可把上述三種序列均映射為一個“A”的詞典單元。

(3)詞典L:WFST將標簽序列L的詞序列映射到字序列進行編碼。空的輸入和輸出用表示。

3個獨立的WFST在編譯后,把語法G和詞典L進行組合獲得LG網絡,再通過確定化和最小化算法針對LG網絡進行處理,同時減少搜索圖的占用和優化WFST網絡,最終結合CTC標簽生成完整的搜索圖,也就是:

在搜索圖S中。T、min、det分別表示組合、最小化和確定化操作[11]。S通過編碼將獲取的CTC標簽映射到字序列,此方法較HMM模型CTC解碼速度和性能均大幅度提高。

3 實驗結果與分析

3.1 實驗數據集

本節的基于NAO機器人的BLSTM-CTC聲學模型研究是基于清華大學開源的THCHS-30中文數據集。該數據集是由50人錄制的、共計時長為35 h的聲音數據,數據中的采樣率和量化位數分別為16 kHz和16 bit。其中,訓練集占74.7%,共10 000句;開發集占6.7%,共893句;測試集則占18.6%,共2 495句,并且每個集合之間均不存在相同錄制人。語言模型為3-gram模型。

3.2 實驗設置

本次實驗中的硬件配置是Ubuntu Linux操作系統和NAO機器人的麥克風;實驗軟件配置是搭建TensorFlow1.5框架結構和Python2.7編程語言。實驗中搭建的基于BLSTM-CTC端到端語音識別系統,輸入特征參數MFCC幀長為256,Mel頻率倒譜系數為26,每個時間段有494個MFCC特征數,語音輸入的窗函數選用漢明窗。

3.3 實驗結果分析

端到端系統建模能力強于基線系統,但不同的網絡隱藏層數對系統性能的影響也存在差異性。表1給出了不同的隱藏層數,即2層、3層和4層之間系統的WER值對比。

由表1可知,LSTM網絡層數為3層時,相較于2層和4層,系統的WER值分別降低了1.01%和2.28%。當網絡層由2層豐富到3層時,結構得到完善,性能獲得提升;當網絡層由3層增加到4層時,由于訓練語料庫的短缺,導致網絡欠擬合,反而抑制系統準確率的提升。因此,3層的網絡系統結構最優。

本實驗的網絡模型結構是由3層全連接層網絡作為輸入,每層包含1 024個節點,設置最佳學習率為0.001,共進行120次迭代,每次迭代共循環267次,每次取8。訓練中選取句子字數相同、但循環次數不同的3組數據進行對比,分別是69、139和209,每次迭代訓練后均對訓練損失、錯誤率和訓練時間進行輸出。以音素為基本單元進行建模,輸出層激活函數是softmax函數,其輸出標簽數為47,其中包含一個靜音標簽和blank標簽以及45個音素。

文中選取前22次的迭代數據,分析3種不同循環次數進行對比,如圖4所示。隨著迭代次數的增加,在端到端語音識別系統中循環69次的正確率峰值最大;循環139次相較其他兩者識別變化更加穩定;循環209次初始錯誤率最低。可見循環次數越多,錯誤率越小。

不同循環次數BLSTM-CTC語音識別損失對比如圖5所示。由圖5可知,端到端語音識別系統循環次數69次時,初始損失為304.81,較其他兩者損失相比過大;當循環次數為209次時,初始損失則為292.24,當迭代數目增加時,損失均呈現逐漸下降趨勢,不同次數間的損失數值變化區別不明顯,可見循環次數越小損失變化越明顯。綜上可知,循環次數為209時,損失變動小,魯棒性更強。

BLSTM-CTC語音識別WER和損失變化則如圖6所示。由圖6可知,隨著迭代次數的變化,訓練損失大幅度降低,錯誤率變化不穩定,但趨勢處于降低狀態,最終的識別準確率為74.4%。實現NAO機器人語音識別魯棒性的有效提高。

NAO機器人、端到端系統對比見表2。表2中,針對NAO機器人自身和使用端到端系統二者進行對比,依據詞錯誤率(Word Error Rate,WER)作為評判標準。與最初的NAO識別準確率相比, BLSTM-CTC系統將WER值降低6.57%。研究中發現WER值成功降低,但仍存在一些不足, BLSTM-CTC系統訓練后不受外界附加條件影響和制約,但訓練時間長。由此可見,兩者魯棒性均獲得大幅度提高,但也都存在一定的弊端,因此,兩者可相互彌補在不同的硬件配置條件下的不足,通過多種方案均可有效改善NAO機器人WER值。

4 結束語

本文使用基于BLSTM-CTC的聲學模型進行建模,建立了中文語音識別端到端系統,應用于NAO機器人。實驗結果證明,使用端到端系統比NAO機器人自身的WER有了進一步的改善,為NAO機器人的語音處理領域提供了更多的思路。

參考文獻

[1] ?戴禮榮,張仕良,黃智穎. 基于深度學習的語音識別技術現狀與展望[J]. 數據采集與處理,2017,32(2):221-231.

[2] 姚煜. 基于BLSTM-CTC和WFST的端到端中文語音識別系統[J]. 計算機應用,2018(2):1-4.

[3] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8):1735-1780.

[4] SHERSTINSKY A. Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) network[J]. Physica D: Nonlinear Phenomena, 2020,404:132306.

[5] XU Y, MO T, FENG Q. Deep learning of feature representation with multiple instance learning for medical image analysis[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing( ICASSP). Washington DC: IEEE, 2014:1626-1630.

[6] FAHED A, GHALIA N. A multiple- hypothesis map-matching method suitable for weighted and box-shaped state estimation for location[J]. IEEE Transactions on Intelligent Transportation Systems, 2011,12(4):1495-1510.

[7] 鄭曉瓊,汪曉,江海升,等. 基于RNN和WFST譯碼的自動語音識別研究[J]. 信息技術,2019,43(6):115-120.

[8] PRICE M, GLASS J, CHANDRAKASAN A P. A low-power speech recognizer and voice activity detector using deep neural networks[J]. IEEE Journal of Solid-State Circuits, 2018,53(1):66 -75.

[9] 馮偉,易綿竹,馬延周. 基于WFST的俄語字音轉換算法研究[J]. 中文信息學報,2018,32(2): 87-93,101.

[10]ARMENI K, WILLEMS R M, FRANK S L. Probabilistic language models in cognitive neuroscience:Promises and pitfalls[J]. Neuroscience & Biobehavioral Reviews, 2017,83:579-588.

[11]JIANG B, CHAN W K. Input-based adaptive randomized test case prioritization: A local beam search approach[J]. Journal of Systems and Software, 2015,105: 91-106.

主站蜘蛛池模板: a级免费视频| 亚洲av无码成人专区| 日本www色视频| 亚洲自偷自拍另类小说| 成人av手机在线观看| 中文字幕在线日本| 亚洲国产成人精品一二区| 中文字幕欧美日韩| 色哟哟国产精品一区二区| 国产人人干| 亚洲中文无码av永久伊人| 日韩第一页在线| 91福利片| 91视频精品| 污污网站在线观看| 国产精品女熟高潮视频| 久久综合结合久久狠狠狠97色 | 五月天天天色| 园内精品自拍视频在线播放| 无码专区国产精品第一页| 中文字幕66页| 日本三级欧美三级| 亚洲精品不卡午夜精品| 亚洲 欧美 日韩综合一区| 伊人久综合| 亚洲天堂视频在线免费观看| 亚洲精品不卡午夜精品| 欧美日在线观看| 国产视频大全| 精品无码国产自产野外拍在线| 久久精品娱乐亚洲领先| 国产精品无码影视久久久久久久| 2022国产91精品久久久久久| 国产精品开放后亚洲| 亚洲国产欧美目韩成人综合| 国产成人久久综合777777麻豆| 手机成人午夜在线视频| 综合亚洲网| 亚洲精品男人天堂| 欧洲欧美人成免费全部视频| 蜜臀AV在线播放| 四虎影院国产| 国产精品无码作爱| 在线观看网站国产| 国产成人亚洲综合a∨婷婷| 日韩不卡免费视频| 在线a视频免费观看| 99色亚洲国产精品11p| 尤物在线观看乱码| 国产91在线免费视频| 亚洲五月激情网| 欧美精品v| 国产人成乱码视频免费观看| 毛片在线播放网址| 她的性爱视频| 亚洲第一区在线| 精品久久蜜桃| 国产原创演绎剧情有字幕的| 久久婷婷色综合老司机| 国产午夜不卡| 日韩a在线观看免费观看| 色老二精品视频在线观看| 91丨九色丨首页在线播放| 浮力影院国产第一页| 免费国产好深啊好涨好硬视频| 亚洲精品少妇熟女| 国产精品性| 久久人体视频| 国产浮力第一页永久地址| 一级毛片在线播放| 亚洲人免费视频| 丁香五月婷婷激情基地| 国产精品粉嫩| 欧美成人第一页| 亚洲一级毛片免费看| 免费人成网站在线观看欧美| 精品国产99久久| 乱系列中文字幕在线视频| 国产精品美女免费视频大全| 亚洲久悠悠色悠在线播放| 久久99热66这里只有精品一| 亚洲色图欧美|