999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的智能語音助手研究

2021-01-14 00:45:42唐永軍
現(xiàn)代信息科技 2021年12期

摘 ?要:隨著人工智能技術(shù)研究的進(jìn)步和深度神經(jīng)網(wǎng)絡(luò)的興起,基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型的應(yīng)用性能顯著提高。為進(jìn)一步促進(jìn)基于深度學(xué)習(xí)的語音識(shí)別技術(shù)的應(yīng)用,基于深度學(xué)習(xí)技術(shù)和CNN、GRU、Bi-RNN模型,文章探究了深度學(xué)習(xí)技術(shù)在智能語音識(shí)別任務(wù)中的應(yīng)用前景。以清華大學(xué)語音與語言技術(shù)中心(CSLT)出版的開放式中文語音數(shù)據(jù)庫(kù)THCHS30為實(shí)驗(yàn)數(shù)據(jù)集,該實(shí)驗(yàn)對(duì)所搭建模型進(jìn)行訓(xùn)練與測(cè)試,并將不同模型在訓(xùn)練不同輪次之后的詞錯(cuò)率進(jìn)行橫縱向?qū)Ρ取?/p>

關(guān)鍵詞:語音識(shí)別;聲學(xué)模型;神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào):TP181 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2021)12-0075-05

Abstract: With the progress of artificial intelligence technology and the rise of deep neural network, the application performance of acoustic model based on neural network is significantly improved. In order to further promote the application of voice recognition technology based on deep learning, this paper explores the application prospect of deep learning technology in intelligent voice recognition tasks based on deep learning technology and CNN, GRU, Bi-RNN models. Taking the open chinese voice database THCHS30 published by the Center for Speech and Language Technology (CSLT) of Tsinghua University as the experimental data set, the built model is trained and tested in this experiment, and the word error rates of different models after different rounds of training are compared horizontally and vertically.

Keywords: voice recognition; acoustic model; neural network

0 ?引 ?言

語言作為人與人之間的基本交流手段,在日常生活中起著至關(guān)重要的作用,其不但幫助人類有效實(shí)現(xiàn)信息互傳和互通,也具備實(shí)現(xiàn)人機(jī)溝通的應(yīng)用前景。隨著人工智能技術(shù)的不斷革新,國(guó)內(nèi)外聲學(xué)研究學(xué)者逐漸將其研究重心轉(zhuǎn)移至智能語音識(shí)別(Automatic Speech Recognition, ASR)之中,進(jìn)而催生了語音信號(hào)處理領(lǐng)域的進(jìn)一步發(fā)展[1]。具體而言,語音識(shí)別的研究主體為“語音”本身,結(jié)合語音信號(hào)處理技術(shù)和模式識(shí)別技術(shù)使機(jī)器自動(dòng)辨識(shí)和理解聲音發(fā)出者表達(dá)的意義,實(shí)現(xiàn)“讓機(jī)器能夠聽懂人說的話”的最終目標(biāo)。

在當(dāng)下計(jì)算機(jī)技術(shù)和信息處理技術(shù)共同高速發(fā)展的大環(huán)境下,實(shí)現(xiàn)人機(jī)交互的途徑呈爆發(fā)式發(fā)展。一方面,語音輸入作為一種高效、便捷、適用性強(qiáng)的人機(jī)交互方式,寄托著人們對(duì)實(shí)現(xiàn)與智能載體交流、溝通的巨大期盼[2,3]。另一方面,語音識(shí)別作為一種新興的交叉方向,需要以人工智能、語音語言學(xué)、通信、信號(hào)處理等各領(lǐng)域知識(shí)融會(huì)貫通實(shí)現(xiàn)。因此,語音識(shí)別的實(shí)現(xiàn)相較于一般人工智能任務(wù)具有更嚴(yán)峻的難度和挑戰(zhàn),但有效的語音識(shí)別的實(shí)現(xiàn)能在最大程度上提高人類社會(huì)的生產(chǎn)、生活質(zhì)量和效率,進(jìn)而推動(dòng)科學(xué)研究的發(fā)展與文明社會(huì)的共同進(jìn)步。

現(xiàn)階段,語音識(shí)別技術(shù)的成果已在較多工業(yè)領(lǐng)域得到應(yīng)用,主要包括計(jì)算機(jī)應(yīng)用、自動(dòng)化辦公、智能電子通信、新型國(guó)防技術(shù)等,智能語音的實(shí)現(xiàn)有效地推動(dòng)了上述產(chǎn)業(yè)的技術(shù)創(chuàng)新和產(chǎn)品創(chuàng)新[4,5]。例如,由Amazon公司出品的“Alexa”智能語音助理、Microsoft公司出品的“Cortana”人機(jī)交互器、Alibaba公司出品的“天貓精靈”等智能語音處理系統(tǒng)均帶來了極高的經(jīng)濟(jì)價(jià)值,同時(shí)促進(jìn)了科技進(jìn)步[6-8]。

簡(jiǎn)言之,語音識(shí)別技術(shù)發(fā)展的根本目的在于創(chuàng)造出一種具有聲音接受和含義理解的智能設(shè)備,并將這種具備了語音信息處理能力的智能設(shè)備作為一種新的交流對(duì)象融入人類社會(huì)的日常生活,進(jìn)而實(shí)現(xiàn)機(jī)器同樣具備聽、說、譯的能力,能對(duì)輸入語音做出必要理解和適度反應(yīng)[9,10]。同時(shí),上述的智能人機(jī)交互技術(shù)應(yīng)不受時(shí)間和地點(diǎn)等因素的限制,因此上述方向均是基于機(jī)器學(xué)習(xí)的語音識(shí)別應(yīng)用研究的重心所在。

面向于當(dāng)前語音識(shí)別技術(shù)的重要作用,本項(xiàng)目基于深度學(xué)習(xí)技術(shù)提出了以CNN、GRU、Bi-RNN為核心的新型的智能語言識(shí)別助手,并且本文以清華大學(xué)語音與語言技術(shù)中心(CSLT)出版的開放式中文語音數(shù)據(jù)庫(kù)THCHS30為實(shí)驗(yàn)數(shù)據(jù)集,分別訓(xùn)練和測(cè)試了上述模型,以詞錯(cuò)誤率(WER)為模型性能的評(píng)判標(biāo)準(zhǔn),將不同模型在訓(xùn)練不同輪次之后的詞錯(cuò)率進(jìn)行橫縱向?qū)Ρ?,并用錄制的語音進(jìn)行效果測(cè)試。

1 ?方法論

本章主要介紹實(shí)驗(yàn)所選用的CNN、Bi-RNN和GRU三種神經(jīng)網(wǎng)絡(luò)聲學(xué)模型、語言模型和涉及的算法并分析三種聲學(xué)模型的優(yōu)勢(shì)。

1.1 ?基于卷積神經(jīng)網(wǎng)絡(luò)的智能語音助手

1.1.1 ?卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種典型的前饋式神經(jīng)網(wǎng)絡(luò),其通過卷積計(jì)算實(shí)現(xiàn)輸入特征的自動(dòng)提取,并自動(dòng)保留高權(quán)重特征,過濾低權(quán)重特征。CNN主要包含以下優(yōu)勢(shì):

(1)局部連接,即CNN模型中各層的每個(gè)神經(jīng)元只和其中一部分神經(jīng)元相連,而非全部神經(jīng)元。

(2)參數(shù)共享,在CNN進(jìn)行特征提取時(shí),其通過卷積核滑動(dòng)運(yùn)算的方式與所在層的所有神經(jīng)元共享一組卷積核參數(shù)。

(3)下采樣:下采樣的實(shí)現(xiàn)主要通過卷積神經(jīng)網(wǎng)絡(luò)中的池化計(jì)算完成,以降低特征維度、減少特征數(shù)量,這將使網(wǎng)絡(luò)僅保留部分對(duì)分類效果提升貢獻(xiàn)更大的特征信息,自動(dòng)過濾低權(quán)重信息。本文所用的CNN模型結(jié)構(gòu)如圖1所示。

CNN通過多層感知機(jī)抽取模型輸入特征向量中的代表性特征,并通過池化對(duì)所提取的特征向量進(jìn)行降維,以完成對(duì)輸入數(shù)據(jù)的處理并完成重要特征信息的高效提取。

對(duì)于基本的CNN模型而言,其主要有輸入層、卷積層、隱藏層和全連接層構(gòu)成,而隱藏層中又主要包含激活層與池化層,其具體功能如下文所述:

(1)輸入:用于數(shù)據(jù)輸入。

(2)卷積:卷積層和池化層是CNN區(qū)別于其他類型神經(jīng)網(wǎng)絡(luò)的、獨(dú)有的結(jié)構(gòu),其中卷積層更是CNN的核心。卷積操作的實(shí)質(zhì)就是通過多個(gè)卷積核與輸入的特征向量進(jìn)行卷積計(jì)算。簡(jiǎn)言之,其通過卷積核在輸入圖像中進(jìn)行滑動(dòng)式特征提取,以返回特征信息。

(3)激活函數(shù):由于卷積是一種線性運(yùn)算,因此需要對(duì)卷積層輸出的結(jié)果做一個(gè)非線性映射,常用的激活函數(shù)ReLU(Rectified Linear Unit)具有更快的收斂速度和更簡(jiǎn)便的梯度求解方式:

(4)池化:池化層常置于卷積層之后,以實(shí)現(xiàn)特征降維、減少訓(xùn)練參數(shù)、降低模型計(jì)算復(fù)雜度,并防止訓(xùn)練過程中出現(xiàn)過擬合,有助于CNN提取深層次的特征。池化方案通常為最大池化(Max Pooling),通過池化操作,可以很大程度上減少模型的計(jì)算量和特征的尺寸,保留有用信息,剔除冗余信息,且使模型的泛化能力更強(qiáng)。

(5)全連接:全連接層將連接前層輸出的所有神經(jīng)元,以實(shí)現(xiàn)保留有用信息,減少特征信息損失的目的。

(6)輸出:用于最后輸出結(jié)果。

1.1.2 ?模型搭建

參考當(dāng)下應(yīng)用效果較好的CNN模型搭建方案,本項(xiàng)目中CNN模型中的結(jié)構(gòu)設(shè)置如下所示。其共包含10個(gè)卷積層、5個(gè)池化層和2個(gè)全連接層,且卷積填充(padding)為“same”;各卷積層的激活函數(shù)選用ReLU函數(shù),接著再輸出到下一層。本文CNN具體參數(shù)設(shè)置如表1所示。

1.2 ?基于門控制環(huán)單元網(wǎng)絡(luò)的智能語音助手

1.2.1 ?門控制環(huán)單元網(wǎng)絡(luò)

門控循環(huán)單元(Gate Recurrent Unit, GRU)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的變體,所以在介紹GRU之前先簡(jiǎn)單介紹RNN相關(guān)知識(shí)。RNN是一種隱層自連接網(wǎng)絡(luò),其對(duì)輸入序列數(shù)據(jù)上下文的依賴關(guān)系具有較好的表達(dá)能力,其結(jié)構(gòu)如圖2所示。

在每個(gè)步中,RNN模型對(duì)一個(gè)輸入xi和前一個(gè)節(jié)點(diǎn)的輸出執(zhí)行計(jì)算,生成的輸出hi將被用于下一個(gè)節(jié)點(diǎn)并進(jìn)行相應(yīng)評(píng)估。然而,在RNN模型的訓(xùn)練過程中,其存在長(zhǎng)期依賴的問題,即隨著時(shí)間增加,出現(xiàn)梯度消失現(xiàn)象。

GRU作為RNN的一種變體,能減少訓(xùn)練時(shí)間,并且使用的是能夠記住長(zhǎng)期依賴關(guān)系的網(wǎng)絡(luò)。通過更新門和復(fù)位門兩個(gè)門函數(shù)可以實(shí)現(xiàn)對(duì)輸入值、記憶值和輸出值的控制,GRU結(jié)構(gòu)模型如圖3所示。

其中zt代表更新門,rt代表重置門,σ為sigmoid函數(shù),輸入為當(dāng)下時(shí)刻的輸入x與上一個(gè)時(shí)刻的輸出ht-1,輸出這個(gè)時(shí)刻的輸出值ht,其公式為:

rt=σ(Wr·[ht-1,xt]) ? ? ? ? ? ? ? ? ? ? ? ?(2)

zt=σ(Wz·[ht-1,xt]) ? ? ? ? ? ? ? ? ? ? ? ?(3)

=tanh(·[rt*ht-1,xt]) ? ? ? ? ? ? ? ? ? (4)

ht=(1-zt)·ht-1+zt· ? ? ? ? ? ? ? ? ? ? ? ? (5)

其中[]表示向量相連,*代表矩陣乘積。式(2)、(3)表示利用xt和ht-1經(jīng)過權(quán)重相乘通過sigmoid,得到兩個(gè)門控值,式(4)中rt·ht-1表示重置之后的數(shù)據(jù),得到的,相當(dāng)于記憶了當(dāng)前時(shí)刻的狀態(tài),式(5)表示忘記傳遞下來的ht-1中某些維度信息,并加入當(dāng)前節(jié)點(diǎn)中某些維度的信息。

1.2.2 ?模型搭建

在本實(shí)驗(yàn)中,訓(xùn)練使用的模型結(jié)構(gòu)為2個(gè)全連接層+GRU網(wǎng)絡(luò)+2個(gè)全連接層,實(shí)驗(yàn)中模型采用ReLU激活函數(shù)、各層可訓(xùn)練節(jié)點(diǎn)數(shù)為512;設(shè)置四層GRU網(wǎng)絡(luò),一層GRU返回最后一個(gè)輸出,一層GRU向后處理輸入序列并返回反向的序列,再經(jīng)過add層將特征疊加,兩層GRU再跟一層add層為一組,均用he_normal進(jìn)行初始化。在模型的全連接層,全連接層節(jié)點(diǎn)數(shù)為1 420,且采用softmax函數(shù)為全連接層激活函數(shù)。同時(shí),為防止過擬合現(xiàn)象的發(fā)生且提高模型訓(xùn)練效率,本實(shí)驗(yàn)?zāi)P椭惺褂昧藃ate=0.5的Dropout層,且模型在訓(xùn)練過程中根據(jù)損失函數(shù)自動(dòng)更新權(quán)重。

1.3 ?基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的智能語音助手

1.3.1 ?雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-RNN)原理

Bi-RNN網(wǎng)絡(luò)是一種雙向的RNN模型,即使用兩個(gè)方向的RNN網(wǎng)絡(luò)。這可以使Bi-RNN 模型在學(xué)習(xí)到正向規(guī)律的同時(shí),還對(duì)反向規(guī)律進(jìn)行學(xué)習(xí),進(jìn)而提高循環(huán)網(wǎng)絡(luò)模型的擬合度,如圖4所示。

x代表一個(gè)輸入向量,A是一個(gè)向量,它表示隱藏層的值,y表示輸出向量。

如上所示,每個(gè)時(shí)刻正向?qū)W習(xí)的和反向?qū)W習(xí)結(jié)合起來完成t時(shí)刻的預(yù)測(cè)yt,式(6)是輸出層的計(jì)算公式,式(7)、式(8)是隱藏層的計(jì)算公式,它是循環(huán)層。G、f代表激活函數(shù),U、U′、W、W′、V和V′代表不同的權(quán)重矩陣。

1.3.2 ?模型搭建

本次訓(xùn)練使用的模型結(jié)構(gòu)為3個(gè)全連接層+Bi-RNN網(wǎng)絡(luò)+2個(gè)全連接層。全連接層除最后一層外,均設(shè)置為512個(gè)節(jié)點(diǎn),激活函數(shù)為RELU,使用偏置,用he_normal進(jìn)行初始化;Bi-RNN網(wǎng)絡(luò)采用GRU作為基本單元,向后處理輸入序列并返回反向的序列,用he_normal進(jìn)行初始化,與一個(gè)批標(biāo)準(zhǔn)化層和時(shí)間分布層連接。批標(biāo)準(zhǔn)化層能使訓(xùn)練更快,可以使用更高的學(xué)習(xí)率,最后一層全連接層節(jié)點(diǎn)數(shù)為1 424,最終結(jié)果輸出到softmax輸出層中。模型訓(xùn)練和測(cè)試的方式都和上述兩種網(wǎng)絡(luò)相同,訓(xùn)練階段通過計(jì)算損失、優(yōu)化器優(yōu)化損失函數(shù)來更新網(wǎng)絡(luò)權(quán)重,測(cè)試階段測(cè)試模型性能。為減輕網(wǎng)絡(luò)的過擬合問題,網(wǎng)絡(luò)模型除輸出層以外均采用了0.2的dropout結(jié)構(gòu)。

1.4 ?語言模型設(shè)計(jì)

詞頻統(tǒng)計(jì)被應(yīng)用于本項(xiàng)目中,以得到各個(gè)詞的概率跟前詞到這一個(gè)詞的轉(zhuǎn)移概率。同時(shí),THCHS-30的文本信息主要選取于大容量新聞,所以統(tǒng)計(jì)詞頻時(shí)選用語料庫(kù)為一篇新聞文獻(xiàn)。

其中,每個(gè)拼音可以對(duì)應(yīng)于多個(gè)漢字,而每個(gè)漢字每次僅有一個(gè)讀音。因此,將每個(gè)拼音所對(duì)應(yīng)的字從左向右依次連接,就成為一張有向圖,如圖5所示。

其中y代表拼音,w代表拼音的候選字,使用最短路徑算法尋找從起點(diǎn)開始到終點(diǎn)概率最大的路徑。本實(shí)驗(yàn)中設(shè)置第n步的閾值為[(0.001)]n,只保留大于閾值的路徑。

2 ?案例分析

特征提取、聲學(xué)模型、測(cè)試驗(yàn)證是語音識(shí)別算法的三個(gè)關(guān)鍵部分。由于神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)聲學(xué)模型有更好的效果,所以實(shí)驗(yàn)中采取CNN、GRU、Bi-RNN三種神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行對(duì)比實(shí)驗(yàn)。

2.1 ?特征參數(shù)提取

在基于機(jī)器學(xué)習(xí)的語音識(shí)別系統(tǒng)的應(yīng)用過程中,數(shù)據(jù)集準(zhǔn)備至關(guān)重要。具體而言,本項(xiàng)目選取清華大學(xué)的公用中文語音數(shù)據(jù)庫(kù)THCHS30進(jìn)行實(shí)驗(yàn),且該數(shù)據(jù)集語音數(shù)據(jù)詳細(xì)信息可在python數(shù)據(jù)庫(kù)中詳細(xì)了解。其主要分為四部分:A部分句子為ID(1~250),B部分句子為ID(251~500),C部分句子為ID(501~750),D部分句子為ID(751~1 000)。本實(shí)驗(yàn)在window10系統(tǒng)環(huán)境下的服務(wù)器上部署基于TensorFlow的深度學(xué)習(xí)庫(kù)keras,實(shí)驗(yàn)用Pycharm 2021.1進(jìn)行,編譯器使用Python3.7,進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的搭建、訓(xùn)練和測(cè)試。

首先,智能聲音識(shí)別系統(tǒng)將讀取樣本數(shù)據(jù),并進(jìn)行格式轉(zhuǎn)換,以音頻A11_0.WAV為例。音頻時(shí)長(zhǎng)7.8 s,采樣率16 kHz,采樣點(diǎn)124 800個(gè),先將音頻文件轉(zhuǎn)換為字符串,再轉(zhuǎn)換為short型數(shù)據(jù)。

之后,將信號(hào)進(jìn)行分幀,幀長(zhǎng)25 ms,加漢明窗以提供變換結(jié)果的分辨率,所加窗函數(shù)代碼為w = 0.54 - 0.46 * np.cos(2 * np.pi * (x) / (400 - 1) ),幀移10 ms,來彌補(bǔ)加窗造成的信號(hào)削弱。接著對(duì)一幀信號(hào)做快速傅立葉變換,取絕對(duì)值進(jìn)行歸一化處理,因?yàn)樵?00列數(shù)據(jù)的對(duì)稱性,取前200列數(shù)據(jù)。

最后,本實(shí)驗(yàn)進(jìn)行取對(duì)數(shù),進(jìn)行補(bǔ)0操作,將輸入data_input整形為[1 600,200,1]的三維數(shù)組形式,計(jì)算data_input的input_length數(shù)值。

2.2 ?模型訓(xùn)練細(xì)節(jié)及評(píng)價(jià)指標(biāo)

在模型訓(xùn)練階段,模型輸入為data_input和input_length,系統(tǒng)實(shí)驗(yàn)及測(cè)試為戴爾筆記本(操作系統(tǒng):Win10 64位;處理器:Intel(R) Core(TM) i5-7200U CPU @ 2.50 GHz 2.70 GHz;內(nèi)存:4 GB;軟件環(huán)境:python3.7),損失函數(shù)未CTC loss,優(yōu)化器未Adam,訓(xùn)練回合數(shù)為4 000回合,批次大小為8。

在模型測(cè)試階段,本實(shí)驗(yàn)選用隨機(jī)錄制的單聲道,采樣率16 kHz,采樣大小16 bits的語音及逆行識(shí)別,識(shí)別任務(wù)通過100個(gè)音頻來計(jì)算每條音頻的WER并取平均值。WER計(jì)算公式如式(9)所示:

WER=×100% ? ? ? ? ? ? ? ? ? (9)

其中,S為替換錯(cuò)誤詞的數(shù)量,D為刪除錯(cuò)誤詞的數(shù)量,I為插入錯(cuò)誤詞的數(shù)量。

2.3 ?實(shí)驗(yàn)結(jié)果與分析

2.3.1 ?測(cè)試方法

針對(duì)語音識(shí)別系統(tǒng)的性能測(cè)試主要進(jìn)行同一模型訓(xùn)練不同輪次對(duì)比和訓(xùn)練同一輪次時(shí)不同模型性能對(duì)比。

首先,本實(shí)驗(yàn)進(jìn)行了同一模型訓(xùn)練不同輪次對(duì)比,由于同一模型在訓(xùn)練輪次不一時(shí),準(zhǔn)確率也會(huì)不同,因此每個(gè)模型在訓(xùn)練時(shí)步長(zhǎng)設(shè)置為4 000,在訓(xùn)練4 000、8 000、12 000、16 000輪時(shí)進(jìn)行保存,取100條音頻文件進(jìn)行拼音識(shí)別并計(jì)算識(shí)錯(cuò)率,求取WER均值。測(cè)試方法采用控制變量法,在同一臺(tái)筆記本電腦上進(jìn)行訓(xùn)練避免由于處理器等設(shè)備不同,影響實(shí)驗(yàn)結(jié)果的可靠性。其次,本實(shí)驗(yàn)對(duì)訓(xùn)練同一輪次時(shí)不同模型性能進(jìn)行對(duì)比,不同的模型性能效果不同,因此在訓(xùn)練輪次相同的時(shí)候,取100條音頻文件進(jìn)行拼音識(shí)別并計(jì)算平均識(shí)錯(cuò)率,來對(duì)比不同模型的識(shí)別效果。

2.3.2 ?結(jié)果分析

在項(xiàng)目所提的各類模型訓(xùn)練完成后,本實(shí)驗(yàn)對(duì)其最終性能進(jìn)行評(píng)估,如表2所示。

橫向標(biāo)題表示模型訓(xùn)練的輪次,縱向標(biāo)題表示訓(xùn)練所用的聲學(xué)模型。根據(jù)實(shí)驗(yàn)結(jié)果繪制折線圖如圖6所示。

由圖6可知,每個(gè)模型在訓(xùn)練輪次增大的時(shí)候,性能都能得到提升,訓(xùn)練倫次由4 000變?yōu)?6 000時(shí),CNN模型識(shí)錯(cuò)率從20.94%下降到了0.84%;GRU模型識(shí)錯(cuò)率從47.04%下降到了5.80%,Bi-RNN雖然變化較小,但也從最初的3.84%下降到了1.98%。這表明每個(gè)模型在訓(xùn)練輪次增大的時(shí)候,性能都能得到提升。在模型訓(xùn)練過程中,可以觀測(cè)到loss值不斷下降,下降趨勢(shì)與學(xué)習(xí)率的設(shè)定有關(guān),在訓(xùn)練量足夠大時(shí),loss值會(huì)逐漸趨于穩(wěn)定并下降到一個(gè)較小的值。

縱向?qū)Ρ葋砜?,在?xùn)練4 000輪時(shí),Bi-RNN模型效果遠(yuǎn)好于CNN和GRU,訓(xùn)練輪次達(dá)到16 000時(shí),CNN的識(shí)錯(cuò)率在三種模型中最低,性能最好。由于本實(shí)驗(yàn)CNN網(wǎng)絡(luò)的結(jié)構(gòu)相比于其他兩種網(wǎng)絡(luò)更加復(fù)雜,在訓(xùn)練過程中,CNN網(wǎng)絡(luò)的訓(xùn)練所需時(shí)間明顯長(zhǎng)于GRU和Bi-RNN網(wǎng)絡(luò)。

本設(shè)計(jì)的識(shí)別結(jié)果誤差主要體現(xiàn)在設(shè)計(jì)模型時(shí),模型性能計(jì)算和最終匹配閾值也會(huì)一定程度上影響到結(jié)果,存在一定主觀誤差。

3 ?結(jié) ?論

面向于日益興起的人工智能技術(shù),進(jìn)一步將其應(yīng)用于產(chǎn)業(yè)實(shí)踐至關(guān)重要。其中,基于深度學(xué)習(xí)的智能語音識(shí)別技術(shù)作為當(dāng)下最熱門的研究方向之一,充分結(jié)合、應(yīng)用與創(chuàng)新將為科技發(fā)展注入新鮮活力。鑒于上述實(shí)際需求本文基于不同深度學(xué)習(xí)聲學(xué)模型提出了一種新型的智能語音識(shí)別助手,并以語音識(shí)別系統(tǒng)的識(shí)錯(cuò)率為評(píng)價(jià)依據(jù)對(duì)所提出方案進(jìn)行評(píng)估,其具體結(jié)論為:

(1)面對(duì)于語音識(shí)別任務(wù),本文首先介紹了基于深度學(xué)習(xí)的智能語音識(shí)別的技術(shù)基礎(chǔ),并對(duì)信號(hào)處理與特征提取過程進(jìn)行探討與研究,并對(duì)包括CNN、GRU、Bi-RNN在內(nèi)的三種深度學(xué)習(xí)智能語音識(shí)別網(wǎng)絡(luò)進(jìn)行對(duì)比與分析。

(2)在實(shí)驗(yàn)進(jìn)行中,以公用中文語音數(shù)據(jù)庫(kù)THCHS30為實(shí)驗(yàn)數(shù)據(jù),本文在window10系統(tǒng)下Python環(huán)境內(nèi)搭建實(shí)驗(yàn)所需模型,并基于Tensorflow及Keras工具箱搭建、訓(xùn)練和測(cè)試CNN、GRU和Bi-RNN三種聲學(xué)模型,并通過CUDA及Cudnn實(shí)現(xiàn)模型訓(xùn)練加速。之后,以聲學(xué)模型在測(cè)試集中的WER指標(biāo)為評(píng)價(jià)參數(shù),對(duì)訓(xùn)練后的三種模型進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)結(jié)果表明,GRU模型相比于CNN和Bi-RNN有著較大的性能提升;而在訓(xùn)練輪次達(dá)到16 000時(shí),CNN模型相比GRU和Bi-RNN有著最低的識(shí)錯(cuò)率。在訓(xùn)練輪次足夠多的時(shí)候能夠很好地實(shí)現(xiàn)語音轉(zhuǎn)文字。

(3)經(jīng)過三種不同智能語音識(shí)別模型的訓(xùn)練與測(cè)試,結(jié)果表明,本文所提出的三種不同的聲學(xué)模型均能夠?qū)崿F(xiàn)中文語音識(shí)別的功能。然而,在未來的研究過程中仍需要在模型選擇、模型優(yōu)化、算法優(yōu)化及語音識(shí)別模型抗噪性加強(qiáng)等方面進(jìn)行實(shí)驗(yàn)與創(chuàng)新。具體而言,隨著時(shí)代的發(fā)展,工業(yè)實(shí)際生產(chǎn)為語音識(shí)別的應(yīng)用提出了新的要求,且大量新興的模型搭建方案被不同學(xué)者所提出,因此,未來實(shí)驗(yàn)應(yīng)注重對(duì)新興技術(shù)的實(shí)驗(yàn)、分析與應(yīng)用。其次,模型優(yōu)化與算法優(yōu)化是快速實(shí)現(xiàn)基于深度學(xué)習(xí)的智能語音識(shí)別助手系統(tǒng)的核心所在,其同樣需要學(xué)者投入更多的精力。此外,語音識(shí)別模型抗噪性的優(yōu)劣與其語音識(shí)別效果直接相關(guān),而現(xiàn)階段的模型仍存在抗噪性較弱的現(xiàn)象,這需要學(xué)者們?cè)谖磥淼难芯恐羞M(jìn)一步解決與改善。

參考文獻(xiàn):

[1] 劉明珠,鄭云非,樊金斐,等.基于深度學(xué)習(xí)法的視頻文本區(qū)域定位與識(shí)別 [J].哈爾濱理工大學(xué)學(xué)報(bào),2016,21(6):61-66.

[2] 何湘智.語音識(shí)別的研究與發(fā)展 [J].計(jì)算機(jī)與現(xiàn)代化,2002(3):3-6

[3] 張會(huì)云,黃鶴鳴.基于異構(gòu)并行神經(jīng)網(wǎng)絡(luò)的語音情感識(shí)別 [J/OL].計(jì)算機(jī)工程:1-7[2021-05-14].https://doi.org/10.19678/j.issn.1000-3428.0061076.

[4] 陳方,高升.語音識(shí)別技術(shù)及發(fā)展 [J].電信科學(xué),1996(10):54-57.

[5] 袁翔.基于HMM和DNN的語音識(shí)別算法研究與實(shí)現(xiàn) [D].贛州:江西理工大學(xué),2017.

[6] 戚龍,趙丹.基于BP神經(jīng)網(wǎng)絡(luò)的非特定人語音識(shí)別算法 [J].科學(xué)技術(shù)與工程,2017,17(31):277-282.

[7] 劉加.漢語大詞匯量連續(xù)語音識(shí)別系統(tǒng)研究進(jìn)展 [J].電子學(xué)報(bào),2000(1):85-91.

[8] 杜利民,侯自強(qiáng).漢語語音識(shí)別研究面臨的一些科學(xué)問題 [J].電子學(xué)報(bào),1995(10):110-116+61.

[9] 宋麗亞.基于小波變換的說話人語音特征參數(shù)研究 [D].西安:西安電子科技大學(xué),2004.

[10] 李輝,倪時(shí)策,肖佳,等.面向互聯(lián)網(wǎng)在線視頻評(píng)論的情感分類技術(shù) [J].信息網(wǎng)絡(luò)安全,2019(5):61-68.

作者簡(jiǎn)介:唐永軍(1974.09—),男,漢族,內(nèi)蒙古臨河人,副教授,軟件工程碩士,主要研究方向:軟件工程、計(jì)算機(jī)技術(shù)及應(yīng)用。

主站蜘蛛池模板: 免费国产不卡午夜福在线观看| 激情视频综合网| 国产欧美精品专区一区二区| 另类综合视频| 一区二区影院| 国产成人精品第一区二区| 久久久久国色AV免费观看性色| 欧美另类图片视频无弹跳第一页| 国产成人8x视频一区二区| 国产区人妖精品人妖精品视频| 国产黑丝视频在线观看| 中国精品久久| 国产在线专区| 久久精品女人天堂aaa| 亚洲国产欧美自拍| 九色视频一区| 精品成人免费自拍视频| www欧美在线观看| 热这里只有精品国产热门精品| 日韩天堂视频| 亚洲欧洲日韩久久狠狠爱| 久久国产香蕉| 国产女人18毛片水真多1| 国产欧美在线观看一区| 亚洲性视频网站| 国产精品无码AV中文| 99热这里只有精品久久免费| 黄网站欧美内射| 国产第四页| 亚洲色图欧美激情| 久久精品人人做人人爽电影蜜月 | 亚洲综合一区国产精品| 大陆精大陆国产国语精品1024| 欧美日韩精品一区二区在线线| 在线国产91| 欧美亚洲第一页| 婷婷成人综合| 国产成人精品亚洲77美色| 国产精品成| 亚洲天堂777| 欧美成人二区| 伊人国产无码高清视频| 国产97视频在线观看| 亚洲国产一区在线观看| 精品视频第一页| 久久伊人色| 久久6免费视频| 国产亚洲欧美在线中文bt天堂 | 久久99国产综合精品1| 日韩区欧美区| 久久久久亚洲精品成人网| 国产青榴视频| 欧美国产日韩在线观看| 2019年国产精品自拍不卡| 久久久噜噜噜| 精品久久777| 久久国产高潮流白浆免费观看| 国产91全国探花系列在线播放| 97精品国产高清久久久久蜜芽 | 欧美精品高清| 国产视频资源在线观看| 国产99精品视频| 国产凹凸视频在线观看| 亚洲IV视频免费在线光看| 一级高清毛片免费a级高清毛片| V一区无码内射国产| 欧美在线一级片| 亚洲成在线观看 | 国产精品欧美在线观看| 精品国产Av电影无码久久久| 亚洲中文久久精品无玛| 日韩大片免费观看视频播放| 国产精鲁鲁网在线视频| 亚洲va欧美va国产综合下载| 欧美激情视频在线观看一区| 欧美精品综合视频一区二区| 欧美午夜网| 色成人亚洲| 青青青亚洲精品国产| 亚洲欧美综合在线观看| 亚洲婷婷在线视频| 又爽又大又黄a级毛片在线视频|