基于HOPE-CTC的端到端語音識別

2021-02-25 05:51:24徐冬冬蔣志翔

計算機工程與設計 2021年2期

徐冬冬，蔣志翔

(中國航天科工集團第二研究院七〇六所，北京 100854)

0 引言

由于傳統語音識別系統[1]的流程繁瑣，不能高效地結合語言模型與聲學模型，端到端方法開始流行。目前端到端模型[2]主要基于兩種：一是連接時序分類(CTC)；二是注意力機制。CTC模型與傳統的DNN-HMM聲學模型不同，不需要在幀級別上對齊標簽，但算法的實現基于假設每幀的解碼條件獨立。純基于注意力機制的解碼過程則與幀的順序無關，忽略了語音的單調時序性，但預對齊過程會受噪聲影響。

針對上述兩種端到端模型缺乏先驗知識，不能有效進行參數初始化的問題，考慮到聯合優化正交投影和估計[3](HOPE)具有潛在特征交叉效果。本文提出采用基于HOPE-CTC的混合端到端模型。該模型首先采用CTC作為損失函數，在HOPE基礎上訓練獲得瓶頸特征，然后將具有高維表示的語音特征輸入注意力網絡，最后解碼輸入目標音素標簽。其中，HOPE的關鍵是融合了特征提取和數據建模，采用線性正交投影作特征提取實質上是降維處理，將原始相關性高的輸入特征映射成維度較低且線性無關的特征向量；采用有限的混合模型來逼近數據模型分布任務精度。并且將基于HOPE-CTC的瓶頸特征提取網絡置于注意力網絡的前端，可以有效減少編碼網絡中循環神經網絡的層數，加快模型訓練速度。該方法實現了兩種不同端到端模型的融合，并通過實驗驗證了該模型的有效性。

1 聯合優化正交投影和估計模型

聯合優化正交投影和估計被提出是為了探索神經網絡內部各隱層之間密切的相關性，并且發現對于有監督和無監督DNN的學習都非常有效。采用基于最大似然準則(maximum likelihood estimation，MLE)的HOPE學習算法，對無標注數據種進行DNN無監督學習輸出的特征，能夠作為SVM等簡單分類器的輸入，與使用帶標準數據進行有監督訓練的結果相比，可以取得一定的性能提升。

對于一個HOPE模型[4]，可以用如圖1所示的兩層網絡進行表示。其中，正交投影層借鑒了主成分分析的思想，將輸入數據映射到低維隱特征空間；輸出層采用有限個基于指數的混合模型，逼近隱狀態特征的分布精度。

圖1 HOPE模型表示為網絡結構

根據PCA[5]的理論，利用正交變換把線性相關的高維數據變量轉換為線性無關的主成分變量，其余的那些數據可以認為是噪聲數據，以達到高維樣本數據的特征降維。

對于任意的M維特征語音數據樣本x，通過線性投影得到N維的向量z，z=Ux。投影得到的(M-N)維噪音組成部分c,c=Vx。其中V和U均是正交投影矩陣，且相互正交。即滿足UUT=I、VVT=I和VUT=0。因此可以得到該投影過程表達公式如下

(1)

(1)首先，我們考慮如何學習投影矩陣U。假設上映射得到的z和c在隱特征空間相互獨立，可以將原始數據x的概率分布表示為

(2)

(2)最后，求信號投影成分的分布p(z)。本文的做法是假設z服從一個基于指數分布族的有限混合模型分布，使用一定數目的混合組成成分，無線逼近隱特征空間數據分布。由此可以得到信號成分z的分布

(3)

(4)

其中，μk表示第k個單峰指數分布的模型參數，CN(k)是相應N維特征向量上的概率規整項

(5)

Id(k)是d階修正的第一類Bessel函數，分布公式如下

(6)

這樣就得到了正交投影矩陣U和信號投影成分z在混合模型隱特征空間上的分布。理論上，HOPE模型中映射模型和混合模型的所有參數均可以使用最大似然估計訓練更新，然而由于混合模型分布的復雜性，使得無法直接計算參數的解析解。因此，模型訓練采用隨機梯度下降法，使分布函數的似然值[6]逐步最大化，從而聯合更新優化投影矩陣U和混合模型的參數。

為了應對輸入語音數據樣本的多樣性，能夠充分提取突出顯著特征，合理調整輸入和輸出特征維度顯得尤為重要。因此有些模型參數的選擇需要人為進行控制，選擇合適的N值將噪聲成分從目標信號中濾除，有效防止模型過擬合；單獨選擇K值，即上述公式中指數分布函數的個數，保證模型在對大量數據建模時，有一定的泛化能力。

2 基于HOPE-CTC的瓶頸特征提取網絡

瓶頸特征[7]是在多層感知(multiplayer perceptron，MLP)的瓶頸層中產生的特征，經過一定數目的非線性模型層之后，輸出前后相關的且有助于輸出分類的語音特征。一開始經常使用的深度信念網絡模型中神經元數量很少，隨著網絡模型深度逐步加深，在語音識別任務模型中引入瓶頸特性，以改善和簡化系統的性能。

本文提出的基于HOPE-CTC的瓶頸特征提取網絡訓練過程中，不依賴字典，將CTC[8]作為目標準則函數，擺脫對先驗對齊信息的依賴，網絡提取的HOPE瓶頸特征具有更強的區分性和有效性。

這里采用CTC，是因為傳統的混合神經網絡通常在語音識別中被訓練為幀級分類器，這需要對每個幀有單獨的訓練目標以及輸入音頻序列和轉錄序列之間保證對齊。由于語音信號的非穩定性，輸入語音特征序列的長度比音頻對應的文本序列的長度大得多，CTC函數層卻實現了直接預測從輸入語音幀特征序列到句子標簽序列的后驗概率的功能。CTC模型通常使用循環神經網絡的softmax層[9]的輸出作為CTC的輸入，并設置一個指示空白的附加標簽，用于估計在某些幀時刻不輸出標簽的可能性，進而保證輸出層中的節點與訓練樣本數據中的標簽序列一一對應。因此所有可能的句子標簽后驗概率都可以由softmax層節點分類輸出表示。引入空白標簽，讓網絡對當前輸入語音幀的判斷得到緩沖，很好解決了重復字符和連續標簽對齊的問題，真實句子標簽序列的后驗概率則為基于幀輸入的特征能映射成相應標簽序列的后驗概率的總和。

基于HOPE-CTC的瓶頸特征提取網絡系統結構如圖2所示。

圖2 基于HOPE-CTC瓶頸特征提取

原基于循環神經網絡的CTC模型包含四層LSTM層和一層softmax投影層。疊加多層循環神經網絡目的是提取輸入音頻幀相鄰序列的前后相關性，最后一層循環神經網絡的輸出經過softmax層映射到句子標簽序列。投影層神經元數目與輸入數據序列標簽個數相關，一般小于LSTM單元個數。

為了訓練基于HOPE-CTC的瓶頸特征提取網絡，在原模型四層循環神經網絡后面添加HOPE瓶頸特征層和全連接層。由于本文選用漢語拼音的58個聲韻母作為音素標簽，所以投影層節點數等同于包含空白標簽在內的59個所有可能標簽數。為了獲得有利于輸出分類的瓶頸特征，設置HOPE瓶頸層輸出維度與投影層節點數相接近。連接在第四層中的LSTM單元后的HOPE瓶頸特征層輸出維度為50，即上述K值是50，通過設置相對較小的瓶頸層，可以更緊密地壓縮顯著特征。增加的全連接層神經元數目為1024，這與循環神經網絡的隱藏層節點數相同。

在訓練過程中，HOPE瓶頸層可以盡可能地還原循環神經網絡層中的特征信息。采用標簽同步解碼算法[10]，通過與給定的真實標簽進行比較，獲得最終的CTC損失函數。通過不斷降低CTC損失值的訓練，預測結果逐漸接近真實標簽。

為了將將網絡中的知識遷移至注意力模型中，對于訓練好的基于CTC的連續語音識別系統，刪除網絡HOPE的瓶頸特征層之后的所有網絡單元狀態和連接權重參數，并將瓶頸層的狀態作為網絡的輸出，此時獲得基于HOPE-CTC的瓶頸特征提取網絡。

3 基于HOPE-CTC的混合注意力模型

基于注意力機制的端到端模型[11]主要包括編碼網絡、注意力子網絡和解碼網絡3個模塊。特征輸入和序列輸出同以上基于HOPE-CTC的瓶頸特征提取網絡模型設置。編碼網絡中的循環神經網絡由雙向GRU單元構成，可以同時接收和傳遞幀序列前后信息，增強輸入語音幀序列的長時相關性。

假定編碼網絡中輸入原始音頻特征序列(x1,x2,…,xT)時，輸出是高層表征的特征序列(h1,h2,…,hU)。

注意力子網絡主要是計算出編碼網絡的輸出h的權重分布。首先將解碼網絡當前步的隱藏向量si和hj進行計算得到一個能量系數eij，可以使用疊加神經網絡層或者求內積的方式。再經softmax層歸一化處理得到注意力系數αij，最后將高層特征序列和注意力系數加權求和得到注意力網絡輸出向量ci。具體計算公式如下

eij=Energy(si,hj)

(7)

(8)

(9)

解碼網絡的作用類似于語言模型，RNN當前位置的輸入包括上一位置的輸出，因此可以有效利用上下文信息。首先當前步的隱藏隱藏向量si是由上一步的隱藏隱藏向量si-1、輸出音素yi-1和注意力網絡輸出向量ci-1計算得到。最后使用當前步的注意力網絡輸出向量ci和隱藏隱藏向量si進一步獲得當前步的輸出音素yi。

然而，CTC模型輸出單元間作了的獨立性假設，導致在模型訓練過程中丟失了幀前后的聯系，而基于注意力機制的模型卻沒有假定獨立性。結合了CTC和注意力機制的端到端模型有助于解決輸入幀和輸出標簽序列不規則對齊的問題。基于HOPE-CTC的瓶頸特征提取網絡可以充分表達相鄰幀之間的聯系，并抽象出最有利于輸出分類的顯著特征。基于HOPE-CTC的混合注意力模型對輸入樣本序列沒有嚴格要求，并且對說話人和噪聲等干擾信息具有一定程度的魯棒性，從而提高了語音序列識別性能。這種混合模型將兩個主流端到端模型集成在一起，并且可以有效地將信息從基于CTC的連續語音識別系統轉移到注意力模型。

改進后基于HOPE-CTC的混合注意力模型框架如圖3所示。①特征輸入為Fbank特征序列x=(x1,x2,…,xT)，對應的輸出分類是音素標簽序列y=(y1,y2,…,yO)。②編碼網絡中添加了本文提出的算法框架，即將以上經過訓練的基于HOPE-CTC網絡提取到的瓶頸特征作為循環神經網絡層的輸入，并減少循環神經網絡層數為1層，得到具有更好區分度和表征能力的高層抽象特征序列h=(h1,h2,…,hU)。③注意力網絡同以上描述，是用來量化是編碼網絡得到的高層特征序列hj和解碼器隱藏狀態向量si之間的關聯程度，并計算出高層表征向量的加權和ci。解碼網絡由單層循環神經網絡和softmax層組成。解碼RNN第i步輸出的隱藏狀態向量si=RNN(si-1,yi-1,ci-1)，最后softmax層由隱藏狀態向量si預測分類當前步音素標簽yi。

圖3 基于HOPE-CTC的混合注意力模型

模型訓練采用梯度下降法，不難看出整個融合系統訓練目標是最大化標簽序列的后驗概率，目標函數可以表示為

(10)

其中，θ是模型參數，N是訓練集總數。

最后需要注意的是，聯合訓練優化整個融合系統時，固定基于HOPE-CTC的瓶頸特征提取網絡參數，不需要調整基于HOPE-CTC的瓶頸特征提取網絡中參數，只對注意力模型中剩下的1層循環神經網絡、注意力子網絡以及解碼網絡的全部參數進行更新調整。

4 實驗過程

4.1 實驗數據

實驗評估了分別采用純凈和含噪的數據集的方案效果。純凈語音數據來自中文語音數據集AISHELL-1，包含178小時來自400個說話人的普通話音頻和相應文本信息。AISHELL-1中的音頻數據重采樣為16 kHz、16 bit的WAV格式。開發人員將數據集分為3個部分：訓練集、驗證集和測試集。含噪語音是由加入NOISEX-92數據庫的工廠噪聲合成而來，其中純凈和含噪信號的平均信噪比約為6 dB。

4.2 參數設置

HOPE-CTC瓶頸特征網絡：以幀長25 ms、幀移為10 ms提取語音原始信息。音頻特征預處理設置濾波器組數目為40，得到高相關性的Fbank特征，前后拼接5幀共440維。輸出層單元數為59，分別對應59個聲韻母，其中一共有23個聲母、35個韻母和1個空白符。除輸入層外，4層LSTM均含有1024個單元。全連接層的維度為1024。HOPE網絡結構中M和K值分別選取90和50。

基于HOPE-CTC的混合注意力模型：GRU單元數目設置為256；設maxout網絡中隱含層數目為64；解碼網絡最后softmax層需要輸出58個聲韻母、空白符和序列終止符共計60個分類標簽的后驗概率，因此softmax層單元數設置為60。

4.3 訓練過程與評價指標

HOPE-CTC瓶頸特征網絡的訓練過程：采用CTC損失函數，觀察并記錄訓練過程中識別錯誤率有無收斂趨勢。模型訓練采用適應性動量估計算法(adaptive moment estimation，Adam)，加快網絡的收斂速度。再進行微調，將學習速率設置為0.000 01，采用隨機梯度下降算法用作模型的優化器，通過設置較低的學習速率，使得網絡優化更加穩定。

基于HOPE-CTC的混合注意力模型的訓練過程：通過上述目標函數式(10)，同上也采用Adam算法進行模型參數優化更新。整個訓練包括3個階段：第一階段，設置批大小(batch size)為16，使模型參數盡快收斂，提高訓練效率。到了第二階段，批大小為1，將隨機高斯噪聲添加到模型的所有參數中，然后再計算梯度，以增強模型的抗噪性能。HOPE-CTC瓶頸特征提取網絡的參數始終保持不變。第三階段的批處理大小為32。訓練HOPE-CTC瓶頸特征提取網絡參數時，學習率依次降低為原來的1/2。在上述3個階段中，若連續5次都沒有降低音素識別錯誤率，則判定模型收斂，自動停止訓練或者進入下一階段。

評價指標：考慮到輸出的音素序列為中文語音數據集AISHELL-1的識別結果，采用音素錯誤率(phone error rate，PER)進行評估

(11)

其中，I為插入錯誤，表示插入了一個標注序列中沒有的音素輸出；D為刪除錯誤，表示分類輸出序列中的音素被丟失；R為替代錯誤，表示標注序列中的音素被一個錯誤音素替代；N為訓練數據中的標簽序列音素總數。

5 實驗結果分析

為了驗證和測試基于HOPE-CTC的混合注意力模型的性能，對AISHELL-1數據集進行了音素識別實驗，并記錄了在純凈和嘈雜語音數據集上不同模型系統的音素錯誤率。在訓練音頻數據過程中，每次更新模型參數之前，都要記錄網絡輸出標簽的音素錯誤率，通過繪制圖像來比較原始模型和使用HOPE-CTC瓶頸特征提取網絡模型訓練的收斂速度快慢。同時更改HOPE-CTC網絡輸出的瓶頸特征維度，即混合模型個數K，比較使用不同結構瓶頸特征提取網絡獲得的抽象特征對模型識別效果的影響，并找出音素識別錯誤率最低的模型。

(1)基于HOPE-CTC的混合注意力模型與其它模型性能對比

表1列出采用不同結構網絡模型對應的音素錯誤率。通過表中縱向數據可得，在注意力模型編碼網絡中添加HOPE-CTC瓶頸特征提取網絡后，模型的識別性能得到了提升。分析原因是，編碼網絡采用深層結構后，輸入的語音數據樣本特征被映射為具有更強表征能力的顯著特征，有利于音素標簽輸出分類預測，從而有效地提高了識別性能。還可以得到，增加HOPE-CTC瓶頸特征提取網絡后分別在純凈和噪聲環境下最大有9.32%和15.31%的音素識別錯誤率降低，驗證了HOPE模型結構在語音識別上的有效性。其中線性正交分解，高度相關的高維原始數據被投影到較低維度的隱特征空間，有效保證了純凈語音和噪聲特征的線性無關性，有助于將信號中的噪聲成分濾除；有限的指混合模型逼近與音素相關的特征數據分布精度，盡可能描述對應標簽不同特征維度的差異性，有助與提高音素識別率。

表1 不同結構網絡模型在純凈和帶噪語音數據集上的音素識別錯誤率/%

(2)不同模型在訓練過程中音素識別錯誤率性能對比

圖4顯示了訓練期間不同模型的音素識別錯誤率的下降曲線。可以看出，圖中黑色實線，即融合HOPE-CTC瓶頸特征提取網絡的模型，與原始聯合CTC和注意力的混合端到端模型相比，音素錯誤率下降速度更快，收斂所需的迭代次數從136減少到87。這表明，在注意力模型前端添加HOPE-CTC瓶頸特征提取網絡，可以有效地提供語音特征的先驗信息，使得模型訓練收斂更快，融合HOPE-CTC瓶頸特征提取網絡一定程度上提高了注意力模型的訓練效率。

圖4 原始模型和融合HOPE-CTC模型在訓練過程中訓練集音素識別錯誤率

(3)不同HOPE瓶頸層特征維度對系統性能的影響

表2展示了使用不同維度的HOPE-CTC瓶頸特征提取網絡，即改變瓶頸特征輸出維數K值的大小，然后在AISHELL-1語料庫下一起訓練整個模型，得到的音素錯誤率數據。由表中數據可以得出，隨著K值的不斷增加，音素錯誤率呈現先下降后上升的趨勢，并且在K值為70時，達到音素錯誤率最低點。它表明適當增加瓶頸特征輸出維數可以得到更好的系統識別性能，但是當將其增加到一定數量時，結果反而將降低。由于本文設置AISHELL-1語料庫標簽為58個漢語聲韻母，能夠看出，當HOPE-CTC瓶頸特征提取網絡中瓶頸層特征數目與音素標簽數量相接近時，網絡結構具有更強的建模能力，進而有利于提升語音識別準確率。

表2 不同K取值對系統性能的影響

6 結束語

本文結合基于CTC和注意力機制的兩種端到端模型的優勢，提出將基于HOPE-CTC的瓶頸特征提取網絡與注意力模型融合的方法，充分考慮不同語音數據樣本分布的復雜性和差異性，有效提升系統識別的準確率。在純凈和帶噪的AISHELL-1 數據集中音素識別錯誤率分別低至10.31%和13.43%。同時，可以減少原注意力模型編碼網絡中堆疊多層的循環神經網絡，加快模型訓練速度。但是網絡的泛化能力很差，沒有驗證在不同數據集和低信噪比語音數據集上的識別效果。因此，結合深度學習的優勢，設計更加泛化能力更強的模型，克服環境因素帶來的影響，還是非常必要且很有價值的課題。