一種基于梯度的語音識別主動學習詢問策略

2021-06-16 02:19:22李詩銘陳昌勇

無線電工程 2021年6期

楊媛，李詩銘，陳昌勇，葉舟，李杰

(上海航天電子技術研究所，上海201109)

0 引言

隨著互聯網和大數據的發展，深度學習在許多研究和工業領域發展迅速，例如圖像處理、自然語言處理和語音信號處理。然而網絡采集的數據由于未標注并不能直接用于深度學習神經網絡的訓練，特別是在語音識別中，手工為上百小時的野生語音數據標注音標音素冗長且成本較高。

因此，為了解決標簽訓練數據規模大的問題，可以篩選出高價值數據的主動學習應運而生。一般來說，未經訓練的數據在深度神經網絡訓練階段的反向傳播中會得到更大的梯度，從而產生更好的訓練效果。而當這些數據的標簽存在時，這種方法稱為真實梯度長度(True Gradient Length,TGL)[1]。

盡管TGL是最理想的主動學習詢問方法，但在實際中并不能直接使用，仍然需要標簽數據集。目前，比較常用的2種主動學習查詢策略是信息不確定度[1-2]和模型改變量[3-4]。其中不確定度表示當前深度學習模型判定目標類別時的不確定程度，這一策略又細分為Least confidence[5]、Margin sampling[6]和基于熵(Entropy-based)的方法[7]。另一種選擇策略是在給定新輸入數據的情況下模型的變化。例如，期望梯度長度(Expected Gradient Length，EGL)[8]是計算反向傳播過程中梯度的變化，且該過程不需要真實數據標簽。此外，基于模型變化的方法還有Query-by-committee[9-10]和Density_weighted[11-12]。但常規的主動學習方法在衡量信息度方面相較于TGL仍有不足。

本文提出了一種新的主動學習詢問策略，即使用深度學習框架來估計TGL。經過分析，因為EGL和熵可以從不同角度評估數據信息量，將這2個方法作為深度神經網絡的輸入，經訓練后得到預測的TGL。本文將新提出算法與傳統主動學習策略在Connectionist Temporal Classification(CTC)[13]的音素識別系統中的性能進行對比，結果顯示，在干凈和含噪聲的語音環境中，使用估計TGL算法篩選數據得到的識別結果均優于僅使用傳統的單一方法。

1 主動學習

1.1 基于不確定度的主動學習

基于不確定度的方法是最簡單的主動學習查詢策略，它直接計算學習模型的后驗概率。而其中最廣泛使用的是如式(1)所示的基于熵的方法：

(1)

它考慮了輸出yi和其所有可能標簽J之間對輸入xi和參數θ的熵。經過良好訓練的數據在模型穩定后有較小的熵值，即系統的不確定性小，反之熵值大的一般為“Unseen”或未經訓練的數據。因為其他如Least Confidence和Margin Sampling方法只考慮一個或2個標簽的影響，它們并不適用于多類別問題，比如目標類別較多的語音識別和圖像分類。而熵的方法通過考慮所有可能的類別標簽來彌補其他方法的不足。

1.2 基于模型改變量的主動學習

最大模型改變量表示當輸入一個新樣本時會導致現有模型產生最大的變化。而改變量可以由梯度長度‖?θL(xi,yi:θ)‖體現。在實際應用中神經網絡學習算法并不會預知y的真值標簽，所以需要計算所有可能標簽的梯度期望值，然后選擇EGL最大的樣本實例，如式(2)所示：

(2)

2 基于多種詢問策略和神經網絡的主動學習算法

2.1 聯合詢問策略

文獻[14]提出上節中介紹的2種方法傾向于選擇不同類型的數據。圖1展現了EGL和熵的不相關性。因為它們的值在不同量級，所以圖中x,y軸表示的是歸一化等級。圖中的點越聚集在對角線附近，表明2種方法的相關性越高，即它們從非常相似的角度衡量信息度。反之，由圖中EGL和熵的點分散在各處，表示它們不相關，推斷出EGL能夠體現熵無法捕獲的信息度的獨特方面。因此，聯合使用EGL和熵可以獲得樣本更全面的信息量展現。

圖1 EGL和熵的不相關性Fig.1 Uncorrelation between EGL and entropy

為了結合2個不同的標準，應該分析每種策略的強度，或者通過強化學習或元學習處理[15-16]。由于這些方法需要非常復雜的訓練過程且具有巨大的計算復雜性，因此實際使用時是非常不便的。本文將使用神經網絡來結合2個策略的特征以逼近TGL真值。因為每個標準具有不同的動態范圍，所以首先應將所有標準(EGL、熵和TGL)都轉換至百分比維度，再饋入神經網絡以求得估計TGL值，如圖2所示。

圖2 通過神經網絡聯合EGL和熵逼近TGL真值Fig.2 Combining EGL and entropy to estimate TGL through DNN

2.2 在CTC-ASR中的應用

所提的主動學習詢問策略適用于任何基于深度學習的系統，本文將其應用于基于CTC的語音識別。使用CTC是因為它不需要準確的強制對齊過程即可確定語音標簽。要注意的是,CTC有一個額外的“空白”標簽來區分時間上的標簽變化，且其概率遠高于其他標簽，因此在計算熵總和之前應刪除“空白”，以免造成可能由標簽引起的偏差。另外為了降低EGL的計算成本，僅計算概率最高的前K個標簽，這些標簽可以通過波束搜索解碼(Beam Search Decoding,BSD)過程獲得，修正后的EGL計算如下：

(3)

上式表明,路徑概率首先與解碼結果相乘，再計算該加權CTC損失函數的梯度。

圖3展示了提出的方法應用于語音識別時主動學習的整體過程。首先ASR模型由標記過的小規模數據集進行預訓練，ASR使用的是Bidirectional Long Short-term Memory(BLSTM)循環神經網絡結構。接著將未標記的大型原始語音數據池輸入到預訓練模型中，通過諸如不確定性、EGL和提出算法之類的主動學習標準，選出最有價值的語音樣本，交給專家進行人工注釋。標注后，將這些實例合并到現有數據集中并重新訓練現有識別模型。重復此過程，直到獲得理想的ASR性能。

圖3 基于聯合主動學習策略的語音識別全過程Fig.3 Overall speech recognition process based on the combined active learning strategy

3 仿真校驗

本節主要通過Python軟件仿真驗證前文理論推導的準確性，將提出算法應用于語音識別后的性能和其他傳統主動學習方法進行比較分析。

3.1 實驗設定

語音識別實驗設定在安靜和噪聲2種環境中。對于無噪聲的安靜環境實驗，使用TIMIT語料庫，將其劃分為5個集合分別包含1 200，2 000，200，200和192個語音句子，用于預訓練、主動學習的無標簽數據池、TGL估計訓練、ASR訓練的驗證集和ASR的測試集。為了在含噪聲的環境中進行實驗，每個數據集都包含純語音實驗中使用的相同語音，再混合CHiME3語料庫的4種噪聲類型：巴士、咖啡廳、街道和行人。預訓練的語音以均勻、隨機的方式混合-5，0，5，10 dB信噪比的巴士，咖啡館和行人3種噪聲，其他數據集則混合所有噪聲種類，而測試集使用同種但不同環境下錄制的噪聲。綜上，在取整后，如表1所示，每組分別產生了3 000，10 000，600，1 000，1 000個語音樣本。

表1 數據集架構Tab.1 Dataset configuration

對于深度神經網絡ASR系統的特征提取，使用25 ms窗函數和10 ms幀偏移的40維Mel-filterbank。根據文獻[17]，本文使用折疊的39個音素標簽，而不是完整的64個。ASR性能的評判準則采用音素錯誤率(Phoneme Error Rate,PER)。ASR神經網絡在安靜環境實驗中由3層具有256個單元的隱藏層組成，在嘈雜環境中由4層包含512個單元的隱藏層組成。模型權重經過Xavier初始化后，由Adam優化器訓練。經CTC BSD過程確定，僅使用前50條可能路徑來計算EGL，從而減少計算量。

對于TGL估計神經網絡，由于訓練數據集容量小且特征維度不大，僅使用含有2層隱藏層(每層10個單元)的淺層結構，其具有ReLU激活函數和Sigmoid輸出函數，且使用均方誤差準則對其進行訓練。

3.2 實驗結果

為了闡明TGL如何優于其他查詢策略并證明所提方法與TGL具有相似的性能，實驗中將TGL和估計TGL、EGL、熵和隨機選擇方法進行了比較。

3.2.1 純語音(安靜環境)實驗

在實驗中，比較了純語音識別任務中的5種篩選策略。在每個選擇階段，選擇固定數量的樣本(來自未標記數據池的400個句子)。

圖4展示了每種方法的PER。實驗結果表明，4種主動學習查詢策略均優于隨機選擇方法，并且與其他3種方法相比，TGL的錯誤率顯著降低并具有更快的收斂速度。從圖中還可以看出，所提方法的訓練趨勢與TGL相似，都有最低的PER且所需的訓練時間更少。因此可以確認EGL和熵相結合能夠較為準確地近似TGL，并且可以用作主動學習的查詢策略。

圖4 純語音ASR PER結果Fig.4 PER results of clean speech ASR

3.2.2 噪聲語音實驗

為了驗證所提主動學習策略的泛化性能，將其應用于含噪聲ASR系統并分別評估每種噪聲類型下的性能。每個噪聲的選擇數據集包含2 500個語句，每個測試集包含250個語句，在每次選擇迭代中挑選1 000個樣本。

圖5顯示了整個測試集的PER曲線。與干凈語音條件下的實驗結果類似，4種主動學習策略均優于隨機選擇方法。TGL和估計TGL也顯示出更快的訓練速度和更大的PER降低。圖6描繪了當使用提出算法在主動學習過程中篩選數據時，每種噪聲類型的選擇率和PER降低率。可以看出，在前幾次迭代中，與街道噪聲混合的語句被選擇的頻率要比其他噪聲類型更頻繁，這是因為街道噪聲未包含在預訓練集中，它是“Unseen”的。但是，隨著混合街道的樣本數量增加，模型逐漸適應了街道噪聲的特征，挑選出的樣本中含有此噪聲類型的語句也隨之逐漸減少。同時，與前一迭代相比的PER減少量具有與選擇數量相似的變化趨勢，即初始比較陡峭，而后趨于平緩。

圖5 噪聲環境ASR PER結果Fig.5 PER results of noisy speech ASR

(a) 每一種噪聲類型的選擇比例

4 結束語

本文提出了一種新穎的主動學習詢問策略，可以從大量未標記的數據中有效選擇價值高的樣本，以減少人工標注的成本。相比于傳統方法,TGL可以更準確地展現信息量，新算法的主要思路是通過神經網絡結合EGL和基于熵的不確定性方法來估算TGL。通過音素語音識別的仿真結果也證實了所提出的估計TGL方法的有效性，該方法以更少的標注數據提高了性能，且減少了神經網絡的訓練時間。