吳敏,馬延周
(1.信息工程大學洛陽校區語言信息處理系,洛陽471000;2.信息工程大學洛陽校區基礎系,洛陽471000)
語種識別,即語音的自動語言辨識技術就是通過計算機識別出語音段所屬語言的過程。語音識別是通過計算機識別語音信號對應的文字信息,在上世紀語音識別的研究都是基于單一語種的,識別系統并沒有考慮到語音信號可能來源于不同的語言,因此隨著語音識別技術的不斷發展,并且考慮到語音信號中可能出現的多語種現象,作為語音識別的重要分支的語種識別技術被提了出來。通過提供包含不同語言對應的語音信號,能讓系統識別出語音信號所屬語言。
語種識別在信息檢索和軍事領域都有很重要的應用,包括自動轉換服務、語音實時翻譯、多語種信息補償等。在信息服務方面,很多信息查詢系統數據庫都包含多語言數據,并提供多語言服務,在以往通過用戶選擇特定的語種來對數據進行增刪改查等操作。這類服務被廣泛應用于旅游行業、應急服務、客服服務以及購物和銀行業務。最常見的例子是手機營業廳的電話客服服務,在最開始的機器處理過程中就提示用戶選擇語言。語種識別技術還能夠用于多語言機器翻譯,可以被應用在機器翻譯系統前端,在一對一的多語言機器翻譯系統中,必須先確定語言類型,才能通過特定的語言到語言的翻譯系統對語音進行翻譯。另外,在語音實時翻譯系統即直接將一種語言轉換成另一種語言的通信系統中也使用了語種識別技術。此外語種識別在軍事上還可以用來進行說話人的信息識別,通過語種識別出說話人的身份信息和國籍,來對說話人進行監聽或識別。隨著全球的發展日趨國際化,語言問題已經越來越受到關注,語種識別更是作為一種代表技術越來越顯示出其應用價值。
語種識別系統的從某種意義上看也是一種分類系統,因此系統最重要的就是找到分類(即識別)的關鍵特征。由此,隨著人們對聲學的研究,語種識別技術的發展經歷了以下幾個階段:首先是上世紀60 年代隱馬爾科夫模型(Hidden Markov Model,HMM)的問世,被廣泛地應用到了各種統計學的模型中,出現了基于HMM的語種識別系統;在此之后人們對聲學進行了研究,出現了基于音素識別器的語種識別方法[3];隨著人們對語音信號以及人耳結構特征、聽音特征的研究深入,出現了以梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC)為代表的基于底層聲學特征的語種識別方法[4];為了進一步提升語種識別的準確率,減少噪聲的干擾,出現了許多基于其他特征(例如韻律特征)的語種識別方法[2]。
廣義的語種識別包括對文本進行語種識別和對語音進行語種識別,本文介紹的都是根據語音進行的語種識別,以下簡稱語種識別。
語種識別主要分三個過程,首先根據語音信號進行特征提取,然后進行語種模型的構建,最后是對測試語音進行語種判決[5]。訓練過程只需要建立不同語種的語音特征相關模型,測試過程根據不同的識別策略對待識別語音信號的特征進行處理,如圖1 所示。在訓練階段,系統首先對語音信號進行預處理,方便系統提取不同種語音數據的特征,然后用提取出的特征構建一個特征向量序列,利用特定的特征訓練算法,產生一個或多個包含語種信息的模型并存儲起來。在識別階段,同樣需要對待識別語音信號進行預處理、特征提取并構建向量,然后采用一些分類模型或者算法,根據訓練階段訓練好的對應語種模型進行相似度度量,根據相似度來判決待識別語音的語種。

圖1 語種識別一般過程
本文將語種識別系統分為了兩類,一類是基于目前研究熱點——深度神經網絡的語種識別系統,稱之為神經網絡語種識別系統,另一類未使用神經網絡的稱為傳統語種識別系統。
傳統的語種識別系統包括基于HMM 的語種識別、基于音素識別器(Phoneme Recognizer,PR)的語種識別、基于底層聲學特征的語種識別等。
(1)PR 的語種識別系統
本文選取了兩種傳統語種識別方法進行介紹,分別是基于PR 的語種識別和基于底層聲學特征的語種識別。選取這兩種作為傳統語種識別系統的代表進行描述。基于PR 的語種識別利用音素識別器,對訓練語音進行轉換得到一個最優的音素序列,然后根據這個序列,生成N-Gram 基元,通過對基元采用統計語言模型(Language Model,LM)或者支持向量機(Support Vector Machine,SVM)來進行分類,即識別。整個系統是建立在LM 或SVM 模型上的,音素識別器只用于獲取特定的分類特征。整體過程如圖2 所示。在基于音素的語種識別系統中,PR 是一個與語種識別任務無關的黑盒子[2],語種識別系統所需要的,是在給定的PR 下識別出來的序列因語種的不同而產生的差異,采用音素搭配關系來作為語種識別差異,也就是說不同語種的語音信號經過音素識別器得到的最優序列會有所差異。

圖2 基于音素識別器的語種識別
(2)基于底層聲學特征MFCC 的語種識別
隨著人們對人耳構造的進一步研究,有學者發現人類聽覺系統所感知到的聲音頻率(單位:Mel)與該聲音的物理頻率(單位:Hz)并不是完全線性的對應關系,而是在一定范圍內呈對數關系。另外,還存在屏蔽效應,即當兩個音調的頻率差小于臨界帶寬時,人耳便無法區分出兩個音調,而是會認成同一個音調[4]。臨界帶寬的大小并不是固定的,隨著頻率的升高呈對數關系。梅爾頻率倒譜系數(MFCC)就是通過這些特性被提取出來的。
基于MFCC 的語種識別就是通過提取出語音信號的MFCC 特征,再根據MFCC 特征采用不同的分類模型來構建語種識別系統。此系統的核心就是提取MFCC 特征,分類可以采用常用的SVM 或是K-means 聚類方法。提取MFCC 特征的步驟可以細分為六步[6]:首先,對語音信號預加重,以減少尖銳噪聲的影響;第二步,加窗處理,減少吉布斯效應;接下來對信號進行離散傅里葉變換,將語音信號從時域轉移到頻域中去;第四步便是采用三角濾波器組處理上一步得到的頻譜參數,在人耳聽覺敏感的各個頻段都設定一個三角濾波器,得到的一組系數各個值都來自其對應的濾波器;接下來計算每個濾波器輸出的對數能量;最后經過離散余弦變換得到MFCC 特征。
早期底層聲學特征往往采用的是MFCC 及其一階、二階差分,然后利用這些特征組成的一個特征向量進行語種識別,而通過大量的研究發現,這些特征作為語種識別的依據并不能很好地區分不同語種,使得傳統的基于底層聲學特征的語種識別系統性能受限。目前的基于底層聲學特征的語種識別系統往往采用的是移位差分倒譜特征(Shift Delta Cepstral,SDC)[7],SDC 特征是在MFCC 或者感知線性預測特征(Perceptual Linear Predictive)的基礎上通過移位差分擴展而來:首先對提取的MFCC 特征或PLP 特征使用RASTA 濾波,然后通過移位差分擴展,再經過高斯化及倒譜域減去均值的操作就得到了SDC 特征。該特征通過將底層聲學譜參數進行時域擴展使其能夠接近一個因素單元的長度,從而能夠更好地對應內容相關語音信號,進而極大地提升了語種識別的性能。

圖3 基于底層聲學特征的語種識別
為了模擬生物學習的計算模型,即大腦的學習過程的模型,人們提出了最早的學習算法,即最早的人工神經網絡算法。最早的神經網絡是用來進行數值預測的,而人們結合統計學的成果將其運用在了模型參數的預測上,進而使得神經網絡被用在了各個領域中。而經過六七十年的曲折發展,目前的神經網絡學習效果更為明顯,在各個學科領域都得到了廣泛的應用并取得了性能上質的飛躍[8]。
在神經網絡被用在語種識別系統之前,語種識別系統往往通過特殊的手工設計方法預處理輸入信號來獲取包含語種信息的特征。而神經網絡的迅速發展,使得直接從原始輸入中學習特征變得可能,并且通過大量實驗證明神經網絡提取的特征用來進行語種識別在準確率上要明顯高于使用傳統手工提取的特征。
(1)基于深度神經網絡的語種識別系統
本文選取基于深度神經網絡的語種識別系統及其改進系統——融合深度瓶頸特征的DNN 語種識別系統進行介紹。基于DNN 的語種識別系統分為兩部分,前端深度神經網絡部分,構建深度神經網絡來完成特征提取,后端為判別部分,通過已有的分類模型分類。許多基于DNN 的語種識別系統并不是將語音信號簡單地預處理之后就用作輸入,而往往是使用語音信號的MFCC 特征及其n階差分等特征作為輸入,將輸出解碼為音素序列,再通過聲學模型和分類模型進行語種識別。通過實驗表明[9],一個包含5 個隱層的DNN,輸入特征為13 維MFCC 及其一階和二階差分及4 維基頻特征,使用SVM 進行區分訓練的基于DNN 的語種識別系統,其識別率相比基于PR-SVM 的語種識別系統性能在不同時長的語音測試集上均有所提高。
(2)融合深度瓶頸特征的DNN 語種識別系統
深度神經網絡中,有的隱層的單元數目被人為地調小,這種隱層被稱為瓶頸層。語音識別中的研究已經證明,利用瓶頸層的輸出作為聲學特征能夠有效提升語音識別系統的性能,瓶頸層作為輸入的一種非線性變換形式,有效地去除了因素無關的噪聲影響[10]。因此,將深度神經網絡的輸出和網絡中間瓶頸層的輸出融合作為后端分類模型的輸入是可行的,該語種識別系統結構如圖4 所示。相關研究已經證明[9],融合瓶頸層輸出的DNN 語種識別系統的識別性能要明顯優于基于DNN 輸出層的語種識別系統。

圖4 融合瓶頸層特征的DNN語種識別系統
從20 世紀80 年代到直到2012 年,最先進的語音識別系統是GMM-HMM[8],GMM 對聲學特征和音素之間的關系建模[11],HMM 對音素序列建模。該系統的錯誤率達到了約30%的語音識別錯誤率。上世紀80 年代開始,神經網絡被大量用于語音識別系統,并且在2009 年[12]將音素級別的錯誤率從大約26%降到了20.7%。而直到現在,基于GMM-HMM 的系統的傳統技術沒有任何進步,使用神經網絡來進行語音識別的浪潮正盛。同樣,在語音識別重要分支的語種識別系統中也在廣泛應用神經網絡。
從根本上語種識別系統可以分成兩個部分,分別是特征提取以及按特征分類。傳統的語種識別限于聲學的研究和計算能力的不足,在這兩個方面均存在的很大的不足。如今的語種識別系統,基本上都采用的高性能的“神經網絡來提取特征”搭配“高斯混合-分類模型”的系統架構,通過采用更加高效的神經網絡算法來提取更加能代表語種特性而又更加簡潔的特征,采用更加適配特征的聲學模型和分類模型,來獲取更加高效的性能。
目前語種識別系統的識別率隨著深度學習的不斷發展在不斷提升,雖然系統識別率不低但仍存在提升空間。現階段的語音識別領域仍然并將在一段時間內被深度學習算法所引領,因此不僅要不斷地尋找嘗試適合特定語音任務的深度學習算法,還需要盡可能地減少深度學習算法帶來的巨大開銷。但從長遠來看,要能夠再次大幅提升系統的性能只有兩種可能:一是研究出包含在深度學習中的各種非線性變換與具體任務的某些性質之間的聯系,這樣才能真正地推動深度學習在該領域的發展;二是對領域的更深一步研究,探索該學科領域的本質,使得無需使用復雜的學習算法就能完成該領域的任務。