基于聲紋識別技術的常見模型與發展應用

2021-08-19 08:24:18曾桂南吳戀何燕琴郭清粉

現代計算機 2021年21期

關鍵詞：模型

曾桂南，吳戀，何燕琴，郭清粉

（1.貴州師范學院，數學與大數據學院，貴陽550018；2.貴州師范學院，大數據科學與智能工程研究院，貴陽550018）

0 引言

從古至今，聲音在人類信息傳遞中就有著非常關鍵的作用，是人類進行交流的主要手段之一。隨著時代的變化，科學家們也開始嘗試利用人聲音特性展開一系列研究。因為不同說話人在發出一段聲音時所使用的發聲器官——舌頭、牙齒、喉頭、肺、鼻腔在尺寸和形態方面有所不同，以及受性格、年齡、語言習慣、地域差異等因素的影響，使得要想在現實生活中找到具有完全相同的聲紋特征的兩個人幾乎是不可能。盡管聲紋識別在目前的市場上不同于人臉識別、指紋識別具有大范圍的應用，但手機、平板電腦等很多電子設備上內置的麥克風，帶有錄音功能，具有成本低廉，不需要高性能的硬件支持等優勢。

1 聲紋識別技術的發展歷程

縱觀聲紋識別（說話人識別）技術的發展史，它大約可以被劃分為四個時期。而早在上世紀三四十年代，人們就有了對“聲紋”的一定認識和了解，在1945年，美國Bell實驗室的勞倫斯·科斯塔（L.G.Kersta）等人結合肉眼觀察語譜圖并進行匹配，就此有了“聲紋”的概念。

20世紀40年代到70年代，也就是聲紋識別技術發展的第二階段，在這個階段，聲紋識別的理論體系已經初步建立，而特征參數的提取以及選擇成為人們關注之焦點，BS Atal提出了線性預測倒譜系數（LPCC），這種參數穩定性較好，也讓該技術在準確率上有了大程度的提高。此后，隨著數字信號處理技術的不斷發展，研究人員又相繼提出了線性預測編碼系數（LPC），LSP譜系數等間接特征參數。

在第三階段，也就是20世紀70年代到80年代末之間，在這個時期，研究人員將重心放在了特征參數的研究和尋找新的模式匹配方法上，在特征參數方面，Steven B.Davivs和Mermel Stein提出了特征參數——梅爾倒譜系數（MFCC），這種參數在不僅能在信號與噪聲的比例較低時仍能擁有較好的性能，而且比起線性預測倒譜系數（LPCC）更加符合人的聽覺特性，至今仍是應用范圍較廣，最有效的特征參數之一。同時，矢量量化技術，動態時間規整等新的模式匹配有也相繼出現在人們的視野中。

從20世紀90年代到現在，基于最大似然概率統計的模型——高斯混合模型（Gaussian Mixture Model，GMM）的出現，因具有簡單、可靠、性能穩定的優點，成為了聲紋識別領域的重要技術。于1995年，由Cortes和Vapnik提出了支持向量機（Support Vector Machine，SVM），這種判決模型方法在處理小樣本、非線性及高維模式識別中展示出許多獨特的優點，使之迅速成為聲紋識別的重要建模方式之一。

2 常用特征參數的介紹

2.1 線性預測倒譜系數（LPCC）

提取特征是在實際生活中我們最常見到的任一聲紋識別系統中關鍵的過程。而LPCC是能夠體現聲道特性，表達說話人個性的重要特征參數，也是LPC在倒譜域中的表示。它具有計算量少，容易實現，元音描述好的優點，可以描述共振峰，去除激勵信息，也因此在語音識別中擁有較好的性能，使用范圍也較為廣泛。

ai代表線性預測系數，cn由倒譜系數通過（1）式和（2）求導，整理可以得到：

再令Z-1的同冪項系數相等，就可以推出線性預測倒譜系數。

2.2 梅爾頻率倒譜系數（MFCC）

Mel倒譜系數作為語音識別中被經常使用的特征參數，它的頻帶劃分是基于梅爾刻度上的等距劃分，相較于對數倒譜中的線性間隔頻帶，Mel標度的頻率更適應于人類的聽覺特性。f表示線性語的音頻率，fmel表示轉換到Mel域的梅爾頻率，它與正常的線性頻率有以下關系：

圖1

求解MFCC的主要過程：

（1）先對語音信號進行預處理，S（n）用來表示得到的每一幀語音序列。

（2）對每一個短時分析窗，通過傅里葉變換得到對應的頻譜。

（3）將（2）所得到的頻譜通過Mel濾波器組得到Mel頻譜，記Pm為輸出信號，Hm（k）為頻率濾波器組

（4）在Mel頻譜上取對數，再進行離散余弦變換。

3 常用模型

3.1 GMM和UBM的聯合使用

3.1.1 高斯混合模型（GMM）

高斯混合模型（GMM）同隱馬爾可夫模型一樣，為近年來在“聲紋識別”中運用頻率較高的一種概率統計模型。簡單來說，GMM是由單一高斯密度函數疊加而成的模型，可以用來近似表示任意事物形狀的密度分布。ak是系數，φ(y|θk)是高斯密度分布，它滿足如下形式的概率分布模型：3.1.2 GMM-UBM

GMM-UBM是在GMM的基礎上的一種改進，在實際生活中，每一個說話人能夠提供的語音數據十分有限，而往往訓練高斯混合模型又需要大量訓練數據集，DA Reynolds的團隊為了應對這種情況的出現，提出了通用背景模型（UBM），我們可以將不同音源來源人的聲音收集起來，將這些背景數據混合起來進行訓練，經過自適應算法即可建立目標人說話模型。

基于GMM-UBM模型的聲紋確認實現流程如圖2所示。

圖2

3.1.3 基于GMM-UBM、GMM的聲紋系統實驗分析

在《基于“互聯網+”的聲紋識別技術在刑事案件偵破中的應用研究》文獻中，實驗選取女犯人和男犯人各50名，建立基于GMM-UBM和GMM兩種聲紋識別系統，在不同條件中選取GMM混合數兩個系統的識別率，比較在不同的GMM混合度GMM與GMM-UBM的識別率。得到不相同混合度兩個系統的識別率，如表1所示。

表1

經該實驗結果可知，在GMM混合度相同的情形下，GMM-UBM系統的識別率要明顯優于GMM系統。而GMM混合度增加時，GMM-UBM系統識別率也明顯增大。

3.2 深度神經網絡DNN

20世紀八十年代Rumelhart、Williams、Hinton、LeCun等多人發明的多層感知機（Multi-Layer Percep?tron，MLP）改善了單層感知機的不足之處，擺脫了早期離散傳輸函數的束縛，解決了之前無法模擬異或邏輯的問題。DNN有時也可以被稱作多層感知機，也可以將其理解成包含著很多隱藏層的神經網絡，如果按照不同層位置的劃分，可以將其分三層：輸入層、隱藏層，以及輸出層。其結構如圖3所示。

3.3 CNN和LSTN的聯合使用

3.3.1 卷積神經網絡（CNN）

2014年，計算機科學家LeCun提出了一種新的深度學習模型——卷積神經網絡（Convolutional Neural Network，CNN），它是現在被應用于生物特征識別最流行的網絡之一。通過人們在人工智能領域的持續探索，CNN在語音識別、圖像識別、圖像分割等領域獲得了巨大的成功。卷積神經網絡通常包括卷積層、線性整流層、池化層和全連接層。

在卷積神經網絡中，每層卷積層包含非常多的卷積單元，各個卷積單元的參數又是由向后傳播算法得出的。線性整流層，這一層神經的活化性函數使用線性整流，池化下采樣，是一種降采樣操作。目的是為了減少特征圖，把特征切分為幾個小片。池化層池化方法眾多，一般包含最大池化、均值池化、高斯池化、可訓練池化。而全連接層（Fully Connected Layers），在整個卷積神經網絡相當于“分類器”將所有的局部特征結合成為全局特征，用來計算最后每一類的得分。CNN網絡結構如圖4所示。

圖4

（2）CNN-LSTM

長短時記憶網絡被看作是一種特殊結構的RNN，而在處理中長時間的時序關系時，LSTM更具優勢，因此往往會用到LSTM來解決，根據CNN網絡、LSTM網絡的特性，將兩個網絡串聯結合，構建了以下系列模型如圖5所示。

圖5

在《基于CNN-LSTM網絡的聲紋識別研究》一文的實驗中[7]，對比CNN、DNN、LSTM、CNN-LSTM在不同迭代次數下的準確率結果如表2所示。

表2

不難看出，CNN-LSTM網絡能夠在較少次數的迭代中達到95.42%的準確率，從時間效率和準確率上看，CNN-LSTM網絡更勝一籌。

4 聲紋識別的應用分析

目前，聲紋識別已在生活的多個方面有了應用，早在20世紀80年代，國外的Home Shopping Network就在基于語音訂貨的系統中就已經結合了聲紋識別的相關技術，而同國外相比，盡管我國在這方面的技術研究起步較晚，但也不甘于落后，像國內的阿里、百度、騰訊等大型公司已經有了相應的產品和應用，在2014年支付寶App就推出了可以根據每個人聲音特性的不同從而實現的非密碼支付的功能，同年，在iOS上線的WeChat增加了“聲音鎖”的功能，用聲音即可快速實現登錄。

總體上說，聲紋識別在生活中的應用，大致有以下幾個方面。

軍事情報方面：用于對電話的監聽與追蹤。

在社會保險領域：讓身體欠佳、出行不便的老年人遠程就可實現身份認證。

在進行網絡交易時：例如手機網絡支付、掌上銀行等平臺身份確認時，結合密碼支付可以提供更高的安全保護機制。

刑偵方面：使用聲紋識別，可通過現場遺留的少量的語音消息可以縮小偵查范圍判斷犯罪嫌疑人的身份特征從而實施追捕，大大提高辦案效率。

由于聲紋識別相關設備造價低廉，在保安、證件防偽方面也能起到相關作用，可以用于小區門禁系統，對進出小區住戶進行記錄，還可以用于銀行自助取款機，快速識別取款人身份，既安全、便捷，還可以防止有些老年人因為記不住密碼而無法取款的現象。

5 結語

如今，就準確率而言，聲紋識別技術的識別的準確率在理論上已經高達百分之九十幾，但在現實生活中，說話人自身具有的獨有氣質、身體狀況、年齡增長、情感波動等其他干擾因素，導致實際與實驗中的理想值還存在一定偏差，仍可能出現對說話人身份產生誤判的情況，因此可以提高準確率的方法還需要人們更進一步的發現、探討、研究。當然，過去的科學技術在不斷地被更新，近些年深度學習技術在計算機視覺、自動駕駛等諸多領域都取得了驚人的成績，在語音識別方面也有了新的突破，相信在不久的未來會有更多、更好的方法去解決我們現在所面臨的困難和挑戰。