申小虎 王聰
摘 要 通過介紹環境背景音聲紋鑒定技術概念、產生、發展以及原理,來探討聲紋鑒定的步驟、理論依據、法律依據、案件適用的類型,討論聲紋鑒別在個人身份證明、刑事偵查、軍事、通信、防偽等領域的應用,展望聲紋鑒別的應用前景。
關鍵詞 環境背景音;分類;鑒定
Abstract by introducing the concept, generation, development and principle of voiceprint identification technology in environmental background, this paper discusses the steps, theoretical basis, legal basis, applicable types of cases, and discusses the identification of voiceprint in personal identification. The applications of criminal reconnaissance, military affairs, communication, security and so on, and the application prospect of voiceprint identification are prospected.
Keywords Environmental background sound; Classification; Identification
1 環境背景音研究意義
在當前,環境背景音識別技術發展得非常迅速,在很多方面(如原理認識,識別模型的搭建,運行效率等方面)都有迅猛的進展。尤其是在無噪音環境下,環境背景音識別模型系統的識別率非常高。本論文基于語音信號分析的理論基礎,考慮了語音識別系統的實際應用要求,提出來噪聲環境下非特定人孤立語音識別系統的研究,對語音通信系統有著重要的意義。實驗表明,這種方法不僅能夠對不同背景噪聲環境下的語音進行準確識別以及鑒定分析,提高語音識別的準確率,還能夠對帶噪語音進行精確處理,提高語音的清晰度和可理解度,在人群噪聲環境、機器噪聲環境以及其他背景聲環境下都有著較高的準確度以及辨識度[1]。
2 環境背景音特征提取技術
在聲紋鑒別過程中最主要的兩部分內容是特征提取和模式匹配。所謂特征提取,就是從聲音中選取唯一表現環境或人聲的有效且穩定可靠的特征,即通過聲紋技術根據語音波形中反映的環境背景音的語音參數,將其識別分類出是哪種環境背景音的一項技術,甚至可以通過環境背景音的特征提取直接定位出背景音的具體位置,這對公安工作的開展具有巨大的意義。模式匹配就是對訓練和鑒別時的特征模式做相似性匹配,進而從原語音信號中分離出環境的背景音。
聲紋技術在環境背景音的特征提取方面有以下幾種技術可供參考:
2.1 獨立成分分析方法
不同的ICA算法可以提取聲音信號中獨立成分的特性,將聲音信號拆解成基函數與相互獨立的系數兩部分,對于常見的聲音信號,經過ICA算法變化都會更強的超高斯性。另外,利用ICA變換的基函數是利用數據自身的統計特性求得,可以隨著處理對象的變化而變化[2]。
2.2 碼激勵線性預測編碼方法
網絡中的音頻信號一般都是經過語音壓縮編碼的,碼激勵線性預測編碼的技術研究正是以音頻壓縮編碼的比特信息流為對象,環境音頻信息不需要經過解壓縮,直接從編碼比特信息流中獲取音頻特征參數。
3 實驗與分析
3.1 聲音數據庫
本文實驗的測試對象包括45種噪聲環境下的環境聲音事件音頻。實驗用到的生態環境聲音大部分來自使用SONYICD-UX512F錄音棒以16kHZ的采樣頻率實地采集的聲音,錄制背景為寂靜山林、馬路附近、雨天湖邊附近。其包括:動物叫聲,鳥叫聲,昆蟲叫聲,大自然聲和常見事物的聲音等,共45種,由于下載的聲音文件編碼格式、采樣頻率等與自己錄制的聲音并不統一,因此在實驗開始前先將所有的聲音文件統一轉換為采樣率16KHz(可分析8KHz以內的環境聲音信號),單聲道,16bits的格式。考慮到MP分解速度,將聲音截斷為3-6s的聲音片段,每一段對應于一種聲音類型,經處理后,每種聲音都至少包含4個單獨的聲音文件,且所選擇聲音的錄制環境都不相同,最后得到的聲音數據庫。且經語譜圖分析,所選45種聲音頻率在8kHz以下[3]。
3.2 環境聲音事件的分類
(1)MP噪聲消除
用25個原子就能將原始信號(海浪聲)的主體結構重構出來,說明利用MP稀疏表示的方法可以提取出信號最主要的結構特征信息,有效的消除噪聲的干擾。若將整段信號進行MP稀疏表示,對MP稀疏分解重構之后的樣本(25個原子),提取MFCCs-12特征,輸入SVM模型進行分類,得到對信號進行系數表示后的信號的識別結果。去噪的效果有時要取決于信號和噪聲的相似度,如果某種噪聲的特征同信號的特征相似,則MP對這種噪聲的去噪效果不會得到預期效果。
(2)特征選擇
不同物種的聲音明顯不同,同一物種的不同個體間亦有可能會發出差異明顯的聲音,甚至是同一個體在不同的季節或時向,其聲音也會存在著一定的差異,這就需要合適的魯棒的特征參數來將信號的內在特征信息表示出來。本文將對以下頻域和時頻域特征進行研究。
①基音頻率
基音攜帶有非常重要的聲音信息,不同種類的聲音其基頻分布可能差異很大,考慮到環境聲音信號的差異性,試驗中設定基音頻率范圍為50-2000Hz。
②Mel頻率倒譜系數
實驗分為三步:首先,以12維MFCCs(MFCCs-12)作為分類特征,對5類聲音的每一類分別進行特征提取,然后用純凈的聲音樣本進行訓練,用得到的分類模型對測試集樣本進行預測,最后得到各類聲音事件的分類準確率。下面是針對庫中的動物叫聲中的5中聲音的訓練結果,MFCCs-12作為特征,采用網格搜索、交叉驗證方法,得到的訓練過程的參數選擇。
①動物叫聲:(MFCCs-12:84.27%)、(MFCCs-26:73.68%)、(MFCCs-39:73.68%);
②鳥叫聲:(MFCCs-12:86.89%)、(MFCCs-26:92.03%)、(MFCCs-39:97.34%);③昆蟲叫聲:(MFCCs-12:72.22%)、(MFCCs-26:86.67%)、(MFCCs-39:80%);④大自然聲:(MFCCs-12:65.18%)、(MFCCs-26:24.59%)(MFCCs-39:23.77%);⑤常見事物的聲音:(MFCCs-12:80%)、(MFCCs-26:33.33%)、(MFCCs-39:25%)。
由此可見:MFCCs-12特征對于5類聲音的分類準確率最穩定。對于鳥叫聲和昆蟲叫聲,MFCCs-26特征和MFCCs-39特征識別率均比MFCCs-12高出10個百分點左右,面對動物叫聲、大自然聲和常見事物的聲音,MFCCs-26和MFCCs-39特征的識別率大幅下降,尤其是對大自然聲和常見事物的聲音,準確率降到了40%以下。綜合對5類聲音的識別率表現,MFCCs-12對識別結果的貢獻更穩定,選擇MFCCs-12作為本文實驗的識別特征[4]。
③匹配追蹤
通過實驗驗證基于Gabo小波的MP特征對實際情境下的環境聲音事件的識別是否有效。
首先對樣本信號進行分幀、加漢明窗,對每幀信號進行MP稀疏分解,每幀信號得到4個MP特征(MP-4)。需要注意的是,雖然隨著重構原子數的增多,識別率也隨之上升,但是原子數越多,所消耗的時間也隨之增大。因此7個原子的鳥叫聲識別率反倒不如5個原子的識別率。此外,對于昆蟲叫聲,識別率均在8%以下,經分析,這是因為昆蟲叫聲的錄制環境里干擾較多且干擾噪聲與昆蟲叫聲較相似,MP稀疏分解難以區分信號空間和噪聲空間。綜合時間和識別結果穩定性的考慮,最終選擇7個原子重構樣本信號。然后將MP-4(7個原子)與MFCCs-12分別作為特征參數進行識別結果對比,結果如下所示:
①動物叫聲:(MFCCs-12:84.12%)、(MP-4:31.58%);②鳥叫聲:(MFCCs-12:86.89%)、(MP-4:36.14%);③昆蟲叫聲:(MFCCs-12:72.22%)、(MP-4:7.48%);④大自然聲:(MFCCs-12:65.18%)、(MP-4:30.88%);⑤常見事物的聲音:(MFCCs-12:80%)、(MP-4:22.12%)
MP-4(7個原子)單獨作為信號特征進行識別,識別率在40%以下,那么將MP-4(7個原子)和MFCCs-12一起作為音頻特征,將這16維參數進行歸一化,因為參數的取值差異較大,不在同一個數量級,因此先進行歸一化,然后再將歸一化后的特征參數輸入識別模型,利用特征集合MP-4和MFCCs-12進行識別,準確率比單獨MFCCs-12提高8%以上,與單獨用MP-4(7個原子)相比識別率大幅提高。說明頻域特征MFCCs-12和時頻域特征MP-4(7個原子)的組合的特征集對環境聲音事件的識別是起積極作用的。
3.3 結果分析
對分析提取的特征參數:基音頻率、MFCCs-12,MFCCs-26,MFCC-39和MP-4通過實驗進行篩選。對庫中所有聲音信號分別求出上述特征,然后分別將MFCCs-12,MFCCs-26,MFCC-39,MP-4和特征組合MFCCs-12,MFCCs-12+MP-4,MFCCs-12+MP-4+基音頻率輸入SVM分類模型進行識別,得到對應的識別準確率。
由實驗結果,雖然MFCCs用于語音/音樂識別時表現良好,但對于不具有諧波結構、背景噪聲復雜的環境聲音事件來說,并不適合。分析其原因,MFCCs對所有頻帶以相同的權重模擬信號的頻譜包絡,對噪聲和聲音事件一視同仁。
MP時頻特征提取是依據原子的能量高低依次選擇信號分量,提取的信號分量最終表現為按原子能量由高到低的線性和,而環境聲音事件與背景噪聲相比,聲音事件的能量在時頻平面上傾向于局部集中。因此MP特征對于環境聲音事件的識別,具有噪聲魯棒性,能在MFCCs失效的情況下彌補其噪聲敏感的缺陷。
利用不同種類聲音的基頻分布差異,將基音頻率用來作為識別的特征之一,實驗結果表明,加入基音頻率特征后,識別準確率略有上升[5]。
4 結論及展望
總之,聲紋識別技術是一種方便、快捷、安全的識別技術,隨著各個研究領域的不斷發展,聲紋識別技術也在飛速發展,由此可見,在不久的將來,聲紋識別技術會在更多領域內獲得更廣泛的應用,使人類的生活更方便、安全。此外,隨著聲紋識別技術準確性的提高,以及錄音設備(如錄音筆、MP3)的更新換代,新型錄音設備攜帶方便、存儲容量大、使用簡單的特點,使人們在很多場合下可以容易地獲取聲音樣本。通過聲紋識別技術,聲音樣本在公安機關偵破案件、司法部門做出判決等方面都將起到關鍵性作用。
參考文獻
[1] 沈陽麗,趙啟升.GMM-UBM聲紋識別技術研究與應用[J].電腦編程技巧與維護,2017,(16):84-86.
[2] 盧一男,單寶鈺,關超.聲紋識別技術現狀與發展應用[J].信息系統工程,2017,(02):11.
[3] 鄭方,李藍天,張慧,等.聲紋識別技術及其應用現狀[J].信息安全研究,2016,2(01):44-57.
[4] 趙成輝,楊大利.基于聲紋識別技術的移動通信監聽方案[J].北京信息科技大學學報(自然科學版),2015,30(01):59-65.
[5] 陳擁權,張羽,胡翀豪,等.聲紋識別技術及其應用前景分析[J].網絡安全技術與應用,2013,(11):24,26.