999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡的語音信號識別與分類

2023-12-18 08:58:04薛雅潔賀紅霞
現代電子技術 2023年24期
關鍵詞:特征提取信號語言

薛雅潔, 賀紅霞, 楊 祎

(西安郵電大學 電子工程學院, 陜西 西安 710061)

0 引 言

人類對于語音識別技術的研究開始于20 世紀50年代初,最初是在貝爾實驗室通過簡單地提取元音字母的共振峰信息,實現了單個單詞的語音識別[1]。直到1970 年,李開復教授首次將隱馬爾可夫模型引入到語音識別中,提出了高斯混合模型(Gaussian Mixture Model, GMM)加隱馬爾科夫模型(Hidden Markov Model, HMM)的GMM-HMM 模型[2]。隨后的研究逐漸開始采用深度神經網絡(Deep Neural Network, DNN)進行自動學習實現特征表示的方法來取代高斯混合模型。文獻[3]中將傳統識別方法與神經網絡識別方法做了對比,相對于經典GMM 模型,深度學習技術對語音識別能夠提取更加精準的特征信息,從而使得在DNN 和HMM的結合應用下,語音識別技術的系統識錯率大幅下降[4]。

目前主流的語音識別技術都是以大詞匯連續語音和深度神經網絡為基礎的,根據不同的實際情況和數據特征對傳統的神經網絡進行了相關的改進,相對于經典的DNN-HMM 方法,語音信號識別與分類性能有了較大的改善。

在現有的端對端的語音識別技術上以.wav 模式音頻文件為識別對象,分別采用深度全序列卷積神經網絡(Deep Full Convolutional Neural Network, DFCNN)模型和Transformer 模型作為語音識別的聲學模型和語言模型,并在DFCNN 輸出時連接基于損耗函數(Connectionist Temporal Classification, CTC)的損失函數進行語音識別,研究傳統語音識別與該算法的識別準確率、復雜度等方面的異同。

1 語音信號識別基本原理

1.1 語音信號預處理

語音信號預處理一般包括數字化(將采集的模擬信號離散為數字信號)、預加重(就是對信號中的高頻加重,去除口唇輻射的影響)、端點檢測(識別出靜音段,消除長時間靜音段,減少對信號的干擾)、分幀、加窗(用矩形窗、漢明窗、漢寧窗等常用函數實現)等步驟[5]。

為了降低干擾,在進行語音識別之前,首先要對語音的前后端進行消音切除。切割工作采用端點檢測技術(Voice Activity Detection, VAD),又稱語音端點檢測技術,對信號進行處理。分幀是利用語音信號具有短時平穩性把語音變成很多小段。分幀通過可移動的有限長度窗口進行加權的方法來實現。圖1 表示幀長為N、幀移為M的語音分幀過程,即相鄰兩幀間會有Mms 的重疊,每幀長度為N+M。

圖1 語音分幀過程

使用漢明窗對語音信號進行加窗操作。使用的漢明窗為:

式中N′為窗口寬度。

由于在時域內很難觀察到信號的特性,因此必須把時域特性轉化為頻域的能量分配,從而判斷出信號的特性[6]。對信號進行傅里葉變換,從而獲得頻譜和能量分布。傅里葉變換的計算和能量分布計算的表達式為:

式中:N為信號周期;S(n)為指數形式傅里葉變換系數。

1.2 聲學特征提取

接下來進行聲學特征的提取,在經典語音識別的方法中,最常用的語音特征提取技術是梅爾倒譜系數(Mel-Scale Frequency Cepstral Coefficients, MFCC)特征提取方法。特征提取的基本原則是,把每個信號的波形變換為多維矢量,使得機器能夠很容易地了解包含在矢量中的幀內音頻信息的內容。在此應用基于濾波器組的特征(Filter Bank, Fbank)聲學特征提取技術。

Fbank 聲學特征是根據人耳的生理特性,把每一幀波形變成一個多維向量,可以簡單地理解為這個向量包含了這幀語音的內容信息。Fbank 特征提取步驟如圖2所示,基本原理是:先將線性頻譜映射到基于聽覺感知的梅爾濾波器的非線性頻譜中,然后轉換到倒譜上就可以得到所需音頻初步特征[7]。

圖2 Fbank 特征提取步驟

與MFCC 方法相比,Fbank 特征提取方法在深度神經網絡中有更優異的表現[8]。提取Fbank 特征之后,就可以得到信號的能量譜,譜的橫軸為時間,縱軸為頻率,亮的表示高振幅,暗的表示低振幅[9]。

1.3 聲學模型和語言模型

在得到語譜圖后就需要引入音素的概念。對于漢語而言,一般將全部聲母和韻母作為音素集。語音識別的初級階段是把幀識別成狀態,把狀態組合成音素,把音素組合成單詞。建立聲學模型的目的是建立語音與相應語言音素的聯系。通過使用大量的語音數據訓練聲學模型,從模型中得到單詞組合對應的概率,從而就可以知道每一幀對應的音素的概率,最終將語音對應的音素或單詞識別出來。

在聲學模型搭建完成后需要進行語言模型的搭建。語言模型是一種可以在大量詞匯的識別中找到識別的最優路徑,計算出任何句子識別概率的概率模型。語言模型由語法網絡和統計架構組成,在該模型中可以對語法和語義進行分析,使得在復雜系統中可以根據語義、語法及語言模型及時進行識別和修正。聲學模型和語言模型原理示意圖如圖3 所示。

圖3 聲學模型和語言模型原理圖

2 端對端的語音識別算法

2.1 DFCNN 聲學模型

DFCNN 能夠利用大量的卷積層對整個句子進行建模。DFCNN 采用了最優網絡結構,每一卷積都使用3×3的小卷積核,并在多卷積后添加一個池化層,以改善網絡的表達能力。

同時,DFCNN 可以顯示較長的歷史和未來的數據,從而可以較好地描述長期相關特性,也比關系網絡(Relation Network, RN)網絡、長短期記憶(Long Short-Term Memory, LSTM)網絡等具有更強的魯棒性[10]。

把語譜圖作為DFCNN 的輸入。在模型的構造上,提出一種基于圖像的識別方法。在多個卷積層之后,再添加一個池化層,形成一個小型的卷積核,迭代2 次,能夠更加準確地提取語音信號的信息。DFCNN 采用時間和頻率兩個維度,用大量的卷積層和池化層實現全局建模。DFCNN 的結構示意圖如圖4 所示。

圖4 DFCNN 結構示意圖

DFCNN 的具體實現步驟是:在對時域信號進行預處理和聲學特征提取后得到語譜圖;在每次卷積時都采用3×3 的小卷積核,并在多層卷積后添加一個池化層,這使網絡的表達能力得到改善。DFCNN 的卷積層與池化層的結構示意圖分別如圖5 和圖6 所示。池化有最大池化和平均池化兩種,在此采用最大池化。

圖5 卷積層結構示意圖

圖6 池化層結構示意圖

在輸出端,DFCNN 以語音作為輸入,可以連接CTC損失函數,CTC 的輸出端直接與最終識別結果進行匹配,不需要手動對齊,提高了算法的效率。

2.2 基于注意力機制的Transformer 語言模型

視覺注意力機制是一種特殊的腦信息加工機制,在對整個圖像進行快速掃描時,可以得到需要注意的目標,然后將更多的精力放在該區域上,從而得到更多的信息。視覺注意力機理特性使得其在處理過程中提升了模型的效率和精確度。

從本質上看,深度學習的注意力機制與人類的選擇性注意力機制相似,它的核心目標就是從大量的信息中篩選出對當前任務重要的信息。目前,大部分注意力模型均作用于編碼到解碼過程,可以通過它來理解深度學習中的注意力模式。

語言模型采用基于注意力機制的Transformer 神經網絡結構實現。Transformer 是一種完全基于注意力機制的網絡框架,其采用注意力機制主要是因為一個序列每個字符對其上下文字符的影響作用都不同,每個字符對序列的語義信息貢獻也不同,可以采用一種機制將原輸入序列中字符向量通過加權融合序列中所有字符的語義向量信息來產生新的向量,從而達到增強原語義信息的作用[11]。采用的Transformer 編碼器結構示意圖如圖7 所示。

圖7 Transformer 編碼網絡結構圖

在語言研究中,僅需要搭建編碼器encoder 結構即可。encoder 由6 個相同的layers 組成,每一層包含兩個sub-layers。第一層sub-layer 就是多頭注意力層(Multi-Head Attention Layer),然后是一個簡單的全連接層。其中,每個sub - layer 都加了殘差連接(Residual Connection)和歸一化(Normalization)模塊[12]。

Attention 機制的核心工作原理是:把Source 中的組成要素看作是一組數據組,包含一組“Key, Value”,給出目標中的一個元素Query,通過計算Query 和單個Key 的相關關系,得出每個Key 的Value 權重,再將加權相加,得出最后的Attention 的值。基本的Attention 機制是將Source 中的價值加權相加,而Query 和Key 則用于計算相應價值的權值[13]。從概念上講,Attention 就是將一小部分的重要信息從海量的信息中剔除出來,然后將“注意力”集中在這些信息上,忽略那些無關緊要的。焦點反映在權值的計算中,權值愈大,則表明相應的“注意力”越集中。

Attention 機制示意圖如圖8 所示。

圖8 Attention 機制示意圖

語言模型搭建的實現步驟包括:定義歸一化層(Normalize)、定義嵌入層(Embedding)、創建多頭注意力層(Multi-head Attention Layer)、定義多頭注意力層、定義前饋層(Feed Forward)、定義標簽平滑層(Label_Smoothing)。綜合上述各個層,建立一套完整的語言模型,并根據該模型對訓練數據及參數做充分的準備。

2.3 CTC 損失函數

在語音識別中,要求音位與被譯出的文字之間能夠一一對應。語音數據對齊原理示意圖如圖9 所示。

圖9 語音數據對齊原理示意圖

CTC 能夠改善輸入與輸出之間不能一一對應的問題。輸入語音信息后,假設每一個音位原本應對應cat,如果聲音被拉得太長,就會出現重復,此時CTC 功能會自動選取一個相似的音素作為記號。此時,CTC 損失函數會引入一個空白(Blank)字符來表示語音中停頓的部分,然后在停頓的部分自動補上空白的字符,這樣重疊的音素就可能被忽略掉。

CTC 會自動合并相鄰的相同字符。當這些相鄰的字符中出現停頓,就會自動加入空格將兩個相鄰的字符隔開,這樣就實現了將雙字符隔開的操作。

CTC 引進了Blank 字符,每一種預測值的類別都與一段語音中的一個峰值相對應[14],其他非峰值的默認為Blank,輸出一系列的非連續峰值[15],可以將CTC 序列問題形式轉化為函數形式。設定單詞的表尺寸為n,則CTC 序列目標為一個n維的多項式概率分布。

式中:Nw表示神經網絡模型的變換;序列目標為字符串,也就是輸出為n維多項概率分布,n為詞表的個數。

該n維的多項式概率分布的網絡輸出形式為y=Nw,t時刻k項的概率為

在CTC 中引入特殊的Blank 字符“%”,原先重疊部分被賦為“%”。定義輸出的字符為“B”,然后,合并連續的符號且刪除Blank 字符。比如,對于輸出的字符“aa% bb%% cc”,經過合并連續的符號且刪除Blank 字符后,實際輸出為“abc”。隨著Blank 和“B”被導入,就能得到一個普通映射。CTC 采用極大似然判據,得到了一種有條件的可能性概率:

式中:BT(l)表示一組輸出結果長度為T的字符串的集合;π表示一條由L中元素組成的長度為T的路徑。

相對于輸入,CTC 假定輸出的可能性是獨立的,即:

式中:CTC 假設輸出的概率是條件獨立的,因此路徑π的概率為它各個時刻經過某個音素的概率相乘,即ytπt。

3 仿真與結果分析

使用Jupyter Notebooker 平臺驗證算法的性能。仿真實驗使用的數據集為清華大學中文語料庫THCHS30。該數據集中,訓練(train)數據集音頻時長為25 h,句子數為10 000,詞數為198 252;檢驗(dev)數據集的音頻時長為2 h 14 min,有893 個語句,有17 743 個單詞;測試(test)數據集音頻時長為6 h 15 min,句子數為2 495,詞數為49 085。

搭建好聲學模型和語言模型,訓練和測試完成后,對已經錄制好的6 個*.wav 中文語言文件進行識別。語音識別部分仿真結果如圖10 所示。

圖10 語音識別部分仿真結果

由圖10 可以看出,語音識別的準確率較高,但是識別的結果還是有一定的錯誤,如:“難忘”識別結果“難望”,“翻騰蛹動”識別為“翻騰泳動”等。

對上述6 個樣本進行了30 次實驗,30 次實驗識別的平均正確率如表1 所示。

由表1 可以看出,所提方法的語音識別準確率在94%附近波動,樣本識別的正確率較高。

4 結 語

通過語音信號預處理提取聲學特征,構建卷積神經網絡聲學模型和Transformer 語言模型,結合CTC 損失函數完成語言識別。仿真結果表明,所提方法能夠實現端到端語音識別,也能夠有效地進行連續多字符的中文語音識別,達到了對中文音頻文件進行識別并輸出對應識別文字的效果,識別的正確率較高。然而在實踐中,方言、語速、情緒、斷句、性別、年齡等諸多因素,會對語音識別產生一定的影響,因此,要想提高辨識精度,就必須要有更多的深度卷積以及更多復雜的語言訓練。

另外,系統識別的準確率還有待提升,需要加大對噪聲的處理能力以及系統的抗干擾性,提高對數據集的接納性,使得系統更加穩定的運行,讓語音識別系統應用場景更廣。未來若想要實現更加復雜龐大的語言識別系統,除了進行普通話的訓練之外,還需要對方言的聲學特征進行研究和分析,使得識別系統能夠更加穩定、準確。

猜你喜歡
特征提取信號語言
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
讓語言描寫搖曳多姿
一種基于LBP 特征提取和稀疏表示的肝病識別算法
累積動態分析下的同聲傳譯語言壓縮
基于LabVIEW的力加載信號采集與PID控制
我有我語言
主站蜘蛛池模板: 丁香综合在线| 国产精品视频导航| 亚洲综合色婷婷中文字幕| 男人天堂伊人网| av一区二区三区在线观看 | 午夜成人在线视频| 欧美国产在线看| 国产免费怡红院视频| 黄色免费在线网址| 色悠久久综合| 国产精彩视频在线观看| 亚洲免费人成影院| 国产精品无码一区二区桃花视频| 久久综合丝袜长腿丝袜| 久久综合色播五月男人的天堂| 亚洲精品天堂自在久久77| 欧美精品成人一区二区在线观看| 精品久久综合1区2区3区激情| 广东一级毛片| 91在线播放免费不卡无毒| 无码丝袜人妻| 久久成人18免费| 欧美亚洲国产日韩电影在线| 欧美在线导航| 亚洲手机在线| а∨天堂一区中文字幕| 欧美人与动牲交a欧美精品| 漂亮人妻被中出中文字幕久久| 99久久国产精品无码| 日本三级黄在线观看| 久久久久九九精品影院| 先锋资源久久| 国产内射在线观看| 亚洲床戏一区| 波多野结衣中文字幕一区二区| 91精品啪在线观看国产60岁| 日韩成人在线一区二区| 一级毛片免费观看不卡视频| 久久中文字幕av不卡一区二区| 日本a∨在线观看| 99久久精品无码专区免费| 色婷婷成人| 亚洲一区二区约美女探花| 精品超清无码视频在线观看| 凹凸精品免费精品视频| 91精品国产福利| 婷婷综合亚洲| 精品偷拍一区二区| 国产无码在线调教| 国产地址二永久伊甸园| 99国产在线视频| 国产第一页屁屁影院| 伊人久久婷婷| AV在线麻免费观看网站| 999国内精品久久免费视频| 国产精品第三页在线看| 亚洲精品va| 九九免费观看全部免费视频| 久久99国产精品成人欧美| 欧美特黄一免在线观看| 久久香蕉国产线| 在线视频亚洲色图| 91亚洲视频下载| 婷婷伊人五月| 天天摸天天操免费播放小视频| 国内精品久久人妻无码大片高| 拍国产真实乱人偷精品| 在线播放精品一区二区啪视频| a毛片在线播放| 国产高清在线精品一区二区三区| 久久国产精品娇妻素人| 青草91视频免费观看| 狠狠色噜噜狠狠狠狠奇米777| 国内精品视频| 亚洲欧美综合在线观看| 日韩精品免费一线在线观看 | 91精品最新国内在线播放| 特级毛片免费视频| 成年看免费观看视频拍拍| 色悠久久综合| 欧美精品不卡| 欧美成人精品欧美一级乱黄|