999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于At-LSTM模型的音/視頻雙流語音識別算法仿真

2023-03-11 05:00:46張添添
計算機仿真 2023年1期
關鍵詞:特征方法模型

張添添,王 婧

(1. 上海師范大學天華學院,上海 201815;2. 武漢大學國際軟件學院,湖北 武漢 430072)

1 引言

語音識別[1]作為交叉學科,近年來已成為計算機技術中人機接口的關鍵環節。語音識別技術就是通過機器將語音轉換成文本,有效幫助人們開展相關工作,縮減勞動成本。因此,在人體傷害較大的地下、深水輻射等復雜環境中被廣泛使用。由于微電子技術[2]的發展,將電子設備逐漸微型化,導致原有的語音識別方法無法有效地完成相關識別任務,因此,提出更加高效的語音識別方法就成為該領域目前急需解決的問題。

文獻[3]提出一種多尺度前向注意力模型的語音識別方法。該方法首先通過注意力模型獲取數據注意力得分;基于獲取的異常得分添加相關約束因子對模型實施優化;最后基于建立的模型確定語音級別,完成目標融合,實現語音的精確識別。文獻[4]提出基于卷積神經網絡的大容量漢語孤立字語音識別方法。該方法首先使用錄音設備對常用語音采集處理,建立非特定的語音樣本數據庫;再抽取語音的識別特征,構建語音識別模型;最后依據深度學習方法對模型展開訓練,依據訓練結果實現語音的精準識別。文獻[5]提出基于DL-T及遷移學習的語音識別方法。該方法首先依據采集的語音數據提取語音高維數據特征;基于RNN-T聲學原理以及LSTM網絡建立語音的聲學模型;最后通過DL-T方法對模型優化處理,提升模型的語音識別效果;最后依據模型的優化結果完成語音的識別。

上述方法中由于未能在語音識別前對語音數據去噪處理,導致上述方法在語音識別時,存在識別時間短、精準度不高的問題,并且語音中存在大量的噪聲點。為解決上述音/視頻雙流語音數據識別過程中存在的問題,提出基于注意力LSTM的音/視頻雙流語音識別算法。

2 語音數據預處理

在開展音/視頻雙流語音識別的[6]過程中,數據中存在的大量噪聲會影響語音的識別效果,因此,在語音識別前需要對音/視頻雙流語音數據實施去噪處理。

2.1 語音數據去噪

使用小波閾值去噪方法[7]在音/視頻雙流語音數據信號尺度上建立一個合理的閾值δ,辨識音/視頻雙流語音數據信號中的信號成分,實現音/視頻雙流語音數據信號的去噪處理,具體流程如下:

1)選取相應的小波函數以及信號分解層數,對數據信號分解處理,對分解后的含噪聲信號實施正交小波變換,獲取數據信號對應的尺度分解系數αj.l。

3)對信號分解后的低頻系數與高頻系數實施小波逆變換,獲取數據的去噪信號。

在上述數據信號的去噪過程中,閾值選取較為重要。由于現有的閾值函數去噪效果較差,因此,需要依據sqtwolog規則對閾值函數實施改進,實現音/視頻雙流語音數據信號的有效去噪。

設定音/視頻雙流語音數據信號的輸入信號序列為M,小波分解尺度為j,以此獲取信號的去噪閾值,結果如下式所示

(1)

式中,語音數據信號的噪聲標準差用ε表述,獲取的信號去噪閾值為δj,對數函數為In。

基于上述獲取的去噪閾值,建立語音數據信號的閾值去噪函數,硬閾值函數獲取過程如下式所示

(2)

由于硬閾值函數[8]在信號去噪時會影響到信號中的正常信息,導致重構后的語音信號出現振動噪聲,降低信號去噪效果,因此,需要在硬閾值基礎上,基于信號的光滑性理論建立信號的軟閾值函數,結果如下式所示

(3)

式中,符號函數為sgn(αj,l)。

(4)

基于上述建立的閾值函數完成語音數據信號的去噪。

2.2 數據矢量量化

語音數據噪聲去除[9]后,對語音數據矢量量化處理,在信息損傷較小的情況下完成語音數據的壓縮處理。

設定語音數據有n個維度,運用歐幾里德原理將語音數據集Rn劃分成m個不相交的子空間,過程中需要滿足如下條件

(5)

式中,數據劃分子空間數量為Rm,i為常數。

基于上述獲取的數據子空間,設定空間內數據的代表矢量為Xm,M個代表矢量組成的矢量集合標記X形式,當數據存在β個n維特征向量Y={Y1,Y2,…,Yn},數據的矢量量化過程就是Xm代表Yn的過程,結果如下式所示

XM=P(Xi),1≤M≤m,1≤i≤N

(6)

式中,i、j皆為常數,量化器函數為P(Xi)。

依據上述計算結果,完成音/視頻雙流語音數據的矢量量化處理[10]。

3 語音識別算法設計

3.1 語義關系抽取模型

基于上述語音數據的矢量量化處理結果,建立音/視頻雙流語音數據的語義關系抽取模型,通過模型的求解結果實現語音數據分類,完成音/視頻雙流語音數據的語音識別。具體模型結構如圖1所示。

根據圖1可知,該模型首先依據數據的矢量量化結果對數據語義實施分詞處理,提取數據的相關實體特征,并將其轉換成詞向量,完成語音局部特征的抽取。再將獲取的特征輸入到LSTM模型[11]中,通過注意力機制對語音數據的注意力概率展開計算,獲取模型輸入、輸出的相關性分析結果,輸出特征;最后通過特征的融合結果進行語音分類分類,最終實現語音識別。

圖1 語義關系抽取模型結構圖

3.2 模型求解

3.2.1 生成語音詞向量

基于語音數據的矢量量化結果,設定語音數據的詞向量矩陣為Cword,語音數據的one-hot形式為χω,以此獲取語音中各個數據的文本特征詞向量,過程如下式所示

(7)

3.2.2 建立At-LSTM模型

At-LSTM模型建立的主要流程包括建立LSTM模型和引入注意力機制[12]兩部分。

1)構建LSTM模型

LSTM模型是由若干LSTM單元組成的,而LSTM單元又是由輸入門λ、輸出門γ以及遺忘門h、記憶單元d組成。基于上述獲取的語音數據的局部特征值,激活模型記憶單元,獲取數據在LSTM單元的狀態特征,過程如下式所示

(8)

式中,模型激活函數為g,偏置項用p標記,sigmoid函數用ε表述,模型LSTM單元的狀態特征標記為it、ht、dt、ut、ft,模型狀態為t,正切函數為tan 。

2)引入注意力機制

獲取模型狀態特征后,在模型中引入注意力機制,計算語音數據的注意力概率[13],過程如下式所示

(9)

式中,注意力機制權值矩陣為Ya、Yb、Yc,注意力機制偏置項為pa,指數函數為exp ,模型輸出特征為fMi,語音數據中樣本數據fi的注意力概率為aMi。根據上述計算結果,獲取語音數據的模型輸出特征,建立模型的輸出特征集ηt。

3.2.3 語音識別

對模型的輸出特征實施統計計算,依據最大池化法對語音數據的對應輸出特征實施池化處理[14],過程如下式所示

k=max(ηt)

(10)

式中,語音數據的整體特征為k,最大池化特征為max(ηt)。語音數據池化完成后,即可解決語音數據長度不一的問題。

語音數據整體特征提取完成后,需要將獲取的數據局部特征與數據整體特征實施融合處理,獲取新的音/視頻雙流語音數據特征,完成語音數據的特征分類,實現音/視頻雙流語音數據的精準識別,過程如下式所示

(11)

式中,數據特征的融合結果為η,局部特征為s,數據的分類結果為v(x),向量拼接符號用?表示,分類器偏置為pv,分類權值為Mv,分類器二值向量系數為Cv,分類器選取系數為?。

最后依據音/視頻雙流語音數據的分類結果,完成語音數據的精確識別[15]。

4 實驗

為了驗證基于注意力LSTM的音/視頻雙流語音識別算法的整體有效性,進行實驗分析。分別采用基于注意力LSTM的音/視頻雙流語音識別算法(所提方法)、一種多尺度前向注意力模型的語音識別方法(文獻[3]方法)、基于卷積神經網絡的大容量漢語孤立字語音識別方法(文獻[4]方法)進行測試。

4.1 實驗環境與參數

在CHIME數據集中音/視頻雙流語音片段作為實驗對象,該數據集包含真實、仿真等不同類型的錄音。其中,真實錄音由4個揚聲器在4個嘈雜位置的近9000個錄音組成。實驗中將音/視頻雙流語音輸入至MATLAB軟件中,輸出界面如圖2所示。

圖2 仿真輸出界面

4.2 實驗結果與分析

為測試音/視頻雙流語音識別方法的識別有效性,選取語音識別準確率、識別時間以及抗噪性能3個測試指標,測試所提方法、文獻[3]方法以及文獻[4]方法的音/視頻雙流語音識別性能。

1)識別準確率

在實驗數據集中選取10個音/視頻雙流語音片段,采用所提方法、文獻[3]方法以及文獻[4]方法開展音/視頻雙流語音識別,測試3種方法的識別準確率,測試結果如圖3所示。

在開展音/視頻雙流語音識別的過程中,識別的準確率越高,說明識別的效果越好,準確率越低,說明識別的效果越差。分析圖3中的實驗結果可知,所提方法在語音識別時,識別準確率是三種方法中最高的,這主要是因為所提方法在語音識別前,對語音數據實施了去噪處理,所以該方法在語音識別時的識別準確率更高。

圖3 不同方法的語音識別準確率測試結果

2)識別時間

采用所提方法、文獻[3]方法以及文獻[4]方法開展音/視頻雙流語音識別時,識別時間的長短同樣是檢測識別性能的關鍵,因此,還要對上述3種方法的識別時間進行測試,測試結果如表1所示。

表1 不同識別方法的識別時間測試結果

語音識別過程中,識別時間越長,說明識別方法的識別效果越差,反之則越好。分析表1的實驗數據可知,隨著語音片段數量的增加,3種方法的識別時間呈現不同程度的增長趨勢。其中,所提方法的檢測結果是3種方法中最低的,說明該方法在語音識別時具備高效性。

3)去噪性能

采用所提方法、文獻[3]方法以及文獻[4]方法開展音/視頻雙流語音識別時,在數據集選取一個語音片段,其原始波形圖如圖4所示。采用3種方法對語音片段實施去噪處理測試結果如圖5所示。

圖4 原始波形圖

分析圖5可知,經過所提方法去噪后,語音的波形更加平滑,且波形較為穩定,沒有明顯的波動。而文獻[3]方法和文獻[4]方法雖然也在一定程度上達到了去噪的效果,但是波形仍然存在一定的波動,不夠穩定,說明所提方法的去噪效果更好。

圖5 去噪后的波形圖

綜上所述,所提方法的識別準確率與識別時間均優于其它方法,且能夠有效去除語音判斷中的噪聲,證明所提方法在語音識別時的抗噪性能好。

5 結束語

隨著計算機技術的不斷發展,音視頻雙流語音的精準識別,能夠有效降低人工成本。針對傳統語音識別方法中存在的問題,提出基于注意力LSTM的音/視頻雙流語音識別算法。該方法依據數據的去噪結果,對語音數據實施矢量量化處理;再通過量化處理結果構建建立At-LSTM模型,通過模型求解完成數據分類,實現音視頻雙流語音的精準識別。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产精品yjizz视频网一二区| 99999久久久久久亚洲| 亚洲人成网站在线观看播放不卡| 久久无码免费束人妻| 美女一级毛片无遮挡内谢| 伊人久久久久久久| 免费激情网址| 永久免费无码日韩视频| 欧美日本在线播放| 免费观看国产小粉嫩喷水| 亚洲精品第五页| 精品夜恋影院亚洲欧洲| 国产中文一区二区苍井空| 亚洲a级在线观看| 无码中文字幕加勒比高清| www亚洲精品| 国产91透明丝袜美腿在线| 久久精品免费看一| 日韩在线视频网| 亚洲欧美极品| 2021国产精品自产拍在线| 中文字幕欧美成人免费| 亚洲欧美极品| 国产日本一区二区三区| 久久这里只精品热免费99| 丝袜无码一区二区三区| 一本色道久久88| 国产美女精品一区二区| 亚洲人成亚洲精品| …亚洲 欧洲 另类 春色| 四虎成人在线视频| 久久九九热视频| 国产精品亚洲综合久久小说| 91在线一9|永久视频在线| 中文字幕乱码二三区免费| 白浆视频在线观看| 91九色视频网| 一级爆乳无码av| www.亚洲色图.com| 欧美午夜精品| 欧美亚洲一二三区| 成人午夜视频网站| 亚洲日韩AV无码一区二区三区人| 蜜臀AVWWW国产天堂| 精品国产www| 亚洲人成网站18禁动漫无码| 国产成人精品一区二区不卡| 久久这里只有精品8| 日本道综合一本久久久88| 国产中文一区a级毛片视频| 狼友av永久网站免费观看| 67194在线午夜亚洲| 国产成人亚洲毛片| 亚洲第一黄色网址| 日韩中文精品亚洲第三区| 东京热av无码电影一区二区| 91欧美亚洲国产五月天| 无码粉嫩虎白一线天在线观看| 片在线无码观看| 香蕉综合在线视频91| 精品久久高清| 激情综合网址| 国产激情无码一区二区免费| 国产美女在线免费观看| 欧美一区日韩一区中文字幕页| 国产福利一区二区在线观看| 91视频精品| 色综合久久久久8天国| 男人的天堂久久精品激情| 亚洲最新在线| 波多野结衣中文字幕久久| 亚洲人成电影在线播放| 尤物视频一区| 911亚洲精品| 欧美天堂久久| 91在线中文| 性喷潮久久久久久久久| 日本黄网在线观看| 又黄又湿又爽的视频| 亚洲国产AV无码综合原创| 免费国产无遮挡又黄又爽| 毛片视频网址|