999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人機交互系統多維語音信息識別方法

2022-01-22 02:44:56劉尚旺王培哲張翰林涂婉宇
計算機仿真 2021年12期
關鍵詞:特征信號信息

劉尚旺,王培哲,張翰林,涂婉宇

(1.河南師范大學計算機與信息工程學院,河南 新鄉 453002;2.河南師范大學軟件學院,河南 新鄉 453002)

1 引言

人機交互技術作為社會最有效的交流方式之一,語音在人機交互領域中具有重要地位。語音在日常生活和工作中包含了說話人的大部分信息,屬于一種較為復雜的信號,大多數語音信息識別方法在現階段只能識別單一的信息,無法識別說話人感情、性別、內容和年齡等多維信息,導致人機交互系統忽略了人類的表達能力和情感的理解,智能化水平較低,因此需要對語音信息識別方法進行分析和研究[1-2]。

王瑋蔚等人[3]提出基于變分模態分解的語音信息識別方法,該方法利用變分模態分解方法在系統中獲取語音信息,并對固有模態函數進行計算,結合希爾伯特邊際譜和梅爾倒譜系數,實現語音信息的識別,該方法沒有對多維語音信息進行預加重處理,存在識別率低的問題。姜芃旭等人[4]提出基于卷積神經網絡特征表征的語音信息識別方法,該方法在Lenet-5模型中引入池化層和卷基層,用一維卷積核代替二維卷積核,并對一維特征進行處理,在模型中輸入一維特征,對特征進行變換表征,在SoftMax分類中輸入特征,實現語音信息的識別,該方法在識別之前沒有對多維語音信息進行分幀加窗處理,導致識別結果與實際不符,存在識別準確率低的問題。繆裕青等人[5]提出基于參數遷移的語音信息識別方法,將參數遷移引入神經網絡中,建立多維語音信號識別模型,并將語圖譜輸入識別模型中,在語音識別模型中引入AlexNet網絡模型,在LSTM網絡中訓練特征圖,實現語音信息的識別,該方法沒有對多維語音信號進行分幀加窗處理,存在識別效率低的問題。

為了解決上述方法中存在的問題,提出人機交互系統多維語音信息識別方法。

2 語音信號預處理與特征提取

2.1 語音信號預處理

人機交互系統多維語音信息識別方法為了避免多維語音信號識別過程中受到外界因素的影響,需要對人機交互系統多維語音信息進行預處理,對人機交互系統多維語音信息分別進行預加重預處理、分幀加窗預處理和端點檢測預處理。

1)預加重

語音信號由于口鼻輻射等因素會導致功率過高,隨著頻率的增加信號越弱,為了增強語音多維語音信號中存在的高頻部分,將預加重處理作為數字濾波器對多維語音信號進行處理[5]。

通過下述公式描述濾波器對應的傳遞函數

H(z)=1-αz-1

(1)

式中,α代表的是預加重系數。

設y(n)代表的是n時刻利用預加重高通濾波器處理后獲得的語音信號,可通過下式進行描述

y(n)=x(n)-αx(n-1)

(2)

式中,x(n)代表的是n時刻的語音信號。

2)音信號的短時平穩性進行考慮,將語音信號劃分成多個短時幀進行處理[6]。人機交互系統多維語音信息識別方法采用交疊分幀法對語音信息進行分幀處理。為了增強樣本點附近存在的語音波形,減弱剩余的波形,需要對分幀處理后的語音信號進行加窗處理[7]。

設sw(n)代表的是經過窗函數處理后的語音片段

sw(n)=s(n)*w(n)

(3)

式中,s(n)代表的是一幀語音片段,w(n)代表的是矩形窗。

3)端點檢測

在噪聲條件下獲取多維語音信號中的起始和終止點是語音處理環境中端點檢測的主要目的,去除語音信號中存在的靜音成分,獲得有效語音信號[8]。第n幀語音信號用xn(m)進行描述,設En代表的是一幀語音信號對應的短時能量,可通過下式進行計算

(4)

每個語音信號中都存在很多幀,每個幀對應的短時能量都不相同,非噪聲幀段和噪聲幀段之間的短時能量存在差異,濁音幀段與清音幀段對應的短時能量都是不一樣的[9]。人機交互系統多維語音信息識別方法為了在多維語音信號中獲得語音終止點和語音起始點,在處理過程中設置兩個不同的短時能量門限,通過短時過零率實現上述過程,設Zn代表的是語音信號xn(m)對應的短時過零率,可通過下式計算得到

(5)

式中,N代表的是幀長。人機交互系統多維語音信息識別方法具體流程如圖1所示。

圖1 識別流程圖

2.2 多維語音信息特征參數提取

人機交互系統多維語音信息識別方法提取語音信號的i-vector作為特征參數。

通過下式分解語句特征的高維均值超矢量M

M=Tω+m

(6)

式中,ω表示全差異因子;矩陣T表示全差異空間;m表示超矢量。人機交互系統多維語音信息識別方法提取語音信息特征向量的過程如下

(7)

式中,Ck代表的是第k個混合高斯系數;N(y;mk,Rk)描述的是高斯分布,其角協方差矩陣為Rk、均值為mk。

設Ω={ck,mk,Rk}代表的是GMM-UBM參數,通過(D·K)維隨機超矢量M(i)對給定語音數據Yi中說話人之間的差異進行描述

M(i)=M0+Tw(i)

(8)

式中,矩陣T可以對總體變化進行描述,是(D·K)×F維的;w(i)代表的是符合標準正態分布的低維隨機矢量。通過上述過程獲得的i-vector、Ω和Yi求解下述問題

(9)

對上式進行求解,提出多維語音的特征參數i-vector,并整理,獲得下述特征參數

(10)

式中,Γy(i)代表的是低維超矢量;Γ(i)代表的是(D·K)×(D·K)維度的塊對角陣。

3 多維語音信息識別

人機交互系統多維語音信息識別方法通過融合多維語音信息特征參數,獲得人機交互系統多維語音信息特征,利用神經網絡分類識別方法根據提取的多維語音信息特征完成人機交互系統多維語音信息的識別[10]。

3.1 多維語音信息特征融合

人機交互系統多維語音信息識別方法在關聯規則重組的基礎上融合多維語音信息特征,用P=|STFT(t,q)|2描述上述過程獲得的語音信息特征參數,其中STFT(t,q)代表的是短時傅里葉變換函數,對數據塊進行劃分,獲得若干個基函數,通過多種相位因子分析方法融合特征參數,在人機交互系統多維語音特征參數融合的基礎上獲得線性疊加輸出Y

(11)

式中,α代表的是統計調制參數,通常情況下為大于零的常數;x(t)代表的是特征參數;β代表的是相位因子搜索函數;c代表的是雙層優化的調頻參數。

采用多維尺度分析方法對人機交互系統多維語音信號的背景噪聲強度進行分解時[11],分量是固定的,分解結果可通過下式進行描述

(12)

式中,a(t)代表的是多維語音信號對應的檢測幅值;u(t)代表的是多維語音信號對應的相位旋轉約束量;φ(t)代表的是語音信息中數據塊對應的相位分布信息。

對第1個陣元對應的載波頻率進行計算,獲得多維語音信號對應的頻率增量r(t)

r(t)=a(t)exp{[fe1tln(t-t0)-fe2tlnφ(t)]}

(13)

式中,fe1、fe2代表的是多維語音信號對應的初始頻率和截止頻率。

設G代表的是多維語音信號中存在的低頻成分,其表達式如下

G=Wr(t)+W(a,b)

(14)

式中,W代表的是語音信號對應的頻譜特征量;b代表的是沖激響應函數。

在多維語音信息頻譜特征的分離結果的基礎上計算干擾方差h

(15)

式中,τ′代表的是時延參數;t0代表的是每段信號對應的峰值。

在尺度控制下,根據時間尺度分解結果獲得多維語音信號的濾波輸出ψ

(16)

通過信息融合跟蹤檢測方法獲得完整的多維語音信號對應的多維特征量。

3.2 識別方法

每個數據塊在人機交互系統中的采樣平衡點是等間隔的,設∏代表的是采樣干擾信號對應的幅度,其表達式如下

(17)

式中,q代表的是調制信號對應的模。

構建信號分類器E

(18)

式中,F(η)代表的是特征分類函數,對特征分類函數進行加權求和,獲得多維語音信號。

針對人機交互系統中存在多維語音信號通過改進神經網絡法進行特征分類,對分類狀態檢測度U進行計算

(19)

針對人機交互系統多維語音信息特征,在模糊分類約束條件下對神經網絡分類參數進行分析[12],采用改進神經網絡構建多維語音信息識別模型

(20)

式中,g(t)代表的是多維語音信號對應的部分傳輸序列;S代表的是信息融合輸出;M代表的是語音映射符號的數量;θ(t)代表的是模糊控制函數。

4 實驗與分析

為了驗證人機交互系統多維語音信息識別方法的整體有效性,需要對驗證人機交互系統多維語音信息識別方法進行測試,本次測試在Visual C++開發的平臺中進行,操作系統為Windows。分別采用人機交互系統多維語音信息識別方法(方法1)、基于變分模態分解的語音信息識別方法(方法2)和基于卷積神經網絡特征表征的語音信息識別方法(方法3)進行測試,對比不同方法的語音識別率,測試結果如圖2所示。

圖2 語音識別率測試結果

分析圖2中的數據可知,方法1對多維語音信息進行識別時獲得的識別率均在90%以上,遠遠高于方法2和方法3對多維語音信息進行識別時獲得的識別率,因為方法1對多維語音信息進行了預加重處理,提高了語音信號的高頻部分,進而提高了方法1的語音識別率。

分別采用方法1、方法2和方法3對人機交互多維語音信息進行識別,對比不同方法識別多維語音信息所用的時間,測試結果可通過圖3進行描述。

圖3 語音識別時間測試結果

對圖3中的數據進行分析可知,隨著多維語音信息數量的增加,方法1、方法2和方法3所用的識別時間都不斷增加,但在相同語音信息數量下,方法1所用的識別時間低于方法2和方法3所用的識別時間,因為方法1對多維語音信號進行了端點檢測,在背景噪聲中尋找語音的終止點和開始點,去除語音信號中存在的靜音成分,獲得有效語音信號,縮短了多維語音信息識別所用的時間,提高了方法1的識別效率。

將識別準確率作為測試指標,對方法1、方法2和方法3進行測試,測試結果如圖4所示。

圖4 識別準確率測試結果

據圖4可知,方法1、方法2和方法3的識別準確率隨著語音信息數量的增加有所下降,但方法1在測試過程中的識別準確率保持在90%以上,因為方法1對語音信號的短時平穩性進行考慮,將語音信號劃分成多個短時幀進行處理,采用神經網絡分類識別方法對預處理后的多維語音信息進行識別,提高了識別結果的準確率。

5 結束語

語音客服的應用場景較為廣泛,多維語音信息在人機交互系統中屬于混合信號。目前大部分多維語音識別方法無法同時識別說話的背景聲、所講內容、情感狀態、身份、性別和年齡等多維信息,無法達到實用化和商品化的要求,在此背景下需要對多維語音信息識別方法進行研究。提出人機交互系統多維語音信息識別方法,首先對多維語音信息進行預處理,融合多維特征,通過神經網絡分類識別方法完成多維語音信息的識別,有效的提高了識別率、識別效率和識別準確率,解決了目前方法中存在的問題,為人機交互系統的運行和發展提供了保障。

猜你喜歡
特征信號信息
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于LabVIEW的力加載信號采集與PID控制
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 伊人成人在线视频| 91午夜福利在线观看精品| 美女一级毛片无遮挡内谢| 久久综合激情网| 婷婷五月在线视频| 中国国产A一级毛片| 国产乱人视频免费观看| 欧美日韩资源| 国产精彩视频在线观看| 日韩欧美一区在线观看| 亚洲一区二区三区香蕉| 97在线国产视频| 香蕉eeww99国产精选播放| 国产成人一区免费观看| 视频在线观看一区二区| 欧美一区国产| 毛片最新网址| 国产在线拍偷自揄观看视频网站| 国产美女在线免费观看| 亚洲女同欧美在线| 国产资源免费观看| 亚洲欧美成aⅴ人在线观看| 国产欧美日韩一区二区视频在线| 干中文字幕| 麻豆国产精品一二三在线观看| 97人人做人人爽香蕉精品| 久久精品人人做人人爽| 无码日韩视频| 中文字幕欧美日韩高清| 亚洲天堂久久新| 久久青草免费91观看| 一区二区欧美日韩高清免费| 国产精品欧美亚洲韩国日本不卡| 国产精品偷伦视频免费观看国产| 天天操精品| 国产流白浆视频| 亚洲欧美在线看片AI| 国产精彩视频在线观看| 免费毛片网站在线观看| 国产乱人免费视频| 亚洲va精品中文字幕| 日韩欧美国产中文| 亚洲精品无码不卡在线播放| 91精品情国产情侣高潮对白蜜| 欧美日韩北条麻妃一区二区| 免费无码一区二区| 亚洲欧美日韩天堂| www.精品国产| 国产91视频观看| 日本免费福利视频| 久久永久视频| 极品私人尤物在线精品首页 | 一本一道波多野结衣一区二区| 伊人激情久久综合中文字幕| 国产精品一区二区无码免费看片| 亚洲一区二区三区国产精华液| 色成人亚洲| 欧美区日韩区| 免费无码AV片在线观看中文| 久久福利片| 女人18毛片水真多国产| 久久鸭综合久久国产| 欧美一区二区精品久久久| 2022国产无码在线| 毛片网站观看| 99er精品视频| 欧美精品成人| 国产欧美综合在线观看第七页| 久久精品只有这里有| 亚洲一道AV无码午夜福利| 91精品网站| 国产精品13页| 久久久久88色偷偷| 亚洲精品制服丝袜二区| 啪啪国产视频| 91原创视频在线| 中文字幕有乳无码| 特级aaaaaaaaa毛片免费视频 | 亚洲午夜天堂| 亚洲国产第一区二区香蕉| 亚洲美女一区| 亚洲国产精品日韩专区AV|