999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Ghost-SE-Res2Net 的多模型融合語音喚醒詞檢測方法

2024-03-21 08:15:30虞秋辰周若華袁慶升
計(jì)算機(jī)工程 2024年3期
關(guān)鍵詞:特征融合檢測

虞秋辰,周若華*,袁慶升

(1.北京建筑大學(xué)電氣與信息工程學(xué)院,北京 102616;2.國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)

0 引言

喚醒詞檢測(WWD)系統(tǒng)是語音助手的重要組成部分。隨著“Hey Google”、“小藝小藝”和“Siri”等語音助手的出現(xiàn),該系統(tǒng)的應(yīng)用越來越廣泛,攜帶它們的設(shè)備也越來越多樣化。作為一個(gè)始終處于監(jiān)聽狀態(tài)的系統(tǒng),WWD 系統(tǒng)在接收到喚醒詞后立即被觸發(fā),從而啟用后續(xù)操作。為了降低能耗并提供流暢的用戶體驗(yàn),WWD 系統(tǒng)需具有高精度、低延遲和低內(nèi)存占用率3 個(gè)特點(diǎn)。

WWD 可以借鑒關(guān)鍵詞檢測(KWS)的方法。早期的解決方案是基于大詞匯量連續(xù)語音識別(LVCSR)[1-3],先從音頻信號中檢測出文本內(nèi)容,再找到喚醒詞進(jìn)行喚醒。LVCSR 方法雖然可以靈活替換喚醒詞內(nèi)容,但如果在移動(dòng)設(shè)備上使用,LVCSR方法占用資源大,無法滿足要求。

一個(gè)輕量的替代方案是關(guān)鍵詞/填充隱馬爾可夫模型(HMM)[4-6]。目前深 度神經(jīng)網(wǎng)絡(luò)(DNN)-HMM(DNN-HMM)系統(tǒng)使用DNN 代替高斯混合模型(GMM)進(jìn)行聲學(xué)特征建模[6-8]。

對于低資源的WWD,很多基于純粹神經(jīng)網(wǎng)絡(luò)的WWD 系統(tǒng),即基于DNN 的系統(tǒng)不使用任何序列模型。由于不需要復(fù)雜的序列搜索算法,這些WWD 系統(tǒng)具有更高的計(jì)算效率。該方法最早由Google 公司在2014 年提出[9]。它直接使用全連接前饋神經(jīng)網(wǎng)絡(luò)(FFNN)來估計(jì)單詞后驗(yàn)概率的序列,然后使用后處理方法來檢測關(guān)鍵詞。在這種范式下,許多DNN 架構(gòu)被提出來替代FFNN[10-12]。DNN 的優(yōu)點(diǎn)是可以通過改變DNN 中的參數(shù)數(shù)量來靈活地改變模型的大小,并且可以部署在硬件有限的設(shè)備上,這擴(kuò)展了WWD 系統(tǒng)的使用場景。如果希望在WWD 系統(tǒng)中使用序列級訓(xùn)練準(zhǔn)則,如CTC[13-14]和LF-MMI[15],則建模單元將是音素或HMM 狀態(tài)。然而,與自動(dòng)語音識別(ASR)相比,WWD 系統(tǒng)不一定需要序列對序列模型,因?yàn)樗惶蕾囉陂L范圍的時(shí)間依賴。

WWD 系統(tǒng)面臨的一個(gè)問題就是難以選擇合適大小的檢測窗口。例如,對于一個(gè)有3 個(gè)音節(jié)的中文喚醒詞,其持續(xù)時(shí)間范圍可能為300 ms~2 000 ms。如果使用長度為1 000 ms 的窗口檢測喚醒詞,就會(huì)導(dǎo)致在檢測短于1 000 ms 的喚醒詞的同時(shí),受到窗口內(nèi)非喚醒詞音頻的干擾;當(dāng)檢測長于1 000 ms 的喚醒詞時(shí),無法對喚醒詞的全局信息進(jìn)行檢測。面對這個(gè)問題,一些研究采取兩階段方法[7-8],利用第一階段的DNN-HMM 系統(tǒng)確定喚醒詞在語音流中的候選片段,提取候選片段的段級或音素級的有區(qū)分性的特征,傳遞給第二階段的分類器進(jìn)行檢測。

本文提出一種基于純粹神經(jīng)網(wǎng)絡(luò)的多模型融合的WWD 方法,分別使用2 個(gè)窗口長度不同的CNN模型檢測喚醒詞。運(yùn)用Ghost-SE-Res2Net 結(jié)構(gòu)模塊作為WWD 的小窗口檢測模型和大窗口檢測模型。由于在流式檢測時(shí),使用單一長度窗口檢測會(huì)降低檢測效果,因此使用小窗口檢測部分的喚醒詞,大窗口檢測完整的喚醒詞,融合2 個(gè)模型的后驗(yàn)概率,確定喚醒詞是否被觸發(fā)。由于設(shè)計(jì)WWD 系統(tǒng)時(shí)希望盡可能減少內(nèi)存占用和計(jì)算消耗,因此提出模型都是基于擠壓與激勵(lì)殘差網(wǎng)絡(luò)(SE-Res2Net)架構(gòu)的二元分類器[16]。SE-Res2Net 的多重縮放機(jī)制能夠提高WWD 的檢測能力,并且相比ResNet,參數(shù)量更少。在此基礎(chǔ)上,使用Ghost 卷積[17]替代SE-Res2Net 中的普通卷積,以縮減模型參數(shù)量。

1 本文方法

1.1 多模型融合WWD 系統(tǒng)

本文提出的多模型融合WWD 系統(tǒng)如圖 1 所示。系統(tǒng)主要有兩部分組成:小窗口喚醒詞檢測器Q1和大窗口喚醒詞檢測器Q2。Q1通過檢測由小滑動(dòng)窗處理得到的子頻譜圖,而Q2則檢測較大的子頻譜圖。由于WWD 中使用的深度神經(jīng)網(wǎng)絡(luò)無法同時(shí)很好地利用短期和長期的時(shí)間依賴,本文結(jié)合小窗口和大窗口模型的后驗(yàn)概率來決定喚醒詞是否觸發(fā)。

圖1 多模型融合喚醒詞檢測系統(tǒng)Fig.1 Multi-model fusion wake-up word detection system

1.2 SE-Res2Net 模塊

本文使用的Res2Net 模塊如圖2(b)所示,Res2Net 模塊由文獻(xiàn)[18]提 出。Res2Net 模塊是ResNet 模塊的擴(kuò)展。在Res2Net 模塊中,輸入特征圖被分成多個(gè)分支,每個(gè)分支使用不同的擴(kuò)張率進(jìn)行卷積。這些分支的輸出被連接并通過一個(gè)瓶頸層,該層降低了特征圖的維度。Res2Net 模塊的主要思想是通過增加分支數(shù)和每個(gè)分支內(nèi)卷積核的擴(kuò)張率,可以更有效地捕獲多尺度特征。

圖2 瓶頸模塊,Res2Net 模塊和SE-Res2Net 模塊Fig.2 Bottleneck module,Res2Net module,and SERes2Net module

Res2Net 的輸入是一個(gè)特征圖,其通道數(shù)為C,尺寸為H×W。如圖2(b)所示,在經(jīng)過一個(gè)1×1 卷積后,按照通道維度,輸入特征圖被均勻地分成s個(gè)子集,表示為xi,其中i?{1,2,…,s}。除x1外,每一個(gè)xi都經(jīng)過一個(gè)3×3 的卷積核Ki()。從i=3 開始,在輸入Ki()之前,xi先與Ki-1()的輸出相加。過程如式(1)所示:

擠壓與激勵(lì)模塊(SE block)通過顯式地建模通道間的相互依賴關(guān)系,可以為通道分配不同的權(quán)重,從而提高模型檢測喚醒詞的能力[19]。如圖2(c)所示,將Res2Net 模塊和SE 模塊堆疊在一起,構(gòu)成SERes2Net 模塊。

1.3 Ghost-Res2Net 模塊

SE-Res2Net 模塊通過對多個(gè)分支進(jìn)行卷積操作提取多尺度特征,但該過程帶來了大量的計(jì)算成本。為了減少計(jì)算量,文獻(xiàn)[17]使用Ghost 模塊生成幻影特征圖(GFM),利用一部分特征即可生成更大的特征圖。

Ghost 模塊的計(jì)算過程如圖3 所示。首先采用一般卷積生成通道數(shù)較少的特征圖Y',由于通道數(shù)較少,這一步消耗的計(jì)算資源也較少,然后通過線性變換,即?i()操作,得到幻影特征圖,最后將本體特征圖和幻影特征圖拼接得到Y(jié)。?i()操作雖然也是常規(guī)的內(nèi)核卷積,但僅在一個(gè)通道上進(jìn)行卷積,減少了計(jì)算消耗。

圖3 Ghost 模塊Fig.3 Ghost module

假設(shè)輸入特征圖X?Rh×w×c、Y'=X?f、f?Rc×k×k×m為卷積核,則Y'?Rm×h/×w'。

Y'生成幻影特征圖如式(2)所示:

其中:m表示Y'的通道數(shù)為第i個(gè)通道;j表示進(jìn)行的第j次線性變換。

設(shè)每次使用的內(nèi)核大小為d×d,Ghost 模塊的理論計(jì)算加速比rs和參數(shù)壓縮比rc如式(3)、式(4)所示:

從式(3)、式(4)可以看出,相比一般的卷積,Ghost 卷積在計(jì)算速度和參數(shù)量縮小上都有s倍提高。

本文使用的Ghost-SE-Res2Net 模塊如圖4 所示,通過將3×3 的卷積核Ki()替換成Ghost 模塊,可有效縮減模型的參數(shù)量。

圖4 Ghost-SE-Res2Net 模塊Fig.4 Ghost-SE-Res2Net module

1.4 注意力池化

當(dāng)檢測喚醒詞時(shí),在一個(gè)檢測窗內(nèi)不是每一幀都提供平等的喚醒詞信息,比如喚醒詞兩端的非喚醒詞音頻和伴隨著喚醒詞的背景噪聲,這些幀的信息就應(yīng)該被忽略。當(dāng)使用全局平均池化層(GAP)時(shí),分配給每一幀的權(quán)重是相同的,這意味著神經(jīng)網(wǎng)絡(luò)不能像人耳一樣關(guān)注喚醒詞部分,忽略不相關(guān)的部分。因此,本文使用如圖5 所示的注意力池化層(ATP)[20]代替Res2Net 網(wǎng)絡(luò)中的GAP,利用注意力機(jī)制獲得更便于檢測的嵌入特征e(i)。GAP 生成嵌入特征的原理如式(5)所示:

其中:T是頻譜圖H(i)的長度。

對頻譜圖H(i)中的每一幀ht,GAP 分配的權(quán)重是固定的αt=1/T,而注意力池化為每一幀ht分配一個(gè)權(quán)重αt,該權(quán)重是通過注意力機(jī)制學(xué)習(xí)得到的。首先通過學(xué)習(xí)得到標(biāo)量分?jǐn)?shù)st,如式(6)所示:

其中:v、W、b是所有ht共享的可訓(xùn)練參數(shù)。

然后使用標(biāo)量分?jǐn)?shù)計(jì)算歸一化權(quán)重αt,如式(7)所示:

最后計(jì)算得到嵌入特征e(i),如式(8)所示:

1.5 Q1和Q2 的設(shè)計(jì)

Q1和Q2都是二元分類器。在本文中,Q1和Q2為分別訓(xùn)練得到,從驗(yàn)證集中選擇表現(xiàn)最好的模型來搭建WWD 系統(tǒng)。為了簡化設(shè)計(jì),WWD 系統(tǒng)中使用了相同的Ghost-SE-Res2Net 模塊結(jié)構(gòu)來構(gòu)建兩個(gè)模型。

本文使用的Ghost-SE-Res2Net架構(gòu)的原始版本由文獻(xiàn)[16]提供,它具有5個(gè)卷積階段(Conv 1~Conv 5)、全局平均池化層和全連接層。

為了減少模型參數(shù),通過修改網(wǎng)絡(luò)架構(gòu),替換全局平均池化層為注意力池化層,由于使用的是二維卷積,為使用一維的注意力池化層,增加一個(gè)1×1 卷積層。將輸出通道從[16,32,64,128]減少到[4,8,16,32],刪除Conv 5 階段,并調(diào)整了Conv 1 階段的最后一個(gè)核的步長為2,得到Ghost-SE-Res2Net。作為對比,本文使用文獻(xiàn)[16]中的SE-Res2Net 和ResNet50 作為基線。SE-Res2Net 是將Ghost-SERes2Net 中的Ghost-SE-Res2Net 模塊替換為SERes2Net 模塊實(shí)現(xiàn)的。同時(shí),也對ResNet50 進(jìn)行相同的修改,降低模型參數(shù)量。多模型融合WWD 系統(tǒng)中的參數(shù)量是Q1和Q2中參數(shù)量的總和。本文使用的網(wǎng)絡(luò)具體結(jié)構(gòu)如表1 所示。

表1 ResNet50、SE-Res2Net 和Ghost-SE-Res2Net 模塊結(jié)構(gòu)Table 1 ResNet50,SE-Res2Net,and Ghost-SE-Res2Net module structures

1.6 困難樣本挖掘

由于Q1和Q2均以子頻譜圖作為輸入,在訓(xùn)練時(shí),使用在線困難樣本挖掘(OHEM)算法[21]自動(dòng)選擇難以識別的子頻譜圖進(jìn)行訓(xùn)練。

以數(shù)據(jù)集中的喚醒詞Nihao Wenwen 為正樣本,在訓(xùn)練時(shí)經(jīng)過滑動(dòng)窗的切片,子頻譜圖中可能包含Nihao、Nihao Wen 或者Haowen 等,某些子頻譜圖可能更難與負(fù)樣本區(qū)分開,因此,訓(xùn)練時(shí)使用OHEM 交叉熵?fù)p失函數(shù),如式(9)、式(10)所示,選擇一個(gè)批中損失值較大的樣本進(jìn)行訓(xùn)練。

其中:loga(p)是經(jīng)過網(wǎng)絡(luò)的輸出值;t是樣本標(biāo)簽;Knum是保留訓(xùn)練的樣本數(shù)。

1.7 端到端的流式推理

將WWD 任務(wù)視作一個(gè)端到端二元分類任務(wù),當(dāng)檢測一個(gè)預(yù)定義的喚醒詞時(shí),其他喚醒詞作為負(fù)樣本。

對每個(gè)檢測窗的音頻信號的頻譜圖特征H(i)=,喚醒詞檢測器Q1或Q2會(huì)為其分配一個(gè)分?jǐn)?shù)由于Q1和Q2的檢測窗口長度不同,在流式推理時(shí)中的最大值和(i)的平均值yf(i)>γ,表明喚醒詞被觸發(fā),閾值γ?(0,1)。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集

本文在Mobvo(iSLR87)公開數(shù)據(jù)集上驗(yàn)證所提方法的有效性。該數(shù)據(jù)集包含大約225 h 的數(shù)據(jù),共255 297 條音頻。數(shù)據(jù)采集自商用智能音箱,共有年齡3 歲到65 歲的788 名受試者。在1、3、5 m 的距離上采集每個(gè)受試者的關(guān)鍵詞和非關(guān)鍵詞數(shù)據(jù),并伴隨著不同信噪比(SNR)的背景噪聲(典型的家庭環(huán)境噪聲,如音樂和電視)。非關(guān)鍵詞數(shù)據(jù)共有大約187 h。其余每個(gè)音頻中都包含一個(gè)Hi Xiaowen 關(guān)鍵詞或一個(gè)Nihao Wenwen 關(guān)鍵詞。數(shù)據(jù)集的詳細(xì)信息如表2 所示。

表2 數(shù)據(jù)集統(tǒng)計(jì)信息(音頻數(shù))Table 2 Dataset statistics(number of audio files)單位:條

2.2 實(shí)驗(yàn)設(shè)置

所有實(shí)驗(yàn)均使用Librosa庫[22]提取音頻的256 維Mel 頻譜圖特征。Mel 頻譜圖特征通過25 ms 幀長和10 ms 幀移計(jì)算得到。

通過對訓(xùn)練集進(jìn)行抽樣統(tǒng)計(jì),發(fā)現(xiàn)99%的喚醒詞樣本的長度在200 幀以下。因此,對于Q1,對不同的喚醒詞使用不同參數(shù)的滑動(dòng)窗。Hi Xiaowen 使用窗長75 幀、窗移30%的滑動(dòng)窗,Nihao Wenwen 則使用窗長100 幀、窗移30%的滑動(dòng)窗。對于Q2,不管是Hi Xiaowen 還是Nihao Wenwen,都使用窗長200 幀、窗移30%的滑動(dòng)窗。當(dāng)頻譜圖長度不滿足時(shí),使用0填充。

Ghost 模塊的壓縮比rc為4。此外,分類器的訓(xùn)練目標(biāo)為使用交叉熵?fù)p失的Softmax。Adam 優(yōu)化器的初始學(xué)習(xí)率設(shè)置為0.000 2。在訓(xùn)練的前5 代中,使用OHEM 交叉熵?fù)p失函數(shù),選擇每個(gè)mini-batch中損失值最大的前75%的樣本參與訓(xùn)練,之后使用一般的交叉熵?fù)p失函數(shù)。同時(shí),在前5 代中使用SpecAugment 策略[23]對數(shù)據(jù)進(jìn)行擴(kuò)充。對于每個(gè)訓(xùn)練音頻,隨機(jī)選擇0~30 個(gè)連續(xù)幀,將所有的Mel 濾波器設(shè)為0 進(jìn)行時(shí)間遮掩。對于頻率遮掩,隨機(jī)選擇256 個(gè)Mel 濾波器中的0~20 個(gè)連續(xù)維度,在所有幀上將它們的值設(shè)置為0。每個(gè)模型至少訓(xùn)練20 代,如果在驗(yàn)證集上的損失沒有降低,則終止訓(xùn)練。

2.3 評價(jià)指標(biāo)與實(shí)驗(yàn)設(shè)置

在喚醒詞檢測時(shí),人們關(guān)心的是“在非喚醒詞的負(fù)樣本中每小時(shí)發(fā)生的錯(cuò)誤接受(FAH)少于特定次數(shù)的情況下,錯(cuò)誤拒絕(FR)占實(shí)際喚醒詞出現(xiàn)次數(shù)的比例”。因此,實(shí)驗(yàn)通常報(bào)告在預(yù)先指定的FAH 值下的錯(cuò)誤拒絕率(FRR)以供評估[24]。FAH 的值在0.1~1.0 次之間。本文中采用的評價(jià)指標(biāo)為FAH 為0.5 次時(shí)的FRR,即每小時(shí)錯(cuò)誤接受0.5 次情況下的錯(cuò)誤拒絕率。

本文所提的兩階段WWD 方法基于Python 編程語言實(shí)現(xiàn),采用CUDA v11.0 和PyTorch v1.9 深度學(xué)習(xí)框架。硬件設(shè)備配置為1 塊Intel 2.3 GHz Xeon?CPU 和1 塊NVIDIA Tesla V100S GPU。

2.4 結(jié)果分析

1)Ghost-SE-Res2Net 的有效性

為了驗(yàn)證本文所提的Ghost-SE-Res2Net 模塊的有效性,將其與ResNet50 和SE-Res2Net 進(jìn)行對比。

不同模型對多模型融合系統(tǒng)的影響結(jié)果如圖6所示,并且所有的檢測誤差權(quán)衡曲線都是通過掃描閾值γ得到的。

圖6 不同模型對多模型融合系統(tǒng)的影響Fig.6 The impact of different models on multi-model fusion system

使用Ghost-SE-Res2Net 模塊的多模型融合系統(tǒng)在2 個(gè)喚醒詞上的表現(xiàn)都是最好的,比使用SE-Res2Net 的系統(tǒng)在2 個(gè)喚醒詞上分別有相對37%和23%的FRR 下降,比使用ResNet50 的系統(tǒng)在兩個(gè)喚醒詞上有著相對52%和57%的FRR 下降。這表明Ghost-SE-Res2Net 模塊能夠有效提升WWD 的性能。

2)困難樣本挖掘的有效性

為了分析困難樣本挖掘?qū)ο到y(tǒng)性能的影響,本文進(jìn)行對比實(shí)驗(yàn),選擇在訓(xùn)練時(shí)的前0、5、10、20 代使用OHEM 交叉熵?fù)p失函數(shù)。實(shí)驗(yàn)結(jié)果如表3所示。

表3 使用OHEM 交叉熵?fù)p失函數(shù)的代數(shù)Table 3 Number of epochs using the OHEM crossentropy loss function

在兩個(gè)喚醒詞上,在前5 代使用OHEM 交叉熵?fù)p失函數(shù)比不使用OHEM 交叉熵?fù)p失函數(shù)分別有相對39%和37%的FRR 下降。而繼續(xù)增加使用OHEM交叉熵?fù)p失函數(shù)的代數(shù)則會(huì)降低WWD 性能,其中,前20 代使用OHEM 交叉熵?fù)p失函數(shù)比只在前5 代使用帶來了相對37%和42%的FRR 增加。這可能是因?yàn)檫^多使用OHEM 導(dǎo)致網(wǎng)絡(luò)更關(guān)注困難信息而產(chǎn)生了過擬合現(xiàn)象。總體來說,使用OHEM 至少使WWD 系統(tǒng)在兩個(gè)喚醒詞上有相對16%和10%的FRR 下降。

3)注意力池化的有效性

為了驗(yàn)證注意力池化的有效性,本文進(jìn)行消融實(shí)驗(yàn),將Ghost-SE-Res2Net 模塊中的注意力池化替換為全局平均池化。不同池化方法對多模型融合系統(tǒng)的影響如圖7 所示。

圖7 不同池化方法對多模型融合系統(tǒng)的影響Fig.7 The impact of different pooling methods on multi-model fusion system

使用注意力池化的Ghost-SE-Res2Net 模塊的系統(tǒng)性能明顯好于使用全局平均池化時(shí)的性能。在Hi Xiaowen 上有相 對16% 的FRR 下 降,在Nihao Wenwen 上有相對44%的FRR 下降。猜測系統(tǒng)性能的提升可能是由于使用注意力池化能夠減少檢測時(shí)喚醒詞兩端的非喚醒詞音頻和一些背景噪聲過大的幀的干擾。

4)多模型融合的有效性

為了驗(yàn)證多模型融合系統(tǒng)的性能,將多模型系統(tǒng)與單模型系統(tǒng)進(jìn)行比較。在使用單模型檢測時(shí),只要yQ1(i)或yQ2(i)大于閾值即認(rèn)為喚醒詞被觸發(fā)。結(jié)果如表4 所示,使用Ghost-SE-Res2Net的Q1性能要好于Q2,SE-Res2Net 情況相同,而使用ResNet50的Q1性能要差于Q2。

表4 多模型融合系統(tǒng)的有效性Table 4 Effectiveness of multi-model fusion system

多模型融合系統(tǒng)的性能是最好的,使用Ghost-SE-Res2Net 的多模型融合系統(tǒng)在兩個(gè)喚醒詞上分別至少有相對93% 和75% 的FRR 下降;使用SERes2Net 的多模型融合系統(tǒng)在兩個(gè)喚醒詞上分別至少有相對89%和67%的FRR 下降;使用ResNet50 的多模型融合系統(tǒng)則在兩個(gè)喚醒詞上分別至少有相對88%和29%的FRR 下降。結(jié)果表明,Q1和Q2有著很好的互補(bǔ)性,融合檢測喚醒詞的局部信息和全局信息能夠有效提高WWD 的檢測能力。

5)本文系統(tǒng)與其他系統(tǒng)的比較

本文提出的方法與在Mobvo(iSLR87)數(shù)據(jù)集上3 個(gè)最近 的基線 進(jìn)行比較[15,25-26],如 表5 所 示。文獻(xiàn)[25]使用完整喚醒詞作為建模單元搭建WWD 系統(tǒng),并通過選擇性負(fù)樣本挖掘來解決類不平衡問題。文獻(xiàn)[15]采用DNN-HMM 系統(tǒng),基于無對齊訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練。文獻(xiàn)[26]則使用流式Transformer 搭建WWD 系統(tǒng)。與文獻(xiàn)[26]相比,盡管系統(tǒng)參數(shù)量更多,但在2 個(gè)喚醒詞上分別實(shí)現(xiàn)了相對23%和28%的FRR 下降。

表5 不同WWD 系統(tǒng)的性能對比Table 5 Performance comparison of different WWD systems

與最先進(jìn)的基線[15]相比,本文提出的多模型融合WWD 系統(tǒng)在Hi Xiaowen 上有相對13%的FRR 上升,在Nihao Wenwen 上有相對14%的FRR 下降。由于文獻(xiàn)[15]使用的是DNN-HMM 系統(tǒng),建模單元為音素,導(dǎo)致喚醒詞的音節(jié)數(shù)對WWD 性能有一定影響,三音節(jié)的Hi Xiaowen 比四音節(jié)的Nihao Wenwen的發(fā)音變化更少,更易于檢測[27]。因此,DNN-HMM系統(tǒng)[15]在音節(jié) 數(shù)更少 的Hi Xiaowen 上 的FRR 比Nihao Wenwen 低0.1。而本文提出的基于Ghost-SERes2Net 的多模型融合WWD 系統(tǒng)的建模單元為完整的喚醒詞和部分的喚醒詞,通過兩個(gè)不同大小的檢測窗,使得本文提出的WWD 系統(tǒng)在面對不同長度的喚醒詞時(shí)魯棒性更好,在兩個(gè)喚醒詞上的表現(xiàn)只有0.03 的差距,并且由于Nihao Wenwen 的音節(jié)數(shù)更多,發(fā)音持續(xù)時(shí)間更長,使得多模型融合的效果略好于Hi Xiaowen。

值得注意的是,本文提出的系統(tǒng)在與最先進(jìn)的基線[15]的性能相似的同時(shí),系統(tǒng)的參數(shù)量相對減少了31%,實(shí)現(xiàn)了更低的內(nèi)存占用。

3 結(jié)束語

針對WWD 時(shí)檢測窗長度選擇困難的問題,本文提出一種新的多模型融合WWD 系統(tǒng)。該系統(tǒng)包含兩個(gè)二元分類器,分別使用小檢測窗和大檢測窗檢測喚醒詞的局部信息和全局信息,2 個(gè)分類器均使用提出的Ghost-SE-Res2Net 模塊。通過Ghost 卷積替換一般的卷積減小模型參數(shù)量,利用Ghost-SERes2Net 模塊提取多尺度特征,并通過注意力池化替換全局平均池化,引入困難樣本挖掘算法提高網(wǎng)絡(luò)對復(fù)雜信息的學(xué)習(xí)能力,使用多模型融合方法融合大小檢測窗的檢測結(jié)果,確定喚醒詞是否被觸發(fā)。下一步將嘗試使用動(dòng)態(tài)大小的檢測窗,以實(shí)現(xiàn)從音頻流中更準(zhǔn)確地定位喚醒詞信息,同時(shí)改進(jìn)網(wǎng)絡(luò)模型,減少系統(tǒng)參數(shù)量,進(jìn)一步提高WWD 的性能。

猜你喜歡
特征融合檢測
村企黨建聯(lián)建融合共贏
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
主站蜘蛛池模板: 中文字幕av一区二区三区欲色| 国产精品极品美女自在线网站| 999国产精品永久免费视频精品久久| 亚洲人成在线精品| 亚洲丝袜第一页| 国产性爱网站| 精品夜恋影院亚洲欧洲| 久久99国产视频| 2021国产在线视频| 亚洲天堂网2014| 日日拍夜夜操| 四虎免费视频网站| 国产91精品最新在线播放| 国产激情影院| 囯产av无码片毛片一级| 综合久久五月天| 国产欧美另类| 青草免费在线观看| 女同国产精品一区二区| 国产欧美精品一区二区| 精品一区二区三区水蜜桃| 久久精品一卡日本电影| 免费国产黄线在线观看| 香蕉精品在线| 欧美区日韩区| 中文字幕第4页| 91精品国产91久无码网站| 韩日午夜在线资源一区二区| 亚洲色图欧美一区| 国产在线小视频| 亚洲成人黄色在线| 亚洲色图欧美| 综合色区亚洲熟妇在线| 国产第二十一页| 国产亚洲精品自在久久不卡| 国产精品视频第一专区| 精品一区二区久久久久网站| 国产主播一区二区三区| 日韩欧美综合在线制服| 精品少妇人妻一区二区| 欧美自慰一级看片免费| 婷婷色中文| 五月天综合网亚洲综合天堂网| 欧美笫一页| 欧美一级黄色影院| 91福利片| 乱人伦中文视频在线观看免费| 国产精品久久久精品三级| 韩日无码在线不卡| 亚洲精品自拍区在线观看| 国产成人精品一区二区免费看京| 欧美人在线一区二区三区| 国产在线拍偷自揄拍精品| 综合人妻久久一区二区精品 | 热久久综合这里只有精品电影| 久久综合五月婷婷| 欧美激情综合| 亚洲一级毛片免费看| 中文字幕亚洲另类天堂| 国产精品视频猛进猛出| 亚洲无码电影| 国产成人久久777777| 欧美影院久久| 国产精品久久久久久久伊一| 色135综合网| 2021国产精品自拍| 亚洲色无码专线精品观看| 人妻中文久热无码丝袜| 美女内射视频WWW网站午夜| h网址在线观看| 日韩高清在线观看不卡一区二区| 久久久久夜色精品波多野结衣| 老司机久久99久久精品播放| 亚洲国产成熟视频在线多多| 毛片最新网址| 欧美亚洲一二三区| 亚洲a级在线观看| 欧美无专区| 国产免费a级片| 国产精品lululu在线观看| 91精品免费高清在线| AV不卡无码免费一区二区三区|