基于Ghost-SE-Res2Net 的多模型融合語音喚醒詞檢測方法

2024-03-21 08:15:30虞秋辰周若華袁慶升

計(jì)算機(jī)工程 2024年3期

虞秋辰，周若華*，袁慶升

（1.北京建筑大學(xué)電氣與信息工程學(xué)院，北京 102616；2.國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心，北京 100029）

0 引言

喚醒詞檢測（WWD）系統(tǒng)是語音助手的重要組成部分。隨著“Hey Google”、“小藝小藝”和“Siri”等語音助手的出現(xiàn)，該系統(tǒng)的應(yīng)用越來越廣泛，攜帶它們的設(shè)備也越來越多樣化。作為一個(gè)始終處于監(jiān)聽狀態(tài)的系統(tǒng)，WWD 系統(tǒng)在接收到喚醒詞后立即被觸發(fā)，從而啟用后續(xù)操作。為了降低能耗并提供流暢的用戶體驗(yàn)，WWD 系統(tǒng)需具有高精度、低延遲和低內(nèi)存占用率3 個(gè)特點(diǎn)。

WWD 可以借鑒關(guān)鍵詞檢測（KWS）的方法。早期的解決方案是基于大詞匯量連續(xù)語音識別（LVCSR）［1-3］，先從音頻信號中檢測出文本內(nèi)容，再找到喚醒詞進(jìn)行喚醒。LVCSR 方法雖然可以靈活替換喚醒詞內(nèi)容，但如果在移動(dòng)設(shè)備上使用，LVCSR方法占用資源大，無法滿足要求。

一個(gè)輕量的替代方案是關(guān)鍵詞/填充隱馬爾可夫模型（HMM）［4-6］。目前深度神經(jīng)網(wǎng)絡(luò)（DNN）-HMM（DNN-HMM）系統(tǒng)使用DNN 代替高斯混合模型（GMM）進(jìn)行聲學(xué)特征建模［6-8］。

對于低資源的WWD，很多基于純粹神經(jīng)網(wǎng)絡(luò)的WWD 系統(tǒng)，即基于DNN 的系統(tǒng)不使用任何序列模型。由于不需要復(fù)雜的序列搜索算法，這些WWD 系統(tǒng)具有更高的計(jì)算效率。該方法最早由Google 公司在2014 年提出［9］。它直接使用全連接前饋神經(jīng)網(wǎng)絡(luò)（FFNN）來估計(jì)單詞后驗(yàn)概率的序列，然后使用后處理方法來檢測關(guān)鍵詞。在這種范式下，許多DNN 架構(gòu)被提出來替代FFNN［10-12］。DNN 的優(yōu)點(diǎn)是可以通過改變DNN 中的參數(shù)數(shù)量來靈活地改變模型的大小，并且可以部署在硬件有限的設(shè)備上，這擴(kuò)展了WWD 系統(tǒng)的使用場景。如果希望在WWD 系統(tǒng)中使用序列級訓(xùn)練準(zhǔn)則，如CTC［13-14］和LF-MMI［15］，則建模單元將是音素或HMM 狀態(tài)。然而，與自動(dòng)語音識別（ASR）相比，WWD 系統(tǒng)不一定需要序列對序列模型，因?yàn)樗惶蕾囉陂L范圍的時(shí)間依賴。

WWD 系統(tǒng)面臨的一個(gè)問題就是難以選擇合適大小的檢測窗口。例如，對于一個(gè)有3 個(gè)音節(jié)的中文喚醒詞，其持續(xù)時(shí)間范圍可能為300 ms～2 000 ms。如果使用長度為1 000 ms 的窗口檢測喚醒詞，就會(huì)導(dǎo)致在檢測短于1 000 ms 的喚醒詞的同時(shí)，受到窗口內(nèi)非喚醒詞音頻的干擾；當(dāng)檢測長于1 000 ms 的喚醒詞時(shí)，無法對喚醒詞的全局信息進(jìn)行檢測。面對這個(gè)問題，一些研究采取兩階段方法［7-8］，利用第一階段的DNN-HMM 系統(tǒng)確定喚醒詞在語音流中的候選片段，提取候選片段的段級或音素級的有區(qū)分性的特征，傳遞給第二階段的分類器進(jìn)行檢測。

本文提出一種基于純粹神經(jīng)網(wǎng)絡(luò)的多模型融合的WWD 方法，分別使用2 個(gè)窗口長度不同的CNN模型檢測喚醒詞。運(yùn)用Ghost-SE-Res2Net 結(jié)構(gòu)模塊作為WWD 的小窗口檢測模型和大窗口檢測模型。由于在流式檢測時(shí)，使用單一長度窗口檢測會(huì)降低檢測效果，因此使用小窗口檢測部分的喚醒詞，大窗口檢測完整的喚醒詞，融合2 個(gè)模型的后驗(yàn)概率，確定喚醒詞是否被觸發(fā)。由于設(shè)計(jì)WWD 系統(tǒng)時(shí)希望盡可能減少內(nèi)存占用和計(jì)算消耗，因此提出模型都是基于擠壓與激勵(lì)殘差網(wǎng)絡(luò)（SE-Res2Net）架構(gòu)的二元分類器［16］。SE-Res2Net 的多重縮放機(jī)制能夠提高WWD 的檢測能力，并且相比ResNet，參數(shù)量更少。在此基礎(chǔ)上，使用Ghost 卷積［17］替代SE-Res2Net 中的普通卷積，以縮減模型參數(shù)量。

1 本文方法

1.1 多模型融合WWD 系統(tǒng)

本文提出的多模型融合WWD 系統(tǒng)如圖 1 所示。系統(tǒng)主要有兩部分組成：小窗口喚醒詞檢測器Q1和大窗口喚醒詞檢測器Q2。Q1通過檢測由小滑動(dòng)窗處理得到的子頻譜圖，而Q2則檢測較大的子頻譜圖。由于WWD 中使用的深度神經(jīng)網(wǎng)絡(luò)無法同時(shí)很好地利用短期和長期的時(shí)間依賴，本文結(jié)合小窗口和大窗口模型的后驗(yàn)概率來決定喚醒詞是否觸發(fā)。

圖1 多模型融合喚醒詞檢測系統(tǒng)Fig.1 Multi-model fusion wake-up word detection system

1.2 SE-Res2Net 模塊

本文使用的Res2Net 模塊如圖2（b）所示，Res2Net 模塊由文獻(xiàn)［18］提出。Res2Net 模塊是ResNet 模塊的擴(kuò)展。在Res2Net 模塊中，輸入特征圖被分成多個(gè)分支，每個(gè)分支使用不同的擴(kuò)張率進(jìn)行卷積。這些分支的輸出被連接并通過一個(gè)瓶頸層，該層降低了特征圖的維度。Res2Net 模塊的主要思想是通過增加分支數(shù)和每個(gè)分支內(nèi)卷積核的擴(kuò)張率，可以更有效地捕獲多尺度特征。

圖2 瓶頸模塊，Res2Net 模塊和SE-Res2Net 模塊Fig.2 Bottleneck module，Res2Net module，and SERes2Net module

Res2Net 的輸入是一個(gè)特征圖，其通道數(shù)為C，尺寸為H×W。如圖2（b）所示，在經(jīng)過一個(gè)1×1 卷積后，按照通道維度，輸入特征圖被均勻地分成s個(gè)子集，表示為xi，其中i?{1,2,…,s}。除x1外，每一個(gè)xi都經(jīng)過一個(gè)3×3 的卷積核Ki()。從i=3 開始，在輸入Ki()之前，xi先與Ki-1()的輸出相加。過程如式（1）所示：

擠壓與激勵(lì)模塊（SE block）通過顯式地建模通道間的相互依賴關(guān)系，可以為通道分配不同的權(quán)重，從而提高模型檢測喚醒詞的能力［19］。如圖2（c）所示，將Res2Net 模塊和SE 模塊堆疊在一起，構(gòu)成SERes2Net 模塊。

1.3 Ghost-Res2Net 模塊

SE-Res2Net 模塊通過對多個(gè)分支進(jìn)行卷積操作提取多尺度特征，但該過程帶來了大量的計(jì)算成本。為了減少計(jì)算量，文獻(xiàn)［17］使用Ghost 模塊生成幻影特征圖（GFM），利用一部分特征即可生成更大的特征圖。

Ghost 模塊的計(jì)算過程如圖3 所示。首先采用一般卷積生成通道數(shù)較少的特征圖Y'，由于通道數(shù)較少，這一步消耗的計(jì)算資源也較少，然后通過線性變換，即?i()操作，得到幻影特征圖，最后將本體特征圖和幻影特征圖拼接得到Y(jié)。?i()操作雖然也是常規(guī)的內(nèi)核卷積，但僅在一個(gè)通道上進(jìn)行卷積，減少了計(jì)算消耗。

圖3 Ghost 模塊Fig.3 Ghost module

假設(shè)輸入特征圖X?Rh×w×c、Y'=X?f、f?Rc×k×k×m為卷積核，則Y'?Rm×h/×w'。

Y'生成幻影特征圖如式（2）所示：

其中：m表示Y'的通道數(shù)為第i個(gè)通道；j表示進(jìn)行的第j次線性變換。

設(shè)每次使用的內(nèi)核大小為d×d，Ghost 模塊的理論計(jì)算加速比rs和參數(shù)壓縮比rc如式（3）、式（4）所示：

從式（3）、式（4）可以看出，相比一般的卷積，Ghost 卷積在計(jì)算速度和參數(shù)量縮小上都有s倍提高。

本文使用的Ghost-SE-Res2Net 模塊如圖4 所示，通過將3×3 的卷積核Ki()替換成Ghost 模塊，可有效縮減模型的參數(shù)量。

圖4 Ghost-SE-Res2Net 模塊Fig.4 Ghost-SE-Res2Net module

1.4 注意力池化

當(dāng)檢測喚醒詞時(shí)，在一個(gè)檢測窗內(nèi)不是每一幀都提供平等的喚醒詞信息，比如喚醒詞兩端的非喚醒詞音頻和伴隨著喚醒詞的背景噪聲，這些幀的信息就應(yīng)該被忽略。當(dāng)使用全局平均池化層（GAP）時(shí)，分配給每一幀的權(quán)重是相同的，這意味著神經(jīng)網(wǎng)絡(luò)不能像人耳一樣關(guān)注喚醒詞部分，忽略不相關(guān)的部分。因此，本文使用如圖5 所示的注意力池化層（ATP）［20］代替Res2Net 網(wǎng)絡(luò)中的GAP，利用注意力機(jī)制獲得更便于檢測的嵌入特征e(i)。GAP 生成嵌入特征的原理如式（5）所示：

其中：T是頻譜圖H(i)的長度。

對頻譜圖H(i)中的每一幀ht，GAP 分配的權(quán)重是固定的αt=1/T，而注意力池化為每一幀ht分配一個(gè)權(quán)重αt，該權(quán)重是通過注意力機(jī)制學(xué)習(xí)得到的。首先通過學(xué)習(xí)得到標(biāo)量分?jǐn)?shù)st，如式（6）所示：

其中：v、W、b是所有ht共享的可訓(xùn)練參數(shù)。

然后使用標(biāo)量分?jǐn)?shù)計(jì)算歸一化權(quán)重αt，如式（7）所示：

最后計(jì)算得到嵌入特征e(i)，如式（8）所示：

1.5 Q1和Q2 的設(shè)計(jì)

Q1和Q2都是二元分類器。在本文中，Q1和Q2為分別訓(xùn)練得到，從驗(yàn)證集中選擇表現(xiàn)最好的模型來搭建WWD 系統(tǒng)。為了簡化設(shè)計(jì)，WWD 系統(tǒng)中使用了相同的Ghost-SE-Res2Net 模塊結(jié)構(gòu)來構(gòu)建兩個(gè)模型。

本文使用的Ghost-SE-Res2Net架構(gòu)的原始版本由文獻(xiàn)［16］提供，它具有5個(gè)卷積階段（Conv 1～Conv 5）、全局平均池化層和全連接層。

為了減少模型參數(shù)，通過修改網(wǎng)絡(luò)架構(gòu)，替換全局平均池化層為注意力池化層，由于使用的是二維卷積，為使用一維的注意力池化層，增加一個(gè)1×1 卷積層。將輸出通道從［16，32，64，128］減少到［4，8，16，32］，刪除Conv 5 階段，并調(diào)整了Conv 1 階段的最后一個(gè)核的步長為2，得到Ghost-SE-Res2Net。作為對比，本文使用文獻(xiàn)［16］中的SE-Res2Net 和ResNet50 作為基線。SE-Res2Net 是將Ghost-SERes2Net 中的Ghost-SE-Res2Net 模塊替換為SERes2Net 模塊實(shí)現(xiàn)的。同時(shí)，也對ResNet50 進(jìn)行相同的修改，降低模型參數(shù)量。多模型融合WWD 系統(tǒng)中的參數(shù)量是Q1和Q2中參數(shù)量的總和。本文使用的網(wǎng)絡(luò)具體結(jié)構(gòu)如表1 所示。

表1 ResNet50、SE-Res2Net 和Ghost-SE-Res2Net 模塊結(jié)構(gòu)Table 1 ResNet50，SE-Res2Net，and Ghost-SE-Res2Net module structures

1.6 困難樣本挖掘

由于Q1和Q2均以子頻譜圖作為輸入，在訓(xùn)練時(shí)，使用在線困難樣本挖掘（OHEM）算法［21］自動(dòng)選擇難以識別的子頻譜圖進(jìn)行訓(xùn)練。

以數(shù)據(jù)集中的喚醒詞Nihao Wenwen 為正樣本，在訓(xùn)練時(shí)經(jīng)過滑動(dòng)窗的切片，子頻譜圖中可能包含Nihao、Nihao Wen 或者Haowen 等，某些子頻譜圖可能更難與負(fù)樣本區(qū)分開，因此，訓(xùn)練時(shí)使用OHEM 交叉熵?fù)p失函數(shù)，如式（9）、式（10）所示，選擇一個(gè)批中損失值較大的樣本進(jìn)行訓(xùn)練。

其中：loga(p)是經(jīng)過網(wǎng)絡(luò)的輸出值；t是樣本標(biāo)簽；Knum是保留訓(xùn)練的樣本數(shù)。

1.7 端到端的流式推理

將WWD 任務(wù)視作一個(gè)端到端二元分類任務(wù)，當(dāng)檢測一個(gè)預(yù)定義的喚醒詞時(shí)，其他喚醒詞作為負(fù)樣本。

對每個(gè)檢測窗的音頻信號的頻譜圖特征H(i)=，喚醒詞檢測器Q1或Q2會(huì)為其分配一個(gè)分?jǐn)?shù)由于Q1和Q2的檢測窗口長度不同，在流式推理時(shí)中的最大值和(i)的平均值yf(i)＞γ，表明喚醒詞被觸發(fā)，閾值γ?(0,1)。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集

本文在Mobvo（iSLR87）公開數(shù)據(jù)集上驗(yàn)證所提方法的有效性。該數(shù)據(jù)集包含大約225 h 的數(shù)據(jù)，共255 297 條音頻。數(shù)據(jù)采集自商用智能音箱，共有年齡3 歲到65 歲的788 名受試者。在1、3、5 m 的距離上采集每個(gè)受試者的關(guān)鍵詞和非關(guān)鍵詞數(shù)據(jù)，并伴隨著不同信噪比（SNR）的背景噪聲（典型的家庭環(huán)境噪聲，如音樂和電視）。非關(guān)鍵詞數(shù)據(jù)共有大約187 h。其余每個(gè)音頻中都包含一個(gè)Hi Xiaowen 關(guān)鍵詞或一個(gè)Nihao Wenwen 關(guān)鍵詞。數(shù)據(jù)集的詳細(xì)信息如表2 所示。

表2 數(shù)據(jù)集統(tǒng)計(jì)信息（音頻數(shù)）Table 2 Dataset statistics（number of audio files）單位：條

2.2 實(shí)驗(yàn)設(shè)置

所有實(shí)驗(yàn)均使用Librosa庫［22］提取音頻的256 維Mel 頻譜圖特征。Mel 頻譜圖特征通過25 ms 幀長和10 ms 幀移計(jì)算得到。

通過對訓(xùn)練集進(jìn)行抽樣統(tǒng)計(jì)，發(fā)現(xiàn)99%的喚醒詞樣本的長度在200 幀以下。因此，對于Q1，對不同的喚醒詞使用不同參數(shù)的滑動(dòng)窗。Hi Xiaowen 使用窗長75 幀、窗移30%的滑動(dòng)窗，Nihao Wenwen 則使用窗長100 幀、窗移30%的滑動(dòng)窗。對于Q2，不管是Hi Xiaowen 還是Nihao Wenwen，都使用窗長200 幀、窗移30%的滑動(dòng)窗。當(dāng)頻譜圖長度不滿足時(shí)，使用0填充。

Ghost 模塊的壓縮比rc為4。此外，分類器的訓(xùn)練目標(biāo)為使用交叉熵?fù)p失的Softmax。Adam 優(yōu)化器的初始學(xué)習(xí)率設(shè)置為0.000 2。在訓(xùn)練的前5 代中，使用OHEM 交叉熵?fù)p失函數(shù)，選擇每個(gè)mini-batch中損失值最大的前75%的樣本參與訓(xùn)練，之后使用一般的交叉熵?fù)p失函數(shù)。同時(shí)，在前5 代中使用SpecAugment 策略［23］對數(shù)據(jù)進(jìn)行擴(kuò)充。對于每個(gè)訓(xùn)練音頻，隨機(jī)選擇0～30 個(gè)連續(xù)幀，將所有的Mel 濾波器設(shè)為0 進(jìn)行時(shí)間遮掩。對于頻率遮掩，隨機(jī)選擇256 個(gè)Mel 濾波器中的0～20 個(gè)連續(xù)維度，在所有幀上將它們的值設(shè)置為0。每個(gè)模型至少訓(xùn)練20 代，如果在驗(yàn)證集上的損失沒有降低，則終止訓(xùn)練。

2.3 評價(jià)指標(biāo)與實(shí)驗(yàn)設(shè)置

在喚醒詞檢測時(shí)，人們關(guān)心的是“在非喚醒詞的負(fù)樣本中每小時(shí)發(fā)生的錯(cuò)誤接受（FAH）少于特定次數(shù)的情況下，錯(cuò)誤拒絕（FR）占實(shí)際喚醒詞出現(xiàn)次數(shù)的比例”。因此，實(shí)驗(yàn)通常報(bào)告在預(yù)先指定的FAH 值下的錯(cuò)誤拒絕率（FRR）以供評估［24］。FAH 的值在0.1～1.0 次之間。本文中采用的評價(jià)指標(biāo)為FAH 為0.5 次時(shí)的FRR，即每小時(shí)錯(cuò)誤接受0.5 次情況下的錯(cuò)誤拒絕率。

本文所提的兩階段WWD 方法基于Python 編程語言實(shí)現(xiàn)，采用CUDA v11.0 和PyTorch v1.9 深度學(xué)習(xí)框架。硬件設(shè)備配置為1 塊Intel 2.3 GHz Xeon?CPU 和1 塊NVIDIA Tesla V100S GPU。

2.4 結(jié)果分析

1）Ghost-SE-Res2Net 的有效性

為了驗(yàn)證本文所提的Ghost-SE-Res2Net 模塊的有效性，將其與ResNet50 和SE-Res2Net 進(jìn)行對比。

不同模型對多模型融合系統(tǒng)的影響結(jié)果如圖6所示，并且所有的檢測誤差權(quán)衡曲線都是通過掃描閾值γ得到的。

圖6 不同模型對多模型融合系統(tǒng)的影響Fig.6 The impact of different models on multi-model fusion system

使用Ghost-SE-Res2Net 模塊的多模型融合系統(tǒng)在2 個(gè)喚醒詞上的表現(xiàn)都是最好的，比使用SE-Res2Net 的系統(tǒng)在2 個(gè)喚醒詞上分別有相對37%和23%的FRR 下降，比使用ResNet50 的系統(tǒng)在兩個(gè)喚醒詞上有著相對52%和57%的FRR 下降。這表明Ghost-SE-Res2Net 模塊能夠有效提升WWD 的性能。

2）困難樣本挖掘的有效性

為了分析困難樣本挖掘?qū)ο到y(tǒng)性能的影響，本文進(jìn)行對比實(shí)驗(yàn)，選擇在訓(xùn)練時(shí)的前0、5、10、20 代使用OHEM 交叉熵?fù)p失函數(shù)。實(shí)驗(yàn)結(jié)果如表3所示。

表3 使用OHEM 交叉熵?fù)p失函數(shù)的代數(shù)Table 3 Number of epochs using the OHEM crossentropy loss function

在兩個(gè)喚醒詞上，在前5 代使用OHEM 交叉熵?fù)p失函數(shù)比不使用OHEM 交叉熵?fù)p失函數(shù)分別有相對39%和37%的FRR 下降。而繼續(xù)增加使用OHEM交叉熵?fù)p失函數(shù)的代數(shù)則會(huì)降低WWD 性能，其中，前20 代使用OHEM 交叉熵?fù)p失函數(shù)比只在前5 代使用帶來了相對37%和42%的FRR 增加。這可能是因?yàn)檫^多使用OHEM 導(dǎo)致網(wǎng)絡(luò)更關(guān)注困難信息而產(chǎn)生了過擬合現(xiàn)象。總體來說，使用OHEM 至少使WWD 系統(tǒng)在兩個(gè)喚醒詞上有相對16%和10%的FRR 下降。

3）注意力池化的有效性

為了驗(yàn)證注意力池化的有效性，本文進(jìn)行消融實(shí)驗(yàn)，將Ghost-SE-Res2Net 模塊中的注意力池化替換為全局平均池化。不同池化方法對多模型融合系統(tǒng)的影響如圖7 所示。

圖7 不同池化方法對多模型融合系統(tǒng)的影響Fig.7 The impact of different pooling methods on multi-model fusion system

使用注意力池化的Ghost-SE-Res2Net 模塊的系統(tǒng)性能明顯好于使用全局平均池化時(shí)的性能。在Hi Xiaowen 上有相對16% 的FRR 下降，在Nihao Wenwen 上有相對44%的FRR 下降。猜測系統(tǒng)性能的提升可能是由于使用注意力池化能夠減少檢測時(shí)喚醒詞兩端的非喚醒詞音頻和一些背景噪聲過大的幀的干擾。

4）多模型融合的有效性

為了驗(yàn)證多模型融合系統(tǒng)的性能，將多模型系統(tǒng)與單模型系統(tǒng)進(jìn)行比較。在使用單模型檢測時(shí)，只要yQ1(i)或yQ2(i)大于閾值即認(rèn)為喚醒詞被觸發(fā)。結(jié)果如表4 所示，使用Ghost-SE-Res2Net的Q1性能要好于Q2，SE-Res2Net 情況相同，而使用ResNet50的Q1性能要差于Q2。

表4 多模型融合系統(tǒng)的有效性Table 4 Effectiveness of multi-model fusion system

多模型融合系統(tǒng)的性能是最好的，使用Ghost-SE-Res2Net 的多模型融合系統(tǒng)在兩個(gè)喚醒詞上分別至少有相對93% 和75% 的FRR 下降；使用SERes2Net 的多模型融合系統(tǒng)在兩個(gè)喚醒詞上分別至少有相對89%和67%的FRR 下降；使用ResNet50 的多模型融合系統(tǒng)則在兩個(gè)喚醒詞上分別至少有相對88%和29%的FRR 下降。結(jié)果表明，Q1和Q2有著很好的互補(bǔ)性，融合檢測喚醒詞的局部信息和全局信息能夠有效提高WWD 的檢測能力。

5）本文系統(tǒng)與其他系統(tǒng)的比較

本文提出的方法與在Mobvo（iSLR87）數(shù)據(jù)集上3 個(gè)最近的基線進(jìn)行比較［15，25-26］，如表5 所示。文獻(xiàn)［25］使用完整喚醒詞作為建模單元搭建WWD 系統(tǒng)，并通過選擇性負(fù)樣本挖掘來解決類不平衡問題。文獻(xiàn)［15］采用DNN-HMM 系統(tǒng)，基于無對齊訓(xùn)練準(zhǔn)則進(jìn)行訓(xùn)練。文獻(xiàn)［26］則使用流式Transformer 搭建WWD 系統(tǒng)。與文獻(xiàn)［26］相比，盡管系統(tǒng)參數(shù)量更多，但在2 個(gè)喚醒詞上分別實(shí)現(xiàn)了相對23%和28%的FRR 下降。

表5 不同WWD 系統(tǒng)的性能對比Table 5 Performance comparison of different WWD systems

與最先進(jìn)的基線［15］相比，本文提出的多模型融合WWD 系統(tǒng)在Hi Xiaowen 上有相對13%的FRR 上升，在Nihao Wenwen 上有相對14%的FRR 下降。由于文獻(xiàn)［15］使用的是DNN-HMM 系統(tǒng)，建模單元為音素，導(dǎo)致喚醒詞的音節(jié)數(shù)對WWD 性能有一定影響，三音節(jié)的Hi Xiaowen 比四音節(jié)的Nihao Wenwen的發(fā)音變化更少，更易于檢測［27］。因此，DNN-HMM系統(tǒng)［15］在音節(jié) 數(shù)更少的Hi Xiaowen 上的FRR 比Nihao Wenwen 低0.1。而本文提出的基于Ghost-SERes2Net 的多模型融合WWD 系統(tǒng)的建模單元為完整的喚醒詞和部分的喚醒詞，通過兩個(gè)不同大小的檢測窗，使得本文提出的WWD 系統(tǒng)在面對不同長度的喚醒詞時(shí)魯棒性更好，在兩個(gè)喚醒詞上的表現(xiàn)只有0.03 的差距，并且由于Nihao Wenwen 的音節(jié)數(shù)更多，發(fā)音持續(xù)時(shí)間更長，使得多模型融合的效果略好于Hi Xiaowen。

值得注意的是，本文提出的系統(tǒng)在與最先進(jìn)的基線［15］的性能相似的同時(shí)，系統(tǒng)的參數(shù)量相對減少了31%，實(shí)現(xiàn)了更低的內(nèi)存占用。

3 結(jié)束語

針對WWD 時(shí)檢測窗長度選擇困難的問題，本文提出一種新的多模型融合WWD 系統(tǒng)。該系統(tǒng)包含兩個(gè)二元分類器，分別使用小檢測窗和大檢測窗檢測喚醒詞的局部信息和全局信息，2 個(gè)分類器均使用提出的Ghost-SE-Res2Net 模塊。通過Ghost 卷積替換一般的卷積減小模型參數(shù)量，利用Ghost-SERes2Net 模塊提取多尺度特征，并通過注意力池化替換全局平均池化，引入困難樣本挖掘算法提高網(wǎng)絡(luò)對復(fù)雜信息的學(xué)習(xí)能力，使用多模型融合方法融合大小檢測窗的檢測結(jié)果，確定喚醒詞是否被觸發(fā)。下一步將嘗試使用動(dòng)態(tài)大小的檢測窗，以實(shí)現(xiàn)從音頻流中更準(zhǔn)確地定位喚醒詞信息，同時(shí)改進(jìn)網(wǎng)絡(luò)模型，減少系統(tǒng)參數(shù)量，進(jìn)一步提高WWD 的性能。