999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于帶閾值的BPE-dropout多任務學習的端到端語音識別

2024-06-16 00:00:00馬建朵琳韋貴香唐劍
吉林大學學報(理學版) 2024年3期

摘要: 針對語音識別任務中出現的未登錄詞問題, 提出一種帶閾值的BPE-dropout多任務學習語音識別方法. 該方法采用帶隨機性的字節對編碼算法, 在

形成子詞時引入帶字數閾值的策略, 將子詞作為建模單元, 編碼器部分采用Conformer結構, 與鏈接時序分類和注意力機制相結合. 為進一步提升模型性能, 引入動態

參數對損失函數進行動態調節, 并同時進行多任務訓練和解碼. 實驗結果表明, 該方法采用子詞作為建模單元可有效解決未登錄詞問題, 在多任務學習框架下進一步提升了模型的識

別性能. 在公開數據集THCHS30和ST-CMDS上, 該模型實現了超過95%的識別準確率.

關鍵詞: 語音識別; 多任務學習; 字節對編碼; 動態調節參數

中圖分類號: TP391; TN912.3"" 文獻標志碼: A" 文章編號: 1671-5489(2024)03-0674-09

End-to-End" Speech Recognition Based on Threshold-BasedBPE-Dropout Multi-task Learning

MA Jian, DUO Lin, WEI Guixiang, TANG Jian

(Faculty of Information Engineering and Automation,Kuming University of Science and Technology, Kunming 650500, China)

Abstract: Aiming at" the problem of unknown words in speech recognition tasks, we proposed a threshold based\|BPE-dropout multi-task learning speech recognition method.

This method adopted a random byte pair coding algorithm. When forming sub-words, a strategy with word number threshold was introduced. The sub-words were used as modeling units, and the encoder

part adopted Conformer structure, which was combined with link timing classification and attention mechanism. In order to further improve the performance of the model," dynamic parameters

were" introduced to dynamically adjust the loss function, and" multi-task training and decoding were performed simultaneously. The experimental results show that the proposed method can

effectively solve the problem of unknown words by using sub-words as modeling units, and further improve the recognition performance of the model under the multi-task learning framework. On the public

datasets THCHS30 and ST-CMDS, the model achieves more than 95% recognition accuracy.

Keywords: speech recognition; multi-task learning; byte pair coding; dynamic adjustment parameter

收稿日期: 2023-06-16.

第一作者簡介: 馬" 建(1998—), 男, 漢族, 碩士研究生, 從事語音識別和信號處理的研究, E-mail: 2703729898@qq.com.

通信作者簡介: 朵" 琳(1974—), 女, 彝族, 博士, 副教授, 從事語音識別和信號處理的研究, E-mail: duolin2003@126.com.

基金項目: 國家自然科學基金(批準號: 61962032).

自動語音識別(automatic speech recognition, ASR)技術是將人類可懂語音轉換為可讀性的文本, 是實現人機交互的關鍵技術[1]. 目前, ASR產品已廣泛應用于人們的日

常生活, 如蘋果的Siri、 亞馬遜的Alexa、 訊飛語音輸入法、 叮咚智能音箱等. 語音識別是模式識別的一部分, 它主要利用模型算法檢測語音向量, 即語音特征

參數, 并最終傳遞識別結果[2]. 語音識別的最終目標是準確識別不同環境下的語音內容.

傳統的高斯混合-隱Markov模型(GMM-HMM)是語音識別序列系統的主流方法. HTK[3]是一種基于隱Markov模型(HMM)的語音識別工

具. 近年來, 由于深度學習框架的崛起及神經網絡處理非線性模型和大數據的能力, 語音識別模型取得了許多研究成果, 其中深度置信網絡[4](deep

belief network, DBN)與HMM相結合的聲學模型在小詞匯量連續語音識別中取得成功, 深度神經網絡與HMM結合的聲學模型DNN-HMM在大量詞匯連續語音

識別(large vocabulary continuous speech recognition, LVCSR)中取得成功[5], 開啟了利用深度學習進行語音識別的新時代. 同時卷積神經網絡(con

volutional neural network, CNN)[6]和深度神經網絡(deep neural network, DNN)[7]也廣泛應用于自動語音識別任務中[8]. 相比DNN, CNN能有效利用圖像

特征以及權值分布和池化操作, 為模型提供更好的圖像和不變性, 從而提高卷積神經網絡在語音識別中的準確率.

近年來, 語音識別領域通過引入端到端語音識別模型取得了顯著進展. 端到端語音識別模型簡化了傳統的神經網絡結構, 采用單一的結構, 不再需要傳統的發音字典單元, 可直接預

測字和單詞. 這種簡化結構使端到端語音識別模型在準確率方面超過了傳統的語音識別模型. 目前, 有兩種主要算法可用于實現端到端語音識別模型: 一種是

基于鏈接時序分類(connectionist temporal classification, CTC)[9]的語音識別結構; 另一種是基于注意力機制的語音識別結構.

目前, 基于注意力機制的Transformer模型[10]在各種語音識別任務中逐漸取代了傳統的循環神經網絡(RNN)模型. 這是因為Transformer模型具有捕獲長距離語音特

征信息和高度并行訓練的能力, 而卷積神經網絡則擅長提取局部細粒度特征. 通過引入注意力機制, Transformer模型能同時處理整個輸入序列, 而不像RNN模型需要按

順序逐步計算, 使得Transformer模型能高效地并行計算, 從而顯著加快了訓練速度和推理速度. 在此基礎上研究者們提出了Conformer模型[11],

該模型既能捕獲長距離信息又能提取局部特征信息, 在端到端語音識別任務中識別性能優異.

中文作為一個漢字文字系統, 具有非常龐大的詞匯量, 任何一個固定的詞匯表都無法涵蓋所有可能的中文詞匯. 隨著時代的發展和社會的變遷

, 又不斷創造出新的詞匯, 特別是在科技、 互聯網和流行文化等領域. 這些新詞匯可能在現有的詞匯表中沒有被包含, 因此被稱為未登錄詞. 此外, 在實際語音交流中, 人們可

能會存在語音模糊、 省略、 連讀等現象, 這些現象會導致詞匯的發音發生變化, 使某些詞匯在語音識別中被錯誤地認為是未登錄詞.

針對上述問題, 本文提出一種帶閾值的BPE-dropout多任務學習的端到端語音識別模型, 該模型采用帶隨機性字節對編碼算法, 在形成子詞時引入帶字數閾值的策略, 將子詞和字

作為建模單元進行多任務訓練和解碼, 其中字任務作為輔助任務. 編碼器部分采用Conformer結構, 與鏈接時序分類和注意力機制相結合. 為進一步提升模型性能, 引入

動態參數對損失函數進行動態調節, 并同時進行多任務訓練和解碼. 測試結果表明, 本文方法能有效解決未登錄詞問題, 并提升了語音識別性能.

1" 語音特征提取

特征提取是語音識別的重要組成部分. 針對目前語音識別率低、 收斂慢等問題, 本文采用Mel語譜圖特征作為輸入特征, 提取該特征的過程如圖1所示.

1.1" Mel語譜的生成

在語音識別領域研究中, 特征參數提取非常關鍵. 為有效捕捉語音信號的時頻特性, 本文使用語譜圖作為一種有效的表示方式, 它直接展示了語音信號在時域和

頻譜上的變化[12]. 由于人類耳蝸結構的特殊性, 決定了聽覺頻率的空間分布呈對數關系. 因此采用Mel語譜[13]

可以更好地模擬人類聽覺系統對聲音頻率的感知方式, 與人耳的聽覺特征相匹配. Mel語譜特征提取步驟如下:

1) 使用漢明窗對語音信號x(n)分幀加窗, 分幀加窗后的第i幀信號為xi(n);

2) 對xi(n)進行離散Fourier變換(DFT), 有

Si(k)=∑N-1n=0xi(n)e-j2πkn/N,

其中N為離散Fourier變換的點數;

3) Si(k)的能量譜密度為

Pi(k)=Si(k)2;

4) 在能量譜上應用Mel濾波器組, 其公式為

Yt(m)=∑N-1k=0Hm(k)Pi(k)2,

對Yt(m)取對數變換, 有

YdBt(m)=10lg Yt(m),

其中k表示DFT變換后的編號, m表示Mel濾波器的編號.

5) 以時間為橫軸、 對數化頻率為縱軸, 二維圖像繪制的Mel語譜如圖2所示.

1.2" Mel濾波器組

由于人耳聽到的聲級與聽覺頻率不呈線性關系, 因此Mel頻率標度更符合人耳的聽覺特性. Mel頻率與實際頻率的關系如下:

m=2 595×lg(1+700f),(1)f=100(10m/2 595-1),(2)

其中m是以Mel為單位的感知頻率, f是以Hz為單位的實際頻率. 如果以e為對數, 則系數為1 125. Mel濾波器組是一系列三角形濾波器, 中心頻率響應為1, 線性度降低

至0, 直到兩個相鄰濾波器的中心頻率響應為0. 計算公式為

Hm(k)=0,k≤f(m-1),k-f(m-1)f(m)-f(m-1),f(m-1)≤k≤f(m),

f(m+1)-kf(m+1)-f(m),f(m)≤k≤f(m+1),0,k≥f(m+1),(3)

f(m)=NfsF-1MelFMel(f

l)+mFMel(fh)-FMel(fl)M+1.(4)

2" 模型結構及方法

2.1" 連接時序分類

連接時序分類(CTC)算法作為一個目標函數, 可直接對標簽函數和語音函數之間的映射進行建模, 而無需在幀級對輸入和輸出信息進行預對齊. 在語音CTC的識別任務中, 輸入序列X=

{xtt=1,2,…,T}, 標簽序列Z={zii=1,2,…,I}, 其中目標序列的長度不能超過輸入序列的長度. 設L為語音識別任務建模中最小的建模單元, 即字典.

在CTC網絡中, 除最小建模單元L外, 還在其輸出層添加了一個“—

”字符, 對輸入序列X={xtt=1,2,…,T}中存在的重復標簽和空白標簽進行建模, 以完成對齊任務[14].

CTC通常應用于遞歸神經網絡上, 每個RNN輸出單元被解釋為在特定時間觀察到相應標簽的概率. 標簽序列P(πx)的概率被建模為與網絡輸出的乘積條件無關:

P(πx)≈∏Tt=1P(πtx)=∏Tt=1qt(πt),(5)

其中qt(πt)表示時間t時RNN輸出層q中πt標簽的最大激活.

用CTC訓練模型以最大化P(yx), 即所有可能標簽序列的概率分布為

P(yx)=∑π∈φ(y′)P(πx),(6)

其中y′是y的修改標簽序列, 其通過在每個標簽的開始和結束之間插入空白標簽實現, 例如若y=(aa,abb), 則y′=(—aa—,—abb—). 概率分布P(πx)可使用向前向后算法有效地計算為

P(πx)=∑y′u=1at(u)bt(u)qt(y′u),(7)

其中: at(u)為正向變量, 表示以第u個標簽結尾的所有可能(y′1: u)的總概率; bt(u)是通過對任何標簽(包括空標簽)

的損失函數求導, 可使用標準反向傳播對網絡進行訓練.

2.2" Conformer模型

Conformer模型已在當前主流的端到端語音識別任務中廣泛應用, 其整體結構可分為3個模塊: 前饋網絡模塊、 多頭注意力模塊和卷積網絡模塊, 如圖3所示.

Conformer模型是一種序列建模架構, 它融合了多個關鍵組件, 并通過殘差連接實現它們之間的連接. 這些組件包括多頭注意力模塊、 卷積網絡模塊和前饋網絡模塊. 多頭注意力模

塊使用類似于Transformer-XL的方法計算序列中的位置編碼信息, 可以有效捕捉輸入語音特征序列中的重要語音特征信息. 在多頭注意力模塊前后, 使用批歸一化層和Dropout層

進行正則化處理, 這些正則化技術有助于提高模型的魯棒性和泛化能力, 確保模型在不同輸入樣本上性能穩定.

卷積網絡模塊由逐點卷積網絡、 ReLU激活函數和一維深度卷積網絡組成, 它能有效捕捉輸入特征序列中的局部細節語音特征信息. 逐點卷積網絡通過在輸入序列上進行逐點操作,

提取出每個位置的特征表示; ReLU激活函數則引入非線性性質, 增強模型對不同語音特征的區分能力; 一維深度卷積網絡通過多層卷積操作, 逐漸擴大感受野, 學習到輸入序列中更

復雜和抽象的特征表示. 同理, 在卷積網絡模塊內部也使用批歸一化層和Dropout層進行正則化處理.

前饋網絡模塊在Conformer模型中扮演重要角色, 它由兩個線性變換層和Swish激活函數構成. 該模塊引入了非線性變換, 以更好地捕捉輸入特征的復雜關系. 為提高模型的魯棒性

和泛化能力, 在前饋網絡模塊中采用層歸一化和Dropout層進行正則化處理. 這些正則化技術有助于平衡模型的輸入分布, 并減少過擬合的風險. Conformer模型借鑒了Macaron-Ne

t網絡結構的思想, 將前饋網絡模塊分別放置在多頭注意力模塊之前和卷積網絡模塊之后. 這種設計使模型充分利用多頭注意力模塊對全局上下文的建模能力, 以及卷積網絡模塊對

局部細節的建模能力. 同時, 通過在各模塊之間添加殘差連接, 有助于信息的傳遞并減輕梯度消失問題.

2.3" 建模單元

在語音識別任務中, 所選擇的建模單元對模型的識別性能具有重要影響, 因為它可能導致大量未登錄詞的出現. 如果選擇以字為建模單元, 可能會遇到序列過長的問題, 使模

型難以學習到序列之間的依賴關系. 針對該問題, 本文選擇子詞作為建模單元. 這種選擇既有助于減小詞匯量的規模, 又能有效解決未登錄詞的問題. 通過將語言單

位劃分為更小的子詞, 能更好地捕捉單詞內部和單詞之間的語義信息, 從而提高模型對復雜文本的理解能力.

目前廣泛使用的方法是采用字節對編碼(byte pair encoding, BPE)算法生成子詞. 字節對編碼是一種用于數據壓縮和自然語言處理的算法,

BPE的基本思想是通過反復合并出現頻率最高的字節對(byte pairs)構建一個編碼表, 從而實現對數據的壓縮或表示. 字節對編碼算法的步驟如下:

1) 初始化, 將輸入數據按字節(byte)進行劃分, 形成初始的詞匯表;

2) 構建頻率表, 統計所有字節對的出現頻率, 字節對可以是相鄰的字節或字符;

3) 選擇合并, 選擇出現頻率最高的字節對, 并將它們合并成一個新的字節或符號;

4) 重復步驟3), 直至達到指定的合并次數或者達到某個停止條件;

5) 生成編碼表, 將輸入數據中的每個字節映射到對應的合并后的字節或符號中.

本文使用改進的BPE算法——BPE-dropout, 它在字節對編碼算法中引入了一定的隨機性元素, 通過構造高頻字符片段, 使這些子詞在語料庫中的出現頻率足夠高, 從而能有效

訓練并生成最佳的翻譯模型. 在進行迭代合并頻繁出現的字符對時, BPE-dropout會以一

定的概率p丟棄某些合并操作. 當p=0時, 采用普通字節編碼算法的方式形成子詞; 當p=1時, 不進行任何合并操作, 只保留原始的字.

首先初始化詞匯表, 將訓練數據中的字符作為初始詞匯表的元素, 每個字符都是一個獨立的詞, 然后統計每個字符對(由相鄰字符組成)的出現頻率. 從字符對頻率表中選擇出現

頻率最高的字符對, 將兩個字符合并成一個新的字符. 同時更新詞匯表, 將合并后的字符加入到詞匯表中, 逐步增加詞表. 更新字符對頻率表, 將原始字符對替換為合并后的字符, 重新計算字符對的頻率.

通過分析使用傳統BPE算法生成的子詞長度分布, 發現在處理漢文時, 最長的子詞長度

為21字節. 因此在實驗中設置了一個子詞字數閾值, 只提取長度不超過該閾值的子詞. 帶閾值的DPE-dropout算法流程如圖4所示.

3" 多任務學習模型

本文提出一種多任務學習模型, 其結構如圖5所示. 該模型通過結合Conformer和CTC-Attention的多層編碼器-解碼器網絡構建而成. 每個編碼器層包括多頭注意力機

制、 卷積網絡和前饋網絡. 通過在不同層之間進行歸一化和隨機失活處理,

可提高模型的穩健性和泛化能力. 解碼器部分采用鏈接時序分類和注意力機制, 以實現快速訓練和聯合解碼.

該過程首先對輸入的語音信號進行特征提取, 并對其進行降采樣. 然后通過一個線性層將特征x={x1,x2,…,xT}送入到Conformer編碼器, 在編碼器中, 經過前饋網絡、

多頭注意力和卷積網絡的處理, 產生一個中間特征序列h={h1,h2,…,hT}. 最后將中間特征序列h分別送入不同解碼器中進行處理, 在每個子詞解碼器和字解碼器中

分別輸出標簽y={y1,y2,…,ym}和y*={y*1,y*2,…,y*n}, 其中yi表示子詞建模單元, y*i表示字建模單元.

在本文實驗中, 將子詞任務作為主任務, 字任務作為輔助任務同時訓練多任務模型, 使用CTC解碼器和Attention解碼器聯合解碼優化模型參數, 因此在訓練過程中采用多任務框架定義

損失函數為

LMTL=λLCTC+(1-λ)LAttention, 0≤λ≤1,(8)

其中λ表示用于設置損失函數的參數. 在解碼過程中, 采用波速搜索算法對得到的Attention和CTC的分量進行解碼[15]. 波束大小為20, 以降低計算成本

. 在式(8)中, 加權系數的參數λ須在訓練開始前手動調整, 并且不能在整個訓練過程中更改, 因此本文提出了動態權重調節的方法解決該問題:

λ=ln sig(LAttention-LCTC) =11.0+exp{LCTC-LAttention}.(9)

改進后, 當λ=0時為BiLSTM架構, 當λ=1時為CTC架構. 在訓練期間無需手動調整, 且動態持續調整可更好地支持校準過程.

4" 實驗配置

4.1" 數據集

利用PyCharm進行仿真實驗, 使用的軟件為TensorFlow1.15版, Window10操作系統, 12 GB內存, 處理器為Intel-i5-12400F. 本文使用的數據集是中文數據集TH

CHS30和ST-CMDS, 其中數據集THCHS30總持續時間超過30 h, 采樣頻率為16 kHz, 采樣大小為16 bit. 數據集ST-CMDS是一個人工智能數據公司發布的中文語音數據集, 約為100 h的語音數

據, 數據內容主要包括在線語音聊天和智能語音控制指令. 數據集THCHS30信息列于表1.

為使識別出的單詞序列與默認序列匹配, 必須插入、 替換或刪除某些單詞. 插入、 替換或刪除的總字數除以標準序列中總字數的百分數即為詞錯誤率(word error rate, WER

), 本文采用WER作為評價指標, 其計算公式為

WER=S+D+IN×100%,(10)

其中S表示替換, D表示刪除, I表示插入, N表示詞數目.

4.2" 模型參數配置

在本文給定模型下, 通過優化學習率確定模型的最佳訓練系數, 并研究學習系數對模型識別精度的影響, 結果如圖6所示. 由圖6可見,

當學習率從0.000 7提高到0.001時, 發現學習率為0.000 8時, 在數據集THCHS30中模型的識別準確率最高, 而當學習率為0.000

85時, 在數據集ST-CMDS中模型的識別準確率最高. 而當學習率過低或過高時, 模型易出現過擬合現象, 因此需要進行適當的調整, 以取得最佳的模型性能.

然后進行模型訓練迭代周期的調試, 以降低損失率. 圖7為迭代周期與損失函數的變化關系. 由圖7可見, 從第28次迭代開始曲線變

得平緩, 表示模型已經收斂. 迭代周期從25~33次相對合理, 繼續增加將導致過擬合. 因此, 本文選擇訓練迭代周期為30次.

本文采用Conformer為編碼器模型, 以子詞任務為主任務, 字任務為輔助任務, 采用多任務

(MOL)框架優化損失函數, 提升系統魯棒性. 在式(8)中,

將加權系數λ作為一個調整參數, 對兩個目標函數進行調整, 結果如圖8所示.

不同的λ取值對WER的影響不同. 由圖8可見, 當λ取值接近0.5時, 語音識別模型的錯誤率最低. 實驗結果表明, 使用多任務學習框架能有效提高語音識別準確率.

4.3" 不同模型下的識別性能

在語音識別領域, GMM-HMM[16],DNN-HMM[17]和CNN-HMM[18]等都是目前流行的語音識別模型. 在真

實環境下都采用Fbank特征作為語音輸入特征. GMM訓練速度快, 聲學模型較小, 但無法利用幀的上下文信息, 每一步迭代的計算量均較大; DNN能利用上下文信息, 但無法利用歷史信

息輔助當前任務; CNN-HMM為DNN-HMM的改進優化模型, CNN比其他神經網絡更能捕捉到特征的不變性. 本文為測試Confor

mer-CTC-Attention多任務學習模型與其他不同模型的性能, 設計7組實驗, 驗證Conformer-CTC-Attention多任務學習模型的識別效果. 實驗結果列于表2.

由表2可見, CNN-HMM相比于GMM-HMM,DNN-HMM模型, 在兩個數據集上的識別準確率分別提高了2.80,0.92個百分點和3.27,1.26個百分點.

BiLSTM-CTC/Attention模型[19]由編碼器-解碼器網絡組成, 編碼器由3層雙向LSTM和全連接層組成, 解碼器將CTC和多頭注意力連接進行聯合

訓練解碼. 由表2可見, 相比于CNN-HMM模型, 在兩種數據集上的識別準確率分別提高了6.70,5.28個百分點. Transformer-CTC模型[10]采用編碼器-解碼器

結構, Transformer編碼器由多頭注意力、 前饋網絡和歸一化網絡組成. Conformer-CTC模型[20]同樣采用編碼器-解碼器結構, Conformer編碼器內包含

多頭注意力、 卷積網絡、 前饋網絡、 歸一化網絡. 二者皆以鏈接時序分類CTC作為解碼器, 解碼過程中采用集束搜索算法. Conformer-CTC-Attention-MTL模型采用多任務學習框架,

采用39維Mel特征作為輸入, 以BPE-dropout方法形成子詞作為主任務建模單元, 動態地調整詞匯表, 以更好地適應具體任務或數據集的特點, 以字任務作為輔助任務. 采用Conformer

結構作為編碼器, 以鏈接時序分類和注意力機制進行聯合解碼, 引入動態權重調節算法以提升模型性能. 實驗結果表明, 多任務學習模型的性能明顯高于傳統模型性能,

相比于GMM-HMM模型, 錯誤率分別降低了14.49,13.31個百分點. 這是由于共享層注意力和卷積神經網絡, 能有效捕捉長距離和細粒度特征信息.

表3列出了模型深度對識別性能(WER)的影響. 由表3可見, 隨著編碼器層數的增加, 模型的性能也相應提升, 進一步驗證了網絡層數對模型學習輔助特征信息的影響. 當編碼器層數達到6時, 模型識別性能較好,

而當編碼器層數增加到9時, 模型性能開始下降. 這是因為隨著網絡層數的增加, 模型所需訓練的參數數量也隨之增加, 導致模型易出現過擬合, 識別性能下降.

表4列出了BPE和BPE-dropout形成的建模單元對識別性能(WER)的影響. 由表4可見, 使用BPE-dropout方法生成的子詞作為建模單元, 識別性能較好.

相比于普通的字節編碼算法(BPE), BPE-dropout方法在不同數據集上錯誤率分別下降了1.98,0.75個百分點. 此外, 丟棄率對識別性能也有一定的影響.

綜上所述, 針對中文語音識別中經常出現未登錄詞的問題, 本文提出了一種基于帶閾值的BPE-dropout多任務學習的端到端語音識別模型. 該模型采用帶隨機性字節對編碼算法, 在形成

子詞時引入了帶字數閾值的策略, 將子詞和字作為建模單元進行多任務訓練和解碼, 其中字任務作為輔助任務. 編碼器部分采用了Conformer結構, 與鏈接時序分類和注意力機

制相結合. 為進一步提升模型性能, 引入了動態參數對損失函數進行動態調節, 并同時進行多任務訓練和解碼. 測試結果表明, 本文方法能有效解決未登錄詞問題, 提升了語音識別性能, 并指出了丟棄率對識別性能的影響.

參考文獻

[1]" ALDARMAKI H, ULLAH A, RAM S, et al. Unsupervi

sed Automatic Speech Recognition:" A Review [J]. Speech Communication, 2022, 139: 76-91.

[2]" JUNG H Y, LEE S Y. On the Temporal Decorrelation of

Feature Parameters for Noise-Robust Speech Recognition [J]. IEEE Transactions on Speech amp; Audio Processing, 2000, 8(4): 407-416.

[3]" YOUNG S. The HTK Hidden Markov Model Toolkit: Design and Philosophy [R]. Cambidge: Cambridge University, 1993.

[4]" GEORGESCU A L, CUCU H, BURILEANU C. Kaldi-Based DNN

Architectures for Speech Recognition in Romanian [C]//2019 International Conf

erence on Speech Technology and Human-Computer Dialogue (SpeD). Piscataway, NJ: IEEE, 2019: 1-6.

[5]" SAMIN A M, KOBIR M H, KIBRIA S, et al. Deep Learnin

g Based Large Vocabulary Continuous Speech Recognition of an Under-Resourced La

nguage Bangladeshi Bangla [J]. Acoustical Science and Technology, 2021, 42(5): 252-260.

[6]" YALTA N, WATANABE S, HORI T, et al. CNN-Based Mult

ichannel End-to-End Speech Recognition for Everyday Home Environments [C]//2019 27th European Signal Proc

essing Conference (EUSIPCO). Piscataway, NJ: IEEE, 2019: 1-5.

[7]" CHAN W, LANE I. Deep Convolutional Neural Networks for Acoustic Modeling in Low Resource Languages [C]//2015 IEEE International Conferenc

e on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2015: 2056-2060.

[8]" DAI Y J, WU Z W. Mobile-Assisted Pronunciation Learning with Feedback from Peers

and/or Automatic Speech Recognition: A Mixed-Methods Study [J]. Computer Assisted Language Learning, 2023, 36(5/6): 861-884.

[9]" GRAVES A, MOHAMED A R, HINTON G. Speech Recognition with Deep Recurrent Ne

ural Networks [C]//IEEE International Conference on Acoustics. Piscataway, NJ: IEEE, 2013: 6645-6649.

[10]" MIAO H R, CHENG G F, GAO C F, et al. Transformer-Based Online CTC/Attention End-to

-End Speech Recognition Architecture [C]//2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2020: 6084-6088.

[11]" ZHANG Y, PUVVADA K C, LAVRUKHIN V, et al. Conformer-Based Target-Speaker Automatic Speech Recognition for Single-Channel Audio [C]//2023 IE

EE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2023: 1-5.

[12]" LI J L, WANG H X, HE P S, et al. Long-Term Variable Q Transform: A Novel Time

-Frequency Transform Algorithm for Synthetic Speech Detection [J]. Digital Signal Processing, 2022, 120: 103256-103267.

[13]" GAO T, PAN Q, ZHOU J, et al. A Novel Attention-Guided Generative Adversarial

Network for Whisper-to-Normal Speech Conversion [J]. Cognitive Computation, 2023, 15: 773-792.

[14]" ZHANG Z Y, ZHOU P. End-to-End Contextual ASR Based on Posterior Distribution

Adaptation for Hybrid CTC/Attention System [EB/OL]. (2022-02-18)[2023-01-25]. https://arxiv.org/abs/2202.09003.

[15]" KIM S, HORI T, WATANABE S. Joint CTC-Attention Based End-to-End Speech Reco

gnition Using Multi-task Learning [C]//2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2017: 4835-4839.

[16]" AMOOLYA G, HANS A S A, LAKKAVALLI V R, et al. Automatic Speech Recognition f

or Tulu Language Using GMM-HMM and DNN-HMM Techniques [C]//2022 Internationa

l Conference on Advanced Computing Technologies and Applications (ICACTA). Piscataway, NJ: IEEE, 2022: 1-6.

[17]" ZHAO J, LI X, LIU W H, et al. DNN-HMM Based Acoustic Model for Continuous Pig

Cough Sound Recognition [J]. International Journal of Agricultural and Biological Engineering, 2020, 13(3): 186-193.

[18]" LI T X. Study on a CNN-HMM Approach for Audio-Based Musical Chord Recognitio

n [J]. Journal of Physics: Conference Series, 2021, 1802(3): 032033-1-032033-8.

[19]" ZHANG X Y, WANG J P, JIN L W, et al. CMT-Co: Contrastive Learning with Charac

ter Movement Task for Handwritten Text Recognition [C]//Proceedings of the Asian Conference on Computer Vision. Berlin: Springer, 2022: 3104-3120.

[20]" GUO H Z, CHEN Y S, XIE X K, et al. Efficient Conformer-Based CTC Model for In

telligent Cockpit Speech Recognition [C]//2022 13th International Symposium on Chin

ese Spoken Language Processing (ISCSLP). Piscataway, NJ: IEEE, 2022: 522-526.

(責任編輯: 韓" 嘯)

主站蜘蛛池模板: 亚洲码一区二区三区| 青青热久免费精品视频6| 美女扒开下面流白浆在线试听| 18黑白丝水手服自慰喷水网站| 99re在线免费视频| 久久一本精品久久久ー99| 东京热av无码电影一区二区| 无码丝袜人妻| 91精品国产自产在线观看| 久久人妻xunleige无码| 人妻精品久久无码区| 99久久精品视香蕉蕉| 国产乱人伦偷精品视频AAA| 91色综合综合热五月激情| 亚洲高清在线播放| 精品国产自| 日本午夜在线视频| 黑色丝袜高跟国产在线91| 四虎成人免费毛片| 国产精品永久免费嫩草研究院| 蝌蚪国产精品视频第一页| 华人在线亚洲欧美精品| 日韩色图在线观看| 麻豆精品国产自产在线| 全部毛片免费看| 高清国产va日韩亚洲免费午夜电影| 伊人色在线视频| 欧美三级自拍| 在线国产欧美| 午夜国产大片免费观看| 色婷婷啪啪| 五月天天天色| 亚洲一级毛片| 色亚洲成人| 无码高潮喷水专区久久| 久久精品人人做人人爽电影蜜月| 国产成人亚洲毛片| 国产精品永久在线| 亚洲成人福利网站| 国产成人精品高清在线| 一级福利视频| 亚洲乱码视频| 91 九色视频丝袜| 尤物成AV人片在线观看| 精品国产成人av免费| 免费观看国产小粉嫩喷水| 天天干天天色综合网| 在线观看精品国产入口| 人妻一区二区三区无码精品一区 | 国产精品亚洲一区二区三区在线观看 | 天天综合网站| 高清国产在线| 波多野结衣一区二区三区四区 | 午夜精品一区二区蜜桃| 亚洲成aⅴ人片在线影院八| 国产成人福利在线| 啪啪永久免费av| 极品国产在线| 亚洲高清无在码在线无弹窗| 国产一区二区三区在线观看视频| 中国一级毛片免费观看| 欧美一级在线| 激情六月丁香婷婷四房播| 草草影院国产第一页| 国产成人精品男人的天堂下载| 国产成人调教在线视频| 香蕉伊思人视频| 中文天堂在线视频| 久久久久国产精品嫩草影院| 久久不卡国产精品无码| vvvv98国产成人综合青青| 日本欧美午夜| 日本一区中文字幕最新在线| AV网站中文| 国产欧美日韩在线一区| 99无码中文字幕视频| 高清欧美性猛交XXXX黑人猛交 | 国产精品熟女亚洲AV麻豆| 亚洲Av激情网五月天| 九九久久精品免费观看| 久久99国产综合精品1| 午夜视频免费一区二区在线看|