999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于光流與注意力機制的句級唇語識別*

2023-11-21 13:07:44許文稼
電子器件 2023年5期
關鍵詞:單詞模型

許文稼,李 克

(1.常州機電職業技術學院電氣工程學院,江蘇 常州 213164;2.東南大學信息科學與工程學院,江蘇 南京 210096)

1 介紹

1.1 研究背景

在人類日常的社交溝通中,語言是最重要的一種信息傳遞途徑。盡管音頻信號通常比視頻信號包含更多的語言信息,但人類往往在無意識的情況下也能夠利用視覺線索,即嘴唇運動信息。在過去的十幾年里,研究者開始關注僅使用視覺線索來理解語言,即通過唇語識別(Automatic Lip-Reading,ALR)技術模仿人類進行唇讀的能力。ALR 技術具有廣泛的應用場景,例如在嘈雜環境中向終端口述命令的任務、在安全驗證領域引入一種無聲的視覺密碼、為無聲電影自動生成字幕或解決視頻中的話音不同步問題[1-2]以及根據聽障人士的嘴唇動作為其合成語音[3-4]等等。

基于深度學習的ALR 技術是目前的主流研究方向,其中深度神經網絡的訓練依賴大規模的ALR 數據集。謝菲爾德大學于2006 年發布的GRID[5]是首個擁有較大樣本數量的句級ALR 數據集,并曾用于構建基于深度神經網絡的ALR 技術架構[2,6]。GRID包含由34 名說話人在實驗室環境下通過每人說1 000個句子組成的34 000 條樣本,共涉及51 種單詞。2016 年后,隨著神經網絡逐漸向更深層的結構發展,ALR 技術對于數據集的規模也不斷提出更高的要求,因此多個超大規模的句級ALR 數據集相繼被發布,例如LRS[1]、MV-LRS[7]、LRS2[8]、LRS3-TED[9]和CMLR[10]。其中CMLR 是由浙江大學視覺智能與模式分析組于2019 年發布的首個大規模中文句級ALR 數據集,其數據收集自中國中央電視臺的電視節目,說話人數量為11 名,樣本數量達到102 072 條。

1.2 相關工作

根據識別對象的不同,ALR 技術一般可分為字符級、單詞級和句級。關于句級ALR 技術的研究可分為兩條路徑,一些研究者遵循了經典的CNN+RNN 圖像序列分類架構,并在此基礎上引入常用于語音識別任務中的聯結時序分類(Connectionist Temporal Classification,CTC)結構以輸出完整的句子,2016 年Assael 等[2]提出的LipNet 便是如此。這一架構以固定長度的RGB 歸一化圖像序列作為輸入,經3D-CNN 提取特征后通過雙層的Bi-GRU 對序列進行分類,末端使用CTC 結構進行解碼并計算損失,在GRID 上實現了1.9%的字錯誤率(Character Error Rate,CER)和4.8%的詞錯誤率(Word Error Rate,WER)。而目前在GRID 上 的最佳結果由Zhang 等[11]取得,他們提出了一個時間焦點模塊來充分描述短距離的依賴關系,以及一個空間-時間融合模塊來保持局部空間信息并減少特征尺寸,將GRID 上的WER 降至1.3%。另一些研究者利用NLP 領域中的經典方法如編碼器-解碼器結構和Transformer 等技術進行唇語識別。2017 年Chung等[1]基于編碼器-解碼器結構提出了端到端的AVASR 技術架構WLAS。該架構由“看”、“聽”、“注意”和“拼寫”四個模塊組成,其中“看”模塊通過CNN 與LSTM 對圖像序列建模;“聽” 模塊使用LSTM 對音頻的梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficients,MFCCs)建模;“注意”模塊使用注意力機制計算來自音視頻的上下文向量;“拼寫”模塊則根據前三個模塊的輸出逐個解碼字符的概率分布。WLAS 首次面對無約束條件下的句級ALR任務,在LRS 上實現了39.5%的CER 和50.20%的WER。2018 年,Afouras 等[12]提出了三種不同的句級ALR 技術架構,這些架構均由3D-CNN 與深度殘差網絡(Deep Residual Network,ResNet)[13]構成圖像特征提取模塊,但采用了不同的時序建模方式。在LRS 上,采用Bi-LSTM+CTC 以及全卷積網絡+CTC 的架構分別實現了62.20%和55.00%的WER,而基于Transformer 的模型則實現了最佳50.00%的WER。在句級ALR 任務中,Transformer 取得了十分突出的表現。

表1 列出了近三年主要的句級ALR 技術研究工作在各數據集上取得的結果,英文數據集以WER評價,中文數據集以CER 評價。可見,目前在唯一可用的大規模中文句級數據集CMLR 上開展的工作十分有限。對于CMLR,Zhao 等[14]的工作提出了一種通過學習語音識別器進而提升唇讀效果的方法,將語音識別器學習到的信息進行知識蒸餾,同時設計了一種有效的音視頻對齊方式,實現了31.24%的CER,這是截至目前的最佳結果。

表1 2020~2022 年主要的句級ALR 技術研究工作

本文針對句級ALR 任務,設計了一種基于光流與注意力機制的架構,能夠處理連續輸入的句級唇讀視頻,如圖1 所示。其中神經網絡的圖像特征提取模塊基于3D-ResNet18 與空間-時間雙重注意力機制,時間序列分類模塊基于Transformer,二者將分別在第2 節與第3 節介紹。系統前端的唇讀端點檢測模塊則基于光流閾值變化,將連續不斷輸入神經網絡的唇讀視頻進行切分,從而實現逐句的唇語識別,這一模塊將在第4 節介紹。第5 節則詳細介紹了為驗證我們的系統所進行的實驗,包括其配置細節和結果分析。

圖1 基于光流與注意力機制的句級唇語識別技術架構

2 基于3D-ResNet18 與雙重注意力機制的圖像特征提取模塊

2.1 帶有3D 頭部卷積的深度殘差網絡

我們選擇ResNet18[13]用于提取唇部圖像的深度特征。ResNet18 以若干殘差單元構成一個殘差塊,再通過不斷地堆疊殘差塊構成網絡。3DResNet18 的具體結構如表2 所示,批量歸一化(Batch Normalization,BN)將作用在每個卷積層之后,其中s為輸入圖像的尺寸,d為輸出特征的維數。

表2 3D-ResNet18 的網絡結構

由表2 可見,我們使用作用在唇讀視頻整體上的3D 卷積替代了原始ResNet18 頭部的2D 卷積。以含有P個三維卷積核、在D個通道上滑動的卷積層為例,3D 卷積的過程可表示為

式中:1≤p≤P,?表示三維卷積計算,Wp,bp表示三維卷積核與偏置。采用3D 卷積的優勢一方面在于其避免了在每一幅唇讀圖像上運行大尺寸卷積,減少了計算量;另一方面也使得CNN 能夠學習到唇讀視頻的時序信息,有助于提升特征的描述能力。

2.2 基于空間-通道融合的雙重注意力機制模塊

注意力機制可以使得網絡學習到特征中對結果貢獻較大的信息,通過一個注意力矩陣與原始特征映射相乘從而為其分配更高的權重,進而關注重要的區域或通道并抑制不必要的噪聲信息。為增強特征的描述能力,我們設計了一種同時作用在空間和通道維度上的雙重注意力機制模塊,并嵌入3DResNet18 的每個殘差塊之后。

空間注意力機制如圖2 所示,殘差塊提取出的三維特征映射F∈?C×H×W將分別輸入三個1×1 卷積層從而獲得三個新的特征映射Fa,Fb,Fc并均展平空間維度至二維,即{Fa,Fb,Fc}∈?C×(H×W)。隨后將Fa轉置并與Fb相乘并進行歸一化處理,即

圖2 空間注意力機制

式中:As∈?(H×W)×(H×W),為空間注意力矩陣,矩陣中的元素表示(i,j)位置對應的特征像素對結果的貢獻程度。令Fc與As相乘并與原始特征F∈?C×H×W逐項相加,即可得到輸出特征Fs:

式中:η為可訓練的尺度因子,用于避免Ais,j過大,初始化為0。因此,Fs本質上是根據空間注意力矩陣選擇性進行聚合的特征與F的加權和,這使得模型能夠學習到需要被多加關注的區域。

類似地,通道注意力機制負責學習不同通道的重要程度。參考SENet[21]的設計方式,通道注意力機制無需再將輸入特征經過三個1×1 卷積層,而是直接在展平輸入特征的寬高維度后將其與自身的轉置做乘積,獲得通道注意力矩陣At∈?C×C,即:

隨后使F與At相乘并與自身逐元相加,得到Ft,如圖3 所示。將每一個殘差塊提取出的特征映射F并行地經過空間注意力和通道注意力機制分別處理得到Fs與Ft,隨后在通道維度上堆疊,則雙重注意力機制模塊最終輸出特征映射F'∈?(2×C)×H×W,即輸入下一層網絡的張量。

圖3 通道注意力機制

綜上,圖像特征提取模塊接收四維的灰度唇讀視頻X∈?1×T×H×W,經過一系列的卷積與注意力機制處理后,最終通過全連接層輸出維數為256 的特征向量序列f1,f2,…,fT=F∈?T×256,用于后續模塊的時間序列分類。

3 基于Transformer 的時間序列分類模塊

3.1 模塊總體架構

Transformer 是Google 于2017 年提出的一種用于機器翻譯任務的網絡結構,基于多頭自注意力機制進行時序建模。相比于RNN,其有效解決了長程依賴問題,并且能夠更好地利用GPU 并行計算。本節設計的時間序列分類模塊總體架構如圖4 所示,由詞嵌入模塊、位置編碼模塊以及6 對編碼器-解碼器構成,其中編碼器與解碼器的設計參考了Vaswani 等[22]的工作。特征序列在經過位置編碼后作為6 個連續編碼器的輸入,這6 個編碼器各自的輸出再依次作為6 個連續解碼器的輸入,最終解碼出唇讀視頻對應的單詞序列。

圖4 基于Transformer 的時間序列分類模塊

3.2 詞嵌入與位置編碼

在包含N個單詞的單詞表中,我們將其中某一個單詞的d維詞嵌入向量e表示為:

式中:W∈?N×d為可訓練的權重矩陣,c∈?N為單詞的one-hot 編碼。由于圖像特征提取模塊已將唇讀圖像編碼為256 維的特征向量,因此詞嵌入向量的維數也需設置為256。

詞嵌入向量的位置編碼則通過位置嵌入向量PE 并與原始向量逐元相加的方式,PE 可表示為:

式中:pos 表示當前向量在序列中的位置,2i表示偶數維,2i+1 表示奇數維。

3.3 基于集束搜索的循環解碼模塊

在解碼過程中,我們首先初始化一個單獨的語句開始標志‘<sos>’作為真實語句標簽輸入解碼器,根據輸出的概率分布得到下一時刻的單詞后,將其拼接在‘<sos>’之后再次作為真實語句標簽輸入解碼器,以此方式進行循環,直至完成對長度為L的語句中每一個單詞的預測。

由于輸出過程中每一個單詞均依靠已解碼的單詞進行預測,若窮舉所有可能的語句,并選取整體概率最高的語句作為最終輸出,理論上需要計算LN種情況,這將帶來極高的計算復雜度。為此,我們在l時刻僅選取概率最高的k個單詞作為候選輸出,在l+1時刻再基于每一個候選單詞進行輸出,并得到l+1時刻概率最高的k個候選單詞,以此遞推出所有可能的Lk種語句組合,進而選取整體概率最高的語句作為最終輸出。這一搜索過程稱為集束搜索,在我們的模型中,搜索寬度k取值為3。

3.4 基于標簽平滑與KL 散度的損失

我們采用一種基于標簽平滑與KL 散度的損失用于訓練模型。在一般的分類問題中,損失通過真實標簽的one-hot 編碼與模型預測的概率分布之間計算的交叉熵進行表示。但ALR 模型將面對大規模的單詞表,這種損失計算方式僅使唯一正確的單詞參與損失計算,而忽略了標簽之間的關系,導致模型的泛化能力較差。為此,我們首先進行標簽平滑的操作,在正確標簽上增加噪聲,即:

式中:N為單詞表的規模,噪聲α是一個隨機超參數,取值為0~0.2。隨后計算真實標簽的概率分布與模型輸出的概率分布之間的相對熵,也即KL 散度,作為模型的損失,其計算方式為:

4 基于光流的唇讀端點檢測模塊

在語音識別任務中,語音端點檢測(Voice Activity Detection,VAD)能夠應對說話人連續說出多條語句時的斷句問題。唇語識別中同樣存在類似的問題,因此我們在系統前端設置了唇讀端點檢測模塊,通過定位視頻中唇讀的實際起止時刻,剔除不含唇讀動作的噪聲片段并將包含多條語句唇讀視頻進行分割,便于神經網絡進行處理。該模塊首先基于68 點人臉關鍵點標定裁剪出只包含唇部區域的圖像,隨后基于金字塔KL 光流法[23]在時間維度中檢測唇部運動,進而根據一系列的閾值判定對唇讀的起止時刻進行定位。

對于待檢測的唇讀視頻,我們采用開源的C++機器學習工具箱Dlib 對人臉進行檢測和68 點關鍵點標定。為消除人臉旋轉對光流計算的影響,我們首先對圖像進行了對齊操作,通過旋轉使49 號關鍵點與55 號關鍵點處于同一水平線,隨后以67 號嘴唇中心關鍵點作為裁剪中心,以55 號左嘴角與67號、67 號與49 號右嘴角之間橫坐標距離中的較小值作為1/4 邊長,從而裁剪出唇部圖像,即:

隨后,我們基于金字塔KL 光流法計算每一組相鄰幀之間唇部區域的光流總值I,即唇部區域所有像素點x與y方向光流絕對值的和;此外還需計算相鄰幀各自三組關鍵點之間的歐氏距離之和D,分別為62 號與68 號、63 號與67 號、64 號與66 號,以此評估唇部的開閉程度。

唇讀端點檢測流程如圖5 所示。令唇動指數a=I·D,則a將在時間軸上不斷變化,當其大于閾值μ時則進入唇讀狀態,將當前幀加入緩沖隊列,若此時緩沖隊列長度已達上限L,則加入結果隊列,緩沖隊列的作用是避免因瞬時頭部運動造成的誤檢。當出現連續k幀的a值小于閾值μ時則進入非唇讀狀態,若結果隊列不為空則將緩沖隊列與結果隊列中的圖像序列合并,同時輸出合并的圖像序列并清空隊列,否則只清空緩沖隊列且不輸出。為防止因頭部運動導致唇部區域大幅偏移,68 點關鍵點標定將在每一幀上運行,當檢測到的唇部區域與當前使用區域之間的交并比小于閾值λ時,則更新唇部區域的定位框,且更新僅在唇讀狀態下進行,以防因唇讀區域變化產生的光流值影響算法判斷。若當前幀無法檢測人臉或無法標定人臉關鍵點,則延續上一幀的狀態。

圖5 唇讀端點檢測流程

5 實驗與分析

5.1 實驗配置

我們將在本節中進行大量的實驗以評估所提出系統的性能,其中的神經網絡部分和唇讀端點檢測部分將分別評估,用于評估的數據集為英文數據集GRID 和中文數據集CMLR。

GRID 包含由34 名說話人在實驗室環境下通過每人說1 000 個句子組成的34 000 條樣本。每條樣本是在“命令”、“顏色”、“介詞”、“字母”、“數字”和“副詞”這6 類英文單詞中各隨機挑選一個組成的無意義句子,如Bin green at C 1 please。每類單詞的可選范圍固定,數據集共涉及51 種單詞。視頻樣本分辨率均為360px×288px,長度均為75 幀。CMLR中的數據從2009 年6 月~2018 年6 月的《新聞聯播》節目中收集,包含來自11 名主播的102 072 條樣本,數據集的樣本劃分情況如表3 所示,所有樣本最長不超過29 個漢字,視頻樣本分辨率大部分為480px×360px,幀率均為25 FPS。

表3 CMLR 數據集的樣本劃分情況

5.2 數據預處理

由于GRID 與CMLR 均未在標注信息中給出唇部的定位坐標,因此我們通過人臉關鍵點標定對唇部進行定位從而裁剪出唇部區域的正方形圖像,裁剪方式同式(9)。,兩個數據集提取出的唇部區域圖像均歸一化為72 px×72 px 的灰度圖像,如圖6 所示,進而在數據增強的過程中通過隨即裁剪保留64 px×64 px 的部分,同時執行概率為0.5 的隨機水平翻轉。對于一個mini-batch 中不足最大長度的圖像序列,我們采用在末尾填充全0 圖像的方式進行對齊。

圖6 GRID 與CMLR 數據集樣本示例

對于真實語句標簽,我們建立了一個單詞/漢字表,將數據集中所有的單詞/漢字映射為一個數字。單詞表另需添加‘<sos>’、‘<eos>’、‘<pad>’三個特殊單詞,其中‘<sos>’添加在句首,用于指示語句開始;‘<eos >’添加在句尾,用于指示語句結束;‘<pad>’則用于單詞序列長度歸一化中的補齊操作,在每一個mini-batch 訓練標簽中將不足最大長度的單詞序列進行補齊。

5.3 模型訓練

Chan 等[24]的研究表明,若網絡在訓練初期便學習較長的序列時,將導致其收斂過程十分緩慢甚至難以收斂。為此,我們采用了三種訓練優化策略應對這一困境并加速模型收斂,分別為訓練樣本長度遞增、學習率預熱和針對中文樣本的逐級遷移學習。

我們在訓練初期令模型僅學習長度較短的視頻樣本,在后續的訓練周期中再逐漸學習更長的訓練樣本。GRID 與CMLR 中的視頻樣本長度為0.5 s~4.0 s 不等,訓練樣本長度遞增的策略具體為在開始訓練的第一個周期,只選取其中長度低于1.5 s 的視頻樣本構建訓練集,在第二個周期加入長度1.5 s~2.5 s 的樣本,在第三個周期開始利用全部樣本進行訓練。

同時,我們在模型訓練的過程中采取學習率預熱的策略,參考Goyal 等[25]的方法,學習率初始化為0,并通過線性增長達到峰值,隨后開始指數衰減,即:

式中:s為迭代次數為預熱終止點,設置為第二個訓練周期結束從而配合訓練樣本長度遞增的策略,峰值學習率lrmax設置為1×10-3,衰減率λ設置為0.999 8。

中文ALR 任務的難度遠大于英文,這很大程度由中文的語言特性造成,即漢字具有不同的聲調,且存在大量同音不同字的問題,因此針對中文樣本,我們額外采用一種逐級遷移學習的方法,如圖7 所示。訓練共分為四個階段,第一步對數據集中的語句樣本進行切分,獲得若干中文單詞形式的訓練樣本,從而訓練一個單詞級的唇語識別模型。我們在構建單詞級數據集時僅選取出現頻率最高的999 類單詞與所有其他單詞合并成的“其他”類,共計1 000 類。第二步搭建句級唇語識別模型,并將第一步中模型的圖像特征提取部分權重用于初始化。在訓練模型的過程中,第二、三、四步用于訓練的最小分類單元按照無聲調拼音、有聲調拼音和漢字三種形式逐級遞進,且第二、三步的模型均用于后一步模型的初始化,這使得模型學習的過程能夠由易到難遞進。

圖7 針對中文樣本的逐級遷移學習流程

我們設置小批量大小為16,將模型參數初始化為正態分布,并采用Adam 算法[26]進行梯度下降。訓練持續100 個周期并采取早停策略,當驗證集損失連續三個周期未下降則提前終止訓練。

5.4 實驗結果及分析

本小節,我們將評估本文提出的ALR 系統在GRID 與CMLR 上的實際效果,對于其中的神經網絡模型,我們將采用數據集給出的標準化唇讀區間構建訓練和驗證數據進行測試,系統前端的唇讀端點檢測部分則在GRID 上單獨測試。

我們以WER 和CER 分別作為GRID 和CMLR上的主要評價指標,雙語評估替換(Bilingual Evaluation Understudy,BLEU)[27]分數則作為衡量句子流暢程度的額外指標。

我們首先驗證了時間序列分類模塊中參數設置的合理性,分別控制編解碼器數量、注意力頭數量h、集束搜索寬度k和標簽平滑噪聲α四個參數的設置,驗證模型在GRID 和CMLR 數據集上分別取得的WER 和CER,如圖8 所示。由此可見,6 對編解碼器、h=8、α∈[0,0.2]的設置能夠使模型表現出最佳的總體性能。至于k值,盡管較大的搜索寬度能小幅降低錯誤率,但因其增大而造成運算量的指數級增加在大多數情況下是得不償失的,因此模型依然維持k=3 的設置。

圖8 基于自注意力機制與編碼器-解碼器結構的模型參數對結果的影響

模型在GRID 和CMLR 數據集上的整體表現情況如表4 所示,其中CMLR 的結果在測試集上計算,GRID 通過10 折交叉驗證計算平均值。表中特定說話人模式即單獨采用某一說話人的數據用于訓練和測試,這與某些實際應用場景相符,后續實驗非特殊說明均在非特定說話人模式下進行。

表4 模型在GRID 與CMLR 上的實驗結果

在非特定說話人模式下,我們的模型在GRID數據集上取得了最佳1.69% 的WER,相比由LipNet[2]實現的4.8%的基線結果提升了3.11%;對于中文數據集CMLR,我們的模型實現了31.27%的CER,相比由Zhao 等[10]實現的32.48%的基線結果降低了1.21%。

圖像特征提取模塊采取了作用在空間和通道維度中的注意力機制,為驗證其有效性,我們進行了消融實驗。以去除雙重注意力機制、去除空間注意力機制和去除通道注意力機制的三種模型與完整模型進行對比,結果如表5 所示。可見雙重注意力機制對模型性能起到了有效的提升作用,其中通道注意力相對具有更明顯的效果。

表5 應用不同注意力機制的模型在GRID和CMLR 上的結果

表6 展示了選取不同長度的測試樣本構成測試集驗證模型性能的實驗結果。由此可見,隨著樣本長度的增大,模型表現出更高的CER 和BLEU,這是由于長時間建模難度更大,但同比例的錯字卻對語句通順度的影響更小,同時也證明模型對更符合現實條件的長樣本具有良好的處理效果。

表6 CMLR 數據集不同長度測試樣本的實驗結果

GRID 中的樣本包含了未發生唇讀的冗余視頻片段,故可用于測試第4 節唇讀端點檢測算法的效果。對于給定的視頻片段,唇讀端點檢測算法輸出唇讀動作的起始/終止幀號,二者分別與數據集標注的起始/終止幀號計算絕對偏移量,再以偏移量之和與唇讀持續時間計算比值得到相對偏移量。唇讀端點檢測算法的性能以GRID 上所有樣本的平均相對偏移量進行評價。在參數的設置上,L與k分別取2和10,而唇動指數閾值μ的取值會使得結果產生較大波動,圖9 展示了μ值對算法性能的影響。

圖9 閾值設置對唇讀端點檢測結果的影響

由此可見,μ值設置為8 500 可實現最佳的檢測性能,平均相對偏移量達到0.151 7。在該設置下,圖10 直觀地展示了GRID 數據集中s1/bbaf2n.mpg樣本的唇動指數變化曲線以及唇讀端點檢測結果。算法在該樣本上預測的唇讀起止點相比數據集標注的時刻略有提前,實現了0.094 0 的相對偏移量。

圖10 s1/bbaf2n.mpg 的唇動指數變化曲線及唇讀端點檢測結果

7 結論

本文研究了語句級別的唇語識別問題,設計了一種基于注意力機制與光流的唇語識別系統。我們的ALR 系統分為神經網絡模型以及其前端的唇讀端點檢測模塊,能夠有效處理連續的唇讀視頻并逐句解碼為文字。神經網絡以圖像特征提取模塊和時間序列分類模塊構成,其中圖像特征提取模塊基于3D-ResNet18 并在每一個殘差塊后嵌入了基于空間-通道融合的雙重注意力機制模塊;時間序列分類模塊基于Transformer 進行時序建模,并采用了基于集束搜索的解碼方式,以基于標簽平滑的KL 散度作為損失訓練模型。神經網絡的訓練采用了訓練樣本長度遞增、學習率預熱和逐級遷移學習三項措施進行優化。唇讀端點檢測模塊負責將連續不斷輸入神經網絡的唇讀視頻逐句切分,其基于金字塔KL光流法計算閾值,并根據一定的判定流程確定唇讀的實際起始位置。實驗部分分別對系統中的神經網絡部分和唇讀端點檢測部分進行了評估,多項實驗的結果表明,我們設計的系統參數設置合理,神經網絡中的注意力機制也對結果起到了有效提升作用,在英文數據集GRID 和中文數據集CMLR 上分別實現了1.69%與31.27%的詞/字錯誤率,并且能夠有效應對現實條件下的長段語句。唇讀端點檢測模塊在GRID 數據集上進行了測試并確定了最佳參數設置,實現了0.151 7 的平均相對偏移量。我們的系統提供了解決連續語句唇語識別的一種有效方案,但其仍有一定的提升空間。例如開發更輕量級、能夠實時運行的唇語識別架構、構建更符合現實條件的大規模中文唇讀數據集并提升系統處理中文數據的準確性、在圖像特征提取任務中應用自注意力機制以及開發多模態融合的唇語識別技術等等。

猜你喜歡
單詞模型
What’s This?
Exercise 1
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 伊在人亞洲香蕉精品區| 亚洲va在线∨a天堂va欧美va| 狠狠v日韩v欧美v| 有专无码视频| 香蕉蕉亚亚洲aav综合| 亚洲天堂视频在线观看免费| 99视频在线免费看| 亚洲国产天堂久久综合| 色综合天天综合中文网| 色噜噜中文网| 综合久久五月天| 亚洲第一在线播放| 国产在线观看一区精品| 免费jizz在线播放| 制服丝袜国产精品| 无码在线激情片| 欧美日韩国产在线观看一区二区三区| lhav亚洲精品| 精品国产网| 韩日免费小视频| 色综合中文字幕| 久久综合AV免费观看| 91精品aⅴ无码中文字字幕蜜桃| 无套av在线| 精品久久久久成人码免费动漫| 国产精品无码AV中文| 91精品福利自产拍在线观看| 欧美国产在线一区| 国产成人综合亚洲网址| 国内精品免费| 久久这里只有精品23| 亚洲人成在线精品| 天天综合天天综合| 高h视频在线| 婷五月综合| 亚洲精品大秀视频| 亚洲午夜福利精品无码| 久久99国产综合精品女同| 亚洲第一成年免费网站| 国内精品九九久久久精品| 亚洲欧美日韩久久精品| 综合网天天| 一级毛片在线免费视频| 国产激爽爽爽大片在线观看| 日本国产一区在线观看| 国产高潮流白浆视频| 久久精品人人做人人爽电影蜜月| 国产成人区在线观看视频| 毛片网站观看| 欧美精品v| 四虎国产永久在线观看| 福利在线免费视频| 国产农村精品一级毛片视频| 日本人妻丰满熟妇区| 国产美女自慰在线观看| 婷婷午夜天| 重口调教一区二区视频| 亚洲国产日韩在线成人蜜芽| 2024av在线无码中文最新| 亚洲手机在线| 亚洲男人的天堂在线| 亚洲av日韩综合一区尤物| 国产精品无码AⅤ在线观看播放| 国产导航在线| 成AV人片一区二区三区久久| 白丝美女办公室高潮喷水视频| 亚洲成人精品久久| 亚亚洲乱码一二三四区| 六月婷婷精品视频在线观看| 亚洲欧美不卡中文字幕| 亚洲中文精品人人永久免费| 亚洲欧美一级一级a| 国产亚洲视频在线观看| 国产成人久久777777| 九九热精品在线视频| 国产91精选在线观看| 又黄又湿又爽的视频| 中文字幕av一区二区三区欲色| 日韩av无码DVD| 亚洲精品视频免费| 黄色网站不卡无码| 国产成人一区|