999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于二階隱馬爾可夫模型的連續(xù)手語識別①

2022-05-10 08:42:02梅家俊王衛(wèi)民戴興雨
計算機系統(tǒng)應用 2022年4期
關鍵詞:詞匯模型

梅家俊,王衛(wèi)民,戴興雨

(江蘇科技大學 計算機學院,鎮(zhèn)江 212100)

手語識別技術其實是利用計算機等智能設備,將手語動作轉換為能夠與其他社會群體交流的信息[1].目前中國手語大約有5 500 多個常用詞匯[2].然而真正理解手語含義的人卻數(shù)量極少,大部分非聾啞人對手語基本上一無所知,并且也很少有人愿意去花時間和精力去學習手語這項技能,這也是聾啞人群體與其他社會群體之間產(chǎn)生溝通障礙的原因之一.因此,研究手語識別技術不僅能使聾啞人更好地適應社會環(huán)境,還可以促進人機交互的發(fā)展,為用戶提供更好的人機交互體驗[3].

本文將隱馬爾可夫模型和深度學習結合起來,其中由于深度學習具有很好的遷移能力,故而將深度學習用于手語詞匯的特征提取以及候選詞匯的選擇,而隱馬爾可夫模型可以將現(xiàn)有的語言學的模型應用到手語的識別中,并且二階隱馬爾可夫模型可以更好地運用經(jīng)驗知識來輔助識別[4].

1 相關工作

根據(jù)識別手語的方法上劃分,可以將手語識別分為四類,分別為:基于體感設備的手語識別、基于穿戴式設備的手語識別、基于傳統(tǒng)機器學習的手語識別,以及基于深度學習的手語識別.

基于體感設備的手語識別就是采用體感設備Kinect來進行手語的識別.如2019年,千承輝等[5]借助Kinect得到人體的深度圖像以及骨骼特征信息提取出手部特征,實現(xiàn)動態(tài)的手語識別,準確率可達95%,2020年,陳德寧等[6]運用Kinect 設備提取到人體的骨骼信息,對手語進行分類和識別.

基于穿戴式設備的手語識別,即通過運用數(shù)據(jù)手套以及位置跟蹤器獲取手勢的實時變化信息,如Oz等[7]使用CyberGlove 數(shù)據(jù)手套以及位置跟蹤器對300個美國手語單詞進行識別,得到了90%的識別準確率.

基于機器學習的手語識別,就是使用傳統(tǒng)的機器學習算法,如隱馬爾可夫模型[8],支持向量機等[9].2019年,蔣賢維等[10]使用精度高斯支持向量機(FGSVM)對中國手語手指語圖像樣本進行實驗,最終分類達到92.7%的識別率,2020年,包嘉欣等[11]使用綜合多要素的手語膚色分割與改進VGG 網(wǎng)絡的手語識別方法,得到了對手語圖像97%以上的平均識別率.

深度學習方法的出現(xiàn),使手語識別迎來了新的機遇.例如2018年,梁智杰等[12]運用三維卷積神經(jīng)網(wǎng)絡,提取出視頻的短時特征,并運用雙向LSTM 輸入到殘差網(wǎng)絡中,最終得到了很好的性能表現(xiàn).

然而,無論在國內還是國外,都很難在市場上看到成熟的手語識別設備,主要原因是基于體感設備的手語識別,雖然識別準確率很高,但體感設備Kinect價格昂貴且體積較大,對于非室內的手語識別環(huán)境不是很方便;而基于穿戴式設備的手語識別方式,雖然數(shù)據(jù)手套準確率高,但手套設備昂貴,且不易操作,不便于攜帶,很難普及和推廣;基于機器學習的手語識別,雖然不需要配套的設備,但整體的識別率比使用相關設備的識別方法低;而基于深度學習的手語識別,在訓練量較少的時候效果并不佳,只有在有大量數(shù)據(jù)的情況下,深度學習方法才可以得到一個較好的識別準確率.

2 基于HMM2 的連續(xù)手語識別方法

手語識別是將一段完整的手語視頻轉換為中文語義的過程[13].手語識別主要是由語料庫和手語詞匯視頻庫的建設、滑動窗口的切分及手語視頻識別等技術組成.

連續(xù)手語識別的系統(tǒng)運算流程如圖1所示.

圖1 系統(tǒng)流程圖

2.1 語料集和手語詞匯視頻庫的建設

中文語料集以及手語詞匯視頻庫的建設是手語識別中最基本也是最重要的環(huán)節(jié).通過收集大量的中文文本建立語料集,再通過各種渠道,大量收集手語詞匯的視頻,其中包括人、衣物、食品、生活用品、生活、工作、社會活動、哲學、倫理、心理、行為、事物的狀態(tài)、性質、特點、民族、宗教、歷史、政治、法律、國防外交、經(jīng)濟、文化教育、時間、空間、數(shù)學、物理、化學、信息學、生物等共54 大類共5 586個手語詞匯[14].把收集到的視頻按各自表達的意思進行分類,構建完整的手語詞匯視頻庫[15].

2.2 滑動窗口的切分

由于手語語句是由多個手語詞匯組合而成,因此需要把手語視頻進行切分,分割成多個長度較短的視頻,使每個視頻能夠代表一個詞匯[16].因此采用滑動窗口對手語視頻進行切分,根據(jù)窗口大小Size以及滑動步數(shù)Step,將原視頻V切分成多個相互重疊的視頻片段V1,V2,…,Vm,其中m是切分后的視頻個數(shù).

2.3 手語視頻識別(基于HMM2)

2.3.1 初始化HMM2

初始化隱馬爾可夫模型的3 個參數(shù)矩陣:初始狀態(tài)矩陣,轉移狀態(tài)矩陣和發(fā)射矩陣,以及兩個序列:狀態(tài)序列和觀測序列.狀態(tài)序列s=W1,W2,…,Wn,其中n表示手語詞匯個數(shù),Wi表示第i個手語詞匯,觀測序列V=V1,V2,…,Vm,其中Vi表示切分出的第i個視頻.主要計算過程如下所示.

(1)文章分句

輸入L篇文章,對L篇文章進行如下處理:使用標點符號“?.!”進行分句處理,設分句后的結果為S1,S2,S3,…,Sy,其中y為L篇文章的句子總個數(shù),Si為L篇文章的第i個句子.

(2)計算初始狀態(tài)矩陣

計算所有字在句首出現(xiàn)的頻次,設字序列為C1,C2,…,Cx,對應的頻次序列為Count(C1),Count(C2),…,Count(Cx),其中Ci表示第i個字,Count(Ci)為字Ci出現(xiàn)的頻次,于是有:

由此得到了初始狀態(tài)矩陣:

(3)句子分字

對所有的句子進行頻次統(tǒng)計:把y個句子中相應的C1,C2,…,Cx替換為C1,C2,…,Cx的下標1,2,…,x.去除其他非1,2,…,x的詞匯,再把下標1,2,…,x替換回相對應的字,由此就得到了分字的結果.

(4)計算一階轉移矩陣

首先統(tǒng)計出Ci的頻次Count(Ci)以及CiCj的頻次Count(CiCj),其中Count(CiCj)表示為字Ci后出現(xiàn)Cj的概率.再計算出每個字后出現(xiàn)所有字的頻次總和,記為O1,O2,…,Ox,其中Oi表示Ci后出現(xiàn)每個Cj的頻次總和.

其中,P(Cj|Ci)表示為Ci到Cj的轉移概率,得到了一階轉移狀態(tài)矩陣:

(5)計算二階轉移矩陣

統(tǒng)計出CiCjCk的頻次,記為Count(CiCjCk),其中Count(CiCjCk)表示為CiCj后出現(xiàn)Ck的概率.再計算每兩個字后出現(xiàn)所有字的頻次總和,記為Z11,Z12,…,Zxx,其中Zij表示CiCj后出現(xiàn)每個Ck的頻次總和.于是有:

其中,P(Ck|CiCj)表示CiCj到Ck的轉移概率,由此得到了二階轉移狀態(tài)矩陣:

(6)三維卷積模型

每個手語詞匯W1,W2,…,Wn都包含k個視頻,將這些視頻分別記為d11,d12,…,dnk,其中dij表示為第i個手語詞匯的第j個視頻.將所有的手語詞匯視頻進行訓練,最終得到一個三維卷積模型.卷積結構如圖2所示.

圖2 三維卷積網(wǎng)絡結構

(7)計算發(fā)射矩陣

將切分之后得到的m個視頻V1,V2,…,Vm,利用訓練好的三維卷積模型進行手語詞匯識別,其中第i個切分視頻的描述內容為第j個手語詞匯的概率記為P(Wij).對每個切分視頻按照概率大小P(Wij)進行排序,保留排好序的前5 個P(Wij),其余P(Wij)賦值為0.將每個手語詞匯對m個切分的視頻所得的值求和得到h1,h2,…,hn.于是有:

對所有P(Wij)中的非數(shù)值型的結果賦值為無窮小,由此得到了發(fā)射矩陣:

2.3.2 計算最佳路徑

運用Viterbi 算法計算HMM2 的最佳路徑,主要過程如下所示:

給定一個觀察序列O=V1,V2,…,Vm和HMM2 模型λ=( π,A1,A2,B),并選擇一個狀態(tài)序列S=W1,W2,…,Wn,其中Vi表示第i個切分的視頻,Wi表示狀態(tài)序列中的第i個詞匯:

(1)首先計算狀態(tài)序列中的所有詞匯作為句首的概率P(Wi),從發(fā)射矩陣B中找出當觀察值為V1時,相對應詞匯的概率值B(Wi|O=V1),得到Viterbi 算法中觀測值為V1的結果:

(2)接著計算當觀測到V1的狀態(tài)值為Wi時,觀測到V2的狀態(tài)值為Wj的概率P(Wj|Wi),從發(fā)射矩陣B中找出當觀察值為V2時,相對應詞匯的概率值B(Wj|O=V2),則得到Viterbi 算法中觀測值為V2的結果:

(3)觀測值為Vt時,其中2≤t≤m,計算出當t-1 時刻觀測值為Wj并且t-2 時刻觀測值為Wi時,觀測到Wk的概率P(Wk|WiWj),從發(fā)射矩陣B中找出當觀察值為Vt時,相對應詞匯的概率值B(Wj|O=Vt),則得到Viterbi算法中觀測值為Vt的結果:

(4)求取最佳序列狀態(tài):找出P(WiWjWk|O=Vm)的最大值,并記錄下相對應的Wi,Wj,Wk,通過Wi,Wj依次找出前一個觀測時刻的Wi,最終得到一條概率最大的路徑,即識別出的最終結果.

3 實驗

3.1 實驗數(shù)據(jù)來源

為了驗證該系統(tǒng)的可行性,本次實驗從新浪、搜狐上爬取50 篇新聞文章構成語料集,并獲取中國科學技術大學視覺手語研究小組(VSLRG)發(fā)布的中國孤立手語詞數(shù)據(jù)集作為手語視頻庫,該數(shù)據(jù)集由50 個唯一的參與者執(zhí)行,每個參與者對每個類別進行5 次.數(shù)據(jù)集包含500 個不同的類別,例如:身體、頭部、頭發(fā)、女士、妹妹、杯子、燈光等.并且每個類別具有250 個實例,共計125 000 個手語詞匯視頻,對于125 000個手語詞匯視頻,按照9 比1 的比例,隨機劃分卷積模型的訓練集和測試集,訓練集共112 500 個詞匯視頻,測試集共12 500 個詞匯視頻.再獲取VSLRG 發(fā)布的中國連續(xù)手語數(shù)據(jù)集,該數(shù)據(jù)集包括100 種不同含義的句子,從每種句子中隨機挑選5 個視頻,共500 個連續(xù)手語視頻作為手語識別的測試集.其中圖3 為連續(xù)手語數(shù)據(jù)集中的一個視頻的關鍵幀,圖4 為孤立手語詞數(shù)據(jù)集的一個詞匯視頻的關鍵幀.

圖3 “他的同學是警察”的關鍵幀

圖4 手語詞匯“外祖父”的關鍵幀

3.2 模型訓練及手語識別

首先給定一個前提:測試集中的每一個連續(xù)手語視頻中,表示手語的速度與手語詞匯視頻中,某個人表示手語的速度是相似的.

每個手語詞匯W1,W2,…,Wn都包含k個視頻,將這些視頻分別記為d11,d12,…,dnk,其中dij表示第i個手語詞匯的第j個視頻,并且每一個手語詞匯視頻都有不同長度的幀數(shù),記為F11,F12,…,Fnk,其中Fij表示為第i個手語詞匯的第j個視頻的幀數(shù),把所有視頻的幀數(shù)統(tǒng)計出來,如表1所示.

表1 詞匯視頻幀數(shù)統(tǒng)計

由于最長詞匯視頻幀數(shù)過大,測試集中部分連續(xù)手語視頻達不到此幀數(shù),因此統(tǒng)計100 幀以下的視頻占比,如表2所示.

表2 100 幀以下詞匯視頻總數(shù)占比

共有97.51%的視頻處于一百幀以內,并且對于連續(xù)視頻而言,切分的窗口過大,反而會產(chǎn)生不必要的誤差.于是,設置計算過程中詞匯視頻幀數(shù)為100,大于100 幀的詞匯視頻取前100 幀計算,小于100 幀的詞匯視頻補零補到100 幀.將處理好的訓練集進行訓練,共計訓練1 000 輪.

為驗證算法的識別性能,將通過與其他算法,如余弦相似度[17]和二維卷積模型[18],進行對比Top-1 及Top-5 的準確率.

其中網(wǎng)絡模型如圖1所示,訓練中設置批量大小batch_size 為64,使用Adam 優(yōu)化器,根據(jù)訓練的效果,依次調整初始學習率為1×10-4,1×10-6,1×10-8,其他參數(shù)保持不變,并設置訓練迭代次數(shù)epochs 為1 000.實驗結果如表3所示.

表3 不同算法的識別效果(%)

對測試集中每一個連續(xù)手語視頻,進行如下處理:

以當前連續(xù)手語視頻的前100 幀作為第一個手語短視頻,利用訓練好的三維卷積模型進行手語詞匯識別,找出其中概率最大的五個手語詞匯,按照這5 個手語詞匯的概率比例,與每個手語詞匯中250 個詞匯視頻幀數(shù)的平均值進行計算,得到滑動的幀數(shù)并進行滑動,得到第二個手語短視頻.第二個短視頻也進行詞匯識別,同樣以概率最大的5 個手語詞匯計算出第二次滑動的幀數(shù).直至滑動得到的手語短視頻的幀數(shù)小于100 幀后滑動結束.

由此得到了當前連續(xù)手語視頻的發(fā)射矩陣,并根據(jù)語料集得到初始狀態(tài)矩陣,一階轉移矩陣以及二階轉移矩陣.最終通過Viterbi 算法進行識別,結果如表4所示.

表4 識別效果

表5 為本文算法HMM2 與傳統(tǒng)一階隱馬爾可夫HMM1 的對比情況.

表5 手語視頻識別精度

4 結語

本文采用了二階隱馬爾可夫模型與深度學習相結合的方式,其中深度學習用于詞匯的特征提取以及候選詞匯的選擇,極大地縮小了候選詞匯的范圍,而二階隱馬爾可夫能夠更好地運用經(jīng)驗知識來輔助識別,通過結合深度學習得到的候選詞匯,形成連續(xù)手語視頻的句義.在連續(xù)手語數(shù)據(jù)集上實驗結果表明,本文算法的Top-5 識別精度為94.7%,比二維卷積模型提高5.3%;二階隱馬爾可夫模型對于連續(xù)語句的識別精度為88.6%,比一階隱馬爾可夫提高6.8%,具有更好的識別精度.

猜你喜歡
詞匯模型
一半模型
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
本刊可直接用縮寫的常用詞匯
主站蜘蛛池模板: 国产精品三级专区| 免费国产高清精品一区在线| 国产欧美日韩在线一区| 国产理论一区| 久久永久精品免费视频| 久久久久久久蜜桃| 全免费a级毛片免费看不卡| 无码福利视频| 伊人查蕉在线观看国产精品| 亚洲第一黄色网| 国产日产欧美精品| 99这里只有精品在线| 麻豆精品在线视频| 亚洲精品无码AV电影在线播放| 91在线激情在线观看| 91久久偷偷做嫩草影院电| 欧美精品v日韩精品v国产精品| 久久夜色精品| 国产亚洲欧美日本一二三本道| 三上悠亚精品二区在线观看| 欧美亚洲日韩中文| 国产视频a| 亚洲无码37.| 91视频首页| 2020亚洲精品无码| 真实国产精品vr专区| 香蕉蕉亚亚洲aav综合| 成人字幕网视频在线观看| 日韩毛片免费| 国产男人的天堂| 日韩AV无码一区| 国产三区二区| 色综合久久88| 国内精自线i品一区202| 国产麻豆aⅴ精品无码| 无码国产伊人| 午夜视频免费一区二区在线看| 国产精品性| 亚洲视频影院| 国产欧美视频综合二区| 欧美全免费aaaaaa特黄在线| 麻豆精品在线| 国产免费怡红院视频| 青青青视频91在线 | 九九热精品视频在线| 青草国产在线视频| 欧美在线网| 亚洲色无码专线精品观看| 久久这里只有精品2| 中文字幕在线看视频一区二区三区| 亚洲欧美一区二区三区麻豆| 日日碰狠狠添天天爽| 精品人妻无码区在线视频| 亚洲精品天堂自在久久77| 在线观看精品国产入口| 激情视频综合网| 狠狠v日韩v欧美v| 日韩av手机在线| 欧美精品啪啪| 亚洲午夜福利精品无码| 色偷偷av男人的天堂不卡| 在线99视频| 亚洲精品在线影院| 国产欧美性爱网| 亚洲精品在线影院| 91黄色在线观看| 麻豆精品在线视频| 第一区免费在线观看| 国产手机在线观看| 毛片大全免费观看| 国产人成在线视频| 日韩欧美中文字幕在线精品| 亚洲swag精品自拍一区| 992tv国产人成在线观看| 最新国产精品第1页| 成人国产精品网站在线看| 亚洲天堂视频在线免费观看| 91外围女在线观看| 日日摸夜夜爽无码| 日本91视频| 色婷婷色丁香| 国产白浆视频|