摘 要:手勢(shì)識(shí)別在人機(jī)交互與虛擬現(xiàn)實(shí)中有重要應(yīng)用,本文提出一種新的基于Zernike矩和傅里葉描繪子聯(lián)合表觀特征的手勢(shì)識(shí)別方法。依據(jù)YCbCr色彩空間的膚色檢測(cè),分割出手勢(shì);對(duì)手勢(shì)分割后的圖像計(jì)算Zernike矩和傅里葉描繪子,選取Zernike矩和傅里葉描述子構(gòu)成聯(lián)合特征向量;構(gòu)建一個(gè)多層感知器神經(jīng)網(wǎng)絡(luò)分類器,進(jìn)行手勢(shì)識(shí)別。構(gòu)建一個(gè)含有2000樣本的數(shù)據(jù)集來(lái)驗(yàn)證算法,實(shí)驗(yàn)結(jié)果顯示手勢(shì)識(shí)別準(zhǔn)確率達(dá)到98.9%。
關(guān)鍵詞:手勢(shì)識(shí)別;Zernike矩;傅里葉描繪子;多層感知器
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2014) 02-0000-02
一、引言
人機(jī)交互(Human Computer Interaction)在日常生活中扮演重要角色。手勢(shì)識(shí)別作為人機(jī)交互的一種方式,得到越來(lái)越多的研究。人們可以通過手的不同動(dòng)作和不同形狀,來(lái)傳達(dá)豐富的信息。手勢(shì)識(shí)別可用于游戲、遙控、手語(yǔ)翻譯、虛擬現(xiàn)實(shí)等很多領(lǐng)域。
根據(jù)手勢(shì)信息獲取的方式,手勢(shì)識(shí)別可分為基于數(shù)據(jù)手套(Data Glove)方式和基于計(jì)算機(jī)視覺(Computer Vision)方式。數(shù)據(jù)手套方式需要用戶手戴一個(gè)傳感設(shè)備,將人手指關(guān)節(jié)角度等信息傳送給計(jì)算機(jī),計(jì)算機(jī)通過這些信息識(shí)別手勢(shì),文獻(xiàn)[1][2]研究了基于數(shù)據(jù)手套的手勢(shì)識(shí)別;計(jì)算機(jī)視覺方式則是通過獲取包含人手的數(shù)字圖像,通過進(jìn)行進(jìn)一步運(yùn)算識(shí)別手勢(shì)?;谟?jì)算機(jī)視覺的方式在人機(jī)交互中有著天然的優(yōu)勢(shì),然而所需要的技術(shù)也更復(fù)雜。本文研究基于計(jì)算機(jī)視覺方式的手勢(shì)識(shí)別。
目前基于計(jì)算機(jī)視覺的靜態(tài)手勢(shì)識(shí)別方法,可分為基于3D建模的方法和基于表觀的方法。文獻(xiàn)[3]采用3D建模方式進(jìn)行手勢(shì)識(shí)別,介紹了基于表觀的手勢(shì)識(shí)別方法。基于3D建模方式的手勢(shì)更能精確表示手勢(shì)信息,但需要更大的計(jì)算量?;诒碛^手勢(shì)建模方式計(jì)算復(fù)雜度低,易滿足實(shí)時(shí)性要求。本文研究基于表觀特征的手勢(shì)識(shí)別。
本文其余內(nèi)容安排如下,第2部分介紹如何提取表觀特征,第3部分介紹如何采用多層感知器進(jìn)行模式識(shí)別,第4部分給出實(shí)驗(yàn)結(jié)果,最后第5部分為本文結(jié)論。
二、手勢(shì)特征提取
(一)基于膚色的手勢(shì)分割
膚色檢測(cè)在人臉識(shí)別、手勢(shì)識(shí)別中扮演重要角色,近年來(lái)膚色檢測(cè)技術(shù)得到了廣泛研究。常用的5種色彩空間為RGB、HIS、HSL、YCbCr和YUV,研究膚色在不同光照條件下在上述色彩空間中的分布情況。結(jié)果顯示YCbCr和HIS色彩空間比RGB色彩空間更適合膚色檢測(cè)和分割。這里我們用基于YCbCr色彩空間進(jìn)行膚色檢測(cè),RGB轉(zhuǎn)換到Y(jié)CbCr的公式如下,
將含有手勢(shì)的圖像閾值分割成二值圖像,然后對(duì)分割后的圖像進(jìn)行中值濾波和形態(tài)學(xué)處理。本文的重點(diǎn)不在于膚色檢測(cè)研究,因此在試驗(yàn)中選擇背景相對(duì)簡(jiǎn)單和光照相對(duì)充分的環(huán)境進(jìn)行膚色檢測(cè)。手勢(shì)分割結(jié)果如下,
(二)Zernike矩
常規(guī)矩被廣泛應(yīng)用于二維平面特征提取,常規(guī)矩定義如下,
mpq為連續(xù)圖像f(x,y)的第p+q階常規(guī)矩。對(duì)于離散數(shù)字圖像,上式變?yōu)椋?/p>
在此基礎(chǔ)上Hu提出了7個(gè)對(duì)平移、縮放、旋轉(zhuǎn)都不敏感的不變矩,Hu不變矩被應(yīng)用于模式識(shí)別問題中。
本文采用Zernike矩作為手勢(shì)表觀特征。與其它矩相比,Zernike矩在抗噪性、信息冗余、圖像描述上擁有最全面的性能。常規(guī)矩定義的是f(x,y)在單項(xiàng)式上xpyq的投影,由于xpyq不是正交的,需要很多計(jì)算量,并且有相當(dāng)?shù)娜哂?。Teague建議采用基于正交多項(xiàng)式的正交矩來(lái)克服以上問題。Zernike矩正是采用一組正交多項(xiàng)式得出的,選用特定的Zernike正交多項(xiàng)式,使得Zernike矩具有旋轉(zhuǎn)不變性。
對(duì)于一幅數(shù)字圖像,其n階重復(fù)度m的Zernike矩為,