張 軍 張 孔 楊正瓴
(天津大學電氣與自動化工程學院 天津 300072)
?
基于計算機視覺的多特征手勢識別
張軍張孔楊正瓴
(天津大學電氣與自動化工程學院天津 300072)
摘要目前常用單特征手勢識別方法中,缺少完整的手勢輪廓信息,對局部相似度高和形狀復雜的手勢識別率較低,為此提出一種將CSS特征描述子與Hu不變矩相結合的手勢特征提取方法。首先,利用膚色模型把手勢從復雜的背景中提取出來,然后分別提取手勢的Hu不變矩和CSS描述子來構建融合特征,最后利用人工神經網絡對新特征進行識別和分類。實驗結果表明,與基于單一特征的識別方法相比,該方法整體識別率更高,對局部形似度高的手勢識別率有很大提升。
關鍵詞計算機視覺手勢識別空間曲率特征Hu不變矩神經網絡
0引言
手勢識別是計算機視覺領域的一個重要分支,目前被廣泛應用到人機交互(HCI)、手語識別等各種領域中。根據手勢采集設備的不同,可以將手勢識別分為基于數據手套的手勢識別和基于機器視覺的手勢識別[2]?;跀祿痔椎姆椒ㄐ枰褂谜叽┐魈厥獾氖謩輸祿杉O備,使用條件受到限制;基于計算機視覺的手勢識別只需要簡單的數據采集設備,能為使用者提供更簡單自然地輸入方式,目前已成為手勢識別的研究重點。
目前,基于計算機視覺的手勢識別主要有兩個研究方向:基于彩色圖像的識別和基于深度圖像的識別?;谏疃葓D像的手勢識別主要是利用微軟2010年推出的Kinect外設傳感器來獲取深度圖像,再利用獲得圖像的深度信息來進行手勢識別。物體在深度圖像中的深度值與物體距離傳感器的距離有關[3]。所以人手區域與背景區域在深度圖像中有不同的深度值,根據深度值得不同,可以利用閾值分割的方法來進行手勢區域檢測,從背景中分離出人手區域?;谏疃葓D像的手勢識別方法受光照和背景的干擾小,而且獲取的圖像分別率高,但是需要專門的Kinect設備;基于彩色圖像的識別方法不受場景、環境等因素干擾,而且所需設備比較簡單的。綜合各種因素考慮,本文采用基于彩色圖像的手勢識別方法。
手勢提取是手勢識別的基礎,手勢輪廓提取效果的好壞對后面的手勢特征的提取以及手勢識別有很大的影響。膚色在顏色空間有很好地聚類特性,因此目前很多成熟的算法都是基于膚色模型來進行手勢提取。徐占武等[7]采用高斯方法,此方法對復雜的背景有很好地識別效果,能夠實現差異很大的膚色分割,但是高斯模型比較復雜,計算量大,不適用于實時操作環境。
人手是復雜的變形體,手勢具有多義性、多態性,具有時間和空間上的差異性[5],因此特征的選擇及提取是手勢識別領域中的一個難點。目前常用的手勢特征有兩種,一種是基于圖像表觀特征的提取,另一種是基于人手模型的特征提取[9]。基于模型的特征提取就是根據經驗知識建立人手數學模型,再根據手勢的特征估計模型的參數,最后用模板匹配的方法進行識別分類。這種方法可以處理比較復雜的手勢,缺點是計算量大,在圖像分辨率低時,估計模型的參數比較困難?;趫D像的表觀特征就是利用圖像上手勢輪廓的手掌,手指等的幾何特征來描述手勢特征。文獻[1-3]通過計算手勢輪廓的指頭數和指頭間夾角來識別手勢,這種方法計算量小,但是對于手指間夾角區分度小的手勢識別率低。王先軍等[4]利用Hu不變矩作為識別特征,得到7個具有平移、旋轉、縮放不變性的Hu不變矩作為特征,取得了較高的識別率,但是對于局部相似度較高的手勢(如圖1所示M和N)識別結果仍然差強人意。Chang等[6]將CSS(曲率尺度空間)特征引入到手勢識別領域,并對幾個簡單手勢取得了很好地分類效果,但是由于缺乏整體性特征,對手語中比較復雜的手勢(如圖1中的X和H)識別效果很差。

圖1 部分相似手勢
針對Hu不變矩缺少局部描述特征,而CSS特征描述子沒有整體特征。本文將兩種特征融合,從整體和局部兩方面描述手勢,再用人工神經網絡對新特征進行分類,取得了良好的分類效果。本文具體流程參見圖2所示。

圖2 流程圖
1手勢分割
手勢分割就是從復雜的背景中把手勢輪廓檢測出來[2]。現在比較成熟的分割算法有幀差算法和膚色模型分割法。膚色分割法計算量比較小、模型簡單,因此本文采用膚色模型分割法。
1.1膚色模型
膚色分割模型就是利用膚色在顏色空間上的聚類性,把感興趣的區域從復雜的背景環境中分離出來。由于膚色在不同的顏色空間具有不同的聚類特性,所以要想取得良好的分割效果,必須選擇合適的顏色空間。目前常用的顏色空間有RGB顏色空間、HSV顏色空間、YCrCb顏色空間三種。文獻[8]通過大量實驗,證明在YCrCb空間,膚色受亮度影響小,膚色聚類特性較好。因此本文選擇YCrCbr空間作為手勢分割的顏色空間。
1.2手勢輪廓提取
實驗中,我們采用一個單目相機來獲取包含手勢信息的圖像,圖像分辨率為320×240,通過下面步驟可以得到完整的手勢輪廓:
步驟1用式(1),將圖像由RGB空間轉換到YCrCb空間,如圖3(b)所示。
(1)
步驟2對得到的YCrCb圖像進行閾值分割,得到手勢的二值圖像,如圖3(c)所示。在我們實驗環境下,Cr、Cb取值范圍:133≤Cr≤183,78≤Cb≤131。
步驟3為了去除噪聲和干擾,對閾值分割后的二值圖像進行濾波和圖形學處理,如圖3(d)所示。
步驟4針對步驟三得到的二值圖像進行輪廓提取,得到結果如圖3(e)所示。
步驟5為了去除非膚色區域的干擾,我們設定輪廓點數閾值T,當輪廓點數小于閾值T時,就認為該區域不是手勢輪廓,用黑色填充,最后得到只有手勢輪廓的圖像,如圖3(f)所示。

圖3 手勢輪廓提取過程示意圖
2手勢輪廓特征提取
2.1CSS特征描述子
CSS特征就是通過手勢輪廓上各點的曲率來描述手勢的形狀特征,不同手勢的輪廓上各點的曲率分布是不同的。CSS特征描述子就是找到手勢輪廓在圖像的尺度空間中的過零點,把這些過零點組合中的極值點位置及其對應的空間尺度信息的集合作為描述子。
2.1.1曲率計算
用弧長μ對曲線進行參數化表示:
L(μ)=(x(μ),y(μ))
(2)
則曲線上各點的曲率可由下面公式計算:
(3)
x(μ,σ)=x(μ)?g(μ,σ)
(4)
y(μ,σ)=y(μ)?g(μ,σ)
(5)
(6)

2.1.2CSS描述子生成算法
根據上面的曲率計算公式,對得到的手勢輪廓進行曲率計算,并根據下面步驟得到CSS特征描述子:
步驟1對得到的手勢輪廓進行參數化,得到L(μ)。
步驟2利用式(3)求出曲線各點的曲率,得到在尺度σ下的手勢輪廓曲率序列。
步驟3判斷在尺度σ下,曲率序列是否存在曲率的極值點。有則轉步驟4,無則轉步驟5。
步驟4記錄下曲率極值點的位置和尺度,用(μ,σ)表示,增加尺度σ=σ+1,轉步驟3。
步驟5將步驟4中得到的點繪制在(μ,σ)平面上,得到尺度空間圖像CCSI。
在統一的離散化參數μ的條件下,所有CSSI中局部極值的坐標集合就是CSS形狀描述子,即:
FCSS={(μi,σi)i=1,2,…,N}
(7)
手勢U對應的CSSI特征如圖4所示。

圖4 手勢U對應的CSSI特征
2.2Hu不變矩特征
矩不變量最早是由Hu等人于1962年提出的,把矩不變量進行線性組合,得到具有比例不變性、平移不變性、和旋轉不變性的矩[10]。
針對二維的數字圖像f(x,y),對應的p+q階矩為[4]:
(8)
則與之相對應的p+q階中心距為[4]:
(9)
中心矩upq是平移不變的。對中心距upq進行尺度規范化,得到如下中心矩[4]:
(10)
對上面得到的中心距ηpq進行非線性組合,得到如下7個具有平移不變性的Hu不變矩:
M1=η20+η02
(11)
(12)
M3=(η30-3η12)2+(3η21-η03)2
(13)
M4=(η30+η12)2+(η21+η03)2
(14)
M5=(η30-3η12)(η30+η12)[(η30+η12)2
-3(η21+η12)2]+3(η21-η03)(η21+
η03)[3(η30+η12)2-(η21+η03)2]
(15)
M6=(η20-η02)[(η30+η12)2-(η21+η03)2]+
4η11(η30+η12)(η21+η03)
(16)
M7=(3η21-η03)(η21+η03)[3(η30+η12)2-
(η21+η03)2]-(η30-3η12)(η21+
η03)[3(η30+η12)2-(η21+η03)2]
(17)
利用上面得到的7個Hu不變矩來描述手勢的輪廓特征,并將其表示為如下形式描述子:
FHu={M1,M2,M3,M4,M5,M6,M7}
(18)
2.3特征融合
通過計算空間曲率得到CSS形狀描述子FCSS,通過Hu不變矩得到具有7個特征的Hu不變矩描述子FHu。但是CSS形狀描述子和Hu不變矩描述子采用不同的距離度量方法,量綱不統一,而且CSS形狀描述子的維數是不確定的,直接拼接會出現不平衡現象。所以不能直接將 2 種描述子融合使用,可以通過歸一化和對特征進行加權來減小直接融合的影響,具體如下:
步驟1分別對CSS描述子和Hu不變矩描述子進行歸一化,使其大小在0和1之間。
步驟2對歸一化的距離進行線性加權,得到新特征:
F=a×FCSS+b×FHu
(19)
式中a、b為權值,需要在實驗過程中確定,FCSS表示CSS描述子,FHu表示Hu特征描述子。
為了確定式(19)中線性加權系數a、b的數值,對a、b不同的取值進行試驗,結果如表1所示。當a取值較小時,CSS特征所占比重比較大,缺少整體特征,識別率比較低,隨著a的取值增大,整體識別率有所提升。當a增大到0.4時,識別率達到最大值,隨著a繼續增大,Hu不變矩特征所占比重逐漸增大,特征由于缺少局部描述,識別率開始下降。根據上述分析,本實驗取a=0.4,b=0.6,結果如表1中第五行所示。

表1 不同權值a、b對應的識別率
3手勢識別
本文采用BP人工神經網對圖5中30個手語字母進行識別分類,取得了良好的識別效果。

圖5 手語中30個手勢示意圖
4實驗結果分析及比較
針對圖5中字母表中的30個手語字母,分別用攝像機對6個不同實驗對象采集手勢圖像,每個手勢采集20次,總共得到3600個樣本,其中2700個用于樣本訓練,900個用于測試。900個測試樣本的實驗結果如表2所示。

表2 不同手勢識別率
900個測試樣本,采用本文方法進行測試,取得了良好的實驗效果,部分手勢識別率達100%,整體識別率為92.4%。
為了驗證本文方法的有效性,分別利用Hu不變矩特征(文獻[4]中的方法)和CSS特征(文獻[6]中的方法)對900個樣本(每個手勢30個樣本)進行了測試。部分對比實驗結果如表3、表4所示,整體結果如圖6所示。

表3 針對手語中簡單手勢的不同方法實驗結果對比

表4 針對手語中復雜手勢的不同方法實驗結果對比

圖6 不同方法識別率對比圖
從表3、表4可以看出,針對簡單的手勢,單獨使用Hu不變矩或者CSS特征,可以取得較高的識別率。例如針對手勢A,單獨使用兩種特征正確識別數分別達到28和29,但是對于一些復雜手勢或局部區分度較小的手勢,本文方法的識別率相較于單獨使用一種特征有很大的提升。例如,針對手勢M和手勢N,這兩種手勢的局部相似度很高,單獨使用CSS特征正確識別數分別為20和19,單獨使用Hu不變矩特征,識別率分別為19和18,而綜合使用CSS特征和Hu不變矩特征正確識別數分別達到24和23。
本文所有實驗均是在如下環境完成:Inteli3 處理器,主頻3.40GHz,2GB內存,Windows7操作系統VS2010+OpenCV2.4.9。所有圖片分辨率為320×240。
5結語
針對Hu不變矩在靜態手勢特征描述中缺乏局部信息,而CSS特征描述子缺乏整體方面的描述,本文將兩種描述子融合,作為一種新的特征。實驗表明,相對于單一的CSS特征和Hu不變矩特征,融合特征對于局部相似度高和手語中較復雜的手勢有很高的識別率,是一種更為有效的識別特征。
參考文獻
[1] 翁漢良,戰蔭偉.基于視覺的多特征手勢識別[J].計算機工程與科學,2012,34(2):123-127.
[2] 趙愛芳,裴東,王全州.復雜環境中多信息融合的手勢識別[J].計算機工程與應用,2014,49(5):180-184.
[3] 李瑞峰,曹雛清,王麗.基于深度圖像和表觀特征的手勢識別[J].華中科技大學學報:自然科學版,2011,40(S2):88-91.
[4] 王先軍,白國振,楊勇明.復雜背景下BP神經網絡的手勢識別方法[J].計算機應用與軟件,2013,30(3):247-249,267.
[5]LiuY,ZhangL,ZhangS.AHandGestureRecognitionMethodBasedonMulti-FeatureFusionandTemplateMatching[C]//InternationalWorkshoponInformationandElectronicsEngineering,Harbin,PEOPLESRCHINA,2012:1678-1684.
[6]ChangCC,LiuChengyi,TaiWenkai.FeatureAlignmentApproachforHandPostureRecognitionBasedonCurvatureScaleSpace[J].Neurocomputing,2008,71(10-12):1947-1953.
[7] 徐戰武,朱淼良.基于顏色的皮膚檢測綜述[J].中國圖象圖形學報,2007,12(3):377-388.
[8]DhruvaN,RupanagudiS,SachinS,etal.NovelSegmentationAlgorithmforHandGestureRecognition[C]//IEEEInternationalMultiConferenceonAutomationComputing,Control,CommunicationandCompressedSensing,Kottayam,INDIA,2013:383-388.
[9] 陳皓,路海明.基于深度圖像的手勢識別綜述[J].內蒙古大學學報:自然科學版,2014,44(1):105-111.
[10] 張汗靈,李紅英,周敏.融合多特征和壓縮感知的手勢識別[J].湖南大學學報:自然科學版,2013,34(3):87-92.
COMPUTER VISION-BASED RECOGNITION OF HAND GESTUREWITHMULTIPLEFEATURES
Zhang JunZhang KongYang Zhengling
(School of Electrical and Automation Engineering,Tianjin University,Tianjin 300072,China)
AbstractBecause of lacking full hand gestures contour information, current commonly used hand gesture recognition algorithms using single feature have lower recognition rate for the gestures with high local similarity and complicated shapes. Therefore we proposed a novel hand gesture feature extraction method, which combines the feature descriptor of curvature scale space (CSS) with Hu invariant moment. First, we used the skin colour model to extract the gestures from complicated background, and then extracted Hu invariant moment and CSS descriptor of gestures respectively to construct fusion features. At last, we made use of the artificial neural network to recognise and classify the new features. Experimental results demonstrated that compared with the recognition approaches based on single gesture feature, the proposed method has higher integral recognition rate, and improves significantly in recognition rate on gestures with high local similarity in shape.
KeywordsComputer visionHand gesture recognitionCSSHu invariant momentNeural network
收稿日期:2014-12-26。天津市創新基金項目(13ZXCXGX404 00)。張軍,副教授,主研領域:圖像處理,智能交通。張孔,碩士生。楊正瓴,副教授。
中圖分類號TP3
文獻標識碼A
DOI:10.3969/j.issn.1000-386x.2016.06.037