盧夢圓 官 巍 馬 力
(西安郵電大學計算機學院 西安 710061)
隨著計算機視覺技術的飛速發展,人機交互的日益普及已經在手勢識別領域引起了巨大改革。人機交互技術分為兩類:基于傳感器和基于視覺的方法?;趥鞲衅鞯姆椒ㄒ揽繖C電設備收集手勢數據,這種方法使用附在手上的傳感器設備提供手掌位置、動作、手掌的準確坐標和手指的位置和方向,如數據手套,但缺點是設備昂貴,并且限制了手勢的自然表達。因此為了克服這些困難,基于視覺的手勢識別技術應運而生。
基于視覺的手勢識別主要包括三個基本步驟:手勢分割、手勢的特征提取、手勢識別。其中,特征的提取和分類器的選取對手勢識別的準確率和效率起著至關重要的作用。手勢的特征可以總結為顏色、形狀、紋理等。基于顏色的特征有:顏色直方圖[8~10],基于形狀的特征有梯度方向直方圖(Histo?gram of Oriented Gradients,HOG)[1,11]和Haar-like特征[12]?;诩y理的特征有:局部二值圖(Local Binary Pattern,LBP)[13]和Gabor[8]。這些特征已經被應用到基于視覺的手勢識別中。HOG 特征具有幾何和光照不變性優點,在特征提取中被廣泛應用。Misra[3]和Zhao[4]等使用HOG 特征構建SVM 模型用于手勢識別,在一定程度上,該算法可以解決光照變化和手勢旋轉對識別結果的影響。然而它僅適用于單個手勢在簡單背景下的識別。文獻[5]提取了HOG特征,結合SVM分類器,實驗結果表明識別率高達92.5%,在光照上具有很好的魯棒性,但是不適用于復雜環境。孫等采用基于Hu不變矩的輪廓匹配算法[6,16],得到較好的手勢識別結果。文獻[7]中作者使用HOG 特征結合SVM,進行70-30 的交叉驗證,實驗結果實現了能夠很好區分手勢和非手勢。文獻[7]中比較了常用的兩種特征提取方法:SIFT 和SURF,使用包含10 種手勢的數據庫,將SVM 作為分類器。SURF 方法的識別率是82.8%,SIFT 方法的識別率為81.2%。手勢識別的另一關鍵技術是選擇好的分類算法用于訓練手勢分類模型,常見分類器包括:支持向量機(SVM)[9~10,13,17],期望最大化(EM)[13],貝葉斯模型[10],隱馬爾科夫模型[15]等。
考慮到單一特征的局限性,本文提出一種基于HOG 和LBP 特征融合的支持向量機識別方法,實驗結果表明,多特征融合算法相比于單一特征,有較高的識別率。
方向梯度直方圖(Histogram of Oriented Gradi?ent,HOG)特征是一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述子。最早是由法國研究人員Dalal[1]在2005 的CVPR 上提出用于行人檢測,并且獲得了極大的成功。它通過計算和統計圖像局部區域的梯度方向直方圖來構成特征。它的基本思想是把圖像分成若干重疊的塊(block),每個block 進一步劃分為非重疊區域叫做cell。計算每個像素的梯度幅值和方向,這樣就得到了每個cell 的梯度方向直方圖。每個block 內所有的cell特征向量串聯起來就得到該block 的HOG 特征。將圖像內的所有block 的HOG 特征串聯起來就可以得到該圖像的HOG特征了。
LBP(Local Binary Pattern,局部二值模式)是一種用來描述圖像局部紋理特征的算子;它具有旋轉不變性和灰度不變性等顯著的優點。它是首先由Ojala 和Harwood[2]在1994 年提出,用于紋理特征提取。LBP 算子定義為在3×3 的窗口內,以窗口中心像素為閾值,將相鄰的8 個像素的灰度值與其進行比較,若周圍像素值大于中心像素值,則該像素點的位置被標記為1,否則為0。這樣,3×3鄰域內的8個點經比較可產生8 位二進制數(通常轉換為十進制數即LBP 碼,共256 種),即得到該窗口中心像素點的LBP值。
HOG 特征已經被證明是用于獲取邊緣和局部形狀信息的最好特征之一,在目標檢測和識別上取得了極大的成功。然而它們對圖像的旋轉不具魯棒性,并且相同指向的梯度可能對應不同的結構。事實上,圖像背景的邊緣信息通常都很復雜,會導致識別準確率下降。LBP 特征在提取紋理特征方面非常有效,并且可以描述圖像的細節,對灰度級變化和旋轉變化具有魯棒性。
因此,本文提出融合HOG 特征與LBP 特征的算法來實現手勢識別,采用簡單的串聯連接對兩種特征進行融合,將融合后的特征向量作為分類器的輸入,以期獲得較高的識別率。
SVM 是一種用于分類問題的有監督機器學習算法,SVM的主要原理是在訓練集上建立一個最優分類超平面,使得正類訓練樣本和負類訓練樣本不僅能夠準確分開,而且保證兩類訓練樣本點之間的分類間隔達到最大,并且分類間隔越大,最優分類超平面對測試樣本點的正確分類能力越高。SVM最初被用作二分類,后來逐漸被應用到多分類問題中。本文選取線性SVM作為分類器,將融合后的特征向量輸入線性SVM分類器完成手勢的分類識別。

圖1 American Sign Language數據庫部分樣例示意圖
實驗所使用的數據庫是American Sign Lan?guage(ASL)手勢數據庫,數據庫共有24 種手勢,分別表示除了J 和Z 以外的24 個英文字母。每個手勢分別由5 個人在不同背景下完成,每個手勢樣本1000 張圖片,RGB 和深度圖像各500 張。共有24×5×1000=120000 張圖像。本文主要通過對ASL 數據庫中的手勢圖片進行分類識別,從而驗證提出的特征融合算法的可行性。本實驗只選取24 種手勢的RGB 圖像進行實驗。實驗包含訓練集(48000個),測試集(12000個)。ASL的字母如圖1所示。
為了進行對比,我們分別使用HOG 特征,LBP特征,HOG+LBP特征訓練和測試手勢分類模型,并且比較每一種特征在它的最佳模型中的識別率。
4.2.1 基于HOG+SVM的實驗結果
實驗首先單獨提取了手勢的HOG 特征,為了減少HOG 特征向量的維數,將手勢圖像歸一化到64×128,每個block由2×2個cell組成,bin的個數是9,block 的移動步長為一個cell,cell 大小N1×N1個block的特征維數為2×2×9=36。
特征維數的計算公式如下:

在HOG 特征的提取中,本文采用線性SVM,對不同區域塊大小進行手勢識別,從而獲得最優的特征提取參數。表1 是選取不同區域塊,采用線性SVM分類器的實驗結果。

表1 不同區域塊劃分的HOG特征識別結果
由上述實驗可知,區域塊大小的不同直接影響HOG 特征的分類結果準確率。當區域塊尺寸過小,HOG 的維度就會很高,識別率反而低,這說明HOG 特征中存在過多的冗余信息,干擾了線性SVM 的識別。因此對于線性SVM 分類器來說,HOG特征的最佳區域塊劃分為8×8。

圖2 基于HOG特征的24種手勢識別結果
特征維度太大會引起訓練和識別時間過長,對電腦的內存需求也會增大,為了減少維度同時保持高識別率,本文采用線性SVM 作為分類器,采取識別效果最佳的3780 維HOG 特征,對ASL 數據集的24種手勢進行識別。結果如下:
由圖2可知,有7種手勢識別率在90%以上,有12 種手勢識別率在80%~90%之間,有4 種手勢識別率在70%~80%之間,只有一種手勢識別率為63.2%,總體來說HOG特征結合SVM分類器能夠較好用于手勢識別。
4.2.2 基于LBP+SVM的實驗結果
原始的LBP 算子,由于直接利用灰度比較,所以其具有灰度不變性;但是,有兩個很明顯的缺點:一是產生的二進值模式過多,二是不具備旋轉不變性。為了解決二進制模式過多的問題,提高統計性,本文采用均值模式或等價模式LBP(Uniform LBP)進行降維,“等價模式”定義為:當某個LBP 所對應的循環二進制數從0 到1 或從1 到0 最多有兩次跳變時,該LBP所對應的二進制就稱為一個等價模式類。如00000000(0 次跳變),00000111(只含一次從0 到1 的跳變),10001111(先由1 跳到0,再由0跳到1,共兩次跳變)都是等價模式類。除等價模式類以外的模式都歸為另一類,稱為混合模式類,例如10010111(共四次跳變)。通過這樣的改進,二進制模式的種類大大減少,而不會丟失任何信息。模式數量由原來的2p種減少為P(P-1)+2種,其中P 表示鄰域集內的采樣點數。對于3×3 鄰域內8 個采樣點來說,二進制模式由原始的256 種減少為58 種,即:它把值分為59 類,58 個等價模式為一類,其他的所有值為第59 類。這樣直方圖從原來的256 維變成59 維。這使得數據量減少的情況下能最好的表示圖像的信息,并且可以減少高頻噪聲帶來的影響。
輸入圖像的尺寸為64×128,cell 大小N1×N1,LBP的特征維數V計算公式如下:


表2 不同區域塊劃分的LBP特征識別結果
在LBP 特征的提取中,本文采用線性SVM,對不同區域塊大小進行手勢識別,從而獲得最優的特征提取參數。表2 是選取不同區域塊,采用線性SVM分類器的實驗結果。
由表2 可知:對于線性SVM 分類器來說,LBP特征的最佳區域塊劃分為8×8。因此采取識別效果最佳的7552 維LBP 特征,對ASL 數據集的24 種手勢進行識別。結果如下:

圖3 基于LBP特征的24種手勢識別結果
由圖3 實驗結果可知,有14 種手勢識別率在90%以上,9 種手勢識別率在80%~90%之間,僅有一種識別率為62.2%,總體識別效果較好。
4.2.3 本文算法
通過上面的算法可知,HOG 特征和LBP 特征都能對手勢有較好的識別結果,為了進一步提高手勢的分類準確率,本文分別提取了手勢的HOG 和LBP 特征向量,見式(3)和(4),之后將兩種特征進行簡單串聯融合,最終形成11332維的特征向量。

其中,d=3780,為HOG 特征的維數,f=7552,為LBP特征的維數。則融合后的特征F為

最后我們把融合得到的特征向量作為線性SVM的輸入,具體的識別流程如下:

基于本文提出的多特征融合+SVM,對ASL 數據集的24 種手勢進行分類識別,最終得到24 個手勢類別的分類結果,計算出了24 個類別的識別率。如圖折線圖4所示。
由圖5對測試集中的24種手勢分類結果可知:有14 類手勢識別率在80%~90%之間,有9 類手勢在80%~90%之間,剩余一種識別率別為71%。這24類手勢中最高識別率達98%。由此可見,基于多特征融合的算法對手勢具有較好的識別率。

圖4 測試樣本各類別分類精確度
4.2.4 單一特征與本文算法比較
為了驗證本文算法的優越性,將兩種單一特征與本文的多特征融合算法的分類準確率進行比較,24種手勢識別結果對比見圖5。

圖5 測試樣本各類別分類精確度單一特征與融合特征對比
24種手勢的平均識別率見表3。

表3 單一特征算法與本文算法準確率對比分析
由上表可知:當使用單一特征時,識別率在85%~87%左右,而本文使用的算法識別率達90%實驗表明,在基于單特征的識別中,HOG 特征的識別率高于LBP 特征。而本文使用的多特征融合算法識別率達90%,因此,本文使用的多特征融合算法要優于單一特征。這也驗證了HOG 特征與LBP特征具有互補性,多特征融合方算法要優于以提高識別率。
本文采取多特征融合的方法提取手勢特征,先后提取手勢圖像的HOG 和LBP 特征,將兩種特征按一定的權重融合后通過SVM 分類器進行分類識別。并且實驗選取的ASL 數據集是在不同復雜背景下拍攝的圖像,通過以上的實驗表明,該方法具有較高的識別率。在未來的工作中,希望可以將多特征融合算法與深度學習相結合,對網絡模型進行優化,為研究更高識別率的手勢圖像分類算法做進一步的努力。