基于卷積神經網絡的手勢識別算法設計與實現

2017-11-02 01:24:53孫旭飛吳一鵬

網絡安全與數據管理 2017年20期

關鍵詞：特征模型

張斌，孫旭飛，吳一鵬

(福州大學物理與信息工程學院，福建福州 350108)

基于卷積神經網絡的手勢識別算法設計與實現

張斌，孫旭飛，吳一鵬

(福州大學物理與信息工程學院，福建福州 350108)

為了克服傳統手勢識別方法復雜的人工提取特征值操作，引入卷積神經網絡進行手勢識別，該算法可以直接對原始圖像進行處理，具有局部感知域、權值共享和池化等特點，可以有效提取圖像特征。使用Marcel手勢識別數據集對框架進行訓練，采用交叉驗證的方法對系統進行評估，實驗結果表明該方法可以識別經過訓練的手勢，且精確度高，魯棒性強。

卷積神經網絡；局部感受域；權值共享；池化；手勢識別

0 引言

近年來，人機交互行為越來越多地出現在日常生活中，特別是隨著計算機視覺技術的快速發展，人機交互技術得到長足的進步。按照目前的發展趨勢，以人為中心的人機交互技術勢必會取代以計算機為中心的人機交互技術[1]。而手勢識別的研究正符合這一潮流。手勢識別為許多設備提供了人機交互的方式。采用手勢操作設備，首先需要預設手勢對應的控制指令，然后利用拍照、視頻切割等方法，采集不同的手勢，最后設備識別出手勢所代表的指令，控制設備從而達到人機交互[2]。傳統的手勢識別方法[3-4]需要人工提取特征值，這是一個費時費力的方法，為了達到更好的精度需要提取大量的特征值，甚至需要依賴專業知識，因此特征值的數量和質量成為了傳統手勢識別方法的瓶頸。為了突破該瓶頸，本文提出了一種基于卷積神經網絡的手勢識別算法。

卷積神經網絡是一種常見的深度學習架構，受生物自然視覺認知機制啟發而來，經過不斷的發展改進，最終發展成為一個非常適合用于處理圖像和音頻的神經網絡[5]。由于卷積神經網絡可直接從原始圖像數據中提取特征的特性，目前它的運用領域已經十分廣泛，比如手寫字符識別、人臉識別、人眼檢測[6]、車牌字符識別[7]。

1 卷積神經網絡

卷積神經網絡是神經網絡的一種，它的結構與之前其他神經網絡最大的不同在于它每一層的數據不是由若干個向量節點構成，而是由若干個矩陣數據節點構成。在計算時采用的是矩陣卷積的形式，所以命名為卷積神經網絡。卷積神經網絡主要用于識別位移、縮放及旋轉不變性的二維數據[8]，且它的局部感知特性和權值共享網絡與現實世界中的動物神經網絡相似，因此它在圖像處理和音頻識別等方面有特殊的優勢[9-10]。

1.1 網絡特征

卷積神經網絡基本結構主要包括兩部分：特征提取層和特征映射層。特征提取層中的每個輸入與前一層輸出的局部接受域相連，以提取該局部的特征，并且該特征與其他特征的相對位置關系也隨之確定；特征映射層中每個特征映射為一個平面，上面的權值全部相等，多個特征映射組成一個計算層。因為該層中每個映射平面內權值共享，使得網絡中的參數個數大量減少。

特征提取層中主要部分為卷積層和池化層，網絡中的每一個卷積層都緊跟著一個池化層，對特征進行二次提取，這種特殊的提取結構減小了特征數量維度，降低了計算量。

卷積層是對輸入進行卷積運算。卷積運算的本質是一個卷積核(特征矩陣)在輸入的圖像矩陣上按照一定的規則移動，并與圖像矩陣上對應位置的元素相乘后結果相加得到的一個值。當卷積核移動完畢時，就得到新的圖像矩陣，新矩陣就是上一層圖像矩陣的特征，其數學表達式如式(1)所示：

(1)

(2)

池化層也稱下采樣層，其目的是減少特征映射的數量，對特征進行降維操作，因為在計算量非常大的時候，要形成一個特征輸入過多的分類器十分不易。并且通過降維能過濾掉帶噪聲的特性，減少了運算復雜度，增強有效的圖像識別特征。池化層一般的形式如式(3)所示：

(3)

其中，down()表示池化函數，一般有最大池化、平均池化等，本文使用最大池化函數。它是對該層輸入圖像的一個n×n矩陣大小的區域求最大值。式中β為加權系數,b為偏置系數。

1.2 基于卷積神經網絡的算法結構設計

本文采用8層結構的卷積神經網絡，包括輸入層、2層卷積層(C)、2層抽樣層(S)、2層全連接層(F)和輸出層，如圖1所示。

圖1 手勢識別網絡結構示意圖

卷積神經網絡模型的輸入層直接讀取原始圖像，并將圖片按固定數量隨機打亂順序封裝成批輸入，防止讀入的一批圖片都是同一手勢，保證每次訓練能包含多數手勢。C1層與C3層為卷積層，作用是對上一層的輸出結果進行卷積得出圖像的特征矩陣，本文是用5×5的卷積核對輸入圖像抽取特征，生成特征圖。S1層與S2層為池化層，對卷積層的輸出進行子采樣，池化窗口大小為3×3。F1層與F2層是全連接層，該層的每個神經元與上一層所有輸出神經元相連接。最終由F2層把特征數據向量化并連接到輸出層。輸出層是一個分類器，該層的神經元數量由識別的種類確定，本文有6類手勢用于識別，因此有6個神經元。輸出層采用Softmax回歸模型，該模型是一個將目標變量分為K類的算法，建模使用的分布是多項式分布。Softmax模型可以將F2層傳過來的特征值經過計算轉換成相應的概率。

1.3 卷積神經網絡模型訓練

本文的模型是一個串聯結構，根據圖1的結構，每一層的輸入為上一層的輸出。模型訓練是一個迭代的過程，將圖像數據封裝成批，分批輸入模型，優化模型參數。本文使用的優化策略是隨機梯度下降算法。衡量優化效果的標準是損失函數的解，損失函數是一種衡量預測值與真實值之間的相關程度的函數，目標是求每個批次中所有樣本的平均損失。因此合適大小的批次對模型的優化程度和速度有一定的提高。本文選用交叉熵函數作為模型的損失函數。交叉熵函數起初常用在信息壓縮編碼技術中，目前已經發展成為深度學習領域中的重要技術。它的定義如式(4)所示，式中y是預測的概率分布,y′是實際的分布。交叉熵用于衡量預測與真實之間的差距性，該值越小說明預測與真實越相似。

(4)

本文使用隨機梯度下降優化算法降低損失函數的解。梯度下降是在每次迭代中對每個變量，按照損失函數在該變量當前點負梯度方向前進一定步長，更新對應的參數值，以達到最小化損失函數。這里的步長就是學習率，它是優化算法中的一個重要參數，它的初始值對算法有很大的影響，過大可能導致無法優化，太小有可能會導致函數得到的是局部最優。

學習率在訓練過程中呈指數形式衰減，學習率的衰減函數如式(5)所示。公式中y為新的學習率，x為當前學習率，dr為學習率的衰減因子，s為當前訓練步數，ds為衰減寬帶，控制衰減周期。學習率的衰減可以加快算法的收斂速度。

(5)

2 實驗過程及結果分析

本文的手勢識別算法是基于Python語言和TensorFlow深度學習框架開發的，采用類似LeNet5的CNN模型框架[6]。TensorFlow是Google公司發布的第二代機器學習系統，它采用數據流圖的形式構建網絡模型，具有很強的數值計算能力和高度的靈活性，并且提供了大量神經網絡的接口，簡化構建卷積神經網絡模型的代碼任務。本文使用的數據庫是Marcel手勢數據庫，該庫包含6類手勢圖片，其中訓練集有4 872張圖片，測試集有1 057張圖片。

2.1 圖像的預處理

卷積神經網絡可以直接對原始圖像進行處理分析，本文隨機對數據集中的圖片進行翻轉、亮度調節、對比度更改等操作，加入噪聲可防止模型過擬合。這樣可以擴大樣本集，充分訓練模型參數，提高模型的準確率。

2.2 實驗結果分析

本算法利用TensorFlow提供的可視化系統監控卷積神經網絡的訓練，跟蹤模型中重要參數在訓練過程中的變化趨勢。圖2與圖3是實驗輸出的圖表，其中圖2是學習率的變化趨勢，它的橫坐標為當前訓練的步數，縱坐標為學習率的值。由圖可知學習率是衰減的。圖3是訓練過程中總體的loss值，它是損失函數的解，loss值總體趨勢降低表明訓練的效果越來越好。

圖2 學習率變化趨勢

圖3 loss值變化趨勢

模型訓練完成后，利用測試集評估模型，可以得出該模型對手勢的識別率。手勢識別總體測試結果如表1所示，可以看出對Marcel手勢數據庫的平均識別率達88.7%，說明該模型對手勢的識別率高。由表中克制手勢C識別率較其他手勢識別率低，分析訓練集發現手勢C展示的是手的側面，背景占據圖片過多影響手勢識別準確率。

表1 手勢識別結

3 結論

本文引入卷積神經網絡實現手勢識別算法，通過對樣本數據學習訓練，獲得圖像的特征矩陣，避免了傳統手勢識別方法復雜的人工提取特征值等操作所可能導致的圖像信息的丟失，特征提取不完整等缺點。總結了卷積神經網絡在圖像處理中的優點：可以直接對原始圖像進行處理；局部感知域和權值共享減少了參數空間，降低了算法的復雜度；池化技術增強了卷積網絡的魯棒性，避免了圖片畸變導致識別錯誤。本文通過設計模型，并對模型進行實驗，驗證了卷積神經網絡手勢識別算法的精確性和魯棒性。為了提高識別的準確率，下一步應該進一步優化模型的網絡結構，尋找手勢識別最優的卷積神經網絡模型。

[1] 吳杰.基于深度學習的手勢識別研究[D].成都：電子科技大學,2015.

[2] 杜曉川.基于視覺的動態手勢識別相關技術研究及實現[D]. 成都：電子科技大學, 2012.

[3] 徐鵬, 薄華. 基于卷積神經網絡的人臉表情識別[J]. 微型機與應用, 2015, 34(12):45-47.

[4] 鄧柳,汪子杰.基于深度卷積神經網絡的車型識別研究[J]. 計算機應用研究, 2016, 33(3):930-932.

[5] 王振, 高茂庭. 基于卷積神經網絡的圖像識別算法設計與實現[J]. 現代計算機(普及版), 2015(7):61-66.

[6] TIVIVE F H C, BOUZERDOWN A. An eye feature detector based on convolutional neural network[C].Eighth International Symposium on Signal Processing and ITS Applications. IEEE, 2005:90-93.

[7] 趙志宏,楊紹普,馬增強.基于卷積神經網絡LeNet-5的車牌字符識別研究[J].天津：系統仿真學報,2010, 22(3):638-641.

[8] 王強.基于CNN的字符識別方法研究[D].天津:天津師范大學,2014.

[9] AN D C, MEIER U, MASCI J, et al. Flexible, high performance convolutional neural networks for image classification[C].IJCAI 2011, Proceedings of the International Joint Conference on Artificial Intelligence, Barcelona, Catalonia, Spain, July. DBLP, 2011:1237-1242.

[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc., 2012:1097-1105.

Design and implementation of gesture recognition algorithm based on convolution neural network

Zhang Bin, Sun Xufei, Wu Yipeng

(College of Physics and Information Engineering, Fuzhou University, Fuzhou 350108, China)

In order to overcome the traditional gesture recognition method of complex artificial extraction of characteristic value, this paper introduces the convolution neural network into gesture recognition. The algorithm can deal with the original gesture image directly, and has local receptive fields, shared weights and pooling and so on ,which can effectively extract the image features. In this paper, the Marcel gesture recognition dataset is used to train the framework. The cross validation method is used to evaluate the system. The experimental results show that the method can identify trained gestures with high accuracy and robustness.

convolutional neural network; local receptive fields; shared weights; pooling; gesture recognition

TP391.9

10.19358/j.issn.1674- 7720.2017.20.015

張斌，孫旭飛，吳一鵬.基于卷積神經網絡的手勢識別算法設計與實現[J].微型機與應用，2017,36(20)：51-53.

2017-03-31)

張斌(1992-)，通信作者，男，在讀碩士研究生，主要研究方向：智能交通、嵌入式系統。E-mail：308009849@qq.com。

孫旭飛(1961-)，男，碩士，副教授，主要研究方向：嵌入式系統、智能交通技術、電力線擴頻載波技術。

吳一鵬(1991-)，男，在讀碩士研究生，主要研究方向：智能交通、嵌入式系統。