張慧子,陸心竹,劉佳麗,趙小敏,韓剛慶,王晗
(南通大學交通與土木工程學院,南通226019)
航空娛樂系統(tǒng)出現于十九世紀六十年代,在航空運輸業(yè)競爭異常激烈的今天,為給旅客提供更舒適、更全面的服務,航空娛樂系統(tǒng)正日益受到航空公司和旅客的重視?,F有的設備交互方式主要有遙控器近距離控制、遠程無線控制、移動端控制、語音控制等[1]。如果能不需要復雜的操作,利用新型的人機交互技術[2],提前在系統(tǒng)中設計好手勢動作,在不觸碰到屏幕的情況下,利用系統(tǒng)的攝像頭捕捉手勢畫面,直接對多媒體系統(tǒng)進行控制[3],將能使旅客的旅程體驗達到最佳。為了減少旅客疲勞的同時增強操作興趣,本文設計開發(fā)了一種基于手勢、五官狀態(tài)識別的航空多媒體人機交互控制系統(tǒng),能夠實現完全脫離鍵盤或手柄的控制。
系統(tǒng)由基于手勢識別的多媒體控制模塊、基于手型識別的游戲操作模塊和基于五官狀態(tài)識別的游戲模塊這三部分組成。通過隱形馬爾科夫鏈HMM描述自然手勢軌跡控制多媒體菜單選擇;利用Haar-like特征結合AdaBoost[4]級聯(lián)分類器實現人臉檢測與五官狀態(tài)識別控制化妝游戲;采用皮膚檢測與區(qū)域分割識別手型控制游戲人物的運動。相對傳統(tǒng)的控制手柄或者鍵盤操作,本文設計開發(fā)的人機交互控制系統(tǒng)更具有趣味性,能夠明顯提高用戶的操作興趣。
手勢軌跡識別流程包括四個步驟:攝像頭畫面讀取、手指檢測、手勢特征提取、手勢識別。首先,利用顏色檢測確定手指的位置。其次,對連續(xù)圖像間的手勢軌跡提取特征向量,并進行量化。然后,當手勢結束的信號觸發(fā)后,獲取完整的手勢特征序列并且與已知的手勢模型匹配。最后,從匹配獲取的手勢結果轉化為控制指令,完整的手勢軌跡識別過程如圖1所示。

圖1 手勢識別系統(tǒng)流程圖

圖2 觸發(fā)信號設計與實例
為了準確獲取手勢的完整軌跡,觸發(fā)信號設計如下:當觸發(fā)區(qū)域方框內連續(xù)捕獲到超過20個在顏色閾值內的像素點時,方框隱藏。同時,手指中心的點顯示在圖像上,接下來開始記錄手勢軌跡。復位信號設計如下:利用了手指軌跡移動的速度來設計,如果兩幀圖像間檢測的手指中心距離小于限定值時,停止記錄并復位,重新顯示綠色方框。觸發(fā)信號的設計過程如圖2所示。
本系統(tǒng)利用特殊顏色的指套(藍色)對手指區(qū)域進行檢測,并利用顏色檢測的二值圖像重心作為手指定位的結果如圖2(a)所示。利用連續(xù)圖像之間手指定位結果之間的運動矢量的方向角度變化作為手勢特征。然而,在運行時由于手指抖動可能產生的較大誤差,導致手勢軌跡中總會出現無效點。為了增強特征的有效性,本文t幀圖像軌跡點與第一個軌跡點進行角度變化的計算:

式中,yt代表t幀手指中心的y坐標,y1代表第一幀手指中心的y坐標,xt代表t幀手指中心的x坐標,x1代表1幀手指中心的x坐標。
為了使用離散型HMM對手勢進行數學建模,將角度值量化,其過程如下:將軌跡點運動角度的二維空間平面劃分為8個維度,從而對角度信號進行分類,將連續(xù)的軌跡點轉變?yōu)楹喴椎臄底中畔?,具體量化關系如表1。

表1 角度量化映射關系
本文采用隱形馬爾可夫鏈HMM[5]對量化后的手勢軌跡進行數學建模:在收集了不同人的手勢樣本后,利用Baum-Welch算法訓練獲取各個手勢對應的HMM模型的最佳參數λi*=(πi,Ai,Bi)。其中,πi代表了訓練后獲取的第i個HMM模型初始概率;Ai代表了訓練后獲取的第i個HMM模型的狀態(tài)轉移矩陣;Bi代表了訓練后獲取的第i個HMM模型的觀測狀態(tài)矩陣。在獲取了訓練完畢的各個手勢的HMM模型之后,利用最大似然函數發(fā)對測試樣本特征進行識別。即,最大后驗概率對應的第i個HMM模型所對應的手勢確定為識別的結果。具體手勢與控制信號對應關系見表2。

表2 手勢控制信號
本文提出的手部姿態(tài)識別主要分為四個階段:①攝像頭畫面讀取②手部檢測③手型特征提?、苁中妥R別。首先,對攝像頭捕捉到的視頻圖像進行皮膚檢測,確定質心坐標,測量手部邊緣到質心的距離。其次,以質心坐標為圓心在極坐標系下畫同心圓,取倒數第二遠的圓環(huán)為連通區(qū)域,計算手指數目。最后,識別手部姿態(tài)并控制游戲人物的動作??偭鞒虉D如圖3所示。

圖3 手型識別系統(tǒng)流程圖
本系統(tǒng)采用了基于YCbCr色彩空間進行膚色分割獲取手部區(qū)域,當Y、Cb、Cr分別滿足膚色范圍,判定該區(qū)域為膚色區(qū)域。然后,計算手部區(qū)域的所有像素點坐標的平均值獲取手部質心坐標。為了準確識別手型,通過計算出每一個手勢圖像的質心與手勢輪廓的最大距離。以最大距離做圓并且五等分為等距的環(huán)型區(qū)域,利用次外層圓環(huán)統(tǒng)計手指的數目進而識別出手型的含義,計數時去掉手腕對應的最大連通區(qū)域,其完整流程如圖4所示。

圖4 手型識別系統(tǒng)流程圖
圖5 給出了通過手型控制“馬里奧游戲”的實例效果。用戶根據手型的不同控制馬里奧的動作,當不同手型出現時檢測手部區(qū)域的窗體變成不同的顏色。

圖5 手型控制“馬里奧”游戲實例
本文提出的五官狀態(tài)識別主要分為四個階段:①攝像頭畫面讀取②五官檢測③五官特征提取④五官狀態(tài)識別。首先,通過Haar-like算法來提取五官特征。然后,使用AdaBoost級聯(lián)分類器檢測人臉和眼睛位置。進而基于瞳孔比例識別左右眼睛的狀態(tài)。最后,通過其狀態(tài)觸發(fā)對應化妝效果。總流程如圖6所示。

圖6 五官狀態(tài)識別流程圖
本文利用人眼瞳孔的像素點占眼睛的比例對眼睛狀態(tài)(睜開、閉合)進行建模:首先,經過RGB三個通道的閾值分割出瞳孔像素點;然后,統(tǒng)計出瞳孔的像素點占眼睛的比例大?。蛔詈?,當待測瞳孔的比例小于給定閾值時判斷為閉合狀態(tài),否則為睜眼。

式中,k代表瞳孔像素點占眼睛部分的比例,Nt代表瞳孔像素點個數,Ne代表單只眼睛的像素點個數。
為了識別出嘴巴的狀態(tài)(張嘴、閉嘴),本文利用梯度方向直方圖特征(HoG)對張嘴、閉嘴的狀態(tài)進行建模,然后利用KNN算法對樣本進行聚類,判斷嘴巴的狀態(tài)。
圖7 給出了基于手勢和五官狀態(tài)識別的娛樂控制系統(tǒng)實時演示的實例。其中,圖7左上、右上為利用手勢識別控制多媒體的選擇。圖7左下、右下分別為五官控制化妝游戲和手型控制馬里奧游戲。
為了證明本文設計系統(tǒng)的有效性,共10名同學收集圖像數據。其中,手勢、手型及五官狀態(tài)各3000張圖像;70%作為訓練數據,30%作為測試數據。表3~表5分別給出了手勢識別、手型識別及五官狀態(tài)識別的性能指標??梢郧宄乜闯?,系統(tǒng)識別準確率在97%以上,運行時間在0.019秒/幀,可以滿足用戶實時控制的需求。

圖7 系統(tǒng)演示實例

表3 手勢識別性能

表4 手型識別性能

表5 五官狀態(tài)識別性能
本文設計開發(fā)了一種航空娛樂多媒體人機交互控制系統(tǒng),通過自然手勢、手型及五官狀態(tài)識別實現多媒體控制、化妝游戲以及游戲人物運動控制等功能。相對于傳統(tǒng)的手柄、鼠標或者鍵盤操作,手勢、五官控制更具有趣味性。經實驗表明本系統(tǒng)相關的識別準確率和處理時間均表現出較高的性能,對于面向長途旅途中娛樂控制系統(tǒng)的發(fā)展具有一定的啟示作用。