崔汪莉,衛軍胡,紀鵬,劉哲
(1.西安交通大學機械制造系統工程國家重點實驗室,710049,西安;2.西安交通大學機械工程學院,710049,西安;3.西安邦威電子科技有限公司,710049,西安)
?
基于加權局部梯度直方圖的頭部三維姿態估計
崔汪莉1,衛軍胡1,紀鵬2,劉哲3
(1.西安交通大學機械制造系統工程國家重點實驗室,710049,西安;2.西安交通大學機械工程學院,710049,西安;3.西安邦威電子科技有限公司,710049,西安)
在實時估計人的頭部三維姿態時,基于局部梯度方向直方圖的面部特征表示方法容易受到背景和環境的影響,其檢測精度無法滿足實際需求。為了減少圖像或視頻序列中背景和環境的影響,提出了一種新的對面部特征進行描述的方法,即基于膚色權值和高斯權值加權的局部梯度方向直方圖特征表示方法。在具體計算時,首先進行人臉檢測并將人臉區域縮放到統一大小,然后計算人臉區域每個像素點對應的梯度方向,接著計算膚色權值并利用膚色權值和高斯權值對梯度方向進行加權得到加權局部梯度方向直方圖,從而強化面部特征在直方圖中的比重,有效減小背景對頭部三維姿態估計的影響,最后利用非線性支持向量回歸機求解加權局部梯度方向直方圖與頭部三維姿態之間的關系。實驗結果表明:該特征表示方法具有更高的檢測精度。
三維頭部姿態估計;膚色權值;高斯權值;局部梯度方向直方圖;非線性支持向量回歸機
頭部三維姿態檢測是計算機視覺領域一個非常重要的研究內容,在人臉識別、人機交互和疲勞駕駛檢測等方面有著非常廣泛的應用前景。例如,在機場、地鐵站、火車站等安全通道進行身份驗證時,對多個攝像頭捕捉到的人臉圖像進行三維姿態估計,篩選出最接近正面的圖片進行人臉識別,能夠提高人臉識別的準確度。在人機交互方面,通過頭部三維姿態檢測對人的頭部運動進行分析。在疲勞駕駛檢測中,通過監控視頻,計算駕駛員的頭部三維姿態,判斷其大致的視線方向,再結合眨眼、打哈欠的頻率等參數,推斷駕駛員的疲勞程度和注意力,及時給予提醒,有效減少交通事故。
頭部三維姿態檢測是根據輸入圖像或者視頻序列確定人的頭部在三維空間中的3個姿態參數,即對應于xyz的平面旋轉角度、垂直深度旋轉角度、側深度旋轉角度3個空間坐標軸的偏轉角度[1],姿態示意圖如圖1所示。

圖1 頭部三維姿態示意圖
常見的頭部三維姿態檢測方法主要包括表觀模板法、檢測器陣列法、流形嵌入法、彈性模板法、幾何法、跟蹤法等[2]。幾何法(geometric methods)主要結合人臉特征點的位置和幾何關系進行頭部姿態的計算[3],幾何法直觀、簡單,但是在很大程度上依賴于人臉特征點定位的準確程度,對于偏轉角度較大的情形往往無法準確定位出人臉特征點的位置,據此計算的頭部姿態誤差非常大,尤其對于沒有深度信息的人臉圖像,其俯仰角的計算誤差也是非常大的,所以幾何法在實際應用中具有一定的局限性。跟蹤法(tracking methods)通過對視頻流中幀與幀之間臉部某些特征點的跟蹤來計算頭部三維姿態[4],但是如果頭部運動速度較快,在兩幀之間變化較大,特征點的跟蹤精度會受到影響,存在誤差逐幀累積的可能,相對而言,利用單張圖片信息進行三維姿態判斷的方法精度更高。
近年來,機器學習在頭部姿態檢測中也得到了應用,Erik采用局部梯度方向(LGO)直方圖表示圖像的梯度方向特征,使用非線性支持向量回歸(SVR)得到其與姿態角度之間的關系,從而進行三維姿態角度的判定[5]。雖然LGO能夠很好地描述圖像的面部區域特征,計算速度快,但是我們在開發疲勞駕駛實時檢測系統時,利用OPENCV中的Adaboost人臉檢測方法從視頻或圖像中檢測到的人臉區域中往往包括了各種背景,如圖2所示,人臉框中的非人臉區域會影響LGO對臉部特征的描述。本文的目標就是減少背景因素對面部特征的影響,提高檢測精度。

圖2 基于Adaboost的人臉檢測結果
膚色是人特有的一種特征,可以有效區分背景和臉部區域,如果在頭部姿態的特征表示中考慮膚色因素,會減少背景對檢測結果的影響。對每個采樣點使用高斯加權也可有效減少人臉框四周區域的權重,提高面部區域在整個特征表示中的權重,這是因為背景區域往往分布在靠近人臉框的位置。因此,本文提出了一種適用于普通光照條件下的基于膚色和高斯加權的頭部三維姿態估計方法,即用膚色權值和高斯權值對人臉區域的局部梯度方向直方圖進行加權,從而減弱背景區域對計算頭部三維姿態的影響,提高檢測的精確度。
LGO直方圖是描述人臉面部特征的一種非常有效的方法,與尺度不變特征變換(Sift)[6]相類似,需要計算局部梯度方向并用直方圖來描述,但是不同的是,它將整個臉部區域作為一個整體,用一個直方圖描述子進行描述;用Sift描述人臉特征時,需要確定人臉關鍵點的個數以及位置,然后對于每個關鍵點都需要用一個直方圖描述子進行描述。LGO直方圖的計算方法可以描述為:首先利用公式把檢測得到的彩色人臉區域圖像轉換成對應的灰度圖像
hgray=0.299R+0.587G+0.114B
(1)
然后把它分成M×N個子區域,對于任意一個子區域中位置為(x,y)的像素點計算其對應的梯度方向ox,y,權值為1,如圖3所示,其中每個小格中箭頭方向就是對應像素點的梯度方向,對這些梯度方向用直方圖進行統計。梯度方向角度的范圍是0~360°,也是直方圖的統計范圍,在本文中取每45°為一個柱(Bin),共分為8個柱,即O=8,將360°分為8個柱的示意圖如圖3所示。繪制每個子區域的梯度方向累加值,從而得到一個M×N×O的三維梯度方向直方圖,如圖4所示,(m,n,o)表示該直方圖對應的一個柱。其中(x,y)位置的梯度方向ox,y由以下步驟求得:對于上面得到的灰度圖像,分別用3×3的sobel算子濾波得到(x,y)位置的像素點對應的橫向亮度差分近似值Xx(x,y)及縱向亮度差分近似值Xy(x,y),從而求得其對應的梯度方向[5]
ox,y=
(2)

圖3 梯度方向示意圖

圖4 2×2×8的LGO示意圖
用一個3×3×3的核對LGO直方圖進行平滑來防止混疊效應,從而得到人臉區域特征的最終表示方法,即
(3)
式中:a,b,c∈(-1,0,1);g(·)是脈沖函數,即

根據上述過程計算LGO直方圖時,由于經過Adaboost檢測得到的人臉區域中往往帶有一定的背景區域,而LGO直方圖是對人臉檢測框內部整個區域的描述,包括一些背景區域,而這些非人臉區域對于LGO直方圖的描述也會造成一定影響,導致其只能近似描述出人臉區域的特征。為了削弱背景區域對特征描述的影響,本文利用膚色加權和高斯加權進行改進得到加權LGO直方圖。為了計算加權LGO直方圖,首先需要進行膚色檢測。
2.1 膚色區域檢測
采用OPENCV中提供的Adaboost人臉檢測方法,得到一個包含部分背景的人臉區域。為了方便,把檢測到的人臉區域統一到同樣大小進行處理。為了盡可能準確地檢測出人臉的膚色區域,需要先進行一系列均值濾波、光照補償等預處理工作。
大量的研究表明[7]:人的膚色在YCbCr色彩空間有著比其他色彩空間更好的聚類特性,主要體現為膚色在色度上的差異遠遠大于亮度上的差異。所以,本文選擇在YCbCr色彩空間進行人臉區域膚色部分的檢測。RGB色彩空間到YCbCr色彩空間的轉換公式為[8]
(4)
根據統計學原理,像膚色這樣的隨機樣本在CbCr色度空間應該符合高斯分布[9],通過擬合可以用高斯膚色模型表示,然后可以根據高斯分布的概率表達式求得圖像中像素點的膚色似然值P(Cb,Cr),該值越大,對應的點越接近膚色。對應的表達式為
(5)
式中:z=(Cb,Cr);μ是均值,表達式為
C是協方差矩陣,且
μ、C的值可以通過樣本統計得到,其中N是統計樣本的總個數。
根據以上步驟計算人臉區域位置為(x,y)的像素點對應的膚色似然值P(Cbx,y,Crx,y),其中Cbx,y、Crx,y是該像素點對應的色度分量。上述計算結果可以構成對應的膚色似然圖,如圖5所示,從圖中可以很明顯地分辨出人臉的膚色區域。

圖5 膚色似然圖
2.2 加權LGO直方圖
加權LGO直方圖是對每個點的梯度方向進行加權,它的權值包括膚色權值和高斯權值。其中,膚色加權主要是計算出人臉檢測框內部的膚色區域,對應像素是膚色的權值較大,非膚色的權值較小,可以有效減少非膚色區域的影響。高斯加權主要是為了讓人臉檢測框的中心區域(一般人臉在人臉檢測框的中間)所對應的權值略微大些,這樣不容易受到人臉周圍的背景區域的影響,同時進行平滑,能夠去除一些噪聲的影響。膚色和高斯加權是對臉部區域的位置為(x,y)的像素點計算得到的梯度方向ox,y進行加權,新的權值變為1×膚色權值×高斯權值。
本文用以下2種方法確定膚色權值:一是把膚色區域進行二值化處理的結果當作權值,也就是說,如果式(5)計算得到的某點的膚色似然值大于0.5,則認為該點屬于膚色區域,其權值為1,否則屬于非膚色區域,權值為0。膚色二值化加權的權值表達式為
另一種方法則是直接將式(5)計算得到的膚色似然值作為膚色權值,即
高斯權值用二維高斯函數表示,即
式中:(x0,y0)是人臉框中心位置;r是人臉框的外接圓半徑。
(x,y)處的梯度方向的權值可以表示為
(6)
根據上述描述并結合LGO直方圖的計算方法,即對梯度方向的權值進行統計可以得到兩種加權LGO直方圖,它們的膚色權值分別為膚色二值化值和膚色似然值。
上述得到的加權LGO直方圖是人臉區域特征的一種新的表示方法,計算結果是一個M×N×O維的特征。求解該特征到某個對應姿態的映射就可以求得特征與三維姿態之間的關系,這是一個非線性回歸問題,可以用非線性支持向量回歸機(SVR)[10-11]求解。
非線性SVR的基本思想是通過一個非線性映射Φ把輸入數據x投影到一個高維特征空間H中,然后在這個高維空間中用函數f(x)=ωΦ(x)+b來擬合數據(xi,yi),其中xi∈Rd,yi∈R,i=1,2,…,l,l是樣本數,從而在原來的低維空間取得非線性回歸的效果。在利用非線性SVR求解頭部特征和頭部三維姿態之間的對應關系時,xi是第i個樣本對應的頭部特征,即第i個樣本的加權LGO直方圖,而yi是第i個樣本對應的頭部三維姿態中其中的一個,這樣便可以通過訓練得到對應的回歸器。求解此類問題一般是通過最小化超平面來實現的,該非線性SVR問題可描述為
(7)
其中的約束表示預測值與實際值的差距小于ε。
對該問題進行求解,得到回歸函數為
(8)

式中:γ是核參數,且γ>0。
本文在實驗時利用OPENCV中的LibSVM自動訓練并優化參數,同時對非線性SVR進行求解。為了計算頭部三維姿態,使用了垂直深度旋轉、平面旋轉、側深度旋轉3個回歸器,輸入都是加權LGO直方圖。為更好地求解回歸參數,將訓練輸入和測試輸入的每一個成分的尺度進行了歸一化處理,算法的流程圖如圖6所示。

圖6 訓練過程流程圖
本文采用波士頓大學3D頭部跟蹤使用的視頻和測量的頭部三維姿態角度數據對算法性能進行測試[12]。在這些視頻中人的頭部三維姿態角度連續、完整,比較符合實際應用中頭部偏轉角度的要求。用4個人的數據作為訓練樣本,1個人的數據作為測試樣本。在訓練和測試前,需要將視頻流轉換成一系列對應的圖像,其中訓練圖像2 536張,測試圖像697張,并將人臉區域統一到34×34像素大小進行處理,把人臉分成4×4個子區域。
進行2次實驗,把加權LGO和原始LGO進行了比較。實驗1對如圖7所示的圖片進行測試,結果如表1所示。表中的真實值是通過儀器檢測出的頭部三維姿態的實際值,誤差是真實值和測試值之差的絕對值。可以看出,加權LGO直方圖能夠更好地估計頭部三維姿態。

圖7 測試圖像示例
實驗2對測試庫中的所有697張圖片進行測試,在計算膚色權值的時候分別采用了二值化、似然值兩種方法。表2給出了真實值與測試值的平均誤差,其中Ep、Ey、Er分別為3個角度對應的平均誤差。

表1 測試結果對比 (°)

表2 平均誤差 (°)
從表2可以看出,在LGO直方圖的基礎上利用膚色權值和高斯權值進行加權,對頭部三維姿態的3個參數的估計結果都得到了明顯提升。其中加權LGO方法在垂直深度和側深度兩個參數的估計方面更有優勢,精度平均能提高2°左右,但是對于平面旋轉這個參數的估計,相對于原始LGO方法則提高較少。對于兩種加權LGO直方圖,主要根據膚色權值的計算方法不同加以區分。其中,基于膚色似然值的LGO直方圖可以很好地描述膚色的分布情況,從而提高膚色區域在計算加權LGO直方圖時的權重,而且可以通過膚色似然值的不同顯示出膚色不同區域之間的細小差異,比如鼻子部分等,保留了膚色的更多細節。基于膚色二值化值的LGO直方圖是在膚色似然值的基礎上進行計算的,在閾值選擇比較精確時能夠比較好地區分背景區域和膚色區域,使得膚色和非膚色的界限比較明顯,容易突出輪廓。這兩種膚色權值表示方法都能比較好地區分背景和人臉部分,在具體使用中,尤其是在疲勞駕駛檢測中,主要涉及兩個參數的估計,從表2可以看出,兩種方法的結果差別不大,所以可以使用膚色似然值或者膚色二值化值作為膚色權值。
本文對局部梯度方向直方圖進行了改進,體現在計算梯度方向時用膚色權值和高斯權值進行加權處理。使用膚色權值加權可以有效減少人臉檢測框中背景區域的影響,使用高斯加權則在進一步減少背景區域影響的基礎上起到了平滑的作用。從實驗1、2的結果可以看出,經過膚色權值和高斯權值加權的局部梯度方向直方圖有著比原始LGO直方圖更好的效果,對垂直深度旋轉角度和側深度旋轉角度這兩個參數的估計提高了2°左右。這兩個參數是實際應用中經常需要計算的,其中垂直深度主要體現低頭、打哈欠等動作,側深度主要體現搖頭、左右觀察等動作,這兩個參數往往就可以大致判斷出頭部的轉向。在疲勞駕駛檢測系統中,在光線條件能夠檢測到人臉膚色的情況下,用本文方法進行頭部三維姿態檢測可以大致估計出駕駛員的頭部三維姿態,并據此判斷其是否處于瞌睡、四處張望等狀態。對于夜間的情況,可以考慮用去除背景區域的紅外圖像進行處理。
[1] JI Qiang . 3D face pose estimation and tracking from a monocular camera [J]. Image and Vision Computing, 2002, 20(7): 499-511.
[2] MURPHY-CHUTORIAN E, TRIVEDI M M. Head pose estimation in computer vision: a survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(4): 607-626.
[3] WANG J G, SUNG E. EM enhancement of 3D head pose estimated by point at infinity [J]. Image and Vision Computing, 2007, 25(12): 1864-1874.
[4] 趙剛強. 基于視覺的大范圍頭部姿態跟蹤關鍵技術研究 [D]. 杭州: 浙江大學, 2009.
[5] MURPHY-CHUTORIAN E, DOSHI A, TRIVEDI M M. Head pose estimation for driver assistance systems: a robust algorithm and experimental evaluation [C]∥Intelligent Transportation Systems Conference. Piscataway, NJ, USA: IEEE, 2007: 709-714.
[6] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[7] HSU R L, ABDEL-MOTTALEB M, JAIN A K. Face detection in color images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5): 696-706.
[8] 龔理專, 王威. 基于膚色信息和主分量分析的人臉實時檢測系統 [J]. 計算技術與自動化, 2005, 24(1): 92-94. GONG Lizhuan, WANG Wei. Real-time face detection system based on skin information and principal component analysis [J]. Computing Technology and Automation, 2005, 24(1): 92-94.
[9] 李偉, 孫世新. 基于膚色分割的人臉檢測算法研究 [D]. 西安: 電子科技大學, 2006.
[10]BASAK D, PAL S, PATRANABIS D C. Support vector regression [J]. Neural Information Processing-Letters and Reviews, 2007, 11(10): 203-224.
[11]董國君, 余輝. 基于RBF核的SVM核參數優化算法 [J]. 新疆大學學報: 自然科學版, 2009(3): 355-358. DONG Guojun, YU Hui. Optimization algorithm of SVM kernel parameters based on RBF kernel [J]. Journal of Xinjiang University: Natural Science Edition, 2009(3): 355-358.
[12]LA C M, SCLAROFF S. Fast reliable head tracking under varying illumination [C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 1999: 604-610.
[本刊相關文獻鏈接]
俱瑩,殷勤業,陳媛,等.發射聚焦式的多天線跳空安全通信技術.2015,49(6):22-26.[doi:10.7652/xjtuxb201506004]
劉天良,鄭海紅,羅圣美,等.改進的混合動靜態背景的分割方法.2015,49(2):25-30.[doi:10.7652/xjtuxb201502005]
楊建偉,桂小林,安健,等.一種信任關系網絡中的社團結構檢測算法.2014,48(12):80-86.[doi:10.7652/xjtuxb2014 12013]
楊陽,廖學文,高貞貞,等.多小區終端直通異構網絡中利用圖論的資源分配方案.2014,48(10):22-28.[doi:10.7652/xjtuxb201410004]
趙建偉,賈維敏,姚敏立,等.移動衛星通信系統組合姿態估計算法.2014,48(8):36-41.[doi:10.7652/xjtuxb201408007]
任茂棟,梁晉,唐正宗,等.數字圖像相關法中的優化插值濾波器.2014,48(7):65-70.[doi:10.7652/xjtuxb201407012]
屈鑒銘,劉志鏡,賀文驊.結合有向場景運動模式的粒子濾波行人跟蹤方法.2014,48(12):74-79.[doi:10.7652/xjtuxb 201412012]
儲穎,牟軒沁,洪偉.采用形狀一致性特征的盲圖像質量評價方法.2014,48(8):12-17.[doi:10.7652/xjtuxb201408003]
袁飛,朱利,張磊.利用超圖圖割的圖像共分割算法.2014,48(2):20-24.[doi:10.7652/xjtuxb201402004]
趙軍,趙繼,張雷.焊縫結構光圖像處理與特征提取方法.2013,47(1):114-119.[doi:10.7652/xjtuxb201301022]
田方浩,姚敏立,周淑華,等.寬帶移動衛星通信系統低成本姿態估計算法.2013,47(6):44-49.[doi:10.7652/xjtuxb 201306008]
(編輯 趙煒)
Head Pose Estimation Using Weighted Localized Gradient Orientation Histogram
CUI Wangli1,WEI Junhu1,JI Peng2,LIU Zhe3
(1. State Key Laboratory of Manufacturing Systems Engineering, Xi’an Jiaotong University, Xi’an 710049, China;2. School of Mechanical Engineering, Xi’an Jiaotong University, Xi’an 710049, China;3. Xi’an Bang Wei Electronic Technology Co., Ltd., Xi’an 710049, China)
When used for real-time 3D head-pose estimation, the facial features based on the localized gradient orientation histogram are easily affected by the environment and background so that the detection accuracy cannot meet the practical requirements. To reduce the influence of environment and background in images and video sequences, this paper presents a new weighted localized gradient orientation histogram to represent the facial features. During the computation, faces are detected and made the same size firstly. The gradient orientations of every point in the facial area are computed and then weighted by its skin-color probability and a Gaussian random value. Based on these gradient orientations a weighted localized gradient orientation histogram is obtained, in which the role of facial area is increased and that of environment and background are reduced. Finally the relationship between the 3D head-pose and the new features is computed using nonlinear support vector regression method. The results of numerical experiments show that this new method has a reletively high detection accuracy.
3D head pose estimation; skin-color weights; Gaussian weight; localized gradient orientation histogram; nonlinear support vector regression
2015-03-13。
崔汪莉(1989—),女,碩士生;衛軍胡(通信作者),男,副教授。
10.7652/xjtuxb201511012
TH137
A
0253-987X(2015)11-0071-06