摘要:針對視頻圖像中人臉定位跟蹤的問題,提出了基于Hausdorff距離和改進ASM的跟蹤方法#65377;由于Hausdorff距離多模板匹配的復雜性,采用ASM的人臉模型作為模板大大降低了模型維數;并對傳統的ASM算法進行了改進,利用DCT進行去相關和能量集中,充分利用特征點附近的二維紋理信息代替傳統ASM的一維灰度信息,提高了定位速度和精度#65377;實驗證明該方法在視頻圖像人臉跟蹤中是非常有效的#65377;
關鍵詞:主動形狀模型; 主成分分析; 離散余弦變換; Hausdorff距離; 人臉跟蹤
中圖分類號:TP391.41文獻標志碼:A
文章編號:1001-3695(2007)10-0172-04
人臉跟蹤是當前模式識別與計算機視覺研究領域的研究熱點之一#65377;它廣泛應用于視頻會議#65380;安全系統#65380;身份驗證#65380;網絡圖像傳輸以及其他一些鑒別系統#65377;在人臉識別與跟蹤領域中,基于統計學可變模型是一個成功的方法,最有名的是Kass提出的主動輪廓模型(active contour model,ACM)#65377;ACM是采用限制能量最小的方法進行形狀校準,能夠保證得到封閉的輪廓,但對于具有較高曲率的凸形邊緣的檢測效果并不令人滿意;ACM的收縮性使得它不能檢測物體內部的輪廓,也沒有結合先驗知識并且收斂速度較慢#65377;Kirby和Sirovich[1]在ACM的基礎上描述了利用面部灰度水平統計建模,但是卻忽略了臉的可變特性[2]#65377;Cootes等人[3]提出的ASM是目前目標物體定位研究#65380;應用比較新的方法#65377;ASM方法在目標定位#65380;特征提取方面應用越來越廣泛,已經在CT圖像定位[4]#65380;骨骼評價定位[5]#65380;圖像重建[6]等方面有所應用#65377;傳統ASM方法僅提取了輪廓的一維信息,搜索速度較快,但限制了搜索范圍很容易收斂到錯誤的位置,對不同圖像間的變化較為敏感,尤其當用于訓練的圖像之間光照度#65380;圖像質量變化較大時,錯誤的收斂經常發生[4,5,7,8]#65377;只有準確地提取人臉輪廓的特征信息,才能更好地定位人臉#65377;目前對ASM的方法在不同的地方有所改進#65377;B.Froba等人[9]采用特征點梯度值作為ASM模型的統計信息,與傳統ASM方法一樣采用特征一維信息,定位精度沒有很大提高#65377;J.Feng等人[8]采用Gabor信息作為ASM模型的統計信息,采用了特征點的二維信息,提取的信息量更加豐富,提高了定位精度,但是計算復雜#65380;速度慢,不適宜視頻圖像處理#65377;Cootes等人[10]采用multiresolution方法,對訓練圖像和待測圖像建立高斯圖像金字塔,在訓練過程中,對不同級別的高斯金字塔圖像按照不同的采樣間距采樣獲得灰度向量,建立灰度統計模型;同樣在定位過程中,也按照相同的采樣原則,以不同的采樣間距獲得備選點的灰度向量,有效地改善了ASM的魯棒性,要建立不同精度的高斯圖像模型,在不同精度下進行迭代定位,致使計算復雜#65380;迭代效率降低#65377;
本文主要從兩個方面對視頻圖像人臉定位跟蹤改進:a)初始模型的確定#65377;由于ASM方法對初值的要求很高,初始位置離目標遠時會收斂到局部最小點#65377;本文又引入了Hausdorff距離對人臉初步定位,確定初始位置及初始模型#65377;利用Hausdorff距離定位人臉圖像的算法是動態人臉識別系統的預處理工作,定位算法與跟蹤算法相結合, 提高人臉識別率,改善ASM算法收斂于局部最小點的問題#65377;Hausdorff距離對圖像中人臉進行定位, 將圖像中人臉部分提取出來,并對ASM模型大小#65380;位置進行調整,一定程度上簡化了后續識別工作#65377;b)跟蹤過程采用改進的ASM方法#65377;該方法采用輪廓點附近的矩形區域的DCT系數作為匹配特征,充分利用輪廓點附近的紋理特征,提高了定位精度;DCT具有良好的去相關性能和能量集中性能,僅采用DCT矩陣左上角的少量系數就可以保留圖像的大部分能量,匹配速度快#65377;
1ASM人臉建模
ASM是一種基于模型的特征匹配方法,它既可以靈活地改變模型的形狀以適應目標形狀不確定的特性,又將形狀的變化限制在模型允許的范圍內,從而保證模型改變時不會受各種因素影響而出現不合理的形狀#65377;
1.1圖像采樣獲得形狀向量和統計特征信息
提取人臉圖像特征點附近的DCT系數為匹配特征#65377;圖像經DCT變換后,能量集中在矩陣左上角的低頻分量部分,并采用zigzag掃描方式,掃描DCT變換矩陣的左上角,使能量按照從小到大的順序排列#65377;抽取以特征點為中心的M×M矩形區域,進行DCT變換,利用矩陣左上角的低頻分量作為這個特征點的統計信息#65377;如果M取值較小,則不利于獲得豐富的特征信息,會降低匹配精度;M取值較大,則能提高特征點的信息特征#65377;但一方面特征信息的提高有飽和趨勢且占用空間大,也會降低DCT變換效率;另一方面搜索匹配特征點時,增大運算量使得速度受限#65377;本文在特征點信息量#65380;計算速度#65380;占用空間方面取折中,選取了32×32的矩形區域進行DCT變換#65377;
圖3為按照zigzag掃描方法得到的DCT系數矩陣的前120個數據,橫坐標代表這120個DCT系數,縱坐標代表120個DCT系數的數值分布#65377;從圖中可以看到,距離零點越近數值幅度越大,距離零點越遠數值逐步趨于零#65377;這表明經DCT變換后,能量主要集中在矩陣左上角#65377;計算這個以特征點為中心的矩形區域DCT變換后圖像能量E=31 267 000,以及按照zigzag掃描得到的矩陣左上角36個DCT系數能量E′=31 060 000#65377;本文僅采用矩陣中3.52%的數據,但是卻集中了圖像99.34%的能量#65377;由于各圖像塊局部性質各不相同,集中圖像能量的能力并不完全一樣,但總的規律是各變換系數塊中能量都是主要集中在低頻區域#65377;本文采取的矩陣數據平均集中了圖像中95%的能量#65377;
圖4為八組取主要能量變換后圖像與原圖的對比,第一行是以某些特征點為中心的矩形區域原圖;第二行是相對應的第一行圖像經DCT變換并且按照前面提到的規則取3.52% DCT系數反變換后的圖像#65377;通過八組圖像內部比較可以看出,DCT變換不僅以提取特征點附近的紋理信息,使特征點更加豐富,而且可以去掉不必要的噪聲,不會增加冗余數據#65377;
2Hausdorff距離及圖像匹配
基于圖像邊緣點的匹配算法,通常是首先找到點點之間的對應,然后計算對應點之間的相似性度量來確定圖像是否匹配#65377;這種方法計算復雜度高,而且當特征點的數目超過一定數目和參數變換空間維數很高時,計算時間將成倍增加,在實際應用中是難以接受的#65377;而且若在特征點的抽取過程中產生虛假特征點或者丟失特征點,基于點點對應的匹配算法將很難給出正確的結果#65377;Hausdorff距離不需建立點點之間的對應,只需計算兩點集之間的最大距離即可,可以有效地處理含有很多特征點的情況,計算實時性高#65377;
2.1Hausdorff距離
Hausdorff距離是一種極大—極小距離#65377;它主要描述兩組點集之間相似程度的一種度量,是集合與集合之間距離的一種定義形式[11,12]#65377;
3.2視頻圖像處理過程
視頻圖像的處理過程為:a)使用Hausdorff距離對第一幀人臉圖像定位,調整模型S大小及位置#65377;b)調整模型參數b,初步定位到人臉圖像#65377;c)保存模型參數#65377;d)對下一幀圖像使用保存的模型參數進行新的定位#65377;
重復c)d)直到視頻結束#65377;在這個過程中可以看到視頻圖像人臉的精確定位效果#65377;
在視頻圖像處理時,使用前一幀圖像的實例模型定位下一幀圖像#65377;對于視頻圖像來說,相鄰兩幀圖像的變化比較小(相應的人臉的姿態變化也比較小),因此可以使用前一幀圖像的模型參數作為下一幀圖像的初始位置,可以很快收斂到當前圖像中的人臉位置(可以間隔幾幀處理一次提高匹配速度)#65377;
圖7顯示了本文視頻處理的過程,(a)為使用Hausdorff距離對第一幀圖像初步定位的結果;(b)為第一幀圖像精確定位后的效果;(c)為使用前一幀精確定位后的模型實例作為下一幀的初始位置,進行新的迭代;(d)為第二幀圖像的最終定位效果;(e)又使用(d)的模型實例作為這一幀圖像的初始位置;(f)為它的最終定位結果#65377;從圖中可以看到,兩幀相鄰圖像之間的變換較小,使用前一幀圖像最終定位結果的模型實例作為下一幀圖像的初始位置,使模型很快逼近下一幀圖像的人臉目標#65377;往往只需要一次迭代就可以使模型逼近目標#65377;在實際的視頻處理中,不需要顯示過程圖,只顯示最后的定位效果圖,即只要顯示(b)(d)(f)即可#65377;
4仿真結果與分析
應用上述DCT統計特征的ASM模型對BioID人臉數據庫中的部分圖像及本文自拍攝的圖像進行訓練#65380;測試#65377;總共選擇了200幅人臉圖像,120幅圖像作為訓練樣本,建立先驗模型;選擇其余的80幅圖像作為測試圖像#65377;訓練樣本采樣需要對每一幅訓練圖像標定68個特征點#65377;特征點選取得是否準確直接關系到特征提取和最終匹配的效果#65377;
為了檢驗改進ASM模型的匹配精度,本文采用輪廓形狀模型距離作為標準,使用ASM算法匹配后的各輪廓點與手動標記各點之間的距離取平均#65377;檢測匹配精度為
其中:n代表每幅圖像的標定點數(在本文中為68個標定點);(xk,yk)代表手工標定的坐標;(x′k,y′k)代表使用模型匹配后的坐標#65377;對于每一幅測試圖像均利用式(10)分別計算ASM定位結果與標定輪廓距離,以及使用改進ASM算法定位結果與標定輪廓距離#65377;圖8橫坐標代表匹配結果和手工標定結果的平均點誤差像素值,縱坐標代表對應X軸的實例百分數#65377;從圖中可以看到,平均誤差點在兩個像素值之內時,改進ASM的定位圖像個數占的比例要大,平均誤差點在三個像素或更多時,傳統ASM定位圖像個數占的比例較大,這表明改進ASM算法比傳統ASM算法的定位精度高#65377;對于每一幅測試圖像,如果平均點誤差在兩個像素以下,則認為是較好的匹配#65377;
本文分別按照傳統ASM方法和本文改進的ASM方法對這些圖像作了訓練和測試#65377;改進的ASM方法能夠快速收斂到臉的輪廓,平均迭代次數不超過五次#65377;傳統的ASM方法一般要經過8~10次的迭代才可以收斂,導致處理每幅圖像的時間增加#65377;本文算法是在CPU為2.0 GHz#65380;內存為512 MB的計算機上使用MATLAB編程實現的#65377;改進ASM方法平均處理每幅圖像的時間為0.9~2.6 s;傳統ASM方法平均處理每幅圖像的時間為1.2~3.4 s#65377;通過以上的評價準則#65380;圖像定位比較,本文改進的ASM方法是有效的#65377;使用特征臉作為模板時計算Hausdorff距離平均需280 s,而采用特征點的人臉模板僅需要11 s的時間就可以初步定位人臉#65377;圖9為采用本文改進的ASM方法在自拍攝視頻圖像中人臉跟蹤的部分效果圖#65377;
5結束語
本文針對傳統ASM方法的缺陷與不足進行了改進#65377;采用特征點矩形區域二維DCT信息作為模型的統計信息,比傳統ASM僅采用特征點法線方向的一維信息更豐富#65377;DCT特征在保留更多有效信息的同時,消除了不必要的冗余#65377;在匹配過程中采用類似鏈表的八方向搜索,大大提高了ASM的定位精度和速度#65377;實驗證明,本文的算法比傳統方法有很大改善#65377;改進的ASM方法結合Hausdorff距離輔助定位改善了傳統ASM方法對初值的依賴,即如果初始位置與定位目標相差很遠往往會出現收斂效果差的問題#65377;
參考文獻:
[1]KIRBY M, SIROVICH L. Application of the karhunenloeve procedure for the characterization of human faces[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1990,12(1):103108.
[2]KIM W, LEE Jujiang. Shape tracking based on the modular active shape model[C]//Proc of the 2003 IEEE/ASME International Conference on Advanced Intelligent Mechatronics. 2003:14111416.
[3]COOTES T F, TAYLOR C J. Locating faces using statistical feature detectors[C]//Proc of the 2nd International Conference on Automatic Face and Gesture Recognition. 1996:204-209.
[4]劉洵,張大力.基于ASM 的CT圖像序列標記點定位方法研究[J].計算機工程與應用,2005,41(13):180183,213.
[5]胡永利,王巍,尹寶才.基于ASM 模型的骨齡評價系統研究[J].中國圖象圖形學報,2003,8(1):33-40.
[6]胡志鵬,卜佳俊,陳純.全自動實時人臉圖像變形技術研究與實現[J].計算機應用研究,2004,21(5):186188.
[7]LI Yong, ZHANG Changshui, LV Xiaoguang. Face contour extraction with active shape models embedded knowledge[C]//Proc of the 5th International Conference on Signal Processing. 2000:13471350.
[8]FENG Jiao, LI S, SHUM H Y, et al. Face alignment using statistical models and wavelet features[C]//Proc of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2003:1-6.
[9]BEMHARD F, THORSTEN K, WALTER Z, et al. Realtime active shape models for face segmentation[C]//Proc of International Conference on Image Processing. 2001:205-208.
[10]COOTES T F, TAYLOR C J. LANITIS A. Multiresolution search with active shape models[C]//Proc of the 12th IAPR International Conference on Pattern Recognition. 1994:610-612.
[11]DANIE P H, GREGORY A K, WILLIAM J R. Comparing images using the Hausdorff distance[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1993,15(9):850-863.
[12]GAO Y. Efficiently comparing face images using a modified Hausdorff distance[J]. IEE ProceedingsVision, Image and Signal Processing, 2003,150(6):346-350.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”