高倩 李世友 馬曉輝 葛星
摘 要:該文系統旨在獲取人眼在觀看電腦屏幕時的視覺定位點。利用個人計算機攝像頭拍攝人臉在屏幕前的圖像,對圖像進行預處理,通過Haar特征與級聯分類器結合的方式提取圖像中的人臉特征信息,包括人眼,鼻子及嘴巴的位置,最后由特征信息作為神經網絡的輸入參數經BP神經網絡模型得到視覺定位點。該系統用簡單的設備完成了視覺定位的功能,定位出人眼的視覺點。
關鍵詞:Haar特征 級聯分類器 圖像預處理 BP神經網絡 視覺點定位
中圖分類號:TP399 文獻標識碼:A 文章編號:1674-098X(2015)11(a)-0150-02
在科技日益發展的今天,人們對于計算機的要求隨著發展而增長,計算機視覺定位是當今研究的熱點問題。之前對于視覺定位的研究都是基于雙目或者單目相機,對于設備有著較高的要求。
1 圖像獲取及圖像預處理
該系統根據對人臉在計算機屏幕前的姿態的分析,得到視覺定位點的結果。需要計算機攝像頭實時地拍攝計算機屏幕前的人臉圖像,得到所需的圖像信息。
計算機獲取圖像的時候不能保證在一個光線均勻的環境中,得到的圖片會明暗不清,為保證在后面環節中能夠得到好的結果,我們需要對圖片進行預處理,使圖片信息更加清晰。進行預處理之后的圖片會更加有利于計算機對于圖片的處理應用。
圖像增強:
設分別為原圖像和處理后圖像,則圖像增強方法的具體步驟如下:
(1)求原圖的灰度直方圖,設用256維的向量表示。
2 人臉特征提取
在各種人臉特征提取方法中haar特征用于人臉特征提取效果明顯,該文系統所用到的提取方式為用Haar特征對人臉進行描述,再用級聯分類器對其進行篩選分類,層層選擇之后得到人臉上的特征坐標。
3 BP神經網絡應用
3.1 輸入數據的調整
由文中提到的特征提取得到臉部特征信息,即人臉上左右眼,鼻子,嘴巴這四個特征在人臉上的位置,得到特征在影像上的絕對坐標點。然而輸入數據是左右眼、鼻子、嘴巴這四個特征在人臉坐標系中的絕對坐標的話,由于影像的大小不一,人臉的大小也不一樣,特征點在影像中的絕對坐標并不能反映特征在人臉上的真實位置。因此需要將特征點在影像上的絕對坐標轉換成相對于人臉的相對坐標。
由于影像中的人臉大小不一樣,還需要將坐標轉化為以人臉長寬為參照的相對坐標
為比例轉換之后的特征點的相對坐標;
為影像寬;為影像長;為臉寬;為臉長。
3.2 確定BP神經網絡的結構
(1)隱含層的確定。
實際上,三層的神經網絡就足以完成任意的M為到N維的映射。所以該文采取一個隱含層進行神經網絡的建立。
(2)激勵函數。
BP神經網絡中隱含層最常用的是Sigmoid轉換函數,其可以滿足輸入層和輸出層采用線性的轉換函數,Sigmoid轉換函數使三層BP神經網絡可以以任意精度逼近任何有理函數。該文采取Sigmoid函數作為激勵函數。
S型激發函數公式:
≤≤1 (5)
(3)每層節點設置。
輸入的是四個特征點的坐標點信息,將輸入層節點設置為4。輸出信息為在屏幕上的視覺落腳點,根據屏幕的分割格網確定輸出節點數,如屏幕分為2×2的格網則為四個輸出節點。隱含節點數會影響計算的快慢以及計算最后的結果的正確率。選擇隱含層節點一般原則是:在能正確反映輸入輸出關系的基礎上,應選用較少的隱層節點數,以使網絡結構盡量簡單。所以將隱含層節點數設為4個。輸出信息為網格坐標位置,即眼睛對于屏幕的觀測點,將初始權和閥值為0.1,學習率為0.1。進行BP神經網絡的訓練。
3.3 神經網絡實驗
實驗中利用人眼看向屏幕上的不同點位提取的人臉特征坐標數據,進行BP神經網絡的訓練訓練以及實驗。實驗結果如圖表1所示。
其中GW為格網方式,N為訓練樣本數,Q為正確率。可以看出,正確率隨著網格的加密而下降,需要密于3×3正確率就小于了90%
4 結語
在對于設備的輕便性和實用性的要求越來越高的今天,該文的視覺定位系統很好地滿足了現今對于輕便這一點的要求。該系統僅僅是基于PC電腦,沒有大型設備的硬性要求,采用的攝像設備為計算機自己配備的攝像頭,處理過程也在計算機內部自行進行得出結果,整個過程簡單方便。系統中用到的人臉特征提取以及訓練的BP神經網絡都能很好地到達最后的結果。但是這些結果都是在背景簡單以及人臉很好的運動較慢的呈現在計算機面前得到的結果,在環境的改變以及人運動對于結果造成的不好影響還需要進行改進。
參考文獻
[1] 吳昌友.神經網絡的研究及應用[D].東北大學,2007.
[2] 谷曉平,王長耀,王汶,等.應用于水文預報的優化BP神經網絡研究[J].生態環境,2004,13(4):524-527.
[3] 宋萬.基于OpenCV視覺庫的人臉檢測[D].吉林大學,2014.