吳 卓,梁 珂,張春陽
(北京信息科技大學,北京 100000)
在醫療或者刑偵領域,有時會出現殘缺的人臉正面圖像無法與已存入系統中的完整人臉圖片相對應的情況,基于此情況為更好的解決實際問題,采用圖像識別的相關知識對人臉面部圖像進行識別與分析,在一定程度上,能夠協助警方或者醫護人員對一些殘缺圖片進行匹配以便加以處理和推斷,從而大大提升破案率和醫療協管水平。目前,在此項目方面的研究主要有以下成果:
(1)對完整的圖像進行識別已經有比較成熟的技術,但是對于殘缺的圖片識別仍然存在著缺陷。
(2)彭正初[1]明確提到目前不變矩的傅里葉描述子能夠很好地處理相關圖像,但對于殘缺圖像,尤其如何針對小型圖像塊進行傅里葉描述子的特征提取和識別,具有重要研究意義和實際使用價值。
(3)Zhang K[2]提出了一種多任務卷積神經網絡模型,能夠很好地識別出人臉,甚至是鼻子、嘴等部位。
(4)在圖像分割方面,何思雨[3]提到一種Canny邊緣檢測算法,同時結合圖像生長分割算法和區域分割算法能夠很好地完成一些圖像的分割。
目前,對于完整圖像的識別與分割是圖像處理領域研究最多的課題之一,而對于殘缺圖像的識別也必將在研究的范圍之內。圖像識別技術屬于模式識別的范疇,而近年來在該技術所發展起來的人工神經網絡模式以及模糊模式識別分類在圖像識別中受到越來越多的重視。傅里葉描述子,不僅是目前應用最廣泛的描述子,而且是最具有發展潛力的形狀表示算法之一。傅里葉描述子作為全局形狀特征的一種描述方式,具有計算簡單、較高的形狀區分能力的顯著優勢。在完整圖像的識別方面已經有了一定的成果,對于殘缺圖片方面的識別和分析也是未來發展需要突破的關鍵點之一。
傅里葉描述子(Fourier descriptor)是一種圖像特征,具體來說,是一個用來描述輪廓的特征參數。其基本思想是用物體邊界信息的傅里葉變換作為形狀特征,將輪廓特征從空間域變換到頻域內,提取頻域信息作為圖像的特征向量,即用一個向量代表一個輪廓,將輪廓數字化,從而能更好地區分不同的輪廓,進而達到識別物體的目的[4]。
一般來說,我們拿到的圖像,是一個處在二維平面的圖像,所以可以使用坐標表示的方法對圖像的輪廓特征信息進行初步的表示。同時,因為數據維度的問題,可以采用復變函數的思想,將二維坐標系的x軸作為實軸,將二維坐標系的y軸作為虛軸,這樣就能在二維的基礎上將向量轉化為一維空間的向量。具體公式為:

接下來,對公式(2)進行傅里葉展開得到公式(3—4):

此時:

最后,將公式(5)axk,ayk,bxk,byk進行整合,就得到了最后的傅里葉描述子。
目前,對于傅里葉描述子有關方面的研究是將需要識別的形狀算出區域矩陣特性,然后對特性使用傅里葉變換,從而對形狀進行特征表達。因此,在識別形狀之前需要先對目標區域實施圖像預處理,具體包括:圖像增強、圖像分割、跟蹤曲線輪廓;然后,由得到的物體的形狀邊界坐標序列,通過計算出劃分的各個子區域的矩特征值得到一個特征值序列;最后對這個序列做傅里葉變換得到傅里葉描述子。在對物體形狀的矩特征實施計算之前,應先確定物體對應的質心坐標,并把質心坐標當成中心點,以固定角度將物體劃分為若干份扇形區域,再對扇形區域的矩特征值進行計算。計算時需要注意利用相同階次的矩,將得到的矩特征值排列成矩值序列,從而實現對物體形狀的特征表達。這種方法盡管彌補了容易受干擾和穩定性差的問題,但其作用在小型圖片上尤其是一些殘缺的分塊圖片時,極易產生邊界不封閉的問題,大大影響了特征提取結果的準確性。
所以,本項目采用離散的傅里葉(Discrete Fourier Transform,DFT)變換對由坐標函數產生的復變函數進行處理。如公式(6):

經過式(6),就可以將最初狀態下的連續情況轉化為離散的情況。同樣,這也從一定程度上彌補了傳統意義下的傅里葉描述子在邊界不封閉這一方面的缺陷。而本項目也可以采用反向變換的形式,如公式(7):

經過式(7),就可以從傅里葉描述子中得到相關的位置特征信息。
多任務卷積神經網絡(Multi-task Convolutional Neural Networks,MTCNN)是一種將人臉區域檢測與人臉關鍵點檢測相結合的一種方法。和opencv中的cascade類似,通常情況下分為3個部分,即:P-Net,R-Net,O-Net[5]。
1.3.1 P-Net
P-Net基本的構造是一個全卷積網絡。對已經構造完成的圖像金字塔,使用全卷積網絡(Fully Convolutional Networks,FCN)進行初步特征提取與標定邊框,并進行Bounding-Box Regression(邊框回歸)調整相應窗口尺寸與非極大值抑制(Non-Maximum Suppression,NMS)進行相關窗口的過濾,P-Net具體原理如圖1所示。
1.3.2 R-Net
在P-Net的基礎上增加了全連接層進行更加嚴格的篩選。所以圖片在完成P-Net進入R-Net后,模型會將上一個階段所得出的結果進行進一步的篩選,換句話說,相比于上一步,這一步的目的就是得出更加精確的結果。R-Net相應原理如圖2所示。
1.3.3 O-Net
相比于R-Net,O-Net 增加了一個卷積層,同時其本身的模型是一個更大的256的全連接層,很好地將圖像的特征等一系列信息進行了保存,大大提升了識別率與準確率。R-Net相應原理如圖3所示。

圖1 P-Net相應原理

圖2 R-Net相應原理

圖3 R-Net相應原理
通俗來講,雙峰閾值就是分析人臉圖像,得出灰度級直方圖,如果圖像呈現雙峰狀,就選取雙峰之間的最低處作為閾值。同樣的,可以通過人臉的灰度變化規律提取包含相關五官部分的標定區域(Region of Interest,ROI)圖片,然后通過這種方法將圖片按照五官定位的方式進行分割[6]。雙峰閾值分割法相關原理如圖4所示??梢钥闯觯橛赱40,60]之間的波谷位置,即為此方法所求的閾值。

圖4 雙峰閾值分割法原理
原始數據:ORL人臉數據庫,由英國劍橋大學AT&T實驗室創建,包含40人共400張面部圖像,部分志愿者的圖像包括了姿態、表情和面部飾物的變化。ORL人臉數據庫中一個采集對象的全部樣本庫中每個采集對象包含10幅經過歸一化處理的灰度圖像,圖像尺寸均為92×112,圖像背景為黑色。其中,采集對象的面部表情和細節均有變化,例如笑與不笑、眼睛睜著或閉著以及戴或不戴眼鏡等,不同人臉樣本的姿態也有變化,其深度旋轉和平面旋轉可達20°。ORL數據集如圖5所示。
總體來說,本項目使用多種算法相結合的方式進行。具體步驟如下:
首先,本團隊對數據進行篩選,利用MTCNN算法,通過3個部分,即P-Net,R-Net,O-Net,對人臉和人臉的特征點進行識別,以根據特征點的數量以及圖像的清晰程度對圖像的進一步篩選,將不符合條件的數據很好地剔除,以提高實驗的精確度。
其次,對上述篩選好的圖6進行分割,考慮到實際情況下人的正面圖片所展示的五官中,耳朵所占比例不大,且較為模糊,所以,只對眼睛、鼻子、嘴這3個比較清晰的部分進行區域分割。本項目采用兩種方法進行分割。第一種,按照人體五官比例進行按距離切分,通過查閱資料可以得到,人的鼻子位于人臉的黃金分割點,所以可以以這個作為定位標簽,對其范圍進行切分。第二種,采用雙峰閾值分割的方式進行分割,利用灰度直方圖,提取包含五官部分的ROI圖片,利用灰度直方圖雙峰之間的低谷作為閾值,能夠在很大程度上保留分割以后圖像的局域完整性,避免距離切分造成的分割不徹底或者分割區域不合適導致后續的準確率降低。當然,這兩種方式一般是結合使用,如對于五官中的眼睛,眼睛和皮膚在灰度直方圖上有明顯的階躍,明顯的階躍導致采用雙峰閾值法時閾值的選取會很容易,并且分割的結果會很理想。而當同種方法應用于鼻子部位時,可能不同的圖片就會有一些不同,導致結果產生偏差,影響最終實驗結果。部分分割結果如圖7所示。
最后,分割完成,將圖片按照分割的結果進行存儲,便于接下來的特征提取。特征提取的方式上,本項目采用改進后的離散化的不變矩傅里葉描述子,將分割后的圖像送入到模型之中,得出離散的一些值。經過分析得到的值普遍波動較大,所以本團隊采用歸一化的方式,對這些特征結果進行規范化,以將結果統一在一個合適的范圍。為了增強結果的可表示性,本團隊將對應特征信息轉化為對應特征圖,具體實驗結果如圖8所示。

圖5 ORL數據集

圖6 對人臉和人臉的特征點進行識別

圖7 部?分分割結果

圖8 分割的具體實驗結果
通過以上的步驟,得到了有關于人臉五官的特征信息。本團隊使用由兩個卷積層,一個全連接層組成的卷積神經網絡,將人臉五官的特征信息與已經存在與系統中的某些數據信息進行對比,按照合適的置信度進行加權,得出最終的相似度。各個部分對應模型識別結果如表1所示。
為了避免出現偶然性,采用交叉驗證的思想,每個模型訓練兩次,得到4個相關模型。同時兩兩組合,分別進行4次識別,得到的相似度結果如表2所示。最終,按照3∶3∶2∶2的數據集拆分比例對上述相似度進行加權求和,得到最終的相似度結果為93.13%。經過統計得出實驗次數與相似度的折線圖如圖9所示。綜上所述,本實驗的總體流程如圖10所示。

表1 模型識別結果

表2 兩兩組合的識別結果

圖10 本實驗的總體流程
本文提出了基于神經網絡和傅里葉描述子對殘缺面部圖像的識別與分析的方法,在傳統的傅里葉描述子的基礎上進行了改進,主要有以下3點:(1)結合了離散化的思想,將傅里葉描述子進行離散化,以避免傳統傅里葉描述子的邊界不封閉問題。(2)在離散化的基礎上同樣采用了不變矩的思想,三者進行結合,提高了傅里葉描述子在圖像特征提取方面的魯棒性。(3)能夠將傅里葉描述子應用于殘缺圖像的特征提取上,結合MTCNN等一系列算法,對殘缺圖像進行整理和分析。實驗表明,改進后的方法將更好的實現殘缺圖像與完整圖像的匹配與識別,具有很高的實用意義。