董勝 李鳳 劉守印



摘要:目前,基于深度學習提取人臉特征進行人臉靜態圖片識別的方法,在Labeled Faces in the Wild(LFW)數據集等標準集上的正確識別率幾乎接近人類。但是在視頻流中,由于人體的不停運動和姿態偏移等問題.導致檢測到的部分人臉區域嚴重模糊和不完整,如監控系統中的人臉。這種情況下,單純地采用基于圖片的人臉識別方法,準確率會嚴重下降。在基于視頻流的人臉區域提取時,本文提出采用單張人臉區域圖像的特征自相關指標來衡量人臉的姿態以及模糊狀況,針對連續多幀中人臉區域圖像存在的信息冗余,提出利用連續多幀中人臉區域圖像的特征互相關指標來衡量視頻流中人臉區域的變化程度。基于提出的自相關指標與互相關指標,本文提出并實現了視頻流中適用于識別的人臉區域圖像的選取算法,以及加權投票的人臉識別算法。研究中收集并制作了基于視頻流的人臉數據集,驗證了本文提出算法的可行性。實驗表明,本系統在有較高的識別率的同時,大幅度降低了人臉識別計算量,使得人臉識別可在視頻流中實時穩定地進行。
關鍵詞:視頻流;人臉識別;特征相關性;深度學習
0引言
隨著社會安防需求的增加,視頻監控已經越來越多地出現在各種公眾場所中,但對監控視頻內容的解讀工作仍然需要大量人工參與。實現視頻中的人臉實時識別,在犯罪嫌疑人搜索、失蹤人口尋找等領域都具有重大意義。而目前的監控攝像大多都只提供了事發之后查找求證的作用,并不能實時識別視頻內容,發揮實時輔助公安偵查和自動尋找目標的作用。同時,一些需要考勤的區域,比如公司、辦公場所、教室等人員密集地,點名或主動簽到都將耗費時間和人力,而且存在考勤時間不準確的問題。
視頻流人臉識別主要分為人臉檢測和識別兩個步驟。人臉檢測首先從視頻幀中提取出人臉區域圖片,而識別步驟則是對提取出的人臉區域圖片進行識別分類,得出結果。近年來,卷積神經網絡(Convolutional Neural Networks,CNNs)應用于人臉識別領域,大大提高了人臉檢測與識別的準確率。
人臉檢測方面.基于CNNs的方法在Face Detection Data Set and Benchmark(FDDB)上已取得可觀進展。其中,Cascaded CNN和MTCNN在檢測速度上表現優異,可以在視頻流中獲得實時技術生成。Cascaded CNN利用級聯的CNNs進行人臉檢測,但其在檢測時需要對人臉框設計展開矯正,帶來額外的運算量。MTCNN方法采用多任務的CNNs網絡提高人臉檢測的準確率,該方法倍受業內人士好評。因此,研究中將直接使用MTCNN方法從視頻幀中獲取人臉區域圖像。
人臉識別方面,目前較有影響的方法可參見文獻等。這些方法在LFW數據集上均已獲得了優質研發效應。雖然基于深度學習提取人臉特征進行人臉識別的方法解決了光照、表情、姿態等大部分難題,但在運動模糊、人臉姿態偏移過大、遮擋等出現頻次較高的情況下,識別效果仍然未能臻至理想。
視頻流中的人臉識別和單張靜態圖片的人臉識別在研究上則存在著顯著差異。視頻流中的人臉區域圖像,常常呈現像素低、模糊不清和姿態偏差大的特點。圖1即顯示了視頻中通過人臉檢測方法提取的連續幀人臉區域圖像。直接使用這些提取的人臉圖像進行人臉識別,正確率偏低,無法應用于實際。