陳靖 王飛 張儒良


摘 要:聚集人群是一種敏感場景,隱藏著突發和不易控制等因素,對人群聚集場景的檢測有實際應用價值。通過縮小上下文信息模板搜索范圍,采用雙三次插值算法調整圖像大小,利用上下文信息經感受野提取更多細節信息,基于深度殘差101層網絡模型提取人臉檢測框,并通過非極大值抑制去除冗余的、保留最好的人臉檢測框。實驗結果表明,該算法平均誤檢率為0.022 6,與Hu算法相比,在不損失精度的同時,提高檢測的平均速度為2.953 3s。
關鍵詞:人臉檢測;上下文信息;深度殘差網絡;雙三次插值
DOI:10. 11907/rjdk. 182777
中圖分類號:TP306文獻標識碼:A文章編號:1672-7800(2019)004-0021-03
0 引言
聚集人群的人臉檢測是計算機視覺領域一個重要研究方向。聚集人群是一種敏感場景,隱藏著突發和不易控制等因素[1]。人群聚集易導致交通阻塞、踩踏事件、社會安全事件、公共健康事件等,因此對人群聚集場景檢測具有非常重要的實際應用價值[2]。文獻[3-6]闡述了聚集人群場景的研究意義。目前,國內外對人群聚集場景的檢測取得了不少研究成果。國外針對人臉檢測已經有許多比較成熟的研究機構,例如MIT、CMU等。國內以清華大學、浙江大學、中國科學院計算研究所等機構為代表進行人臉檢測相關研究[7]。傳統人臉檢測算法主要采用Haar特征或HOG特征提取人臉特征,并結合AdaBoost算法實現人臉檢測,AdaBoost算法主要是將多個弱分類器結合成強分類器[8]。由于在復雜場景中存在人臉姿態、角度和遮擋問題,故人臉檢測率不高。
近年來,深度學習(Deep Learning,DL)不斷崛起[9]。深度學習起源于人工神經網絡(Artificial Neural Networks,ANN),其在圖像處理領域取得了一系列重大突破[10]。最早,Krizhevsky等[11]提出的AlexNet架構使得神經網絡再次占分類任務的主導地位。之后,Simonyan等[12]提出深層次的VGG16/VGG19網絡,探索了在卷積神經網絡架構中深層次網絡對整體架構帶來的性能改進。Szegedy等[13]提出了GoogLeNet中“Inception”架構的概念,解決了深度和寬度的限制。再到后來,He[14]等提出殘差網絡ResNet中的ResNet Block架構,采用恒等映射解決網絡深度帶來的梯度消失問題。人臉檢測中對于小人臉檢測仍存在挑戰,可以通過多任務方法提取多層特征融合,得到更多人臉細節信息[15]。文獻[16]提出用一種多層特征的融合方法檢測人臉,由于單層特征無法很好地檢測受姿態、光照和遮擋的人臉,故采用加權得分的非極大值抑制方法去除冗余人臉框,并且用線性加權和高斯加權兩種方法進行對比實驗,實驗結果表明高斯加權更適合小人臉檢測問題。雖然對于小人臉的檢測有所提高,但是一些問題仍待解決,例如如何提高聚集人群的人臉檢測精度與速度等。
本文在參考Hu[17]算法的基礎上,通過縮小上下文信息模板搜索范圍,采用雙三次插值算法調整圖像大小,并利用非極大值抑制去除冗余的、保留最好的人臉檢測框。本文算法在不損失人臉檢測精度的同時,提高了人臉檢測的平均速度。
1 本文算法
1.1 上下文信息模板配置
表1中檢測的配置信息來自于Hu的論文,本文采用該實驗數據計算上下文信息模板搜索范圍。
1.2 上下文信息模板搜索范圍
首先輸入一幅原圖像raw_img,獲取raw_img的高raw_h和寬raw_w;接著通過表1中clusters(1)、clusters(2)、clusters(3)和clusters(4)的值,求出clusters_h和clusters_w的值,其中clusters_h = clusters(4) - clusters(2) + 1,clusters_w = clusters(3) - clusters(1) + 1;然后通過判斷表1中clusters(5)的值是否等于1,得到normal_idx的值;最后,同時對表達式log2(max(clusters_w(normal_idx)/raw_w))和log2(max(clusters_h(normal_idx)/raw_h))取整,并將取整后兩個數中的最小值作為最小尺度min_scale的值,而最大尺度max_scale的值取1和-log2(max(raw_h, raw_w)/MAX_INPUT_DIM)) 兩個數中的最小值,其中MAX_INPUT_DIM = 5 000,進而確定scales的取值為兩段范圍,第1段范圍從min_scale/1.01到0,間隔為1,第2段范圍從0.5到max_scale,間隔為0.5。
以第2段范圍中的scales縮放圖像,并選用雙三次插值算法調整圖像大小。雙三次插值不僅考慮到鄰近像素對待求像素的影響,還考慮到對鄰近點像素值變化率的影響,保留了圖像中更多高頻成分,因此會保留更多圖像細節[18]。通過深度殘差網絡101層(ResNet101)模型尋找每幅上下文信息圖像的人臉區域。針對每幅上下文信息圖像已檢測到的人臉區域,通過非極大值抑制(Non-Maximum Suppression,NMS)去除冗余的、保留最好的人臉檢測框,抑制過程是一個“迭代—遍歷—消除”的過程,將得到的人臉框得分按照從高到低排序,選擇最高分及其對應的框;遍歷其余的框,如果與當前最高得分框的重疊面積(IOU)大于一定閾值,則將框刪除;從未處理的框中繼續選一個得分最高的,重復上述過程,直到篩選完為止[19]。
2 實驗結果
為了驗證本文算法的有效性,選用香港中文大學公開的聚集人臉檢測基準數據集WIDER FACE進行測試[20]。該數據集的圖像數量是現有人臉數據集的10倍,同時也選用日常生活場景進行實驗測試,均得到了較好的檢測結果。本文僅列出部分實驗結果,如圖1和圖2所示。
3 實驗分析
本文算法選取最近鄰插值(nearest)、雙線性插值(bilinear)、雙三次插值(bicubic)與Hu算法進行比較,結果發現,本文算法bicubic獲得的精度最高,得到的圖像質量高。本文算法獲得的聚集人群圖像平均誤檢率、平均精度和平均速度如表2所示。
本文算法bicubic在圖像縮放時的平均誤檢率0.022 6達到最小,在平均精度保持不降低的情況下,平均速度為20.940 7s,比原文雙線性插值的平均速度23.894 0s提高了2.953 3s。
4 結語
本文通過縮小上下文信息模板搜索范圍,采用雙三次插值算法調整圖像大小,利用上下文信息經感受野提取更多細節信息,基于深度殘差101層網絡模型提取人臉檢測框,并通過非極大值抑制去除冗余的、保留最好的人臉檢測框。本文算法相比Hu算法在速度上有所提高,但當圖像分辨率較低時,圖像檢測準確度降低。因此,將低分辨率圖像轉換為高分辨率圖像再進行檢測是下一步研究內容。
參考文獻:
[1] 徐凌. 人群聚集場景中多人臉檢測算法研究[D]. 武漢:中南民族大學, 2015.
[2] 魏夢. 基于卷積神經網絡的人群密度分析[D]. 合肥:中國科學技術大學, 2018.
[3] 王姝婷. 我國自發性人群聚集活動風險評估的現狀與對策研究[J]. 湖北警官學院學報,2018,31(2): 86-92.
[4] 包靈. 基于深度學習的智能人數統計技術研究與系統設計[D]. 成都: 電子科技大學,2018.
[5] 張君軍,石志廣,李吉成. 人數統計與人群密度估計技術研究現狀與趨勢[J]. 計算機工程與科學,2018,40(2): 282-291.
[6] 劉明林. 基于深度學習的人群密度估計及稠密人群計數的研究[D]. 鄭州:鄭州大學,2017.
[7] 邊航. 人臉檢測與識別算法研究[D]. 北京:北京工業大學, 2017.
[8] 陳海濤,潘靜. 基于Adaboost人臉檢測技術淺析[J]. 電子世界, 2018(12):91-92.
[9] LECUN Y,BENGIO Y,HINTON G. Deep learning[J]. Nature,2015,521(7553): 436-444.
[10] 李成,楊淑媛,劉芳,等.神經網絡七十年:回顧與展望[J]. 計算機學報,2016,39(8):1697-1716.
[11] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems, 2012: 1106-1114.
[12] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv Preprint arXiv: 1409.1556, 2015: 1-14.
[13] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[14] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.
[15] 劉璐. 基于深度神經網絡的多任務視覺感知研究與應用[D]. 成都: 電子科技大學,2018.
[16] 王成濟,羅志明,鐘準,等. 一種多層特征融合的人臉檢測方法[J]. 智能系統學報,2018,13(1):138-146.
[17] HU P, RAMANAN D. Finding tiny faces[C]. IEEE Conference on Computer Vision and Pattern Recognition,2017:1522-1530.
[18] 陳高琳. 圖像縮放算法中常見插值方法比較[J]. 福建電腦, 2017,33(9):98-99.
[19] 陳金輝,葉西寧. 行人檢測中非極大值抑制算法的改進[J]. 華東理工大學學報:自然科學版,2015,41(3): 371-378.
[20] YANG S,LUO P,LOY C C,et al. Wider face: a face detection benchmark[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 5525-5533.
(責任編輯:何 麗)