羅莉莎 鐘嘉桐 王樹同 陳龍 邵文澤



摘 ?要: 近年來,視頻監控在國防領域和城市管理中起著越來越突出的作用。文章以道路監控視頻的低分辨率圖像為切入點,利用深度學習方法下的圖像超分辨率重建算法,訓練超分辨率模型,提高監控視頻所記錄的低清人臉模型的精度,同時利用FaceNet算法及模型實現低清人臉的識別與檢測,從而完善道路視頻監控系統低分辨率圖像的人臉識別與檢測。
關鍵詞: 圖像超分辨率重建算法; 超分辨率模型; 深度學習; 低分辨率圖像; 人臉識別; 人臉檢測
中圖分類號:TP391 ? ? ? ? ?文獻標識碼:A ? ?文章編號:1006-8228(2020)01-26-04
Abstract: In recent years, video surveillance plays an increasingly prominent role in the field of national defense and urban management. Taking the low resolution image of road surveillance video as the starting point, this paper uses the image super-resolution reconstruction algorithm with deep learning, trains the super-resolution model, improves the accuracy of the low-resolution human face model recorded in the surveillance video, and uses the FaceNet to realize the recognition and detection of low-resolution human face, so as to improve the face recognition and detection of the image from road video surveillance system.
Key words: image super-resolution reconstruction algorithm; super-resolution model; deep learning; low resolution image; face recognition; face detection
0 引言
對于社會治安問題和道路交通事故越來越嚴重的情況。運用科技手段強化城市道路交通管理成為交通管理部門的迫切需求。
隨著科學技術的不斷發展,圖像超分辨率重建技術和人臉識別技術越發受研究者青睞,大量研究人員通過改進圖像超分辨率算法和人臉識別技術,實現圖像重建分辨率和人臉識別率的提高,這一研究課題已成為當前圖像處理技術的重要研究方向。超分辨率重建技術和人臉識別與檢測的發展,強有力地彌補了城市道路監控中傳感器硬件方面的不足,能有效地發展和完善道路視頻監控系統。
1 圖像超分辨率和人臉識別技術的研究歷史及現狀
1.1 圖像超分辨率算法研究歷史及現狀
超分辨率重建技術具有重要的理論意義和應用價值,成為圖像處理、計算機視覺等領域的重大研究課題。
1955年,“超分辨率”首次出現在光學成像領域。1964年左右,“圖像超分辨率”被提出。隨后,超分辨率重建技術受到廣泛的關注和研究。2014年,Dong等人首次將“深度學習”應用到圖像超分辨率重建領域,實現了令人驚喜的成效。
1.2 人臉識別的研究歷史及現狀
人臉識別技術作為一種重要的生物特征識別技術,是模式識別研究方面的熱點課題。
近幾年,國際上許多項目將深度學習成功地運用到人臉識別中。2012 年,勒尼德·米勒研究小組率先將深度學習用于 LFW(labeled face in the wild)數據庫的人臉識別。比較知名的算法有DeepFace、DeepID、FaceNet等,在以上算法中,準確率最高的是FaceNet[1]。本課題主要應用FaceNet算法對課題的另一研究對象——圖像超分辨率模型進行驗證。
2 基于深度學習的圖像超分辨率模型的構建
從重建算法角度看,圖像超分辨率算法可概括為三大類型:基于插值的算法、基于重構的算法和基于學習的算法[2-3]。文章基于學習的超分辨率算法訓練圖像超分辨率重建模型,從而改善城市道路監控視頻圖像質量。
2.1 基于深度學習的圖像超分辨率重建技術簡介
隨著人工智能和計算機硬件的不斷發展,“深度學習”憑借著強大的擬合能力,應用于各個領域,特別是在圖像與視覺領域。
基于深度學習的圖像超分辨率技術的重建流程主要包括:①特征提取:對輸入的低分辨率圖像進行去噪、上采樣等預處理,隨后送入神經網絡提取特征;②設計網絡結構及損失函數:搭建網絡模型,并根據先驗知識設計損失函數;③訓練模型:確定優化器及學習參數,通過最小化損失函數提升模型的學習能力。④驗證模型:根據訓練后的模型通過驗證集的相關評判標準對現有模型做出評估和相應的調整。
2.2 重建圖像的結果評判標準
對超分辨率重建模型的圖像質量進行分析是評價算法好壞以及準確度高低的重要準則,主要包含主觀評價和客觀評價【4】。主觀評價把人眼作為最終接收對象,通過觀察對圖像最終效果作出主觀評定。客觀質量評價常用的評價超分的指標分別是是PSNR和SSIM。
2.2.1 PSNR(Peak Signal to Noise Ratio)峰值信噪比
PSNR是最普遍和使用最為廣泛的一種圖像客觀評價指標,它是基于對應像素點間的誤差,即基于誤差敏感的圖像質量評價標準。
2.3 圖像超分辨率模型(EDV模型)介紹
文章將所訓練的圖像超分辨率模型命名為“EDV”模型,該重建模型的網絡結構由對稱的卷積層——反卷積層構成,通過多個卷積神經網絡實現圖像的重建,類似編碼——解碼結構。以下將“EDV模型”與“SRCNN模型”進行介紹與對比。
SRCNN(Super-Resolution Convolutional Neural Network)是深度學習在超分辨率重建領域的開山之作[5-6]。當輸入低分辨率圖像,SRCNN通過使用雙立方插值將其放大至目標尺寸,然后利用一個三層的卷積神經網絡去擬合低分辨率圖像與高分辨率圖像之間的非線性映射,最后將網絡輸出的結果作為重建后圖像。
與SRCNN不同,這里所使用的“EDV模型”網絡結構由對稱的卷積層——反卷積層構成,每個卷積層對應相應的反卷積層,卷積層將數據預處理后,送入神經網絡進行特征提取。反卷積層放大特征的尺寸同時恢復圖像細節。其網絡結構如圖1所示。
該模型通過使用多層卷積層和反卷積層獲得較大的感受野,理論上,感受野越大,學習的信息越多,準確率越大。另外,多層網絡的應用,能實現復雜的非線性映射,使重建效果更好。
2.4 EDV模型訓練過程
通過以下內容對圖像超分辨率模型——EDV模型訓練過程進行介紹。
2.4.1 CelebA數據集簡介
CelebA數據集是香港中文大學提供的包含10177個名人身份的202599張人臉圖片的開放數據集,該人臉數據集在人臉相關的訓練中受到廣泛應用。
文章使用CelebA數據集的前兩萬張圖片作為模型訓練的數據集,將數據集進行對齊裁剪為128*128格式作為輸入。
2.4.2 模型參數設置
該模型“編碼”部分由四個卷積層構成,對應“解碼”部分由四個反卷積層和兩個卷積層構成。各卷積層可看成由多級組成的分級網絡,在每一級中,先通過級聯的卷積層提取特征,接著通過反卷積層將提取出的特征的尺寸上采樣。反卷積層后又接著兩個卷積層,一個卷積層的作用是繼續提取特征,另外一個卷積層的作用是預測出這一級的殘差。該EDV模型的網絡結構具體參數見表1。
2.4.3 測試數據集降質過程
由于實驗所用測試數據集均為高清圖像或清晰度較高的圖像,因此需要對其進行降質獲得對應低清圖像作為模型輸入。降質過程如圖2所示。
2.4.4 第一種訓練方案(方案一)
該EDV模型于Tensorflow平臺進行訓練,使用CelebA人臉數據集中前兩萬張圖片作為訓練集進行訓練,訓練完成后制作測試數據集,將測試圖像做下采樣增加噪聲獲得低清圖像,作為模型輸入,對應輸出SR則為重建高清圖像。
2.4.5 第二種訓練方案(方案二)
考慮到方案一的模型重建輸出圖像產生幾何形變以及模糊導致重建質量不佳,為提高重建圖像與原圖像的相似度,考慮對方案一的訓練數據集做數據增強。
在對訓練數據集做平移、旋轉、翻轉之后,訓練數據集由原來的兩萬張擴充到八萬張,一定程度上增大了訓練數據集的數量,同時改善了圖像輸出效果。
3 人臉識別與檢測
3.1 FaceNet簡介
FaceNet可以用于人臉的檢測,識別和聚類。其方法主要是通過卷積神經網絡的學習,把圖像映射到歐幾里得空間,根據歐式距離大小給圖像分類,距離和圖片相似度有關。
3.2 基于LFW的精度測試
LFW數據集由美國馬薩諸塞大學阿姆斯特分校計算機視覺實驗室整理,其包含13233張圖片。該數據集常用于研究非限制環境下的人臉識別問題。
經測試驗證,官方預訓練模型精度能夠達到0.992±0.003,說明FaceNet的人臉識別和檢測的準確度較高。
3.3 FaceNet人臉識別與檢測步驟
⑴ 搭建人臉庫,從網上下載明星圖片并分類至對應名字的文件夾。
⑵ 圖片預處理,通過mtcnn.py程序實現人臉的裁剪與對齊,實現圖片數據都為160*160大小的人臉。
⑶ 下載官方基于CASIA-WebFace數據集的預訓練模型。
⑷ 結合SVM訓練人臉識別系統,通過classifier.py用圖像算出來的向量數據來訓練一個SVM分類器,從而對人的身份進行一個判斷,同時在.pkl格式的文件中存儲每一個分類。
⑸ 通過predict.py進行人臉識別測試,compare.py進行人臉檢測測試。
4 結果與分析
4.1 測試數據集準備
在圖像超分辨率重建過程和人臉識別過程,均使用了3.3中搭建的人臉庫,從中選擇部分圖片建立測試集進行測試。
4.2 EDV模型圖像重建測試結果
將測試數據集分別通過方案一、方案二重建模型進行測試,測試結果如圖3。
通過人眼主觀視覺對比兩個方案的重建圖像可以發現,圖像增強后的輸出圖像在形變和模糊程度有一定減少,眼部等高頻細節較增強前有明顯改善。
4.3 人臉識別測試結果
經predict.py測試,方案一、方案二可以準確識別身份。
4.4 人臉檢測結果
選取超分辨率模型的部分測試圖像進行人臉檢測分析,見圖4。此處僅使用方案二的輸出結果,經過compare.py代碼的測試,重建模型輸出的圖像能準確進行人臉檢測。
4.5 結果對比與分析
4.5.1 主觀圖像質量評價
圖5是對上述兩個訓練方案進行部分圖像對比的結果。通過人眼視覺判斷輸出圖片的效果可以看出,在對訓練數據集做了數據增強之后,重建圖像有了明顯改善。
4.5.2 客觀圖像質量評價
由測試結果可知,兩種訓練方法都可以做到低清重構的人臉識別,但是精度有一定差別,見表2-表3。
由測試結果可見,方案二的主觀圖像質量評價,以及經過圖像增強后的重構精度和識別結果都優于方案一。人眼主觀評價來看,即方案二的清晰度提高、失真減少。從客觀測得數據來看,方案二的PSNR與SSIM值小幅提高,閾值大幅減少。
5 結果與分析
隨著人們安全需求的提高,監控視頻中的人臉識別準確度也需要提高,然而大多數監控視頻中人臉的清晰度通常較低,識別準確度存在一定的問題。本文基于Tensorflow的深度學習方法,研究了低清人臉的重構、檢測與識別,提高了一定的識別準確度,這對城市低清道路監控系統有重要意義。該模型在多角度人臉的重構、識別檢測上還存在一定局限性,需改進,此外,將其應用到視頻中進行跟蹤、捕捉也是進一步研究的方向。
參考文獻(References):
[1] Florian Schroff, Dmitry Kalenichenko, James Philbin. FaceNet:A unified embedding for face recognition and clustering[C].In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015. 815-823
[2] Chang H,Yeung D Y,Xiong Y.Super-Resolution through Neighbor Embedding[C]// null.IEEE Computer Society,2004.
[3] LertrattanapanichS,Bose N K.High resolution image formation from low resolution frames using delaunay triangulation[J].IEEE Transactions on ImageProcessing,2002.11(12):1427-1441
[4] 張漫.圖像質量評價算法的研究[D].山東大學,2007.
[5] 孫玉寶,張錚嶸,韋志輝,et al.基于稀疏表示的圖像超分辨率重建快速算法[J].系統工程與電子技術,2010.32(12):2696-2700
[6] 劉永信,段添添.基于深度學習的圖像超分辨率重建技術的研究[J].科技與創新,2018.119(23):46-49
[7] 方振宇.圖像超分辨率重建技術的研究及應用[D].武漢理工大學,2012.
[8] 賈亮.圖像超分辨率重建技術研究[D].南京航空航天大學.