于國慶 楊東瀚 睢丙東 李宏哲





摘?要:本文研究基于SRGAN改進的人臉超分辨率重構算法,在生成器網絡的殘差單元中加入了自注意力卷積模塊,以提高網絡訓練中高頻特征提取能力,在判別器網絡中引入PatchGAN思想,強化判別器網絡對高頻特征細節的判別能力,關注更多的局部紋理細節,提高重構人臉圖像質量。同時將WN層替換原有GAN中的BN層,在保證網絡訓練速度的前提下提高網絡模型的穩定性并恢復出更高質量的人臉圖像。
關鍵詞:SRGAN;自注意力卷積模塊;PatchGAN[3]
人臉信息因其具有唯一性、普遍性等特點,在視頻偵查、行動路徑追蹤以及身份信息對比等方面有著重要的研究意義。但是對于一些特殊環境如天氣、光照等造成的人臉圖像模糊等現象,影響因素導致后期對人員信息確認的影響,本文通過結合深度學習理論與方法,對低分辨率人臉圖像的超分辨率重構提出一種新的優化算法。
1?生成對抗網絡的人臉圖像超分辨率重構
SRGAN的提出是基于殘差網絡的圖像超分辨率重構(SRResnet)的基礎上加入了判別網絡D,SRGAN由生成網絡和判別網絡組成,將低分辨率圖像作為生成網絡的輸入,輸出虛假的超分辨率圖像,然后將虛假的超分辨率和原始高分辨率圖像作判別網絡的為輸入、輸出判別結果,生成網絡和判別網絡互相對抗,當判別網絡無法區分高分辨率圖像和虛假超分辨率圖像時,SRGAN就完成了重構超分辨圖像任務。
2?改進的人臉超分辨率重構模型
2.1?生成器網絡的改進
將SA卷積模塊加入生成器網絡的殘差單元中,面對人臉重構領域對于超高的人臉圖像細節紋理的特征學習要求,有選擇性地關注人臉局部區域的重點信息,改善重構出人臉圖像在獲取高感知質量的同時存在的局部失真和偽影問題。同時網絡模型中所有BN都由WN層代替,針對傳統SRGAN模型中BN層雖然能解決網絡訓練過程中訓練數據分布的標準化,但是,在執行重構人臉圖像的任務中,BN層則是一把雙刃劍,BN層操作會破壞提取的人臉圖像特征映射分布,發生人臉圖像色彩會被歸一化、原本的對比度信息改變等問題。改進的生成網絡模型如圖1所示:
2.2?改進的判別器網絡
在判別器網絡部分,隨著生成網絡的對人臉圖像細節紋理部分學習能力的提升,判別網絡也需要同時增強對細節差異的判別能力,進一步改進重構效果。故引入的PatchGAN的思想,且仍然選擇用WN層替換BN層操作。基于PatchGAN算法改進的判別器網絡與傳統GAN網絡的判別器相比,并不是將輸入映射為一個實數,而是映射為一個矩陣X的形式,矩陣中的每個元素對應輸入N×N大小的Patch樣本塊為真的概率值,最后通過對由概率值組成的概率矩陣求均值得到判別器的最終輸出。改進的判別器網絡模型如圖2所示:
3?損失函數構建
損失函數的定義對于GAN網絡的性能優劣不言而喻,SRGAN的特點之一就是引進了損失感知函數,由此提升了超分辨率之后的細節信息。SRGAN將對抗損失作為優化目標,并且用VGG特征圖譜的損失函數取代了以MSE為基礎的內容損失,整體的感知損失公式如式1所示,為內容損失和對抗損失成分的加權和。
lSR=lSRX內容損失+10-3lSRGen對抗損失(1)
式中,lSRX為內容損失,10-3lSRGen表示對抗損失。
4?仿真實驗和結果分析
4.1?實驗環境
本文的基于SRGAN改進的人臉圖像超分辨率重構算法的實驗環境如表1所示:
4.2?實驗數據集處理
本文實驗的數據集選自擁有202599張人臉圖像的CelebA(CelebFacesAttributes)公開數據集。在全部數據集中選擇出20000張人臉圖像,前19500張做訓練集使用(圖像編號00001~019500),剩下的500張做測試集使用(圖像編號?019501~020000)。
4.3?訓練過程與參數設置
本文實驗模型的高分辨率圖像采用128*128尺寸大小的圖像塊,低分辨率人臉圖像32*32尺寸大小的圖像塊,采用OpenCV的雙三次插值算法進行下采樣預處理得到,采樣因子r=4,每批次送入模型中訓練的人臉圖像為16張,生成網絡中殘差模塊的殘差單元的個數仍為16個,選用Adam優化器最小化損失函數,參數設置為β1=0.9。首先確定對SRResnet網絡的參數,訓練學習率為1e3,更新迭代次數為105。在訓練SRGAN網絡模型時,將預訓練基于MSE損失函數的SRResnet模型的權重初始化SRGAN生成器的權重,避免訓練SRGAN時出現局部最優的情況。對基于SRGAN改進的人臉超分辨率重構模型訓練時,初始的學習率設置為1e3、1e4,更新迭代次數為205。重復訓練生成器網絡和判別器網絡,直至判別器無法判斷重構出圖像是否為真偽,訓練結束。
4.4?主客觀評價標準
主觀評價主要是通過人眼觀測來判斷圖像的質量。評價人員使用五級損傷評分尺度,對給定的圖像進行打分,然后取平均分(Mean?Opinion?Score,MOS)。主觀評價可以真實反映圖像的視覺效果,而且沒有技術障礙。
客觀評價是指利用一定的數學公式定量的分析重建圖像的質量。雖然客觀評價計算過程復雜,但比主觀評價說服力更強。主要有峰值信噪比(Peak?Signal?to?Noise?Ratio,PSNR)、結構相似性(Structural?Similarity?Index,SSIM)以及特征相似度(Feature?Similarity?Index,FSIM)等方法,其中PSNR和SSIM是超分辨率重構中常用的兩種客觀評價指標。
4.5?實驗結果分析
本文的實驗將基于SRGAN改進的人臉超分辨率重構模型重構的圖像和5種不同的圖像重構模型生成圖像進行對比試驗,分別為雙立方差值法(Bicubic)、SRCNN、VDSR、SRResnet、SRGAN,為保證實驗結果在客觀和主觀評價標準的公平和準確性,在其余5種圖像重構模型訓練以及測試時均采用實驗數據集CelebA中的訓練集和測試集。客觀評價法選擇PSNR和SSIM兩種客觀評價標準。主觀評價法挑選了測試集圖片中兩男兩女的歐美人臉重構效果圖直觀展示效果,并采用MOS評價法根據多個評估者對相同重構后的人臉圖像的不同打分取均值進行判別。
如圖3所示,是部分測試集圖像在不同模型中重構后的圖像對比。表2為低分辨人臉圖像在經4倍上采樣,并且對重構后的超分辨率人臉計算其PSNR和SSIM以及MOS值。
從圖3、表2所展示的圖像和定量評價結果,根據AVGPSNR和AVGSSIM兩項客觀評價指標來看,Bicubic法重構的人臉圖像效果最差,兩項指標均為最低,視覺效果模糊。SRCNN在重構人臉圖像質量上略有提升,但是效果微乎其微,仍然伴有視覺模糊,人臉輪廓邊緣模糊等問題存在。SRResnet、SRGAN和本文改進的重構算法,均在圖像重構質量上有了明顯的提升。且SRResnet的值最高,但基于SRResnet重構的人臉圖像在擁有非常高的PSNR和SSIM的時候,其主觀評價標準的MOS值卻低于SRGAN和本文改進算法。主要是因SRResnet算法雖能獲得高感知質量,但是重構是會丟失一些高頻部分細節,人臉圖像比較平滑,而SRGAN的結果則有更好的視覺效果。而本文改進的算法在實驗結果中,對于SRGAN獲得高感知質量人臉的同時仍然伴有局部失真等缺陷進行優化改進,在客觀PSNR和SSIM及主觀MOS評分中都得到了提高。綜合MOS值考慮本文算法優于其他5種算法。
結語
本文介紹了傳統的生成對抗網絡模型,并在傳統的生成對抗網絡模型的基礎上進行了改進,融入了自注意力機制模塊和PatchGAN思想,并將原有BN層替換為WN層,在保證人臉圖像在重構過程中不失真的同時提高了最終重構的圖像質量,綜合主客觀評價標準表現出了最佳的效果。
參考文獻:
[1]陳剛,續磊.視頻監控圖像偵查方法研究[J].中國人民公安大學學報:社會科學版,2012,28(3):120125.
[2]賈潔.基于生成對抗網絡的人臉超分辨率重建及識別[D].電子科技大學,2018.
[3]Isola?P,Zhu?J?Y,Zhou?T,et?al.Imagetoimage?translation?with?conditional?adversarial?networks[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.2017:1121134.
[4]LedigC,TheisL,HuszarF,eta?l.PhotorealisticSingleimagesuperresolution?Using?a?generative?adversarial?network[C]//Proceedings?of?the?IEEE?COnferenCe?0n?Computer?vision?and?pattern?recognition.2017:46814690.
作者簡介:于國慶(1969—?),男,副教授,碩士研究生導師,研究方向:計算機測控、電子信息技術應用。
*通訊作者:楊東瀚(1995—?),男,碩士,研究方向:圖像處理、人臉超分辨率重構;睢丙東(1963—?),男,教授,研究方向:智能儀器儀表、計算機測控;李宏哲(1994—?),男,碩士,研究方向:圖像處理、運動人體目標檢測。