王晨陽,江俊君,劉賢明
(哈爾濱工業大學,計算學部,哈爾濱 150000)
人臉圖像超分辨率技術,又名人臉幻覺,是一項致力于根據給定的低分辨率人臉圖像恢復出具有高頻細節的高質量人臉圖像的技術。人臉圖像超分辨率技術不僅可以提升人臉圖像的分辨率,還可以增加人臉圖像的辨識度。在工業界和學術界人臉圖像超分辨率技術都發揮著舉足輕重的作用。在智能安保和監控系統中,由于人物與監控的遠距離,或者成像環境(環境光照條件、噪聲、壓縮等因素)的影響,捕獲到的人臉圖像往往是低質量且缺少高頻細節的,無法提供較高的辨識度,從而對后續的人臉檢測與人臉識別任務帶來了巨大挑戰。人臉圖像超分辨率技術則可以有效改善這一問題[1]。近年來,科學技術飛速發展,手機相機功能日益強大。由于舊手機在像素和硬件條件上遠遠差于新手機,舊手機拍攝的人臉圖像在新手機上顯示時,往往模糊不強,無法提供良好的視覺體驗。人臉超分辨率則可以對這些低質量人臉圖像進行修復得到視覺上令人愉悅的人臉圖像[2,3]。在學術界,很多人臉相關的任務,如人臉屬性編輯、人臉識別、人臉表情分析等任務均高度依賴高質量的人臉圖像數據集[4]。因而人臉圖像超分辨率技術具有工業界和學術界都有廣泛應用前景。因而人臉圖像超分辨率技術也始終是圖像處理和計算機視覺領域的研究熱點。
最早,人臉超分辨率是由Baker 和Kanade 二人在2000年首次提出[5]。隨后,越來越多學者投身于人臉圖像超分辨率技術的研究中,很多里程牌式的人臉超分辨率方法脫穎而出,包括基于全局臉的人臉圖像超分辨率方法[6,7]、基于局部臉的人臉圖像超分辨率方法[8,9]。近幾年,具有強大表達能力的深度學習技術在計算機視覺領域大顯身手[10-12],基于深度學習人臉圖像超分辨率方法更是層出不窮并取得了重大突破。而人臉是一種具有高度結構先驗的對象,其結構先驗的利用可以幫助超分辨率恢復出具有更真實結構信息的人臉圖像。因而學者們往往將目光放在如何估計和利用人臉結構先驗來促進人臉圖像修復,基于結構先驗的人臉圖像超分辨率方法應運而生。而本文則主要對基于結構先驗的人臉圖像超分辨率方法進行綜述。
本文的主要內容安排如下:第2節首先對深度學習人臉圖像超分辨率背景進行粗略地介紹,然后第3節根據現有基于結構先驗的人臉超分辨率方法的特征將其歸類為,先先驗、并行先驗、中間先驗、后先驗四大類,如圖1所示,并分別介紹其方法框架。接著第4節對基于結構先驗的人臉圖像超分辨率技術面臨的關鍵挑戰和核心問題進行分析、總結與歸納。最后第5節對全文進行了總結與展望。

圖1 基于結構先驗的人臉圖像超分辨率方法分類
我們用ILR表示低分辨率人臉圖像,用IHR表示高分辨率人臉圖像,圖像降質過程可以定義為:

其中Φ是退化模型,而θ代表退化模型的參數,包括模糊核、下采樣、噪聲等。而人臉圖像超分辨率技術旨在從給定的低分辨率人臉圖像恢復出其對應的高分辨率人臉圖像,得到超分辨率人臉圖像ISR,即圖像降質過程的逆過程,
其中F是超分辨率網絡模型,δ則是超分辨率模型的網絡參數。為了獲取足夠大的高低分辨率人臉圖像對來滿足深度學習技術的需求,學者們通常用數學模型來模擬真實環境的圖像降質過程,從而生成大量的高低分辨率圖像對訓練深度學習模型。
不同于自然圖像,人臉圖像的主體就是人臉,而人臉本身是具有一些獨特的結構先驗知識的。結構先驗知識可以給網絡提供結構信息,從而輔助人臉圖像超分辨率。大體上看,人臉圖像的結構先驗知識可以分為三種:人臉特征點,人臉熱力圖和人臉解析圖。如圖2所示,從左到右依次展示了人臉圖像,該人臉圖像的人臉特征點、熱力圖以及解析圖先驗。除了圖示的幾種人臉結構先驗以外,人臉先驗還包括3D結構先驗[13],該先驗可以提供比二維結構先驗更豐富的信息。

圖2 從左到右:人臉圖像、人臉特征點、人臉熱力圖、人臉解析圖
在深度學習人臉圖像超分辨率中,像素級別的L1、L2、Huber[14]和Carbonnier 損失[15]是最常用的損失函數。然而由于像素級別的損失函數通常導致過于光滑而缺少高頻細節的超分辨率人臉圖像,陸續有學者提出,對抗損失[16]、感知損失[17]、風格損失[18]等損失函數來增加超分辨率人臉圖像的高頻細節。針對人臉圖像超分辨率問題,為了利用人臉圖像獨有的結構信息,很多基于結構先驗的損失函數被提出,基于結構先驗的損失函數用于約束估計的先驗應該跟真實的先驗保持一致。基于結構先驗的損失函數可以定義為,

其中Lp代表基于結構先驗的損失函數,p表示不同的先驗包括熱力圖、特征點和解析圖,P表示估計的先驗,而PHR則為真實的先驗,F是1或者2。
基于結構先驗的人臉圖像超分辨率方法,因為需要利用人臉結構先驗,所以學者們往往需要選擇包含結構先驗的數據集,因此本文將常用的數據集以及改數據集提供的結構先驗信息列在表1中。注意人臉熱力圖是由人臉特征點生成的,因而表1 中省略了人臉熱力圖這一項。

表1 基于結構先驗方法常用數據集
具有超強表達能力的深度學習技術的出現,為人臉圖像超分辨率領域帶來了巨大進步,也解決了傳統人臉圖像超分辨率方法的許多問題。最近幾年,深度學習技術在人臉圖像超分辨率問題上更是大顯神通。不同于自然圖像,人臉圖像的主體是人臉,而人臉具有其獨特的先驗知識。人臉圖像超分辨率技術不僅探索網絡模型的設計,還注重對人臉圖像先驗知識的利用。本文則對基于結構先驗的深度學習人臉圖像超分辨率方法進行綜述。
在第2節中,本文已經介紹了人臉圖像具有的結構先驗,包括人臉特征點、人臉熱力圖和人臉解析圖。這些信息可以幫助網絡恢復出具有清晰人臉結構的超分辨率結果。為了利用人臉結構先驗,基于結構先驗的人臉圖像超分辨率方法應運而生。基于結構先驗的方法通常設法提取人臉結構先驗,然后利用結構先驗來幫助改善人臉圖像超分辨率性能。本文根據先驗估計和超分辨率任務的執行順序,將基于結構先驗的人臉超分辨率方法歸為四類:1)先先驗:先估計先驗知識再執行超分辨率;2)并行先驗:并行地執行超分辨率和先驗估計任務;3)中間先驗:在超分辨率任務的中間階段估計先驗知識;4)后先驗,在超分辨率完成后估計先驗知識。下面本文將對這四類方法進行一一介紹。
先先驗方法直接從低分辨率人臉圖像中估計先驗,然后利用該先驗知識輔助人臉圖像超分辨率任務的完成。早期,Jiang[23]和Song[24]先用預訓練好的模型從低分辨率人臉圖像中估計人臉特征點,然后根據人臉特征點將低分辨率人臉圖像劃分為不同的部分,然后為其恢復出高頻細節。然而從低分辨率人臉圖像檢測人臉特征點是極其困難的,且準確度也很低,導致模型性能不夠理想,于是學者們將目光轉向解析圖。如圖3 所示,PSFRGAN[25]首先預訓練好了一個人臉解析網絡,該網絡可以直接生成低分辨率人臉圖像的解析圖,然后他們將解析圖和低分辨率人臉圖像拼接在一起作為超分辨率模型的輸入,從而利用人臉解析圖促進人臉圖像修復過程。此外,他們還利用解析圖將超分辨率人臉圖像分割成不同的部分,并計算每一部分的風格損失,促使網絡可以根據人臉組件的差異恢復出不同的高頻細節。而FSR3D則先從低分辨率人臉圖像中估計3D結構先驗,然后再利用3D結構先驗提供的結構信息和低分辨率人臉圖像恢復出高質量的超分辨率人臉圖像。不同于之前的方法,在FSR3D[13]中,3D先驗的估計和人臉圖像的超分辨率是聯合訓練的。

圖3 PSFRGAN的框架圖
為了讓先驗知識估計和人臉圖像超分辨率任務相互利用相互促進,并行先驗方法提出同時執行超分辨率和先驗估計任務。如圖4 所示,JASRNet[26]設計了一個編碼器去提取人臉圖像特征,然后將提取的特征同時送入超分辨率分支和先驗估計分支,得到先驗和超分辨率結果,以此使得超分辨率和先驗估計兩個任務相互促進,共同進步。

圖4 JASRNet的框架圖
然而低分辨率人臉圖像所包含的信息是非常有限的,從低分辨率人臉圖像中估計先驗知識非常困難。于是中間先驗方法被提出。為了降低先驗估計的難度,中間先驗方法先對低分辨率人臉圖像進行一步上采樣,得到中間結果,然后從增強的中間結果估計先驗知識,最后再利用先驗知識和中間結果恢復出高分辨率人臉圖像。CBN[27]漸進地完成高分辨率人臉圖像的恢復和人臉結構先驗的估計。于是FSRNet[28]先設計一個粗略超分辨率網絡對低分辨率人臉圖像進行一步粗略的超分,生成一個中間結果,接著再從粗略的中間結果中估計人臉先驗知識(包括人臉特征點、人臉熱力圖、人臉解析圖),同時利用超分辨率編碼器提取中間結果的特征,最后將中間結果和先驗知識拼接起來送入編碼器中恢復出最終的超分辨率結果,如圖5 所示。相似地,FSRFCH[29]也先對低分辨率人臉圖像進行上采樣,然后從上采樣后的特征估計人臉熱力圖,再將估計的熱力圖與中間特征相結合重建出最終的超分辨率人臉圖像。這兩個方法在網絡優化過程中均采用基于結構先驗的損失來指導先驗估計網絡可以估計準確的人臉結構先驗。

圖5 FSRNet的框架圖
人臉圖像質量的改善可以提高人臉先驗知識估計的準確性,反過來,準確的人臉先驗知識估計也可以提升人臉圖像的質量。考慮到這一點,DIC[30]提出交替執行人臉超分辨率任務和熱力圖估計任務。如圖5所示DIC先將低分辨率人臉圖像送入一個超分辨率網絡,得到其超分辨率結果ISR1,然后將該結果送入這熱力圖估計網絡估計熱力圖P1。這個過程即為超分辨率促進熱力圖估計。接著將估計的熱力圖P1與低分辨率人臉圖像一起送入到超分辨率網絡中恢復下一次超分辨率結果ISR2。這個過程即為熱力圖輔助超分辨率網絡恢復更高質量人臉圖像的過程。以此類推,經過多次迭代后,超分辨率任務和先驗估計任務相互促進,共同進步。此外,因為直接拼接中間結果和結構先驗(如FSRNet 何FSRFCH)并不能有效地利用人臉結構先驗,DIC 在超分辨率網絡中專為熱力圖的利用設計了一個注意力融合模塊。具體來看,該模塊首先將熱力圖按照人臉圖像進行分組,然后計算每個組的熱力圖的加和,在利用softmax 對其進行激活后生成一組人臉組件注意力模。為了生成表示不同人臉組件的特征同時不帶來過多的參數計算量,DIC 選擇用組卷積來自適應地生成人臉組件特征。在得到人臉組件特征和人臉組件注意力模后,將對應的組件特征和組件注意力模點乘在求和,即得到人臉組件注意力后的特征。此時人臉特征和人臉熱力圖有效地結合,超分辨率性能顯著提升。
后先驗方法則從最終的超分辨率結果中估計人臉結構先驗。最具有代表性的后先驗方法是Super-FAN[31],其網絡框架如圖6 所示。它首先恢復一個超分辨率結果,然后設計先驗估計網絡了來估計超分辨率結果的人臉熱力圖信息,并利用基于結構先驗的損失函數約束超分辨率人臉圖像和高分辨率人臉圖像熱力圖信息要保持一致,從而促進超分辨率人臉圖像結構的恢復。同時Super-FAN 利用判別器計算對抗損失,來恢復出更真實的具有豐富高頻細節人臉圖像。本質上,Super-FAN 是利用基于結構先驗的損失函數來輔助超分辨率模型的優化,引導超分辨率模型生成結構意識的人臉圖像。在推理階段,超分辨率人臉圖像的恢復不再需要結構先驗的估計。

圖6 DIC的框架圖

圖7 Super-FAN的框架圖
在上一節,本文已經介紹了基于結構先驗的人臉圖像超分辨率方法。本文則在這一節對基于結構先驗的人臉圖像超分辨率方法進行分析。首先先先驗直接從低分辨率人臉圖像中估計先驗信息,有低分辨率人臉圖像包含的信息量極少,先驗估計的準確性很難保證,從而限制了模型的性能。而并行先驗的方式雖然可以使先驗估計和超分辨率相互作用相互影響,但是本質上先驗估計依然是從低分辨率人臉圖像獲得的,因此性能改善非常有限。中間先驗的方式先恢復一個中間結果,再估計先驗知識,再完成超分辨率任務,這一過程盡管可以顯著提升模型性能,但也因為多次超分辨率加大了模型對空間和計算資源的需求。除此以外,上述方法均對結構先驗具有較強的依賴性和較高的,敏感度,一旦估計的結構先驗存在較大的錯誤,模型的性能也會直接受到負面影響。相比于其他方法,后先驗概率只需要在訓練時估計先驗,而在推理階段只需完成超分辨率任務即可。這同樣是一把雙刃劍。推理階段不涉及先驗估計可以減少模型對空間和計算資源的需求,但也導致模型無法充分挖掘人臉結構先驗的信息。因此設計一個既可以充分利用人臉結構先驗知識,又不需要額外的計算和空間資源的基于結構先驗的人臉圖像超分辨率方法仍是是當前人臉圖像超分辨率領域的難題。此外人臉先驗知識和低分辨率人臉圖像的有效融合也是基于結構先驗的人臉圖像超分辨率方法的核心問題。
本文對現有基于結構先驗的人臉圖像超分辨率技術進行了簡單地回顧與總結。首先對人臉圖像超分辨率技術背景進行簡要介紹,主要包括人臉圖像超分辨率問題的定義、人臉結構先驗知識以及基于結構先驗的損失函數。接著本文對基于結構先驗的人臉圖像超分辨率技術進行了劃分和歸類,分別介紹了先先驗、并行先驗、中間先驗和后先驗四個類別中具有代表性的方法。最后本文分析了現有方法中急需解決的問題。