陳 斌,東一舟,朱晉寧
(南京師范大學 信息化建設管理處,江蘇 南京210046)
人臉識別有著極其廣闊的應用前景,由于其無侵犯性,操作較為隱蔽,可交互性好[1],近年來對其研究逐漸成為主流焦點。目前針對受控場景下的人臉識別研究已經較為成熟并獲得了較好的效果,同時也已經在部分領域推廣產品化應用。然而受光照、遮擋、表情、姿態、圖像質量等因素影響,非受控場景下的人臉識別技術還處于發展初期,由于其環境條件復雜、訓練樣本要求高、算法難度大、魯棒性差、識別率低,目前仍是計算機視覺及模式識別領域中有待深入研究和攻克的難題。自20年前首例將主成分分析法(Principal Component Analysis,PCA)[2]引入人臉識別研究領域以來,隨著特征提取技術手段的不斷發展,各類經典方法也不斷推陳出新,判別分析[3]、稀疏誤差字典學習[4]、聯合輔助字典學習[5],鑒別稀疏保持[6]等方法持續為人臉識別研究中遇到的問題提供各種解決手段。
當前人臉識別的主要思路是通過對面部有辨識性的特征進行提取并加以訓練,進而得到分類器樣本進一步完成辨別分類工作。對于非受控場景下圖像質量不佳,光照無法保證,遮擋情況嚴重,姿勢變換頻繁等因素,其最為核心的要素可以歸納為對兩類問題的解決:如何提取人臉主要特征成分的純凈低秩信息與干擾稀疏信息加以表示,以及如何對提取出的高維矩陣進行降維。
為進一步提高非受控場景下的人臉識別率,降低非受控場景下干擾因素的影響,本文提出了以主成分稀疏表示方法對人臉特征進行表征,并采用低秩分解方式減少各種干擾因素對圖像造成的影響,降低聚合相關性的方法。本文通過將圖像向低秩子空間進行投射并轉換為稀疏表示的方式來完成識別,并通過低秩分解將噪聲影響減小,從而增加了識別效果的健壯性和魯棒性。
一般人臉識別包含人臉檢測、預處理、特征提取、分類識別和身份確認這5個主要階段,基本流程如圖1所示[7]。人臉識別屬于模式識別的范疇,其主體工作思路步驟如下:第一步對樣本庫的圖像進行預加工,提取其關鍵特征,減少圖像信息的數據量,也就是進行圖像數據的降維處理,從而獲得對應圖像的特征向量,以此為基礎建立樣本向量分類庫。第二步對待識別圖像重復進行類似操作,繼而獲得待識別圖像的特征向量。第三步使用提取出的待識別圖像的特征向量與樣本庫中特征向量進行匹配,檢索有無滿足匹配的情況。所謂非受控場景下的人臉識別,指的是在待檢測對象自身未知并無刻意干涉的條件下被執行的,通過對其圖像進行識別從而完成對其身份進行確認的過程。由于同受控場景下的人臉圖像相比非受控場景下的圖像質量差,存在不同程度遮擋,姿態角度變化大,光照無法保證等情況,造成非受控場景的人臉識別面臨巨大的障礙。
目前針對非受控條件下的人臉識別主要有4類方法:基于圖像修復手段的遮擋人臉識別算法;基于局部特征分析手段的遮擋人臉識別算法;基于魯棒性估計方法的遮擋人臉識別算法;基于稀疏表示方法的遮擋人臉識別算法[8]。第一類方法原理是從未被遮擋區域提取灰度值,進而對鄰域遮擋區域進行修復,該方法在小范圍遮擋情況下識別率較高,但在較大遮擋情況下識別成功率會大幅衰減。第二類方法原理是對各個區域的特征進行抽取,各自設置不同的權重,但由于加權過程本身具有隨機性,所以識別效果較難達到預期。第三類方法原理是利用機器學習方法,以無遮擋區域為基礎,對鄰域有遮擋區域進行估算,由于其噪聲敏感性強,對訓練樣本要求又非常高,所以應用可行性較差。第四類方法的原理是依據圖片的稀疏表示結果對其進行判別和分類,該方法對空間相關性的遮擋識別效果較好,但對于連續性遮擋的識別效果較差。
非受控場景下由于受到光照、遮擋和姿態的影響,人臉識別的效果無法保證,這三者也是導致非受控場景下識別效果差的最主要的3個因素。通常對于這3個影響因素分別進行處理,以期達到集成處理效果。由于人臉圖像采集場景受光照條件的影響,即便同一個人,在不同的燈光照射條件下成像效果也會有非常大的差別。對于光照影響的處理方式一般為通過光照補償預處理提升圖像人臉的可識別率,主流的光照補償預處理方法有以下幾種:(1)依托圖像再加工技術修正,例如直方圖均衡化處理,直方圖合規化處理,以及Gamma灰度校正處理[9];(2)依托光照模型修正,例如單尺度或多尺度自商圖像光照預處理[10];(3)子空間分析修正。對于遮擋和姿態變化的影響一般采用圖像合成重構手段來解決,具體常用方法有Mulit-View集成方法[11]以及3D建模重構的方法[12]。
基本的人臉圖像表示方法為通過提取圖像的所有像素點,并按照灰度值進行行列級聯向量表征。但對于非受控場景下的圖片,光照、遮擋和姿態等因素使得其圖像的灰度值變化非常大,如果直接進行像素點行列級聯表征,將會使得識別準確率迅速衰減,極不穩定。所以通常在非受控場景下一般都是采用捕捉圖像的基于頻域或者小波域的特征對人臉進行表示,比較重要的有傅里葉變換[13]、離散余弦變換[14]、離散小波變換[15]及Gabor小波變換[16]。人臉識別的最重要基礎,是對待檢測人臉特征的提取。在非受控條件下進行人臉識別,優秀的特征表征方法應當是能夠在外部環境影響和變化較大的背景下,依然能夠分辨出待檢測個體之間的本質差異,也只有魯棒性和健壯性都符合要求的表征手段才可能滿足非受控場景下多變的需求。

圖1 人臉識別主要階段框架流程圖Fig.1 Frame flow chart of the main phase of face recognition
主成分分析是一種統計方法,通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換后的這組變量叫做主成分。稀疏表示即如何通過最小數量的系數集合盡可能更多的描述信號的能量,也可以視為信息的容量。不同類型的信號,其在不同變換模式下系數的分布會不同。由于主成分分析的對象即主成分是數據變量的線性組合,當進一步需要對主成分進行分析和解釋時,便無法表示每一個主成分對應的具體特征。主成分稀疏表示方法便是為了解決此問題而演進得出的一個算法。它會把主成分系數稀疏化解,即對大量干擾系數進行辨識,并將其進行置零轉化,通過這一處理,主成分的核心部分就被顯性表示。
針對圖像識別領域,特別對于面向人臉檢測識別方向,將由同一個待測對象的多幅圖像組成一組列向量:
Ri=[ki,1,ki,2,…,ki,ni]∈Km×ni,
(1)
其中:m代表圖片的特征向量維度,k代表訓練集樣本列矢量集,待檢測對象的訓練樣本的全局矢量集可以按式(2)表示:
R=[R1,R2,…,RT]=[k1,1,k1,2,…,kT,nT]∈Km×M,
(2)


(3)
其中:s為低秩矩陣S的秩數。利用傳統主成分分析方法對R分析求解,理論上可以得到最優解,但實際情況比較復雜,矩陣D通常不滿足泊松分布,傳統主成分分析方法得出的結果就會有較大的偏差。對于待測圖像對象,這種偏差或誤差可以用稀疏矩陣表示,進而將問題演化為雙目標的優化求解:

(4)
但雙目標化帶來的直接后果將是高維復雜度,求解效率曲線陡降。為解決該問題,需要在低秩質量和稀疏誤差這一對關系相異的目標之間設置最優權重,權重參數由λ表示。于是求解過程演化為:
(5)
通過多次迭代演算,逐步收斂得到最優解。稀疏表示的最佳影射矩陣是按照向量的內聯緊密度及外聯疏散度來衡量的。訓練樣本集S由n個單獨樣本構成,樣本集中每個樣本的列向量表示為si,假設si屬于S的第x種類別,該類別中具備的樣本體量為tx。可將內聯緊密度定義為:

(6)
其中下列兩個集合序列:
Sx=[sx,1,sx,2,…,sx,nx]∈Km×nx,
(7)

(8)
為內聯稀疏密度,k代表內聯方式。內聯緊密度標的表示為:

(9)


(10)
其中下列兩個集合序列:
Sx=[S1,S2,…,St],
(11)

(12)
為外聯稀疏密度。外聯疏散度標的表示為:

(13)

對于非受控場景,受光照變化,遮擋頻繁,姿態表情多變等因素的影響,干擾成因復雜,數據噪聲種類和體量龐大,關鍵數據丟失嚴重。而正是由于各類不可控因素對非受控場景造成的影響,使得在這種情況下內聯變化的作用力遠超過外聯,這也將使得識別效果陡降。為提高非受控場景下人臉識別的準確度,提出了非受控場景下主成分稀疏表示與低秩分解算法相結合的方法。首先對待測樣本提取主成分,然后把主成分系數稀疏化解,置零轉化,獲取到樣本對象的主成分低秩矩陣以及稀疏誤差矩陣,再通過雙目標權重設置,迭代演算形成最終結果。
非受控場景下,光照對成像質量的影響特別明顯,在非均勻光照情況下,人臉中的關鍵特征信息難于捕捉提取,大量光影噪聲會對主成分辨識過程產生嚴重干擾。利用低秩分解對待測對象關鍵特征及稀疏偏差有較強的分離作用,對低秩矩陣進行離散濾波編碼,以增強光照情況下的圖像識別處理能力。設備成像處理過程較為復雜,光照變化較大時,落在待測對象,特別是人臉對象上關鍵信息點的像素值會有非常大的跳變。Lambert光照模型是光源照射到物體表面后,向四面八方反射,產生的漫反射效果,它是一種理想的漫反射光照模型。根據該模型的定義,待測對象特征點的像素值可以表示為P(u,v)=R(u,v)×S(u,v),其中R(u,v)為該點的光照向量,S(u,v)為該點的反射向量。一般情況下,光照向量用來表示待測對象點在光照影響下的全局像素信息,而反射向量則用來表示反映了待測對象點關鍵本質的紋理信息。由于待檢測人臉對象的光照向量變化趨緩,且關鍵特征并存于同級低秩空間,所以可以使用主成分稀疏表示與低秩分解對圖像主成分特征和光照影響噪聲進行低秩分離。由于在連續光照背景下的多幅面部成像之間進行低秩分量的分解,光照影響會被削弱,所以光照邊緣誤差也會降低,進而反射向量中面部關鍵信息會增多。對待檢測對象進行低秩分解,形成面部低秩矩陣圖像。以Ps作為面部對象P在(u,v)像素點上對應的像素值,由此可以得出:
(14)
式(15)為P(u,v)的低秩階梯增量:
(15)
式(16)為點位(u,v)的反正切階梯向位:
(16)
K=[ls1,ls2,…,lsx]為x張待測對象的集合,lp∈Sm(i=1,2,…x)為低秩階梯增量遞進拼接而成的m維向量。低秩分解終極目標就是對下式求最優解:
MinRank(R)+η‖Q‖0,s.t.K=R+Q,
(17)
其中:R為K的低秩光照向量,Q為K的稀疏反射向量。為了將問題線性簡化,可以對上面問題進行凸最優化處理,計算過程轉換為:
Min‖R‖*+η‖Q‖1,s.t.K=R+Q,
(18)
根據增廣拉格朗日乘子法(Augmented Lagrange multiplier,ALM)可以獲取上述凸最優化處理范式的目標范式:
MinRank(B),s.t.R=B×K.
(19)
上述計算過程及范式與初始低秩分解最優解范式一致,其中R為K的低秩光照向量,Q為K的稀疏反射向量。按照低秩階梯增量分解并按照光照向量與光照反射邊緣稀疏誤差相結合計算處理后,主成分稀疏表示與低秩分解算法表現出了較好的魯棒性。
同時,在非受控場景下,遮擋和表情變化對成像質量的影響也尤為顯著。雖然很多經典算法在人臉識別領域,特別是對臉部關鍵特征捕捉上,都有著不錯的表現。而一旦在非受控開放環境中,存在遮擋和表情變化的場景下,由于受噪聲污染的影響,識別效果魯棒性較差。非受控場景下主成分稀疏表示與低秩分解算法旨在將待檢測對象通過算法分解,分離出包含面部關鍵特征信息的低秩全局數據,以及涵蓋遮擋和表情變化等噪聲在內的稀疏誤差數據。對于非受控條件下存在遮擋和表情變化的場景中,對圖像處理最棘手也是最重要的問題,就是對待測高維圖像的降維,如何將包含多元復合信息的高維圖像數據投射到低維標識空間。主成分分析方法被公認為解決這一問題的最佳途徑,然而該方法受噪聲影響特別明顯,在這種非受控場景中,該算法執行分解后面臨的將是NP問題,需要再對其進行核范數轉化。對數據集當中的數據按照職能輕重劃分為關鍵數據集與關聯數據集,與內聯緊密度及外聯疏散度似而不同,它們可以分別進行訓練,并將分解結果直接用于對低秩子空間的初始化,并建立關鍵字典和關聯字典,從而高效精準的對主成分和干擾信息進行分類提取。
對不同人臉對象以及同一人在不同表情和遮擋程度情況下的分類,其本質上是相同的。在對人臉的關鍵點,例如雙眼,眉毛,鼻子,嘴巴,耳朵之間的歐氏距離的計算和對比,并增加內聯相關性作為正則表達式的附加項,將對識別效果產生積極的影響。訓練集中的所有圖片都需要被向量化處理為N個類別,單類別向量u可以用該類別的成員集合來表示:

(20)
其中:pi為第i列向量,pi∈Sz×1,S為全局向量集,z為行秩。這里假定每個單類pi映射于相同的秩空間,投射關系表示為Ui∈Sz×ki,單類別向量u向ki維的秩空間投射關系表示為Vi∈Ski×z,可以得出:
pi=UiViu,
(21)
設置非控場景噪聲項n∈Sz×1,上式演變為:

(22)
其中式(23)是互為稀疏誤差關系的組向量,其數值表示了u的具體分類:
[(V1u)I,(V2u)I,…(VNu)I,]I,
(23)
另外,增設了以下排除向量間的面部共性關鍵點的系數:

(24)
最終的目標范式可以定義為:

(25)

(26)
在訓練構建的基礎上,進一步整合優化目標范式為:

(27)
(28)
基于該主成分稀疏表示與低秩分解算法作用下,受控場景下存在表情變化和部分遮擋的情況可以得到較好的處理。
通過實驗驗證非受控場景下主成分稀疏表示與低秩分解算法對人臉識別的準確度。本實驗使用的是自構建基礎人臉庫NNUFD(NNU Gace Dataset)作為實驗數據源,實驗通過核心機房基礎信息系統平臺庫采集的數據為支撐,實驗環境基礎配置為:八核4.8 GHz×8CPU,256 GB內存,32TB硬盤,雙200 GB/s網卡的機架型服務器。虛擬機操作系統選擇了64位的Linux,虛擬機最大并發數為1 024臺,開發工具為PhCharm2018.2.5。NNUFD人臉庫是根據測試實驗對象而遴選的,該實驗中庫容量為404個人每人一張照片共404張照片,全部以正面光照良好的標準照為樣本構成的樣本集,并且來源均為同一采集環境,攝像器材、燈光、角度以及拍攝距離等均保持一致。同時,對基準樣本人臉庫的圖片均進行了統一裁剪,保持為180×240的一致像素。
本實驗結合課堂教學環境進行人臉識別效果的測評,因為課堂環境屬于非受控情況下具備較好排他干擾因素的場景,該環境特點是連續(待測對象大致位置確定)、光線陰影變化來源單一(正常情況下人員位置固定,光照影響情況突變性較小)、遮擋和表情變化情況簡單(主要為低頭、側臉、托腮等小范圍動作),混合干擾情況少(除了所在位置光照變化以及低頭托腮等動作,幾乎沒有其他遮擋和光線陰影變化因素)。圖2為基礎人臉庫NNUFD的部分示例,對課堂采樣照片通過主成分稀疏表示和低秩分解算法分割,并以基礎人臉庫為樣本進行匹配識別,并將未進行低秩分解的情況與低秩分解后的情況進行比較,以說明低秩分解與主成分稀疏表示方式相結合在非受控場景下所產生影響的重要性。表1給出了低秩分解前后5組實驗中識別率數據的比對。

圖2 基礎人臉庫NNUFD示例Fig.2 Example of base face library NNUFD

圖3 非受控場景下通過主成分稀疏表示與低秩分解算法的識別結果Fig.3 Recognition results of principal component sparse representation and low rank decomposition algorithm in uncontrolled scence
圖3為教室授課非受控場景下通過主成分稀疏表示與低秩分解算法的識別結果,將識別到并與基礎人臉庫NNUFD匹配的人臉進行框選,并將身份識別號(學號)顯性標識。分別針對是否疊加低秩分解和各類干擾因素設置了5組實驗,從實驗結果來看,在非受控場景下通過主成分稀疏表示疊加低秩分解的識別效果對光照變化影響的魯棒性較強,對遮擋情況受到的影響相對明顯。從不同實驗場景結果來看,光照陰影因素對該算法的識別效果干擾非常小,一旦存在遮擋,特別是嚴重遮擋情況,致使圖像呈部分不完整呈現時,識別效果陡降。從圖像中人臉位置角度比較,前排較近人臉和后排較遠人臉的識別率比較而言,該算法也具備較好的穩定性,識別效果沒有明顯的變化。表2給出了5組實驗中存在干擾和非存在干擾情況下,光照、遮擋和位置改變情況對實驗識別率所造成的影響。
表1 主成分稀疏表示與低秩分解疊加前后實驗效果比對
Tab.1 Comparison of the effect of the principal component sparse representation combine the low-rank decomposition superposition

實驗組序號是否進行低秩分解已進行低秩分解識別率/%未進行低秩分解識別率/%實驗組191.179.3實驗組290.579.5實驗組390.983.1實驗組490.976.9實驗組592.481.3
實驗在多種場景下進行了測試,測試結果顯示,總體識別正確率最高達到92.4%,而未結合低秩分解方法的情況下,總體識別正確率最高只能達到83.1%。由此可見,主成分稀疏表示結合低秩分解的人臉識別算法在非受控場景下達到了較好的效果。
除了對教室授課非受控環境進行了驗證,同時也對開放型非受控場景進行了實驗,主要通過校園監控,機房監控,宿舍閘機監控等調取的圖片進行了對比分析。所得到的實驗結果與教室實驗環境相比,識別正確率有一定的降低,這主要不取決于監控對象在照片中成像的進深,而是受到各種遮擋情況影響的概率較大所致。

表2 干擾因素對主成分稀疏表示與低秩分解疊加的影響Tab.2 Influence of interference factors on principal component sparse representation combine the low-rank decomposition superposition
本文使用基于主成分稀疏表示結合低秩分解的算法對非受控場景下的圖片進行人臉識別,基于場景圖片分解結果與基礎人臉庫進行比較得到匹配結果。實驗結果顯示,該方法可以有效的檢測到非受控場景下的人臉,同時總體識別正確率最高可以達到92.4%。該算法針對遮擋情況較嚴重的場景下識別正確率較低,作為應用型識別算法而言,普適場景下混合復雜模式的識別效果才是最終目的,這也是下一步該算法研究改進的方向。