梁元鍇
摘要:根據人臉數據庫發展至今的歷史,劃分了人臉數據庫發展的2個主要歷史時期,介紹了這2個歷史時期中一些典型的人臉數據庫,以此歸納出這2個歷史時期中人臉數據庫的主要特點。通過列舉人臉數據庫在不同歷史階段發展時產生的變化并加以分析,總結出了這些變化發生的原因。同時還依據人臉數據庫發展的特點,提出了一些未來可能出現并發展的人臉數據庫及其使用方法。
關鍵詞:人臉數據庫;人臉識別;發展趨勢
中圖分類號:TP392文獻標志碼:A文章編號:1008-1739(2021)04-64-4
0引言
如中科院計算所著名研究員山世光所說:“人臉識別技術史本質是測評人臉庫更替史”。人臉數據庫的核心功能是供人臉識別技術進行算法性能的分析和測試。其中,人臉識別技術是人臉識別、人臉檢測、關鍵點識別等檢測技術的統稱。人臉數據庫的發展歷史大致可以劃分為2000年以前和2000年以后2個發展階段,本文將對這2個階段的典型人臉數據庫進行分析和對比,說明它們之間的差異以及產生差異的原因,并展望人臉數據庫未來可能的發展。
1早期人臉數據庫
早期的人臉數據庫是指產生于2000年以前的人臉數據庫。一般認為,對人臉識別的研究始于1964年Bledsoe和Chan[1]于Panoramic Research Inc上發表的一份關于人臉自動識別的報告。1964-1990年,人臉識別的發展較為緩慢,且被視為一般的識別問題。此階段的處理方法包括基于剪影分析的人臉識別、基于人臉低維表示的人臉識別[2]等方法。
1990年初,美國吸引了大量面部識別領域的專家參與人臉識別研究,激發了全球范圍內一批典型人臉數據庫的產生,這一時期的人臉數據庫突出顯示了早期人臉數據庫的特點。
1.1 ORL人臉數據庫
ORL人臉數據庫是典型的用于進行人臉識別測試的人臉數據庫,內含來自40名對象,每人10張,共400張的256級灰度人臉圖像,均為PGM格式,大小均為92 pixel×112 pixel。這些人臉圖像拍攝時的表情、面部細節、光照條件各異,所有圖像中的人臉位于圖像正中,占圖片整體面積比例較大,有些圖像中的人臉有一定程度的側向偏移。
ORL人臉數據庫中的人臉受到了較強的限制,如人臉在圖像中的位置和比例、被攝者的拍攝姿勢、面部偏轉角度等變化較少,因而適用于一些基于圖像分割的人臉識別算法[3-4],例如連續密度隱馬爾可夫模型法[5]。此類方法較依賴人臉數據庫中人臉圖像的自然特性,遷移性較差。ORL人臉數據庫是早期人類數據庫中格式規范化的典型代表。
1.2 FERET人臉數據庫
FERET人臉數據庫是自1994年起逐步建立的人臉數據庫,內含超過14 000張在不同姿態、光照條件下拍攝的,來自近1 200名被攝對象的灰度人臉圖像。FERET人臉數據庫中的一些圖像是相同對象在不同時間拍攝的,這些圖像被稱為“重復集”。重復集的提出意味著人臉數據庫在建立時首次考慮了時間這一被識別對象的外觀變化尺度。
FERET人臉數據庫擁有相較于同時代產品大得多的樣本量,已初步具有近期人臉數據庫大容量的特點,成為了具有相對客觀評價測試能力的人臉數據庫,但對被攝對象仍限定較多。故FERET人臉數據庫可被視為早期和近期人臉數據庫的分界。
早期的人臉數據庫被攝者人數較少、拍攝環境布置刻意、被攝者配合,導致人臉圖像的格式統一,因而適用的識別算法一般只在較為理想的環境下表現良好,實際應用價值較低。
2近期人臉數據庫
人臉識別技術于2001年首次被用于大規模犯罪分子搜查活動,標志著人臉識別正式轉化為具有經濟社會價值的技術。此階段逐漸產生了包括人臉檢測、人臉關鍵點檢測、情緒識別在內的不同類型、多種側重的人臉識別算法需求。
2.1 Wider Face人臉數據庫
Wider Face人臉數據庫[6]適用于進行人臉檢測測試,其中包含3萬多張大小為1024 pixel×1024 pixel的彩色圖片,共計有約40萬張人臉,且其中大量的人臉尺度較小。圖片中的人臉幾乎均有標注,其中最小者可至10 pixel×10 pixel。
Wider Face人臉數據庫是目前難度最大的人臉檢測測試集之一。該人臉數據庫中的人臉圖片基于61種事件類型進行分類,同時包含了姿態、遮擋、化妝、光照及模糊等各類人臉識別難點。
從屬于每種類型事件的圖片被隨機分為訓練集、驗證集和測試集,占比依次為40%,10%,50%,其中測試集未對人臉進行標注,需將測試結果交由官方比對,保證了檢驗結果的公正性。
Wider Face人臉數據庫中的圖像劃分為Easy,Medium,Hard三個檢測難度,一些典型算法在這3種難度下識別的準確率[7]如圖1所示。
2.2 FRGC人臉數據庫
FRGC人臉數據庫[8]基于FRGC項目產生,用于人臉識別,其中的50 000張人臉圖像于2002-2004年間采集。在FRGC人臉數據庫的一個圖像組中,含有同一被攝對象的4張在限制條件下的圖像、2張非限制條件下的圖像和1張三維圖像,其中三維圖像包括三維形狀信道和紋理信道,如圖2所示。
FRGC人臉數據庫中的圖像分為訓練集和驗證集,其中訓練集包括一個靜止訓練集和一個三維訓練集。前者包括來自222名被攝者的6 388張受限靜態圖像和6 388張非受限靜態圖像;后者是來自943個主題的圖像集(包括三維掃描圖像以及對應的受限和非受限靜態圖像)的圖像構成的,可用于訓練三維或三維到二維算法的訓練集,驗證集由來自466個主題的4 007個圖像集構成。
2.3 LFW人臉數據庫
LFW人臉數據庫[9]適用于人臉識別測試,含13 000多張圖像,來自互聯網上的超過5 700名國外名人,其中有1 600多人在LFW人臉數據庫中有2張及以上的圖像,剩下約4 000人只有1張。所有圖像的格式均為250 pixel×250 pixel的JPEG圖像,大多數為彩色。
LFW人臉數據庫中的人臉幾乎不受任何限制(唯一要求是可被典型的Viola-Jones檢測器識別)。其中被攝對象有性別、種族、年齡、裝飾等區分,圖像中的人臉有不同的姿態、光影條件、背景等區別,甚至一張圖片中會有多張人臉(只有包含圖像中心像素的人臉會被標記)。
使用LFW人臉數據庫時,一般從中抽取6 000對人臉對(其中約3 000對來自同一名人物,其余則不然),再逐次輸入一對人臉對,由識別算法判斷是否為同一人,即可計算算法的判斷準確率。這種方法簡單易懂,而由于LFW人臉數據庫對包含其中的人臉圖片要求很少,幾乎沒有規律可循,故算法測試一般能取得較好效果。
3不同時期典型人臉數據庫產生的變化及原因
3.1近期人臉數據庫相對于早期人臉數據庫產生的變化
3.1.1人臉圖像的質量提升
相較于早期人臉數據庫,近期人臉數據庫質量的提升主要體現在:
①圖像的數量大量增加:近期人臉數據庫內所含圖像數量一般為10 000~50 000張。
②被攝對象特征更加多樣:近期人臉數據庫一般為數百人到數千人,被攝對象本身的特征更加多樣,除神態、表情、姿勢等方面外還出現了膚色、發型、圖案、特定裝飾等更多樣的人臉特征。
③清晰度顯著提升:近期產生的人臉數據庫,如Wider Face人臉數據庫中的圖像大小與ORL人臉數據庫相同,但達到了1 024 pixel×1 024 pixel。
④由灰度圖像為主變為彩色圖像為主:近期的人臉數據庫中的人臉圖像多為彩色,被攝對象的特征更加明顯[10]。3.1.2人臉圖像的理想程度降低
早期人臉數據庫中的人臉被嚴格控制,使得人臉在圖像中處于自然分布,導致其中圖像與實際應用場景有較大不同。多數近期的人臉數據庫中人臉的放置更貼近實際場景,特殊化處理較少,如Wider Face人臉數據庫。
3.1.3滿足的識別需求類型更加多樣化
針對某種特定的目的或需求,近期人臉數據庫的設計性更強。設計性的增強不代表對人臉的限制性增強,體現在圖片的數量和某一類圖片在人類數據庫中所占的比例上等非圖像本身的屬性進行規劃,而限制性體現的是對人臉的控制。
3.1.4提供者對人臉數據庫的后續更為關注
近期人臉數據庫的提供者對人臉數據庫的更新更加頻密,例如LFW人臉數據庫會不定期更新,更新消息將會被發布于官網[11],甚至出現了由商業公司提供并維護的人臉數據庫,如BioID人臉數據庫。
3.2變化產生的原因
3.2.1技術條件的提高
主要有計算機儲存容量和計算能力的提升、圖像處理技術的發展[12]和資源獲取手段的增多3個方面。
近年來互聯網的迅猛發展、公共社交平臺與新興媒體的興起拓寬了數據庫的樣本,特別是非限制場景下樣本的來源。同時,拍攝工具輕便化和拍攝結果的優質化提高了非限制場景,特別是偶發場景下所拍攝圖像的可用性。
3.2.2高效而通用的識別算法的提出和發展
1990年前,人臉識別建模方法主要是基于人臉本身特征的方法;1990-2000年主要是基于線性子空間的距離比較或統計學方法;2000年后,光照錐技術、支持向量機等方法出現[13]。2006年出現的深度學習,至今仍是主流人臉識別方法。總體上看,提出時間越晚的算法往往有越高的識別能力和效率,使得一些早期人臉數據庫的使用價值被挖掘殆盡,如ORL人臉數據庫和FERET人臉數據庫的首選識別率均已達到99%[14]。近年來,基于深度學習,FRGC人臉數據庫和LFW人臉數據庫也正在接近使用價值上限。
另一方面,適用于人臉識別的算法的通用性增強,可應對非限制條件,這是人臉識別具備實際應用價值的基礎條件。
3.2.3人臉識別等技術應用場景的增加
伴隨人臉識別技術與產業經濟的日漸融合,人臉識別技術的應用場景隨之多樣化。例如,在身份識別這一應用領域,利用了人臉檢測、人臉識別及人臉關鍵點識別等技術。身份識別還可細化地應用于人口出入境管理、嫌疑人身份鑒別、敏感人物動向監視、游戲自動登錄、家政機器人服務對象識別等方面,每一個細化方面對人臉識別技術的精準度、正確率和反應速度等都有不同要求。
3.2.4研究氛圍的改善
人臉識別技術已廣泛受到各大高校和研究所的重視,研究人臉識別技術的氣氛相較早些年更加濃厚。同時,人臉識別技術的商業價值也吸引了商業公司的注意,為人臉識別研究提供了資金來源。
4人臉數據庫的發展方向
4.1針對復雜運動對象的人臉數據庫
在一個人群密度較大且不斷運動的場地中,試圖捕捉一個特定對象的運動軌跡,則目標對象的人臉會產生正向、側向乃至背向的變化,并會被遮擋。對動態視頻,可以將其分解為靜態圖像來處理,但這可能導致一些問題:運動中的人臉在靜態圖像中會呈現較嚴重的晃動和模糊、人臉在運動中發生的改變(如佩戴眼鏡)可能影響識別結果和目標的隱匿會使識別出的運動路徑失去連貫性。
因此,可建立一個以視頻為人臉圖像主要載體的人臉數據庫,其中包含一定數量被捕捉對象的人臉在復雜環境下發生偏轉、特征改變和被遮擋等運動的視頻。
針對此人臉數據庫,一種建模方法為:將被捕捉對象的人臉視為三維空間中的結構,將人臉的移動視為結構的位移,將采樣工具捕捉到的人臉視為結構在平面上的投影。此過程中需對人臉進行特征點檢測,利用特征點之間的角度變化來判斷人臉的運動方向,并以結構運動的連續性確保人臉運動的連續性,保證人臉不因佩戴裝飾物而改變識別結果。
目前,已有基于動態對象的人臉數據庫被建立,如COX人臉數據庫,但其更側重人臉運動時的遠近與角度變化,較少考慮人臉中移動的遮擋問題。
4.2基于相似人臉的人臉數據庫
相似人臉在大樣本人臉數據庫中出現概率較大,是人臉識別尚未突破的難點。鑒于相似人臉在實際應用場景中的低比例,可先對待識別的人臉樣本做一般識別,將被識別為同一人的樣本歸為一類,再額外檢驗是否發生了相似人臉的誤判。
對于額外檢驗算法的訓練,可以在基于相似人臉的人臉數據庫中錄入一定數量的相似人臉圖像對,并標注2幅圖像是否為同一人。在使用該人臉數據庫時,只需隨機抽取一定數量的人臉對,交由算法做出判斷,并以正確率作為訓練指標。
4.3模糊特征的人臉數據庫
在實際應用場景中,若要求算法在短時間內學習并識別大量的人臉(如快速學習并尋找某人群聚集場景中的嫌犯),而在其訓練和測試中使用的圖像細節過多,則會降低效率。
為訓練具有快速模糊特征檢測機能的算法,可建立模糊特征的人臉數據庫,其中包含大量的人臉圖像及對應的壓縮模糊圖像。壓縮方式為,對待檢測圖像進行適當的模糊,僅保留人臉大體特征,如毛發特征、五官大致大小比例和距離比例等。在對比檢測過程中,當2張模糊人臉的相似度超過某一閾值時再利用高清晰度人臉圖像進行細節對比。
5結束語
通過對不同時期提出的典型人臉數據庫特征的分析對比,提出未來人臉數據庫將向容量更大、圖像質量更高、信息種類更豐富、目的性和設計性更強以及維護更專業的方向發展,也據此為將來人臉數據庫的設計及利用提供了一些可行的途徑。
參考文獻
[1] BLEDSOE W W, CHAN H. A Man-Machine Facial Recognition System: Some Preliminary Results[C]//Technical Report, PRI 19A.Palo Alto: Panoramic Research Incorporated,1965: 1-10.
[2] SIROVICH L,KIRBY M.Low-dimensional Procedure for the Characterization of Human Faces[J]. Journal of the Optical Society of America,1987,4(3):519-24.
[3] SAMARIA,FS. Face Recognition Using Hidden Markov Models[D]. Cambridge: University of Cambridge,1995.
[4] BALLOT J S S. Face Recognition Using Hidden Markov Models[D]. Matieland: University of Stellenbosch,2005.
[5] SAMARIA F S,HARTER A C. Parameterisation of a Stochastic Model for Human Face Identication[C]//Sarasota(Florida):Proceedings of the 2nd IEEE Workshop on Applications of Computer VisionSarasota:IEEE, 1994:138-142.
[6] ANON.IEEE Conference on Computer Vision and Pattern Recognition(cvpr 2020)[J].智能系統學報,2019,14(6):1137.
[7] WIDER FACE: Results [EB/OL]. (2015-11-19)[2020-5-10]. http://shuoyang1213.me/WIDERFACE/WiderFace_Results. html.
[8] PHILLIPS P, FLYNN P, SCRUGGS T, et al. Overview of the face Recognition Grand Challenge[C]// Computer Society Conference on Computer Vision and Pattern Recognition, 2005:947-954.
[9] HUANG G B, RAMESH M, BERG T, et al. Labeled Faces in the wild: A Database for Studying Face Recognition Inunconstrained Environments[C]//Technical Report, University of Massachusetts,Amherst,2007.
[10] WILDER J, PHILLIPS P, CUNHONG J,et al.Comparison of Visible and Infra-red Imagery for Face Recognition[C]// 2nd International Conference on Automatic Face and Gesture RecognitionKillingtan:IEEE, 1996:182-187.
[11] The BioID Face Database [EB/OL]. (2020-3-17)[2020-5-23]. https://www.bioid.com/facedb/.
[12] KUMAR P, PARMAR A. Versatile Approaches for Medical Image Compression: A Review[J]. Procedia Computer Science,2020,167(1):1380-1389.
[13]山世光.Deep Models for Face Processing with "Big" or"Small" Data[R].北京:北京郵電大學,2015.
[14]山世光.深度化的人臉檢測與識別技術—進展與展望[R].太原:中國計算機學會,2016.