錢煒
最近,一則純粹的娛樂新聞讓人覺得很有“科技含量”:演員趙薇的老公黃有龍被告上法庭。原因是有人買了他的房子,卻遲遲無法入住,因而上訴要求黃騰退房屋。可是,賣掉房子的卻不是黃有龍,而是他的司機。
司機為何能賣掉黃有龍的房產(chǎn)?原來,該司機冒充黃有龍,通過了公證處人臉識別系統(tǒng)的認證,辦理了委托公證證明,委托另一人將房屋賣掉。新聞里還有一個細節(jié):該人臉識別系統(tǒng)的廣告稱,該產(chǎn)品的識別率高于98.3%。
近年來,測顏值、算年齡的APP風靡朋友圈就不說了,阿里巴巴還推出了刷臉支付功能。今年4月,馬云就在德國漢諾威IT博覽會現(xiàn)場親自被“刷了一次臉”。毫不奇怪,人們都在憧憬這樣一個圖景:在可預期的未來,登錄網(wǎng)頁、上班打卡、遠程開戶都可以通過刷臉來實現(xiàn)。人臉似乎正在成為新時代的網(wǎng)絡通行證。然而,黃有龍的這則新聞卻為眼下正炙手可熱的人臉識別技術(shù)澆了一盆涼水,大家不禁起了疑問:傳說中那么神奇的人臉識別系統(tǒng)原來這么不靠譜?
其實,人臉識別并不算是什么新技術(shù),對它的研究最早可以追溯到上個世紀70年代,到1990年代后期,就已經(jīng)有人嘗試將相關(guān)產(chǎn)品進行實際應用,但由于準確率不能很好地保證,所以知名度并不高。直至最近兩年,大數(shù)據(jù)的出現(xiàn)使人工智能領(lǐng)域得到了前所未有的關(guān)注,人臉識別再度成為業(yè)界寵兒。一些學術(shù)大牛紛紛下海創(chuàng)業(yè),致力于產(chǎn)品化的圖像/人臉識別系統(tǒng)開發(fā),諸如谷歌、百度這樣的IT巨頭也忙不迭地建立起自己的圖像/人臉識別研發(fā)團隊。
人臉識別技術(shù)的這次突破,歸功于機器學習算法的發(fā)展與計算硬件的革新。自2011年以來,深度學習已經(jīng)成為人臉識別技術(shù)的標配。
作為一個新興學科,機器學習專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,以及重新組織已有的知識結(jié)構(gòu),使之不斷改善自身性能。機器學習的早期實例,可以通過1959年的一個案例來理解:當時,美國人塞繆爾設(shè)計了一個下棋程序,這個程序具有學習能力,可在不斷的對弈中總結(jié)勝負模式,改善自己的棋藝。四年后,這個程序戰(zhàn)勝了設(shè)計者本人。又過了三年,這個程序又戰(zhàn)勝了美國一個保持八年之久的常勝不敗的冠軍。
深度學習的概念由杰弗里·辛頓(Geoffrey Hinton)等人于2006年提出,源于對人工神經(jīng)網(wǎng)絡的研究,它的含義是,通過組合低層特征而形成更加抽象的高層屬性類別或特征。而作為深度學習的基礎(chǔ)的神經(jīng)網(wǎng)絡,其實也不是什么新概念,它自上世紀五六十年代出現(xiàn)至今,經(jīng)歷了一個波折的發(fā)展歷程。由于實際應用要求的算法精度需要復雜的網(wǎng)絡支撐,而網(wǎng)絡復雜度的提升則要求訓練數(shù)據(jù)的規(guī)模不斷加大,以及計算量相應的迅速增長,因而,過去硬件的局限性,在很大程度上限制了神經(jīng)網(wǎng)絡的進一步應用。直到近年來,隨著高性能GPU(圖像處理器)的問世以及云計算、計算機集群等技術(shù)的涌現(xiàn),神經(jīng)網(wǎng)絡才逐步從夢想照進現(xiàn)實。
2012年6月,《紐約時報》披露了“谷歌大腦”項目,引起公眾關(guān)注。這個項目由當時斯坦福大學的機器學習教授吳恩達和在大規(guī)模計算機系統(tǒng)方面的專家杰夫·迪恩(Jeff Dean)共同主導。他們模仿人腦神經(jīng)結(jié)構(gòu),將16000個中央處理器并行連接起來,形成當時世界上最大的計算機集群,訓練一種稱為“深度神經(jīng)網(wǎng)絡”的機器學習模型,在語音識別和圖像識別領(lǐng)域獲得了成功。
黃有龍賣房的爭端,不是人臉識別技術(shù)第一次引發(fā)疑問。早在2007年,國內(nèi)一家公司就曾聲稱,他們研發(fā)的面向2008年北京奧運會的人臉識別系統(tǒng),可通過辨識骨骼來辨識人臉,識別的準確率高達99.99%。
該公司的這一說法引起了業(yè)界的注意。當時,以研究人臉識別技術(shù)而著稱的清華大學教授蘇光大與中科院自動化所研究員李子青都直言,所有的人臉識別系統(tǒng)都基于可見光或紅外光,不可能識別人體骨骼。此外,所謂識別的準確率可高達99.99%,也是不可能的。
關(guān)于彼時的人臉識別技術(shù)準確率究竟能達到多少,中科院計算所研究員、如今已是該所人臉識別研究組組長的山世光有過論述。他指出,經(jīng)過40多年的發(fā)展,人臉識別技術(shù)已經(jīng)取得了長足的進步。然而,這并不意味著人臉識別技術(shù)已經(jīng)非常成熟,恰恰相反,因為更多的人臉識別應用需要在更大規(guī)模人臉庫、攝像環(huán)境不可控、用戶不配合的情況下使用,所以目前最好的人臉識別系統(tǒng)在識別時的正確率只能達到75%以下,驗證系統(tǒng)等錯誤率達到10%以上。

圖/GETTY
山世光提到的識別與驗證,是人臉識別系統(tǒng)的兩大應用場景。識別,即將攝像機拍攝到的人臉與系統(tǒng)內(nèi)的數(shù)據(jù)庫一一進行比對,辨認受試者的身份。認證則是將采集到的人臉特征與系統(tǒng)里指定的某人臉數(shù)據(jù)進行比對,以判斷采集到的數(shù)據(jù)是否與系統(tǒng)數(shù)據(jù)相符合,即驗明正身。
時至今日,由于深度學習大幅提升了人臉識別系統(tǒng)的性能,國內(nèi)外的人臉識別系統(tǒng)研發(fā)團隊在國際權(quán)威人臉數(shù)據(jù)庫LFW(Labeled Faces in the Wild)中的認證測試準確率屢刷新高,開始了一場你追我趕的賽跑。
此前,谷歌與臉書(facebook)一直在LFW測試中保持著優(yōu)勢地位。2014年3月,來自中國的Face++創(chuàng)業(yè)團隊以97.27%的準確率搶占第一,領(lǐng)先臉書0.02個百分點。很快,2014年6月,香港中文大學教授湯曉鷗團隊開發(fā)的一個名為DeepID的深度學習模型,在IFW上獲得了99.15%的準確率。2015年6月,騰訊優(yōu)圖團隊又以99.65%的成績刷新了這一紀錄。而就在最近,百度以99.77%的成績成為這場競爭新的領(lǐng)先者。
實際上,即使是LFW數(shù)據(jù)庫上認證測試的高準確率也并不能說明什么。山世光曾在2015年6月底的一個論壇上直言,盡管一些公司宣稱自己的人臉識別系統(tǒng)的識別率(包括認證率)達到了99%,然而,即使一套識別系統(tǒng)的性能很差,人們也可以“造出”一個人臉數(shù)據(jù)庫,保證該系統(tǒng)在這個數(shù)據(jù)庫上的識別率高達99%。他再次重申,如果不指明測試用的人臉數(shù)據(jù)庫的規(guī)模包括人數(shù)和圖像量、拍照環(huán)境(如光照變化)、測試庫中圖片的質(zhì)量(如分辨率和噪聲指標)、以及拍照時的人臉姿態(tài)和表情變化等情況,單純看識別率指標的高低是沒有意義的。
盡管人臉識別技術(shù)有了較大進步,北京航空航天大學計算機學院研究模式識別的黃迪博士指出,無論是對人臉的識別還是認證,萬能的系統(tǒng)是不存在的,需要對應用場景進行較為明確的定義,否則準確性就會大打折扣。此外,刷臉支付依然存在較大風險,除了上述那些風險因素,人臉識別系統(tǒng)是否具備活體檢測功能,也是一個有待解決的問題。否則,如果有人舉著一張你的照片冒充你去系統(tǒng)認證,系統(tǒng)也照樣會通過。黃迪補充說,指紋的身份認證也容易造假,例如,在網(wǎng)上買一個指紋套就能輕松模仿別人的指紋。相比而言,虹膜識別的準確性最好,但虹膜識別一般需要近紅外設(shè)備,而且它與手機、平板電腦等便攜式智能終端的融合度目前還較低。因此,生物識別的這三大模式目前還各有局限。
黃迪說,“人臉識別技術(shù)的應用前景是很好的,只是沒有像現(xiàn)在傳說的那么神乎其神罷了,目前的熱炒確實有一些泡沫。”