胡巍巍

《紐約時報》報道稱Fawkes 可以避免ClearviewAI 濫用用戶照片做人臉識別
近日,23 歲的北京小伙單思雄,聯合幾位同學開發出一款 AI 對抗學習系統——Fawkes。這位即將在芝加哥大學攻讀直博的九五后表示,Fawkes 開源一月以來,已在 GitHub 上獲得10多萬次下載量、以及 2600 多顆加星認可。
目前,單思雄以第一作者身份撰寫的 Fawkes 的研究論文《??怂梗罕Wo隱私免受未經授權的深度學習模型的侵害》已經被安全頂會 Usenix Security 2020 錄取。他表示, Fawkes 誕生于此時,有著很大的時間窗口意義。
2020 年初,一家名為 Clearview AI 的公司,非法抓取 Google、Twitter、Facebook 和 YouTube 上的人臉照片,創建超 30 億張照片的面部識別數據庫,并通過出售算法牟利。丑聞曝光后,輿論嘩然,該公司也成為眾矢之的。
事實上,不管在國內還是國外,你的照片都有可能被扒下來當作“小白鼠”,去訓練機器學習模型。為解決上述痛點,在芝加哥大學 SAND 實驗室兩位華人導師趙燕斌和鄭海濤的指導下,單思雄和其他三位同學,一起開發出 Fawkes。該命名也是對黑客團體“匿名者”廣受歡迎的蓋伊 · ??怂姑婢叩闹戮础?/p>
以單思雄的照片為例,Fawkes 的價值在于可以讓用戶修改照片,這種修改并不是美圖軟件的 “換頭式” 修改,而是肉眼看起來和原圖一模一樣,但人臉識別系統卻能識別這種細微差別。

Fawkes 修改后的英國女王前后對比圖
再以英國女王的照片為例,左圖為原圖,右圖為 Fawkes 修改后的照片,肉眼幾乎看不出區別,但這種區別卻可以被機器識別。
那么,以后你再往朋友圈發照片,就可以用 Fawkes 修改過的照片,不僅看起來和真人毫無區別,而且還更安全。因為被 Fawkes 修改過的照片,即便被人扒走去做模型,實際上也并非真正意義上的你的照片。對于機器來說,那只是一張和你長得很相似、但其實并不存在的人。
該論文表示,在曠視 Face ++、微軟 Azure Face、亞馬遜 Rekognition 等面部識別服務上,Fawkes 取得了“100% 的成功”。
單思雄表示,機器學習早已變得炙手可熱,大家只要有臺電腦,會一點 GPU,會一點代碼,就可以建一個機器學習模型。
越來越方便的同時,也會給用戶安全帶來巨大威脅。而 Fawkes 的意義在于,它是反著來,即讓機器學習模型變得不準確,這樣就不能識別出用戶的臉。
Fawkes 使用到的主要技術是對抗學習,即在圖片上加一些很小的噪音,這里的加噪音指的是修改像素。
在實驗上,單思雄主要是在電腦上跑代碼,編程主要使用 Python 語言,以及深度學習框架 TensorFlow;數據集主要是圖片,此外還有 GPU 等硬件。
在分工上,單思雄和四位作者每人做一塊實驗,比如他去跑亞馬遜的 API,其他人去跑微軟或者曠世的 API。
跑完代碼,單思雄又對亞馬遜、微軟和曠識的人臉識別系統做測試。測試顯示,上述系統均無法識別出用 Fawkes 修改后的照片到底是誰,這意味著 Fawkes 成功誕生。
這里舉例解釋一下 API,如果一家公司想給大門裝上人臉識別系統,并且找到亞馬遜來做這件事,那么該公司就會把員工照片給亞馬遜,后者會幫該公司建一個模型,建好后模型就能在公司大門口做人臉識別。
而單思雄團隊也用了一個和人臉識別大門相似的系統去存放各種圖片,假如你的照片是被 Fawkes 保護的,并且沒有被人臉識別系統識別出來,就等于保護成功。
Fawkes 開源之后,部分網友表示難以相信。怎么可能只改幾個像素,就完全讓一個人臉識別系統無法識別?其實這里面涉及到的正是對抗學習,之前業界已經有很多研究。
大家都知道 AI 可以變得更智慧,但智慧的事物沒有遇上好心腸的人,反而會傷害用戶。而 Fawkes 所做的事情,正是要對抗這種可能存在的傷害,即跟 AI 系統的過分靈敏做對抗。
具體來說,Fawkes 只是把左圖變成右圖的一個工具。你有一個 A 圖,Fawkes 就可以算出 B 圖,盡管 A 圖和 B 圖的差別非常細微,但是當前廠商的人臉識別系統,會認為 A 圖和 B 圖不是同一個人,這樣就可以保護用戶隱私。
本次研究的優點在于,之前的對抗學習研究,只對一個特定人臉識別有用,而 Fawkes 對幾乎所有的人臉識別系統都管用。
如下圖所示,盡管 Fawkes 修改像素后,可以讓人臉識別系統,把熊貓識別為長臂猿。但是相比人眼感知仍有一定舉例,也就是在人眼看來,下面的前后對比圖似乎沒有改變,這是因為 Fawkes 的噪音,對人眼視覺的影響很小,但是對機器模型的影響很大。

本次論文的四位作者和兩位導師,左上為單思雄
Fawkes 增加噪音的方法,是稍微修改圖片像素,比如把照片上眼睛部位的像素調低一些,具體調整多少,是根據算法算出來的。最終實現的效果是,僅僅修改一小部分像素,就能給模型帶來影響。
該團隊還使用演員帕特里克 · 登普西的臉部照片作為對象,細微改變了女演員格溫妮絲 · 帕特洛的圖像,這阻止了人臉識別來識別隱身圖像中的格溫妮絲 · 帕特洛的可能。
Fawkes 的使用并不復雜,當你想在微信朋友圈發照片時,把原圖在 Fawkes 上跑一下,讓其修改幾個像素后再發到網上,這樣別人就不能用你的圖片去訓練模型。
在應用方面,Fawkes 團隊也坦誠,要使該軟件真正發揮作用,就必須更廣泛地發布。出于安全考慮,他們并不打算為 Fawkes 開發網站或 App,但他們希望像 Facebook 這樣的公司,可以將類似技術集成自家平臺,從而更好保護用戶的使用安全。目前,Fawkes 團隊已經收到個別公司的合作意向。

修改像素后的熊貓會被識別為長臂猿
該項目立項之時,正好是 2020 年初,當時 Clearview AI 的丑事被媒體曝光。用戶也開始擔憂在網上發照片的危害,而 Fawkes 恰在此時立項,并在半年后做成,正好可以滿足用戶的剛需。
不過,Fawkes 也并非絕對完美,它無法對使用未更改圖像構建的模型進行任何處理,例如,Clearview AI 等公司和執法機構已經擁有的圖像。
Clearview AI 的首席執行官 Hoan Ton-That 了解該技術后表示:“互聯網上有數十億張未經修改的照片,它們都使用不同的域名?!?“實際上,完善 Fawkes 之類的技術并大規模部署它幾乎為時已晚?!?/p>
但單思雄的導師趙燕斌回應稱:“雖然該公司掌握了大量數據,但是分到每個人的頭上,只有幾張。大家現在慢慢開始用 Fawkes 之后,保護的照片會遠遠大于該公司原有的照片,從而導致 Clearview 的識別失靈?!币虼耍藗兛梢詮默F在開始,使用 Fawkes 來保護那些想要上傳的個人照片。
生于 1997 年的單思雄,今年 23 歲。高中時,他在北京十一中學讀書,高三參加美國高考,考入芝加哥大學學習 AI 安全和 AI 隱私。
他的主要指導老師正是前文的趙燕斌教授和鄭海濤教授,兩者均為《麻省理工科技評論》 “35 歲以下科技創新 35 人” 榜單(TR35)的上榜者。
單思雄和兩位導師的結識,開始于大二期間。當時,趙燕斌從加州大學圣塔芭芭拉分校,來到芝加哥大學履新。由于之前就聽說過趙燕斌,所以他就主動跟后者聯系。在接觸中,他發現趙燕斌在教學上很熱心,研究過程中遇到問題,可以立馬拉上他開會,開完會就立馬解決,效率之高令人咂舌。趙燕斌講解問題也很細致,而且善于啟發學生,讓學生主動去琢磨。
未來,單思雄攻讀直博期間的導師之一,仍是趙燕斌。截止目前,他在本科期間,累計發表6篇論文。2019年 11 月,他的另一篇對抗學習的論文,已經被 CCS 2020 錄用。擺在這位中國小伙面前的,是未知且更有意義的 AI 研究之路。(摘自美《深科技》)(編輯/萊西)