編譯 西岸
2018年6月,在國際機器學習大會(ICML)上,一組研究人員展示了他們用3D打印出來的海龜。大多數人都說它看起來就像一只海龜,但人工智能(AI)卻不這么認為。很多時候,人工智能把海龜當成步槍。類似的,它將3D打印的棒球視為濃縮咖啡。這些是“對抗性攻擊”的例子——巧妙地改變圖像、物體或聲音,愚弄人工智能,卻沒有引起人類的警覺。
人工智能領域一些重大進步——尤其是機器學習算法,它可以在消化訓練數據集以后識別聲音或物體——促進了家庭語音助手和自動駕駛汽車的發展。但令人驚訝的是,這些人工智能很容易受到欺騙。在這次會議上,“對抗性攻擊”是一個熱門話題,研究人員報告了新型欺騙人工智能算法的方法以及新的防御手段。本次會議的兩個最佳論文獎之一授予了一項研究,該研究表明受保護的人工智能并不像它們的開發者想象得那么安全。麻省理工學院(MIT)的計算機科學家安尼施·阿塔伊(Anish Athalye)說:“我們在機器學習領域的研究人員還不習慣于從安全角度思考問題。”
研究對抗性攻擊的計算機科學家說,他們正在提供一種服務,就像黑客找到軟件安全缺陷一樣。麻省理工學院的計算機科學家亞歷山大·馬德里(Aleksander Madry)表示:“我們需要重新考慮機器學習算法的所有路徑,使其更加安全。”研究人員表示,這些攻擊在科學上也很有用,它們為研究人工智能提供了非常好的窗口,可以用來研究原本內部邏輯無法被透徹解釋的神經網絡。
這些攻擊因其不易察覺而引人注目。2017年,加州大學伯克利分校的計算機科學家唐恩·宋(Dawn Song)和她的同事在一個停車標志上貼了一些貼紙,愚弄了一種常見的圖像識別人工智能,使其誤以為這是一個每小時45英里的限速標志——這個結果肯定會讓自動駕駛汽車公司抓狂。

利用貼紙或其他難以察覺的元素,對抗性攻擊欺騙圖像識別算法,使其認為停車標志是限速標志,3D打印的烏龜是步槍
研究人員正在設計更加復雜的攻擊。即將到來的一場會議上,宋女士將展示不僅誤導圖像識別人工智能算法,而且使它們產生幻覺的技巧。在一次測試中,Hello Kitty出現在人工智能機器的街景視圖里,導致機器辨識不了街景里的汽車。
其中一些對抗性攻擊基于對目標算法內部結構的了解進行攻擊,即所謂的白盒攻擊。例如,攻擊者可以看到人工智能算法的“梯度”,它描述了輸入圖像或聲音的微小變化如何將輸出移動到一個辨識的方向。如果你知道梯度,你就能計算出如何一點一點地改變輸入以獲得想要的錯誤輸出——比如“步槍”的標簽——而不需要以改變輸入圖像或聲音等容易被察覺的方式。在更具挑戰性的黑盒攻擊中,對抗性AI必須從外部探測目標AI,并偵查目標AI的輸入和輸出。
人工智能開發者不斷加強他們的防御。一種技術是將圖像壓縮作為圖像識別人工智能的一個步驟。這增加了算法中平滑梯度的鋸齒性,挫敗了一些攻擊者。但道高一尺魔高一丈,這種“梯度模糊處理”的方法已經被破解。在ICML一篇獲獎論文中,加州山景城谷歌的計算機科學家尼古拉斯·卡利尼 (Nicholas Carlini)、阿塔伊和一位同事分析了最近人工智能會議中提及的9種圖像識別算法,其中7種將梯度模糊處理作為一種防御機制。該團隊能夠通過避開圖像壓縮等方法成功破解這7種算法。
一個更強大的方法是訓練一種具有一定約束的算法,以一種可驗證的、數學的方式,防止它被對抗性攻擊引入歧途。但這些可驗證的防御,其中有兩個就在ICML上被提及,到目前為止還沒有擴展到現代人工智能系統中的大型神經網絡中。
卡利尼希望開發人員除了關心如何使AI在基準測試中表現良好,還能夠更加深入地研究防御系統是如何工作的,以及可能失敗的原因。
資料來源 Science