999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

針對深度學習模型的對抗性攻擊與防御

2021-06-04 00:23:24李明慧江沛佩
計算機研究與發展 2021年5期
關鍵詞:深度方法模型

李明慧 江沛佩 王 騫 沈 超 李 琦

1(空天信息安全與可信計算教育部重點實驗室(武漢大學) 武漢 430072) 2(武漢大學國家網絡安全學院 武漢 430072) 3(智能網絡與網絡安全教育部重點實驗室(西安交通大學) 西安 710049) 4(西安交通大學電子與信息學部 西安 710049) 5(清華大學網絡科學與網絡空間研究院 北京 100084)

隨著移動互聯網飛速發展、硬件設備持續升級、海量數據產生和算法不斷更新,人工智能(artificial intelligence, AI)的發展已勢不可擋,正逐漸滲透并深刻地改變著人類生產生活.深度學習(deep learning, DL)技術及其應用的發展令人矚目,使強人工智能離人類生活越來越近.目前,基于深度學習的智能技術被廣泛應用在人機交互、視覺處理、智能決策、自治系統、推薦系統、安全診斷與防護等各個領域.

目前,以深度學習為主要代表的人工智能開始進入產業化開發與深耕階段,促進了各個領域的深刻變革.例如,深度學習驅動的數據分析技術已經從根本上改變了現有的視頻監控、醫療健康和金融管理等系統的開發和應用.在安全領域,最新的檢測防護系統能夠利用深度學習技術從大規模數據資源中快速準確地提取出有用的可執行信息.

盡管深度學習被認為是深刻改變人類社會生活、改變世界的顛覆性技術,但是與任何一種先進技術發展和應用的過程類似,當面向用戶的服務越來越成熟,客戶資源逐漸增長,最終安全性會成為進一步廣泛部署人工智能系統的最大挑戰.

以深度學習為代表的人工智能技術,至今仍然是一個黑匣子.目前對深度學習模型的內在脆弱性以及針對其弱點設計的對抗性攻擊技術的理解尚不充分,需要基礎理論揭示深度學習背后的機理.但是深度學習模型參數規模大、結構復雜、可解釋性差,對于對抗性攻擊的生成機理分析十分困難.針對這些問題,目前已有相關研究嘗試對各種對抗性攻擊的作用機理進行解釋[1-41].其次,深度學習框架在軟件實現中不斷暴露出新的漏洞,對抗性攻擊的惡意樣本生成和訓練數據的污染致使系統形成漏判或者誤判[42-77],甚至導致系統崩潰或被劫持.與此對應,目前研究者們有針對性地提出了多種防御方法[78-119],如模型隱私保護、模型魯棒性增強以及輸入樣本對抗噪聲檢測與擦除等,以增強深度學習模型的抗攻擊能力.同時,從系統的角度考慮,深度學習模型的攻擊、防御的研究不能是單一、碎片化的,需要建立深度學習模型的對抗性攻擊和防御框架,目前這方面的研究還處于起步階段[120-146].

由于不同學者所處的研究領域不同,解決問題的角度不同,針對深度學習模型攻擊與防御研究的側重點不同,因此亟需對現有的針對人工智能的隱私保護的研究工作進行系統地整理和科學地分析、歸納和總結.在本文中,我們首先介紹了深度學習模型生命周期與安全威脅,然后從對抗性攻擊生成機理、對抗性攻擊生成方法、對抗攻擊的防御策略、對抗性攻擊與防御框架4個角度對現有的深度學習模型攻擊與防御方法進行系統地總結和科學的歸納,并討論了相關研究的局限性.最后,我們在現有基礎上提出了針對深度學習模型攻擊與防御的基本框架,并展望了深度學習模型對抗性攻防的未來研究方向.

1 深度學習生命周期與安全威脅

深度學習模型是當前人工智能系統大爆發的核心驅動,主要包括訓練和推理2個階段.在訓練階段,首先構建訓練數據集,然后利用訓練集對模型參數進行訓練調節,得到深度學習模型.當訓練完成時,深度學習模型就進入了推理階段,首先獲取輸入樣本,然后將樣本輸入模型進行推理,得到相應的模型預測判別結果.

圖1展示了深度學習的整個生命周期中模型潛在的安全威脅,包括訓練集構建、模型訓練、輸入樣本獲取和模型應用4個攻擊面的脆弱性和典型攻擊方法.

1) 訓練集構建.在數據集構建階段,需要收集大量數據用于訓練,訓練集的質量對深度學習模型至關重要.在這一過程中,攻擊者可以通過注入精心構造的污染數據來導致訓練數據空間異常,從而破壞、操控模型的可用性,使模型異常分類.典型的攻擊手段有數據投毒攻擊.

2) 模型訓練.在模型訓練階段,需要根據訓練數據對深度學習模型參數進行訓練和調節.由于深度學習網絡具有脆弱性,攻擊者可以通過數據污染和修改模型參數等方法誤導模型的訓練過程,改變訓練模型導致模型針對特定樣本分類出錯.典型的攻擊手段有后門植入攻擊.

3) 輸入樣本獲取.在輸入樣本獲取階段,需要得到推理和預測的輸入樣本數據.然而,深度學習模型具有一定的脆弱性,攻擊者在輸入樣本中添加精心構造的微小擾動,便可誤導模型錯誤分類.典型的攻擊手段有對抗樣本攻擊.

4) 模型應用.在模型應用階段,用戶可以根據需要訪問模型.這一過程存在著模型信息泄露的威脅,如果攻擊者知道其相關信息就可以有針對性地進行攻擊.典型的攻擊手段有模型竊取攻擊、模型逆向攻擊等.

本文將從對抗性攻擊生成機理、對抗性攻擊生成方法、對抗攻擊的防御策略以及對抗攻擊與防御框架4個角度分別針對訓練和推理2個階段的4個攻擊面的相關工作進行闡述、總結,并分析現有工作的不足.

2 對抗性攻擊生成機理分析

為更好地理解對抗性攻擊的存在機理,推動通用性防御技術的發展,已有相關研究嘗試對各種對抗性攻擊的作用機理進行解釋.表1對比和總結了現有對抗性攻擊生成機理研究的代表性工作.

Table 1 The Summary of Representative Generation Mechanisms of Adversarial Attacks Methods

2.1 訓練階段對抗性攻擊生成機理

針對訓練階段的對抗性攻擊生成機理研究,主要是對投毒攻擊(poisoning attack)和后門攻擊(backdoor attack)的作用機理進行研究.投毒攻擊和后門攻擊的主要思想是通過將惡意數據注入到訓練數據中,使模型無法有效學習決策邊界或學習到錯誤的決策邊界.眾所周知,深度學習的性能在很大程度上取決于訓練數據質量,而高質量數據通常應是全面、無偏見和有代表性的.

因此,基于數據層面分析,相關研究[1-3]表明投毒攻擊的本質原理是通過在訓練數據上尋求全局或局部分布擾動,使訓練數據的整體分布發生畸變從而影響模型訓練.

另外,基于模型層面分析,部分研究結果將其歸咎于學習算法和模型脆弱性,導致學習階段無法提取到具有代表性的特征,最終使模型過于關注具有誤導性的特征而發生訓練錯誤[4-7].

后門攻擊通過對惡意數據加入特定標志的觸發器,使神經網絡訓練時建立起部分神經元與觸發器之間的聯系,以致模型識別到觸發器后,部分神經元激活異常,最終導致輸出錯誤結果[8-9].

目前,針對訓練階段的對抗性攻擊生成機理研究較少且主要集中于傳統機器學習模型,其相關理論無法適用于更加復雜的深度學習模型.因此,針對深度學習訓練階段的對抗性攻擊生成機理亟需深入探索和研究.

2.2 推理階段對抗性攻擊生成機理

針對推理階段的對抗性攻擊生成機理研究,主要以對抗樣本為主.對抗樣本通過對原始樣本加入精心構造的微小噪聲便能使深度學習模型識別出錯.

現有部分研究嘗試從數據空間角度進行機理解釋.例如,McDaniel 等人[10]的研究表明:對抗樣本產生的原因主要是訓練模型的樣本集不可能覆蓋所有可能性,所以不可能訓練出一個覆蓋所有樣本特征的模型,這就導致訓練后模型的決策邊界與真實決策邊界不一致,而這兩者之間的差異就是對抗樣本空間.文獻[11-12]也顯示神經網絡在訓練時只學習到了一些局部子區域,而對抗樣本往往處于流形空間的低概率區域,超出了模型學習概率分布的所在支集.同時,文獻[13-14]指出對抗樣本分布與真實樣本分布不一致,所以對抗樣本的誤分類只是一種正常的測試誤差現象.因此,Schmidt 等人[15]指出,構建魯棒的模型比“標準”模型需要更多的訓練數據.另外,文獻[16-19]指出輸入空間的高維特性也是對抗樣本產生的重要因素.

與此同時,部分研究工作嘗試從模型角度進行理論分析.Goodfellow等人[20]提出,模型在高維空間的線性特性是對抗樣本存在的真正原因.但Tanay等人[21]指出該線性解釋存在諸多局限性,并表明當分類邊界靠近數據流形時會存在對抗樣本.文獻[22-23]認為對抗樣本的存在是由于分類器的“低靈活性”,導致對抗樣本不僅影響深度神經網絡,而且影響所有分類器.Tabacof 等人[24]將對抗樣本產生的原因歸咎于分類器分類時所構建的稀疏和不連續的流形空間.He等人[25]也指出對抗樣本往往處于模型決策空間的畸形區域.另外,文獻[26-28]研究表明神經網絡過于關注不具有代表性的特征,因而很容易受到對抗信息的干擾.此外,部分研究指出學習算法的不足也是導致神經網絡學習異常的原因,例如不恰當的交叉熵損失函數[29-30]、不充分的正則化等[21,31-32].同時,為更好地理解深度學習模型將對抗樣本分類錯誤的現象,一些研究基于模型可解釋性并可視化模型中間特征來直觀地感受模型提取特征的差異,嘗試解釋其對抗機理[33-35].然而,相關研究工作并未給出成熟、統一的理論結果.

對抗性攻擊生成機理的研究同時也推動著防御技術的發展,包括從輸入空間分布及維度進行檢測防御[2,36-37]、從模型角度來提升模型魯棒性等[5-6,38-39].然而,這些防御方法具有很強的局限性,往往無法抵御更新的攻擊方法[40-41].現有大多數對抗性攻擊生成機理分析方法具有一定的片面性.

3 對抗性攻擊生成方法

隨著深度學習的快速發展,其內在的安全隱患也逐漸被暴露出來.針對深度學習模型的對抗性攻擊主要分為訓練階段的攻擊和推理階段的攻擊.

3.1 訓練階段對抗性攻擊生成方法

在模型訓練階段,攻擊者可以通過數據投毒攻擊以及以此為基礎發展的后門攻擊技術來操控模型的可用性,使模型分類異常.針對模型訓練,現有代表性對抗性攻擊方案的對比和總結如表2所示:

Table 2 The Summary of Representative Adversarial Attacks Methods in the Training Stage

在模型訓練中,數據投毒攻擊可通過篡改訓練數據的內容和分布等方式來污染訓練樣本,最終影響模型訓練效果.根據不同的攻擊方式,現有方案主要分為2類:模型偏斜(model skewing)和反饋武器化(feedback weaponization).模型偏斜的主要攻擊目標是訓練數據樣本,通過污染訓練數據達到改變模型分類器邊界的目的.反饋武器化的主要攻擊目標是人工智能學習模型本身,利用模型自我訓練和用戶反饋機制發起攻擊,使模型性能與預期產生偏差.自1993年數據中毒思想[42]被提出之后,Nelson等人[43]首次實現了數據投毒攻擊方法,即針對基于貝葉斯學習的二分類算法成功攻擊垃圾郵件分類與異常檢測系統.然而該攻擊方法局限性較大,無法適用于其他分類算法.Biggio等人[44]將污染模型訓練轉化為利用Karush-Kuhn-Tucker方法的數學優化問題,實現了對支持向量機(support vector machine, SVM)的攻擊,方法泛化性更強.最近,Muoz-González等人[3]首次在多分類問題中使用投毒攻擊,提出基于反向梯度優化的攻擊方法.結果顯示,針對包含深度學習模型等在內的一系列基于梯度方法訓練的模型,都可實現數據投毒效果.然而,當前研究的主要問題在于其沒有針對深度神經網絡的投毒攻擊進行廣泛評估,而深度網絡的魯棒性導致投毒攻擊的效果較差.

進一步地,攻擊者可以通過投毒攻擊來添加后門實現后門攻擊.其核心思想是將精心構造的惡意數據樣本(帶有錯誤的標簽,通常是特定類別的標簽)放到訓練集中,破壞原有訓練數據的概率分布,使訓練出的模型在特定后門觸發器被觸發時產生分類錯誤,從而完成攻擊.Gu等人[45]對神經網絡模型的參數和訓練數據進行修改,從而在神經網絡模型上安插后門,導致在具有特定后門觸發器的輸入出現時,神經網絡模型會錯誤分類,而正常輸入情況下模型分類正常.Liu等人[8]在不能接觸到訓練集的情況下,通過模型逆向技術先生成替代訓練集,然后完成后門攻擊.Ji等人先后在文獻[9,46]中分析了機器學習系統各部分組件的工作原理,實現了僅能操控部分系統結構假設條件下的后門攻擊.在文獻[47]中,Chen等人假設存在一個內部的攻擊者,其通過污染訓練集向模型注入后門.然而,現有針對神經網絡的后門攻擊威脅模型假設過強,在實際場景下很難實現.

3.2 推理階段對抗性攻擊生成方法

在模型推理階段,攻擊類型主要有2種:1)在輸入樣本獲取階段針對輸入樣本的攻擊,即對抗樣本攻擊(adversarial examples attack);2)在模型應用階段針對模型隱私的攻擊,包括模型提取攻擊(model extraction attack)和模型逆向攻擊(model reverse attack).表3對比和總結了現有模型隱私竊取攻擊的一些典型方法.

Table 3 The Summary of Representative Model Privacy Stealing Attacks Methods

模型提取攻擊考慮基于隱私數據訓練得到的模型,目的是提取該模型的各種屬性信息或者構造與之功能相同的替代模型.在早期研究中[48],攻擊者僅能通過大量的公開數據集去查詢目標模型來獲得每個樣本相應的輸出,繼而構造替代模型.然而,此類方法僅適用于簡單的機器學習模型如邏輯回歸(logistic regression).針對神經網絡模型,Orekondy等人[49]提出利用強化學習技術,有目的地選取某些標簽下的數據集作為查詢集,構造功能相似的神經網絡替代模型.Juuti等人[50]在對訓練數據分布有一定了解的情況下,改進超參數選擇和人工樣本生成過程從而增強攻擊能力.在文獻[51]中,Duddu等人在實施攻擊之前,首先使用側信道攻擊來推測深度神經網絡的深度,從而提高替代模型與目標模型的相似度.然而,使用當前的模型提取方法構造一個準確率較高的替代模型仍需大量的查詢,易被防御檢測系統發現.

進一步地,模型提取攻擊可以作為推斷模型訓練集信息即模型逆向的基礎.模型逆向攻擊主要分為成員推理攻擊(membership inference attack)和模型反演攻擊(model inversion attack).成員推理攻擊是一種針對人工智能系統的直接攻擊.2008年,Homer等人[52]開發了一種針對基于統計學的機器學習模型的攻擊技術.該攻擊方法在文獻[53-54]中得到進一步研究,主要用來比較關于此數據集(特別是次要等位基因頻率)發布的統計數據和這些統計數據在一般人群中的分布情況,從而推斷某一數據集中是否存在特定基因.Calandrino等人[55]提出可根據特定的基于協同過濾推薦系統的時間行為進行攻擊.攻擊者利用協同推薦系統的輸出變化來推斷引起這些變化的輸入.可以看到,使用成員推理攻擊可以獲得訓練集的一些特征,但為更好地輔助對抗樣本攻擊,這些特征并不充分,仍然需要攻擊者獲得更多的訓練集信息.模型反演是利用模型的輸出去推斷輸入(一般是某個隱藏輸入)的某些特征.Fredrikson 等人[56]詳細分析了模型反演,并解釋了模型逆向的基本工作原理,然后在文獻[57]中首次提出利用預測產生的置信度實現模型反演,并將模型反演應用于面部識別模型.與成員推理不同,模型反演不會產生任何特定訓練集中的圖像.如果一個類中圖像是多樣的(例如類中可能包含多個個體或許多不同對象),那么模型反演的結果在語義上將會是無意義的,且不能被識別為來自訓練集的任何特定圖像.總之,模型反演只是產生了可以最好地描繪整個輸出類特征的平均值.它既不能構造訓練集中的特定成員,也不能在給定一個輸入和一個模型的情況下,確定該特定輸入是否曾用于訓練模型.然而,由于模型逆向攻擊獲取了模型訓練集的不同特征和信息,可為設計對抗樣本攻擊提供支持,有助于實現進一步的攻擊.

深度神經網絡推理階段的另一個重要攻擊手段是對抗樣本攻擊.一個典型例子即Szegedy等人[11]在2013年所描述的視覺“對抗樣本”現象:針對輸入圖片構造肉眼難以發現的輕微擾動,可導致基于深度神經網絡的圖像識別器輸出錯誤結果.根據攻擊者可獲得關于該模型的信息量,對抗樣本攻擊可分為白盒攻擊(white-box attack)[58]和黑盒攻擊(black-box attack)[59].表4總結了當前主流對抗樣本攻擊方法.

白盒攻擊指攻擊者完全知道分類模型和訓練方法,同時可以訪問訓練數據分布以及完全訓練的模型架構參數.相反地,黑盒攻擊無法獲取模型信息,只能通過一些設置或過去的輸入信息來分析模型脆弱性.現有對抗樣本攻擊方法大都通過一個優化過程來生成對抗樣本[58].2015年,Goodfellow等人[20]首次提出利用快速梯度符號法(fast gradient sign method, FGSM),將構建對抗性圖像的非凸優化問題近似轉化為線性形式,但該算法無法保證攻擊成功率,尤其在定向攻擊中成功率較低.隨后,Kurakin等人[60]提出通過多輪迭代來改進快速梯度符號法,但代價是增加了計算量.Tramèr等人[61]提出隨機快速梯度符號法(randomized fast gradient sign method),主要思想是在梯度計算之前對輸入樣本添加隨機擾動,跳出數據點附近的大曲率,使快速梯度符號法生成的對抗樣本更具泛化能力.2016年,Moosavi-Dezfooli等人[62]提出另外一種基于決策超平面的對抗樣本生成技術,利用目標模型的迭代線性表示來生成對抗樣本.由于該方法是限定神經網絡下的超平面問題,因此在非神經網絡模型上的應用相當有限,算法的通用性較低且需要大量時間分析模型特性.然而,本節討論的攻擊方法以及文獻[41,63-64],都是屬于白盒攻擊.在更為普遍的場景中,當被攻擊者使用了某些防御機制時,這些攻擊方法就會失效.此外,攻擊者通常難以全面了解模型信息,因此白盒攻擊方法的通用性與實用性不高.

Table 4 The Summary of Representative Methods of Adversarial Example Generation

更為廣泛、實際的對抗樣本攻擊通常基于黑盒場景[65].黑盒攻擊可分3種類型:基于可轉移性、基于預測分值和基于決策標簽的攻擊.基于可轉移性(transferability)的攻擊是指攻擊者試圖構造一個替代模型(substitute model)來模擬被攻擊模型,然后利用白盒攻擊方法生成對抗樣本攻擊替代模型,最終基于對抗樣本的可轉移性攻擊黑盒模型[66-67].然而,攻擊替代模型通常會導致更大失真和較低成功率.于是,研究者們考慮基于預測分值的攻擊,即通過模型得到樣本預測概率.現有主流方法依賴于近似梯度來生成對抗樣本,比如Chen等人[68]提出不需要梯度信息的零階優化(zeroth order optimization Zoo)算法實現有效黑盒攻擊;在此基礎上,Tu等人[69]通過引入基于自動編碼器的方法和自適應隨機梯度估計(adaptive random gradient estimation)來平衡查詢計數和失真優化的查詢復雜性;在文獻[70]中,預測分值是通過硬標簽來估計的,然后利用自然進化策略(natural evolutionary strategies, NES)使目標類的概率最大化或樣本原始類別的概率最小化.更嚴格的黑盒攻擊是基于決策標簽的攻擊(decision-based attack),即只能得到預測的硬標簽;2018年Brendel等人[71]提出一種邊界攻擊(boundary attack)方法,其思想是基于在決策邊界上的隨機游動來生成對抗樣本;類似地,Thomas等人[72]解決了只知決策標簽黑盒設置下查找通用擾動的問題;陳等人[73]提出一種基于精英策略的非支配遺傳算法(non-dominated sorting genetic algorithm, NSGA),用黑色擾動塊代替淤泥實現環境魯棒的車牌誤識別,但同時也帶來一定的樣本失真.總的來說黑盒攻擊方法存在的共性問題是通常需要通過大量的查詢來生成具有最小擾動的對抗樣本或者收斂到具有少量查詢的大擾動.還有一些基于生成對抗網絡(generative adversarial networks, GAN)的對抗樣本生成方法[74-77],然而這類方法的攻擊效率較低.Hu等人[74]利用原始樣本和黑盒模型產生的輸出來訓練一個辨別器,再用辨別器指導生成器產生對抗樣本.然而,該算法強調整個樣本集的正確率,而不關心單個樣本的相似度.這意味著每個樣本所需的擾動可能很大,生成對抗樣本的相似度低,在實際攻擊場景中有較大局限性.

4 對抗攻擊的防御策略

為抵御多樣的對抗性攻擊,其針對性的防御方案同樣引發了研究者們的高度關注和重點研究.表5對比和總結了現有一些典型的對抗攻擊防御方案.

Table 5 The Summary of Representative Defenses Methods Against Adversarial Attacks表5 現有對抗攻擊防御的典型方法對比與總結

4.1 線下階段對抗攻擊的防御策略

為從線下訓練數據集中過濾掉惡意樣本,保證訓練集不被污染,Baracaldo等人[78-79]最早提出將數據溯源技術用于深度學習系統,依靠反復訓練模型來確定訓練集中的異常數據.然而當訓練集數據量較大時,該防御方案的檢測效率較低.而異常檢測技術只需分析數據本身的特征即可確定異常數據.Liu等人[80]利用支持向量機和決策樹(decision tree)來檢測異常數據,指出這種技術需要保證在訓練檢測器時使用的是真實樣本.為了克服檢測器被污染的問題,Steinhardt等人[81]通過構建各種后門攻擊的近似上界,使檢測器能在被污染的情況下檢測異常數據.然而,當數據集中被污染的數據占比過大時,該防御方案會失效.Chen等人[82]用聚類算法來判別異常數據,巧妙地回避了檢測器污染問題.但該工作只討論了數據污染,未考慮標簽污染.Paudice等人[83]提出一種算法來檢測并重新標記被污染的標簽,但僅考慮了二分類問題.目前,將數據溯源技術應用于深度學習系統可靠數據集構建的研究還不充分,且單獨依靠數據溯源技術很難提供可靠數據集.而基于數據異常檢測的數據集清洗方法,缺乏有效反饋機制,需要反復清洗被污染的數據源數據.

可靠的數據集可以幫助提升模型的表現能力,消除某些潛在安全隱患,但對模型魯棒性提升有限,還需要依靠優化模型構造過程來提升模型防御能力.Goodfellow等人[20]提出通過對抗訓練的方法來優化模型參數,增強模型魯棒性.但Kurakin等人[84-85]指出對抗訓練能夠增強模型對單步攻擊的魯棒性,但很難抵抗迭代攻擊,而且同樣無法抵御利用單步攻擊方法從另一個脆弱性模型中生成的擾動.另外,一些研究者通過優化網絡結構來提升模型魯棒性.Gu等人[86]提出在網絡輸入層之前添加一個去噪自編碼器以降低對抗噪聲,但可能導致網絡更容易遭受攻擊[41].Lee等人[87]使用一種常見的生成對抗網絡架構來訓練一個可以防御快速梯度符號法攻擊的模型,其缺點是模型訓練過程比較復雜.Bradshaw等人[88]提出一種高斯混合深度模型,利用高斯過程對不確定因素的處理能力來增強模型的魯棒性,并證明其對快速梯度符號法攻擊的抵御能力.還有一些研究者通過簡化已訓練完成的模型結構來消除潛在威脅.Papernot等人[89]提出利用神經網絡知識蒸餾(knowledge distillation)技術來抵御對抗性攻擊,但這種方法的防御能力有限[41].目前,已知現有線下訓練模型魯棒性增強策略只能防御已有攻擊手段,且對已有攻擊也無法進行全方位防御,另外,線下模型增強策略靈活性較差,不能根據已有模型的脆弱性進行動態調整.紀等人[90]指出,利用模型可解釋性來分析和調試模型的錯誤決策行為,診斷模型中存在的缺陷,可為模型缺陷修復提供支撐,以獲得更加魯棒的模型.然而,現有模型診斷策略[91-92]缺乏與實際模型訓練過程的有機結合.

對一個魯棒的模型來說,如果攻擊者知道其相關信息就可以有針對性地進行攻擊.因此,保護模型的隱私信息同樣被認為是提升模型防御能力的重要環節.為達到此目的,Graepal等人[93]利用同態加密(homomorphic encryption)技術在加密數據上進行訓練,但在加密數據上進行乘法操作會引入大量噪聲,導致信息無法解密.因此,該方案需對現有算法進行最高次有界的多項式逼近,而這又會導致性能下降.文獻[94-95]利用差分隱私(differential privacy)的思想,通過在訓練模型時往參數中添加噪聲的方式,達到隱私保護目的.但這些方法未考慮添加噪聲對模型可用性的影響.文獻[96-97]將訓練過程當作是可用性和隱私保護之間的平衡優化問題來進行模型訓練,但如果同時需要考慮模型魯棒性,模型訓練過程可能會很復雜.針對已訓練好的模型,文獻[98-99]利用同態加密的方法對模型加密,但同態加密引入的噪聲會顯著降低模型表現性能.Tramèr等人[100]和Wang等人[101]分別提出對模型預測結果和模型參數做近似處理,以抵御模型竊取攻擊,這些方法的防御效果還需要進一步進行驗證.現有深度學習隱私保護方案主要通過線下訓練掩蓋真實模型參數的方式來實現隱私保護,多以犧牲模型可用性(例如運行時間、預測準確率等)為代價.

4.2 線上階段對抗攻擊的防御策略

另有一些研究重點關注模型發布之后的線上防御階段.研究者們提出通過利用傳感器增強方案在數據輸入階段過濾掉對抗性噪聲,但目前大部分工作都停留在理論分析階段[102-106],不過也有研究者提出了切實可行的傳感器防護措施[107-109].在軟件層面,有些研究利用對抗性噪聲的不穩定性在預測任務時檢測或擦除對抗性噪聲.文獻[110-111]通過對數據壓縮或是添加噪聲的方法試圖破壞對抗樣本的對抗性,然后比較處理前后數據預測結果是否發生改變來檢測對抗樣本.文獻[112-113]通過JPEG壓縮,去除圖像方塊中的高頻信號成分,從而消除對抗性噪聲.Xie等人[114]在分類網絡之前增加2個隨機變化層,破壞對抗性噪聲的特定結構來實現防御.然而,這些方法未對數據處理對真實樣本預測結果的影響進行深入研究.為消除數據處理操作對真實樣本的影響,Metzen等人[115]訓練了一個二分類檢測網絡,以模型某一隱藏層的輸出作為輸入,再輸出此次輸入樣本為對抗樣本的概率,但該方案只能檢測特定類型的攻擊.Feinman等人[116]利用模型最后一個隱藏層子空間的核密度估計和貝葉斯神經網絡不確定性估計,并結合邏輯回歸模型檢測輸入是否為對抗樣本,目前該研究只針對卷積神經網絡(convolutional neural networks, CNN).Hendrycks等人[117]利用對抗樣本和真實樣本之間的差異性提出了3種更加通用的檢測方案,但這些方案共同的缺點是魯棒性較差.為了避免數據處理影響真實樣本的預測結果,有研究者提出只針對檢測出對抗性的樣本進行對抗噪聲擦除操作.Meng等人[118]利用一個檢測網絡來檢測對抗樣本,并利用一個重構網絡重構對抗樣本來消除其對抗性,結果顯示該方案對黑盒攻擊和灰盒攻擊有較好的抵御效果.Cao等人[119]提出了一種繞過對抗樣本的方法.他們觀察到對抗樣本接近于分類邊界,從輸入空間中選擇和此次預測樣本接近的多個樣本點進行預測,再由這些樣本點的預測結果進行投票作為此次預測結果.顯然,該方案依賴于分類邊界和樣本點的選取.可見,現有對抗樣本檢測技術未充分考慮對抗樣本生成機理,對攻擊方法的先驗知識和特定模型存在一定依賴性,檢測能力有限.對抗性噪聲擦除的研究以破壞對抗性噪聲為主,但對抗性擦除操作會引入新的輸入噪聲,進而造成樣本分類錯誤.

5 對抗性攻擊與防御框架

從系統的角度出發,針對深度學習模型的攻擊與防御不能是單一、片面和碎片化的,需要從完整流程、不同角度和層次上研究攻擊與防御框架,才能真正有效地提高深度學習模型的安全性.

5.1 對抗性攻擊框架

從對抗性攻擊框架研究來看,現有工作[61,69,120-129]提出的對抗性攻擊框架,只針對對抗樣本生成,并且局限于特定模型與特定應用領域.Chang等人[120]提出的對抗性攻擊框架針對特殊的圖嵌入模型生成對抗樣本,并不是針對全周期深度學習模型的攻擊面構建統一框架,方案局限性大、通用性低.Spampinato等人[121]提出一個基于生成對抗網絡的對抗性攻擊框架,該框架通過自我監督機制學習視頻表示動量特征,以便在視頻中執行密集的全局預測,然而該框架也只局限于視頻對抗樣本生成.Chen等人[122]基于Frank-Wolfe算法提出白盒和黑盒對抗樣本對抗性攻擊框架.該框架包含一個迭代的一階白盒攻擊算法以及帶有2個感應矢量零階優化選項的黑盒攻擊算法,攻擊手段同樣局限于對抗樣本.因此,以上研究只是將對抗樣本的生成過程框架化,指導某些特定對抗樣本生成,缺乏對抗性攻擊的整體框架設計.

陳宇飛等人[130]針對人工智能系統安全與隱私風險,從人工智能系統基本框架的4個關鍵環節(輸入、數據預處理、機器學習模型、輸出)出發,指出相應的安全風險和應對措施,但是該工作僅僅針對現有技術進行了討論和分類,并未形成一個細致完備的攻擊或防御框架.

研究者們還實現了一些關于對抗性攻擊框架的工具.2017年德國圖賓根大學的3名研究人員創建了一個基于Python庫的Foolbox攻擊框架[131],提供超過20多種類型的對抗性攻擊手段,允許用戶自定義攻擊目標(比如錯誤分類)進而發動相應地攻擊,然而該框架只注重對抗樣本攻擊,且攻擊目標僅限于現有的機器學習框架.Nicolae等人[132]開發了Adversarial Robustness Toolbox工具箱,其中實施的攻擊包括逃逸攻擊、提取攻擊和投毒攻擊,并使用目前最先進的威脅模型測試系統防御能力,以此來提高樣本對抗性.然而,該工具箱未考慮模型訓練階段的后門攻擊,未形成多層次多角度的統一攻擊框架.

在工業界,2018年360安全研究院發布的《AI安全風險白皮書》[133]結合深度學習逃逸攻擊方面的實例和研究工作,詳細解讀了人工智能應用所面臨的安全風險.2019年在《人工智能安全標準化白皮書》[134]中,清華大學研發了包含系統層、算法層和應用層的RealSafe人工智能安全平臺架構,其中系統層提供算法的共性模塊,算法層實現不同攻擊環境下的對抗樣本攻擊.然而,該系統架構只考慮了單純的對抗樣本攻擊,并不是一個針對深度學習模型的統一模型框架.

因此,雖然對抗性攻擊得到了廣泛關注和研究,但是現有攻擊方案通常只考慮了深度學習模型的單個或部分攻擊面,不同攻擊模塊之間缺乏聯系,未形成統一的模型框架.

5.2 對抗攻擊的防御框架

目前,也有不少研究工作針對已有攻擊手段提出了相應的防御框架[81,111,135-143],這些防御框架包括數據異常檢測框架[81]、模型增強框架[135-137]、對抗樣本檢測框架[111,138-139]、對抗噪聲擦除框架[140-141]和隱私保護框架[142-143],涉及從數據收集到模型訓練再到模型線上部署的每個階段,包含模型魯棒性和模型機密性等內容.然而,這些工作僅是框架化了單個防御方案的設計,不同防御策略相互之間缺乏協同,難以形成統一防御框架.

少數研究工作開始探索并建立了不同防御方案之間的聯系.Wang等人[144]提出模型診斷與模型增強的聯合框架,首先分析網絡每一層潛在脆弱性,然后提出相應的策略來優化訓練過程以應對這些脆弱性.Akhtar等人[145]將對抗樣本檢測和對抗噪聲消除結合,通過一個輸入重整網絡對輸入進行處理,并比較處理前后樣本之間的差異性來確認輸入樣本是否包含對抗性擾動,從而決定輸入到目標模型中的樣本.盡管聯合考慮了部分防御方案,這些框架仍然無法覆蓋深度學習模型的完整生命周期.

在工業界,部分企業也提出了人工智能系統安全防御框架.在《人工智能安全標準化白皮書》[134]中,依托網絡安全和安全管理將人工智能系統分為云側、邊緣側及端側3個部分,建立了人工智能系統的安全框架體系,從宏觀上確立人工智能系統的安全內涵,但未涉及具體的防御策略.2019年華為技術有限公司發布了《AI安全白皮書》[146],從攻防安全、模型安全及架構安全3個層次確立了AI安全防御架構,并針對每種潛在威脅提出了相應的防御手段,但是同樣缺乏對防御手段之間關聯性的考慮,無法建立有效的協同防御手段.

6 深度學習模型攻防框架與未來挑戰

本文圍繞對抗性攻擊生成機理、對抗性攻擊生成方法、對抗攻擊的防御策略以及對抗攻擊與防御框架4個方面對現有工作進行了闡述,并總結了相關工作的不足.從目前已有研究來看,我們認為今后針對深度學習模型攻擊與防御的研究,應從“對抗”的角度出發,以攻擊能力增強促進防御能力提升,著力研究針對深度學習模型的攻防分析基礎理論、統一框架與關鍵技術.在本節,我們首先在現有工作的基礎上分別提出針對深度學習模型的攻擊與防御框架,然后總結現有挑戰并展望未來研究方向,以期引起相關研究者的關注并提供指導.

6.1 針對深度學習模型的攻擊框架

現有針對深度學習模型對抗性攻擊生成方法的研究存在通用性差、假設條件強等問題.如何充分利用深度學習模型訓練和推理階段的固有缺陷,在保證攻擊成功率的前提下設計更加實用、高效的對抗性攻擊是尚待解決的難題.在攻擊框架方面,現有的框架只是將攻擊樣本的生成過程框架化,指導攻擊樣本生成,仍是只考慮了模型的單個或部分攻擊面,不同的攻擊方法之間沒有聯動.本文從深度學習的整個生命周期角度出發,分析模型的脆弱性和攻擊方式并提出了如圖2所示的針對深度學習模型的攻擊框架:

Fig. 2 Attack framework for deep learning models圖2 針對深度學習模型的攻擊框架

首先在訓練階段構建訓練數據集時,可以發起隨機數據投毒攻擊和定向數據投毒攻擊,訓練模型過程中進一步完成完整模型后門植入攻擊和部分模型后門植入攻擊.然后在推理階段獲取輸入樣本時進行傳感器信號欺騙攻擊,在模型應用時進行對抗本欺騙攻擊,在模型應用時實現模型和數據隱私提取攻擊.訓練階段和推理階段的攻擊共同實現了深度學習模型全生命周期的攻擊.

同時,為了實現更加有效的攻擊,在我們提出的框架中各個模塊之間進行可以相互協作.在訓練階段,隨機數據投毒可以為定向數據投毒提供支撐,完整模型后門植入可以為部分模型后門植入提供支撐.數據投毒攻擊的結果也可以進一步支持后門植入攻擊,針對完整模型的后門植入方案可以利用數據投毒的方式進行.在推理階段,同時模型隱私提取的結果也可以進一步用來提高對抗樣本欺騙的攻擊能力,黑盒環境下可以利用模型提取的結果構造對抗樣本攻擊的替代模型,利用替代模型生成對抗樣本進而攻擊黑盒目標模型.同時訓練和推理也可以相互協作,考慮到帶有錯誤標簽的投毒數據容易被發現,可以利用對抗樣本生成算法生成投毒數據,實現高隱蔽的數據投毒攻擊.

總的來說,我們構建的對抗性攻擊的統一模型框架綜合考慮了模型訓練和推理階段的脆弱性,將多個攻擊面結合起來,聯動各個攻擊模塊,充分利用不同攻擊方法的優勢,相互進行信息補充以弱化或消除阻礙攻擊實用性的假設條件,模塊之間的相互協作也進一步幫助實現更加全面有效的攻擊.

本文提出的對抗性攻擊統一模型框架和生成方法可為不同應用領域不同深度學習模型的對抗性攻擊提供指導,同時針對特定場景限制生成有針對性的攻擊.傳感器信號欺騙、數據投毒、后門植入、對抗樣本欺騙、模型和數據隱私提取技術均具有一定的普適性.

6.2 針對深度學習模型的防御框架

在防御框架方面,現有方法只聯合考慮了部分防御方案,但這些方法只是針對某一種攻擊來設計,仍沒有覆蓋深度學習模型的完整生命周期,因此無法提供全面的防御能力.本文提出如圖3所示的針對深度學習模型的防御框架,聯合多種防御方案,以保證模型可用性為前提,充分考慮各防御方案的特點,從數據、算法等多個維度構建針對訓練階段、推理階段的全方位防御框架:

Fig. 3 Defense framework for deep learning models圖3 針對深度學習模型的防御框架

“線下防御”是在模型發布前從數據集構建和模型訓練2個角度出發,在建立可靠數據集的基礎上進一步提升模型的魯棒性和機密性,最大化模型的防御能力.“線上防御”是在模型發布之后從輸入樣本獲取和模型應用2個角度出發,在確保傳感器數據準確的基礎上,實時檢測和擦除輸入樣本中的對抗噪聲,并通過建立有效的評估反饋機制實現防御的動態優化.

在線下防御階段,結合數據溯源技術和異常檢測技術設計數據篩查溯源方案,以實現對數據的有效監管,確保訓練集的可靠性.在此基礎上,利用靜態理論分析的方法對訓練出的模型的脆弱性進行分析,并利用模型增強方法對模型參數進行調整以修復其脆弱性.為進一步增強模型的魯棒性,對多個魯棒模型進行安全聚合,并通過動態執行分析對模型聚合策略進行調整,提升模型的聚合效率.與此同時,針對模型發布前的各個階段,設計滿足多種隱私保護需求的信息混淆掩蔽方案,對數據集和模型參數進行有效保護.線下協同防御策略正是聯合防御方案,從可靠性、魯棒性以及機密性3個角度全面提升模型的防御能力:

在線上防御階段,可以通過異常信號檢測和信號實時過濾的方法對輸入信號中的異常頻段信號進行實時的檢測過濾,確保傳感器數據符合深度學習模型的需求.同時,為進一步確保輸入樣本中不包含對抗噪聲,在對抗樣本檢測之后,進一步執行對抗噪聲擦除操作,對抗噪聲擦除的結果可以反饋給對抗樣本檢測步驟對檢測方法進行動態調整,同時也可通過對抗樣本檢測來驗證對抗噪聲擦除的效果.除此之外,還應該對輸入樣本的預測結果進行分析,評估此次預測結果的可靠性,并根據評估結果調整深度學習模型的防御方案,實現模型防御動態優化.線上協同防御策略通過聯合檢測、擦除防御方案,動態調整防御策略,對執行預測任務的輸入樣本進行多層次的保護,確保預測結果的準確性.

同時線上防御階段針對對抗樣本的檢測結果可以反饋給線下防御的用于加固深度學習模型,對模型增強方法和防御策略進行調整,提升深度學習模型的魯棒性.面對未知攻擊,可以持續動態評估模型在現有環境下的脆弱性,并根據分析結果實時調整多模型的聚合方式,以增強模型對新型攻擊的抵抗能力.

對抗攻擊的統一防御框架及協同防御可為不同應用領域不同深度學習模型的防御策略設計提供通用性指導,同時針對常見攻擊實施特定防御.數據溯源、模型增強和信息掩蔽混淆、傳感器信號防護、對抗樣本檢測與對抗噪聲擦除、防御評估反饋技術均具有一定的普適性.

6.3 深度學習模型攻擊與防御研究的未來挑戰

目前,深度學習模型對抗攻擊與防御研究面臨的問題與挑戰主要集中在3個方面:

1) 難以針對深度學習模型的對抗性攻擊本質建立通用、完整的機理分析體系.深度學習模型的對抗性攻擊的本質是利用模型固有缺陷,構造惡意輸入進而導致模型行為異常.因此,研究對抗性攻擊機理是分析彌補模型內部缺陷、探索高效攻防技術的基礎支撐.然而,深度學習數據規模龐大、模型結構復雜、可解釋性差,目前關于對抗性攻擊生成機理的研究解釋還不夠充分,尚未有更加系統、通用的理論分析手段,造成現有絕大多數對抗性攻擊生成或防御方法具有很大的局限性.因此,如何多角度、全方位地分析深度學習模型各階段對抗性攻擊的生成機理,進而發現其背后更深層次的通用性原理,指導設計更為高效的攻擊和防御方法,是未來研究要解決的關鍵問題之一.

2) 面向非確定目標時的對抗性攻防難以有效實施.現有針對深度學習模型的攻擊和防御方案大都依賴于對目標模型和目標攻擊的先驗知識,然而實際場景中存在目標模型隱私信息獲取困難、各種攻擊手段層出不窮的問題,削弱了攻擊和防御方案的實際效果.以對抗樣本生成攻擊為例,首先,在嚴格黑盒的條件下,攻擊者只能訪問模型返回結果的硬標簽,這給對抗樣本生成帶來了巨大的挑戰;其次,如何在真實物理情況下發起攻擊、抵抗環境噪聲干擾,也是待解決的一大難題;最后,如何減少訪問次數,同時防止被攻擊方的察覺,也是在該領域極具挑戰的問題之一.

3) 難以構建全面覆蓋各攻擊面的攻擊和防御框架.現有針對深度學習模型的對抗性攻擊和防御策略設計通常是孤立分散的,即攻擊和防御只針對模型生命周期某一階段的單個攻擊面來制定,缺乏統一的攻擊和防御指導框架.單一的攻擊和防御方案在強博弈對抗的動態環境下難以達到預期效果.這導致攻擊難以攻其無備,防御也防不勝防.簡單地組合攻擊方案,可能會降低攻擊行為隱蔽性,同時加大攻擊成本,削弱攻擊效率.而單純地集成多種防御方案也難以提升模型防御能力,反而可能會降低模型的可用性.所以,如何設計全覆蓋的協同攻擊和協同防御框架是未來研究需要攻克的問題之一.

7 結束語

人工智能研究的快速發展和深度學習技術在實際場景中的廣泛應用吸引了一大批來自于學術界和工業界的學者的深入研究,并取得了令人矚目的研究成果.然而,深度學習技術在安全性上還存在諸多問題,其潛在的安全隱患和隱私風險為人工智能的全面部署帶來挑戰.為了重新審視深度學習模型攻擊與防御的研究現狀,梳理現有研究成果的優勢與不足,明確未來研究方向,本文系統地從對抗性攻擊生成機理、對抗性攻擊生成方法、對抗攻擊的防御策略、對抗性攻擊與防御框架4個方面研究了深度學習模型安全性問題,回顧了大量的極具影響力的研究成果并對相關研究進行了科學的總結和歸納.最后,本文指出了深度學習模型隱私保護研究當前面臨的挑戰,并探討了未來可行的研究方向,旨在推動針對深度學習模型對抗性攻防研究的進一步發展.

猜你喜歡
深度方法模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 午夜欧美在线| 久久天天躁狠狠躁夜夜2020一| 波多野结衣第一页| 免费人成视网站在线不卡| 国模沟沟一区二区三区| 操美女免费网站| 久久香蕉国产线看观| 国产美女丝袜高潮| 免费在线国产一区二区三区精品| 国产天天色| 国产精品久久久久久久久久久久| 亚洲不卡网| 秋霞国产在线| 美女毛片在线| 福利一区在线| 不卡国产视频第一页| 午夜福利在线观看成人| 精品人妻一区无码视频| 都市激情亚洲综合久久| 婷五月综合| 欧美成一级| 国产男人的天堂| 在线中文字幕网| www.99在线观看| 中文字幕av无码不卡免费| 日本爱爱精品一区二区| 91香蕉国产亚洲一二三区| 在线免费亚洲无码视频| 亚洲日韩精品无码专区97| 国产特一级毛片| 午夜国产大片免费观看| 欧美一级夜夜爽| 亚洲三级a| 国产真实乱了在线播放| 国产av剧情无码精品色午夜| 911亚洲精品| aaa国产一级毛片| 日本在线亚洲| 国产91色在线| 青青网在线国产| 欧美午夜在线观看| 天堂成人在线| 久久久久国产精品熟女影院| 一级看片免费视频| 黄色片中文字幕| 日韩精品亚洲精品第一页| 又黄又湿又爽的视频| 久久这里只有精品66| 91视频首页| 国产福利影院在线观看| 久操线在视频在线观看| 97视频免费看| 国产精品视频a| 美女无遮挡免费网站| 91美女在线| 精品福利视频导航| 国产靠逼视频| 日本精品一在线观看视频| 国产哺乳奶水91在线播放| 综合久久五月天| 国产欧美性爱网| 色视频久久| 午夜日韩久久影院| 国产特一级毛片| 少妇精品网站| 日韩在线视频网| a色毛片免费视频| 亚洲婷婷在线视频| 无码在线激情片| 日本精品中文字幕在线不卡| 2019国产在线| 国产凹凸一区在线观看视频| 中国精品自拍| 国产欧美日韩视频怡春院| 久久国产拍爱| 凹凸国产分类在线观看| 伊人激情综合网| 日韩福利视频导航| 国产精品丝袜视频| 男女男精品视频| 精品福利视频网| 国产精品美女自慰喷水|