吳翼騰 劉 偉 于洪濤* 操曉春
①(信息工程大學 鄭州 450002)
②(中國科學院信息工程研究所信息安全國家重點實驗室 北京 100093)
圖結構數據和節點的語義屬性數據有效結合,可以自然而完整地表達現實數據。類似于圖數據庫區別于傳統關系型數據庫,在存儲個體信息的同時,還有效建立了個體之間的聯系。圖神經網絡也區別于經典深度學習模型和傳統復雜網絡模型,它的主要特色是可以對語義屬性數據和圖數據統一表達建模,解決了傳統研究中語義屬性數據和圖數據割裂的問題。圖神經網絡不僅在鏈路預測、節點分類等復雜網絡任務,還在語義解析、視覺問答等自然語言處理任務和計算機視覺任務中展現了令人信服的性能[1,2],是一類極具競爭力的深度學習模型[3]。
最新研究表明備受關注的圖神經網絡容易受到對抗攻擊安全威脅[4]。2018年Zügner等人[5]首次提出圖神經網絡(Graph Neural Network, GNN)的對抗攻擊。圖神經網絡的對抗攻擊研究逐漸活躍于Conference and Workshop on Neural Information Processing Systems[6], International World Wide Web Conference[7], International Conference on Machine Learning[8]等頂級學術會議。
本文認為,與對抗攻擊直接關聯的研究應該始于20世紀70年代的統計診斷[9–11]。統計診斷系統研究了實際數據與既定模型之間的偏離,用于分析輸入數據擾動對統計推斷的影響[12]。對抗攻擊指有目的地對輸入數據施加微小擾動,使模型輸出錯誤的預測結果[13,14]。可見,對抗攻擊和統計診斷的理論本質相同,同屬于模型安全問題的攻防兩方面研究。
然而現有研究未注意到對抗攻擊與統計診斷之間的聯系,得出與統計診斷經典成果相似或相同的研究結論。例如圖神經網絡對抗攻擊的經典文獻[15],根據攻擊方法,作者從實驗中得出有效攻擊的原因是擾動后的數據誘導圖神經網絡訓練出不良參數的結論。文獻[16]系統研究了圖神經網絡對抗攻擊的參數差異假設,認為擾動前后圖神經網絡的訓練參數差異是形成有效攻擊的重要因素之一。這些針對對抗攻擊的研究結論與統計診斷中局部影響分析模型的基本假設一致。
局部影響分析是統計診斷最著名的研究成果之一,是Cook首先提出的一種很一般的統計診斷方法,適用于各種統計模型[11,12]。局部影響分析的基本假設是:對于異常點或強影響點,輸入數據的微小擾動會對模型訓練參數帶來較大影響[17]。鑒于文獻[15]“攻擊后的圖神經網絡得到的訓練參數較差”的實證研究結論、文獻[16]提出的“參數差異是實施有效攻擊的重要機理”,與局部影響分析模型的基本假設相吻合,本文考慮將局部影響分析模型引入圖神經網絡對抗攻擊。與統計診斷的研究目標相反,選擇擾動影響大的數據點實施攻擊,使得重訓練的圖神經網絡模型輸出錯誤預測結果。
圖神經網絡對抗攻擊領域引入局部影響分析有以下難點:一是需針對圖神經網絡場景重新推導擾動篩選公式;二是直接使用局部影響分析模型的主對角元法[12]實施擾動篩選計算量大,需對公式進一步簡化,并采用更加有效的擾動篩選算法。本文的主要工作如下:
(1) 將統計診斷的局部影響分析模型引入圖神經網絡對抗攻擊。針對目標圖神經網絡模型結構,推導出局部影響分析模型中參數差異度量公式。為降低主對角元法的時間和空間復雜度,得出基于攻擊梯度的擾動篩選近似公式。
(2) 引入文獻[18]中圖神經網絡對抗攻擊行之有效的投影梯度下降 (Projected Gradient Descent,PGD)算法更新擾動。并通過實驗驗證了所提攻擊方法的有效性,進一步說明了局部影響分析模型的合理性。

本文研究非指定目標、數據投毒攻擊,并基于增刪連邊的擾動策略建立局部影響分析模型。非指定目標攻擊不指定具體的1個或幾個攻擊目標,需要使測試集的準確率整體下降;投毒攻擊指允許圖卷積網絡對污染的訓練數據重新訓練,重訓練的圖卷積網絡在測試集的準確率仍然下降。文獻[15, 18]建立了圖神經網絡非指定目標投毒攻擊模型。投毒攻擊通常分為對抗訓練和投毒攻擊兩個過程。在對抗訓練階段,圖神經網絡基于當前擾動數據進行正向訓練。在投毒攻擊階段,圖神經網絡基于訓練好的模型實施攻擊,因此投毒攻擊屬于雙層優化問題。

本節建立圖神經網絡對抗攻擊的局部影響分析模型。首先推導出局部影響分析模型的擾動篩選公式;然后根據擾動篩選公式的物理意義和表達形式對其簡化;最后從文獻[18]中引入投影梯度下降算法實施擾動篩選。
局部影響分析模型的主要思想是,訓練數據擾動后損失函數會發生改變,通過比較擾動前后損失函數之間的差異進行擾動篩選。通過研究文獻[11, 12, 22]可以得出結論,局部影響分析模型的核心是將模型參數視作擾動的函數,而不是將參數視為與擾動無關的、獨立于擾動之外的變量。這將應用于損失距離的推導,是實施有效攻擊的關鍵。
首先定義損失距離,用以衡量擾動后與擾動前損失函數的變化量。
定義 (損失距離)

設圖神經網絡式(1)采用梯度下降法訓練


定理表明,原本需要對鄰接矩陣A的N×N個元素逐一擾動得到A?,對N×N次擾動使用式(5)重新訓練圖神經網絡式(1),并根據式(4)計算損失距離LD。現不需要對圖神經網絡重訓練,而只需針對N×N個擾動計算N×N次矩陣乘法如式(7)。由于擾動類型為增刪連邊,根據式(8),向量vec(D)第i個元素為1或者–1,其他元素均為0而沒有擾動。損失距離的2階近似式(7)L DII(A?)反映了第i個分量擾動對于損失函數的影響,其值越大擾動影響也越大。因此可選擇擾動影響較大的擾動點實施攻擊。
對于 LDII(A?)的 計算,容易看出,若v ec(D)的第i個元素非零,其他元素為零,則L DII(A?)的值等于影響矩陣F的第i個主對角元素。因此可直接取出影響矩陣F的主對角元素進行擾動篩選。即局部影響分析模型中擾動篩選的經典方法,主對角元法[12]。
根據3.1節分析,基于局部影響分析的對抗攻擊方法主要關心影響矩陣F的主對角元素,而與其他元素無關。若能直接計算F的主對角元素而忽略其他元素,將會使時間和空間復雜度進一步降低為原來的1/N。
分析式(9)影響矩陣F的物理意義。由于F=G?2W L(W0)GT, 而G表示參數W*(A?)對 vec(A?)各個元素的偏導數,刻畫了v ec(A?)各個元素擾動對參數矩陣W*(A?)的影響。而F的第i個主對角元則表示 vec(A?) 第 i個元素擾動對參數W*(A?)各元素影響的加權和,加權矩陣為?2W L(W0)。
基于以上分析,局部影響分析的主要方法是計算參數對各個元素擾動的偏導數并進行擾動篩選。考慮將式(9)的主對角元法簡化,直接根據F的物理意義定義參數矩陣W*(A?)的范數d如式(11)所示,并計算d對A?的各個元素的偏導數,得到攻擊梯度矩陣


根據3.1節和3.2節的結論,基于局部影響分析的圖神經網絡對抗攻擊模型可以表述為如下約束優化問題

(2) 采用解決簡單連續約束優化問題的投影梯度下降算法,先進行通常的梯度下降,再對更新的連續取值的A?′矩陣作投影,以保證擾動總量滿足1Tvec(A?′-A)≤δ的約束條件。
(3) 最后將擾動后連續取值的A?′還 原為{0,1}取值的鄰接矩陣A?。
根據以上分析,本文提出的基于局部影響分析模型的圖神經網絡對抗攻擊算法如表1所示。

表1 基于局部影響分析模型的圖神經網絡對抗攻擊算法

分析表中的實驗數據,可以得出以下結論:
(1) 采用隨機增刪連邊的方式Random無法實現有效的投毒攻擊。有效的投毒攻擊需要針對模型結構或訓練方法設計加擾方式。
(2) 雖然k = 1時圖神經網絡SGC未受擾動時的模型預測準確率相比k = 2時低,但是模型的魯棒性更高,在同樣的擾動比例下k = 2時更易受到對抗攻擊威脅。原因可以從SGC模型公式(1)中分析得出:k = 2時,由于需要計算矩陣L?的平方,相當于將擾動影響進一步放大,模型更加脆弱。
(3) 經典攻擊方法Mettack相比Min-max有更好的攻擊效果。原因主要是Mettack采用的攻擊梯度求解思想與本文基于局部影響分析模型的攻擊梯度求解思想類似,將參數視為擾動的函數而非獨立變量,Min-max在每輪攻擊中將參數視為固定常數。將參數視為擾動的函數這一觀點早已在統計診斷中發展并實踐,這也是本文將對抗攻擊研究溯源至統計診斷的原因之一。
(4) 基于局部影響分析模型的攻擊方法能有效提高攻擊性能。當k = 1時攻擊效果相比經典方法有1%左右的提升;k = 2時相比經典方法攻擊效果提升為2%~5%。將本文所提方法與Min-max相比,控制擾動篩選算法采用投影梯度下降算法不變,區別為攻擊梯度的求解方式,本文采用局部影響分析模型的式(12)求解攻擊梯度。實驗結果表明本文所提方法更具有效性,實驗結果支持了局部影響分析模型引入圖神經網絡對抗攻擊的合理性。

表2 數據集統計特性

表3 本文方法與其他攻擊方法的對比(%)
為進一步比較不同方法的實驗結果,說明不同擾動量對攻擊效果的影響,其他實驗條件不變,采用1%~5%的擾動并記錄準確率下降的平均值,并繪制曲線如圖1所示。

圖1 不同擾動量的攻擊效果對比
總體而言,本文所提攻擊方法具有更好的攻擊效果,在4個數據集上對于不同k值幾乎均超過經典方法Mettack和Min-max。實驗結果支持了本文引入局部影響分析模型的合理性、本文所提攻擊方法的有效性。
為進一步驗證本文所提攻擊方法對不同圖神經網絡的可擴展性,采用上述實驗(k = 2時)中各個攻擊方法生成的投毒訓練數據,作為圖卷積神經網絡GCN(Graph Convolutional Network)[26]和網絡表示學習方法DeepWalk[27]+多類邏輯回歸分類器的輸入,對比兩種方法在節點分類任務上的準確率。基于3%的擾動,保持其他實驗條件不變,得到表4的實驗數據。

表4 投毒數據用于攻擊其他圖學習模型
實驗結果表明,對于與本文直接攻擊的目標圖神經網絡SGC原理相近的GCN模型,攻擊效果具有較好的擴展性,本文所提的基于局部影響分析模型的攻擊方法均取得較理想的攻擊效果。對于網絡表示學習方法DeepWalk,基于SGC模型得到的投毒數據在Polblogs數據集和Cora數據集的攻擊效果較好;而在Cora_ml和Citeseer數據集上的攻擊表現一般。一方面,由于DeepWalk獲得節點向量表示的原理與SGC或GCN模型存在較大差異,投毒數據的遷移性減弱。另一方面,DeepWalk在節點分類任務的初始準確率普遍較低,尤其在Cora_ml,Cora和Citeseer數據集明顯低于SGC或GCN模型,因此基于較高初始準確率獲得的投毒擾動容易被較低的初始預測準確率淹沒,從而不易體現投毒數據的攻擊性能。
因圖神經網絡應用廣泛,其安全問題備受關注。本文關注到對抗攻擊與統計學經典分支統計診斷的聯系,把統計診斷的重要成果局部影響分析模型引入圖神經網絡對抗攻擊。推導出局部影響分析模型的擾動篩選公式—損失距離的2階近似。該式的物理意義是擾動對模型訓練參數的影響度量。結合損失距離2階近似公式的物理意義和其表達形式,定義攻擊梯度作為擾動篩選的近似公式,使模型復雜度降低為原來的1/N。爾后引入投影梯度下降算法進行擾動篩選,并設計了基于局部影響分析模型的完整攻擊算法。實驗結果支持了局部影響分析模型的合理性和攻擊方法的有效性。
局部影響分析模型是一類較廣泛的擾動分析模型,不僅適用于本文的增刪連邊攻擊,也適用于特征擾動、節點注入、標簽翻轉等其他攻擊類型,后續工作可針對不同攻擊類型作進一步推廣。局部影響分析模型還可擴展至圖像、文本等其他數據類型的對抗樣本研究。