夏道勛,王林娜,宋允飛,羅星智
(1.貴州師范大學大數據與計算機科學學院,貴陽 550001; 2.貴州師范大學貴州省教育大數據應用技術工程實驗室, 貴陽 550001)
《新一代人工智能發展規劃》(國發〔2017〕35號)強調要建立人工智能技術標準和知識產權體系。國家標準化管理委員會、中共中央網絡安全和信息化委員會辦公室、國家發展和改革委員會、科學技術部和工業和信息化部于2020年7月聯合印發《國家新一代人工智能標準體系建設指南》(國標委聯〔2020〕35號),提出了詳細的國家新一代人工智能標準體系建設思路和建設內容;國家知識產權局于2021年3月印發《推動知識產權高質量發展年度工作指引(2021)》(國知發運字〔2021〕3號),制定了人工智能等新領域知識產權的保護規則,進一步完善了知識產權審查制度。由此看出,隨著人工智能的快速發展,人工智能技術的知識產權保護問題越來越得到了重視。
深度神經網絡模型作為人工智能應用的核心技術之一,近年來在圖像分類、目標檢測、語音識別、自然語言處理、自動駕駛汽車和智能醫療等人工智能應用領域取得了巨大的成功,諸如LeNet、AlexNet、VGGNet、GoogLeNet和ResNet等深度神經網絡(deep neural network, DNN)模型不斷涌現,越來越多的科技工作者將這些模型用于人工智能應用領域某項特定任務中,推動了人工智能在各個行業領域的應用,也取得了巨大的進展,成為一種寶貴的數據資源,具有非常高的研究價值和商業價值。但是,深度神經網絡模型的訓練是一項艱巨的任務,需要大規模的數據集、高昂的算力成本和優異的算法思想才能訓練出一個優異的算法模型。因此,深度神經網絡模型的安全則變得極其重要,有必要保護深度神經網絡模型的知識產權,利用水印版權保護技術保障模型的安全已經成為人工智能安全領域一個重要的研究方向。
數字水印是永久鑲嵌在宿主數據中具有可鑒別性的數字信號或模式,而且不會影響到宿主數據的可用性[1]。數字水印最早應用在多媒體版權保護上[2-6],其保護思想通常是將數字水印嵌入多媒體信息中,從而實現版權保護。如果利用相同的版權保護策略,將數字水印嵌入深度神經網絡模型中,由于深度神經網絡模型擁有復雜的網絡結構和大量的模型參數,并且一般情況下使用者僅可以通過服務應用編程接口(application programming interface,API)對深度神經網絡模型進行訪問,這對提取水印做版權驗證就變得極為困難。因此,傳統的數字水印技術不適合深度神經網絡模型數字水印版權保護,研究者們根據深度神經網絡模型的特點,提出并設計出了許多適用于深度神經網絡模型數字水印版權保護的數字水印技術。目前,典型的深度神經網絡模型水印技術主要有靜態水印技術、動態水印技術和主動授權控制技術[7-8]。
為了促進該領域的研究進程,現綜述深度神經網絡模型水印版權保護技術的最新研究成果,包含深度神經網絡模型水印版權保護技術基礎概況、深度神經網絡模型水印版權保護技術的研究方法、深度神經網絡模型水印版權保護算法的攻擊和防御技術,總結并展望深度神經網絡模型水印版權保護領域的研究重點和發展方向。
從水印關聯模型對象、水印特性和抵抗不同類型的水印攻擊3個角度對深度神經網絡模型數字水印技術(以下簡稱深度模型水印技術)進行分類。根據水印關聯模型對象將深度模型水印技術分為靜態水印和動態水印;深度模型水印技術具有類型、應用場景、機制和容量4個特性,根據不同的特性又可以分成不同的子類;根據抵抗不同類型的水印攻擊可以將深度模型水印技術分為抵抗查詢修改攻擊、抵抗水印移除和抵抗逃逸或偽造攻擊。詳細分類見如圖1所示。

圖1 深度神經網絡模型水印技術的分類Fig.1 Classification of deep neural network model watermarking technology
深度模型水印技術中的靜態水印是被嵌入深度模型內部的參數中,訓練過程不依賴深度模型特定的訓練數據。然而,動態水印則依賴深度模型特定的訓練數據,并利用關聯的神經元激活圖或輸出結果提取水印[7]。
根據類型特性可將深度模型水印技術分為被動驗證和主動授權控制,如果在攻擊者盜取深度模型之后,深度模型所有者才能驗證模型的版權,這種保護策略被稱為被動驗證,如果通過事先授權控制來主動控制深度模型的使用,這種提前預防模型被盜取的保護策略被稱為主動授權控制。根據應用場景特性將深度模型水印技術分為白盒水印和黑盒水印[9]。白盒水印需要對深度模型進行完整的水印嵌入,并能提取其水印來證明深度模型的版權,深度模型的參數被公開且供所有人使用。黑盒水印使用深度模型API遠程訪問深度模型并提取水印來證明深度模型的版權,深度模型的參數不被公開。然而,深度模型在實際的應用中通常被部署為在線服務,通過API提供預測服務,人們很少接觸到深度模型的內部機制,因此黑盒水印更適合于商業使用。
根據水印機制特性將深度模型水印技術分為參數、后門和指紋3種水印技術,基于參數的水印技術是在深度模型的參數中嵌入水印,基于后門的水印技術是利用深度模型的后門作為水印,基于指紋的水印技術是利用深度模型的推理功能獲得深度模型部分訓練集數據的分布,將這種分布視為深度模型的指紋。根據水印容量特性將深度模型水印技術分為零位水印和多位水印,水印容量表示深度模型可以嵌入的水印信息量,零位水印技術是判斷水印是否存在于深度模型中,進而達到驗證深度模型版權的目的,多位水印技術則是提取深度模型中的多位字符串水印信息,實現深度模型版權的驗證過程[9]。
不同水印技術能抵抗不同類型的水印攻擊,大部分水印技術對深度模型的微調和剪枝都有很好的魯棒性,常見的水印技術攻擊主要分為查詢修改攻擊、水印移除攻擊和逃逸、偽造攻擊。深度模型可以利用關鍵樣本的預測結果進行版權驗證,查詢修改攻擊技術可以修改深度模型的關鍵樣本,使得深度模型無法輸出正確的預測結果,從而無法實現深度模型的版權驗證。水印移除攻擊技術可以使深度模型水印信息失效,無法利用有效的水印信息進行版權驗證。如果在無法移除深度模型水印信息的情況下,逃逸攻擊可以逃避深度模型的版權驗證,偽造攻擊則可以偽造真實水印重新對深度模型進行版權證明。
和其他深度模型水印技術類別相比,靜態水印和動態水印重點關注深度模型的內部結構,厘清深度模型的內部結構對研究深度模型水印技術起到積極的推動作用,并且現有深度模型水印技術大多采取被動驗證策略,只有當深度模型被盜之后,深度模型的所有者才提取被盜模型中預先嵌入的水印,以此來證明深度模型的版權歸屬,進一步制止盜取者復制、分發和濫用深度模型的行為。被動驗證策略不能事先防范或者制止竊取者對深度模型功能的使用,需要依靠法律手段來阻止侵犯知識產權的行為,給侵權行為排查帶來了極大的困難。相反,主動授權控制策略[8]可提前阻止模型被盜行為,達到防患于未然的目的,主動授權控制策略已經成為深度神經網絡模型數字水印版權保護技術(以下簡稱深度模型水印保護)的一個研究重點。因此,重點闡述靜態水印、動態水印和主動授權控制技術,以及典型水印技術的對比分析和水印技術的攻防等內容。
所涉及的深度模型水印技術基礎知識包含典型數據集及其對比分析、水印性能評價標準、后門攻擊和對抗性攻擊,以及水印版權保護過程中使用到的網絡微調、剪枝和蒸餾技術,下面對每一個基礎知識進行詳細闡述。
針對深度模型水印技術的研究,離不開公開和權威的實驗數據集,重點梳理了靜態水印、動態水印和主動授權控制水印的典型數據集,并進行了對比分析。
如表1所示,列舉了靜態水印、動態水印和主動授權控制的典型數據集名稱、簡要概述和相關工作文獻,重點對3種典型數據集進行對比分析。深度模型水印技術所使用的數據集均為深度學習常用的數據集,是在常用的數據集上訓練出來的深度學習模型中進一步探討模型的保護機制,諸如MNIST、CIFAR-10、CIFAR-100、Caltech-101、ImageNet、PASCAL VOC和COCO等數據集。這些數據集用于測試深度模型水印保護技術的綜合性能,在不降低深度模型性能的情況下應確保深度模型水印保護技術行之有效。在深度學習的發展過程中,研究者們創建了多種經典的深度模型框架,經典的框架有LeNet、AlexNet、GoogLeNet、ResNet、DenseNet和LSTM等,靜態水印重點關注深度模型的內部框架,能適應不同框架類型的深度模型水印保護。因此,靜態水印常用自然場景圖像數據集Caltech-101、ImageNet,Waterloo Exploration database、CBSD68和Kodak24等,以及人臉圖像數據集CelebA和美食評論數據集Amazon Fine Food。動態水印利用特定訓練數據關聯的深度模型神經元激活圖或輸出結果來提取水印,保護策略需要確保深度模型的輸出結果能方便嵌入和提取水印,常用的數據集有STL-10、PASCAL VOC、COCO,chestx-ray8、Danbooru2019、RIO和IMDB等。其中,chestx-ray8是醫療圖像數據集,Danbooru2019是動漫頭像數據集,RIO是雞尾酒圖片數據集,IMDB是電影評論數據集。chestx-ray8、Danbooru2019和RIO數據集可以完成一些更為困難的圖像處理任務,如胸部X射線圖像去骨、繪畫風格轉換、圖片編輯。主動授權控制可以對模型侵權等非法行為提前阻止,其授權機制更有利于保護三維點云數據集訓練出來的深度模型,常用的數據集有大型圖像數據集ImageNet、交通標志圖像數據集GTSRB,以及三維點云數據集ModelNet和ShapeNet。

表1 DNN水印實驗數據集使用情況Table 1 Usage of DNN watermark experimental dataset
由于MNIST、CIFAR-10、CIFAR-100、ImageNet、PASCAL VOC和COCO等數據集最具代表性,應用領域非常廣泛,相關領域的研究者都非常熟悉這些數據集的基本參數和性能。CelebA和Amazon Fine Food分別被用作性別分類任務和情緒分類任務的數據集[10],CelebA數據集包含10 177個身份的202 599張人臉圖像,Amazon Fine Food數據集包含評級范圍1~5的568 454 條亞馬遜美食評論。 Waterloo Exploration database、CBSD68、Kodak24被用來實現圖像去噪網絡FFDNet的實驗數據集[11],Waterloo Exploration database數據集包含4 744張各種真實場景的原始自然圖像和原始自然圖像生成的94 880張失真圖像,CBSD68數據集由68張481×324像素的彩色圖像組成,Kodak24數據集由24張768×512像素彩色圖像組成。在數據融合和遷移學習方面,有研究者將Waterloo Exploration database用作FFDNet的訓練集,CBSD68和Kodak24數據集被用作FFDNet的測試集。
根據信息安全等級保護的規定,深度模型版權保護也制定了一系列的評價標準,綜合衡量深度模型水印技術的優劣。深度模型水印保護一般應具備保真性、可靠性、魯棒性、完整性、容量、高效性和安全性等特性[12],在等級保護要求更高的深度模型應用領域,深度模型水印保護框架還應具備普適性、唯一性和可擴展性[13-14]等特性,見表2的詳細說明。

表2 深度神經網絡模型水印版權保護的評價標準Table 2 Evaluation criteria of watermark copyright protection in deep neural network model
深度模型被分發給大量用戶,深度模型水印保護不僅要證明所有者對深度模型的所有權,還要證明不同用戶身份的合法性,為了保證用戶身份的唯一性,研究者們提出用指紋水印保護深度模型的版權。因此,深度模型水印保護除了應具備保真性、可靠性、魯棒性、完整性、容量、高效性和安全性等特性以外,還應具備唯一性和可擴展性[14]。
保真性、魯棒性、容量是評價深度模型水印性能的重要參考標準,保真性指深度模型在水印嵌入后完成特定任務的能力,魯棒性指深度模型水印抵抗不同類型水印攻擊如模型微調、模型壓縮和水印移除等的能力,容量指有效水印信息的比特數,保真性、魯棒性、容量相互制約,深度模型水印技術需要平衡好這三者的關系[7]。
如果深度模型遭受后門攻擊或者對抗性攻擊后,深度模型的分類結果變為與圖片內容無關的錯誤標簽。相對于對抗性攻擊,后門攻擊的攻擊策略更加靈活,被攻擊的深度模型可以和原深度模型表現出一樣的預測能力,只有在輸入觸發集數據的時候才能觸發后門功能。
后門被定義為深度模型中的一個或多個實例,這些實例的集合稱為觸發集。深度模型中的后門分類被定義為深度模型的新分類功能,這種分類標簽被命名為預定義目標標簽,并且帶有后門的深度模型不會影響深度模型的分類結果[15]。利用深度模型的過度參數化特性,將觸發集和訓練集融合進行訓練,訓練出來的深度模型就具備分類觸發集的功能,如果向深度模型中添加后門,則不會降低深度模型在原始任務上的性能。為了避免在非必要時觸發了深度模型的后門,觸發集通常是經過精心設計的抽象數據樣本集,例如分形圖像數據。圖2展示了深度模型后門觸發的整個流程,包含有觸發集構造、觸發集訓練和后門觸發等3個主要模塊。觸發集由抽象數據樣本集和預定義目標標簽組成,每一個抽象數據樣本對應一個預定義目標標簽;觸發集作為訓練集的子集,觸發集的深度模型訓練和一般訓練集的深度模型訓練相同,帶有觸發集訓練的深度模型具備識別后門實例的能力;在后門觸發階段,帶有觸發集訓練的深度模型能識別觸發集并將其分類為預設標簽。

圖2 深度模型后門觸發流程圖Fig.2 Backdoor trigger flow chart of deep model
Szegedy等[16]研究發現深度學習模型容易受到小噪聲擾動樣例的攻擊,自此以后各種針對深度模型的對抗性攻擊方法不斷被研究者們提出。對抗性樣例是深度模型利用梯度優化來找到與訓練集相似的數據,雖然人眼察覺不到對抗性樣例與深度模型訓練集之間的差異,但是將對抗性樣例輸入到深度模型中,深度模型就會將對抗性樣例分類為高置信度的錯誤結果。
壓縮是對神經網絡結構或參數進行調整和優化,進而減少內存消耗和計算復雜性,獲得與原始神經網絡相近性能的方法。實現神經網絡結構壓縮的主要技術包含神經網絡微調、神經網絡剪枝和神經網絡蒸餾。
如果沒有足夠的訓練數據,并且訓練數據和預訓練模型使用的數據集沒有顯著差異,對深度模型的參數進行微調是深度模型獲得較好性能行之有效的方法[17-18]。因此,微調技術是一種快速獲得深度模型的有效方法,利用少量訓練數據便可以訓練出一個新的深度模型。
利用剪枝技術對深度模型的冗余權重進行修剪,以降低深度模型的復雜度。隨著深度模型的層數加深,深度模型的參數數量也越來越龐大,網絡結構變得越來越復雜。例如,VGG-16深度模型[19]的參數就高達138 M,導致深度模型的計算資源代價高昂和系統能效不高,這為剪枝技術提供了用武之地。Han等[20]利用剪枝技術,學習并保留深度模型中重要的連接,修剪不重要的連接,然后重新訓練剪枝后的稀疏深度模型。在不影響深度模型性能的情況下,剪枝技術能將深度模型的存儲空間和計算復雜度降低一個數量級。
知識蒸餾是通過遷移知識將大深度模型學習到的函數壓縮進更小更快的深度模型中,從而獲得可以匹敵大深度模型性能的方法。如果在相同數據集上訓練出若干個不同的深度模型,然后對不同深度模型得出的預測值求出其平均值,再用該平均值作為深度模型最終的預測值,這也是提高深度模型性能的一種有效方法。但是,使用多個深度模型進行綜合預測,這種策略存在諸多弊端,并且計算復雜度成倍增加。因此,Hinton等[21]提出了神經網絡蒸餾技術,將若干個深度模型中的知識提取到一個小規模的深度模型中,獲得的小深度模型不僅可以匹敵若干個深度模型融合的性能,還可以顯著降低深度模型的存儲空間和計算復雜度。
重點綜述了深度模型水印技術的3個重要研究分支的研究進展,它們分別是靜態水印、動態水印和主動授權控制,并對這些典型水印技術進行對比分析,以及詳細介紹了深度模型水印技術的攻擊和防御策略。
靜態水印被嵌入深度模型的內部參數中,訓練過程不依賴深度模型特定的訓練數據,它一般分為靜態水印嵌入和靜態水印提取兩個階段。首先,需要對深度模型的權重進行采樣,然后將靜態水印嵌入采樣權重中,再將靜態水印從深度模型的權重中提取出來,進而驗證深度模型的版權歸屬。
Uchida等[22]于2017年最先將數字水印技術應用于深度模型的版權保護,版權保護的策略如式(1)所示,正則化項ER(w)附加在深度模型的損失函數Eo(w)上,利用損失函數的正則化項將深度模型水印嵌入深度模型的權重中。實驗結果表明該方法不會影響深度模型的原有性能,經過微調或參數剪枝后確保了深度模型水印不會被移除,但是該方法不能抵御深度模型水印的重寫攻擊。
E(w)=Eo(w)+ER(w)
(1)
Wang等[23]實驗證明Uchida的深度模型水印技術修改了深度模型參數的統計分布,參數分布變化不僅可以檢測深度模型水印的存在,而且還可以推算出深度模型水印的長度,攻擊者獲取了深度模型水印信息后,便可以設計一個深度模型水印移除算法,進而使得深度模型所有者嵌入的水印信息失效。Cortias-lorenzo等[11]也研究發現深度模型的優化算法會影響深度模型水印信息的有效性,采用Adam優化算法會導致深度模型的權重參數分布發生顯著變化,導致深度模型水印信息更容易被檢測出來。為了避免水印信息被攻擊者檢測出來,他們提出了基于正交塊投影的Adam優化算法,該優化算法可以確保深度模型的權重分布不發生變化。Wang等[10,24]提出了新的解決思路,將深度模型水印的訓練和檢測分別設計成生成對抗網絡的生成器和鑒別器,實驗表明深度模型嵌入水印信息后,其權重參數分布幾乎沒發生變化。
與Uchida提出的深度模型水印技術不同,Kuribayashi等[25]利用抖動調制-量化索引調制(dither modulation-quantization index modulation,DM-QIM)首先將水印信息嵌入到深度模型采樣權值的頻率分量中,再利用逆DCT變換將水印信息分散到深度模型的采樣權重中,該方法的優點是確保了深度模型的權重分布變化盡可能小且可測量。Feng等[26]和Wang等[27]對靜態水印技術進行了創新,他們提出的靜態水印技術具有更高的保真性和穩健性,可以通過正交變換和誤差反向傳播嵌入到深度神經網絡模型的參數中。Feng等[26]提出有補償機制的深度模型水印技術,如圖3所示,該方法首先對深度模型采樣權重進行正交變換,獲得深度模型權重系數,以及對深度模型水印信息擴頻調制得到二值化水印,其次將二值化水印嵌入到深度模型權重系數中,再次利用逆正交變換將嵌入水印后的權重系數轉換成深度模型的權值,最后利用補償機制對深度模型參數進行微調,彌補嵌入過程中被輕微損耗的精度。與Uchida的方法相比,帶補償機制的深度模型水印技術僅需要較少的水印嵌入所消耗的成本。Wang等[27]利用誤差反向傳播方法在深度模型中嵌入水印,該方法首先構建一個獨立的神經網絡,選取深度模型的參數權重作為該網絡的輸入,其次通過誤差反向傳播更新該網絡的參數和深度模型的參數。訓練任務完成后嵌入水印的深度模型被釋放,獨立神經網絡則被保留下來,實驗表明深度模型的性能不會因嵌入水印信息而降低。

x1,x2,x3為訓練數據的輸入值;y1,y2為訓練數據的輸出值,Y(i)為y1或y2;Sw為被選擇嵌入印的權重;Θ為正交變換系數;B為二進制水印簽名;B[i]為水印中的一位數字;Y′(i)為量化嵌入水印后的值;q為量化系數,可以根據B[i]的值確定量系數的正負,當B[i]是1,q為正,當B[i]是-1,q為負;ΘT為逆正交變換系數;S′w為恢復的權重值圖3 帶有補償機制的DNN水印框架[26]Fig.3 DNN watermarking framework with compensation mechanism[26]
眾所周知,指紋水印可以證明用戶身份的唯一性,與一般的深度模型水印相比,深度模型指紋水印更能滿足商業版權保護的需求,并且更安全。正因如此,Chen等[14]提出了一種適用于大型深度模型分發系統且能抵抗共謀攻擊的指紋框架DeepMarks,該框架利用指紋水印的正則化損失來微調預先訓練的深度模型,進而將二進制指紋向量嵌入深度模型的參數中,這不僅可以證明深度模型的版權,還可以跟蹤深度模型的用戶信息。
動態水印依賴深度模型特定的訓練數據,并利用關聯的神經元激活圖或輸出結果提取水印信息。前者是從深度模型的中間層參數中提取水印,后者是從深度模型的輸出結果中提取水印。
Rouhani等[13]提出了第一個端到端的深度模型保護框架DeepSigns,根據深度模型的激活圖從深度模型中提取水印,對深度模型修剪、微調和深度模型水印覆蓋攻擊都有較強的魯棒性,該方法可提高深度模型水印的不可檢測性,并可以擴展到黑盒場景中使用。如果深度模型在嵌入水印之前已經被分發給用戶,或者嵌入的深度模型水印被移除,則不能從深度模型中提取水印進行版權認證。因此,Lukas等[28]提出了一種對抗性樣例生成方法,生成的對抗性樣例可以轉移到替代模型中,進而可以根據深度模型是否能識別對抗性樣例,并判斷深度用模型是否是被盜竊的替代模型。利用對抗性樣例的可轉移性,Le等[29]提出了一種對抗性邊界拼接算法,該方法尋找深度模型對抗邊界附近的數據點,對這些數據點施加擾動后生成對抗性樣例,利用對抗性樣例來標記深度模型。對抗性樣例包含正樣例和負樣例,深度模型的正樣例不能被正確分類,負樣例可以被正確分類,如果深度模型在微調后能將正樣例正確分類,那么說明深度模型嵌入了水印,反之亦然。在此基礎上,Zhao等[30]強化了對抗性樣例在深度模型和被盜模型之間的可轉移性,使得對抗性標記對簡單的深度模型變化具有很好的魯棒性,如果對抗性樣例在深度模型上的可轉移性超過了設置的閾值,便可認定該深度模型已經被攻擊者盜取。Cao等[31]實驗證明深度模型的分類邊界具有唯一性,分類邊界附近的數據點可以作為深度模型的標識符,將這些數據點輸入可疑的深度模型中,如果可疑深度模型輸出的類別標簽和原深度模型輸出的類別標簽基本相同,則可以證明可疑深度模型的版權問題。
Adi等[32]于2018年首次利用深度模型的后門對深度模型版權進行驗證,Zhang等[33]也相繼提出了3種適用于深度模型的后門水印生成算法,分別將有意義的數據、與訓練數據無關的數據和噪聲數據等通過深度模型水印框架嵌入到深度模型中,實驗表明這些算法對深度模型的參數剪枝、微調和模型反轉攻擊等都具有較強的魯棒性。與深度模型的后門水印一樣,關鍵樣本可以通過觸發深度模型的后門水印來證明深度模型的版權,Zhong等[34]為關鍵樣本預設的標簽是模型所有者的名字(如圖4所示),將模型所有者的名字Deakin作為關鍵樣本的預設標簽,然后將關鍵樣本和干凈樣本(干凈樣本是指沒有嵌入任何水印的普通樣本)一同輸入到深度模型中,訓練出來的深度模型就具備分類關鍵樣本的功能。實驗表明添加新標簽不會扭曲深度模型的決策邊界,并且能更好地學習關鍵樣本的特征。為了構建魯棒性更好的指紋水印框架,Sun等[35]選擇訓練集之外的干凈樣本作為關鍵樣本,為每個用戶分配有唯一的指紋圖像,用最低有效位(least significant bit,LSB)算法將指紋圖像嵌入到關鍵樣本中,并為關鍵樣本預設新的標簽,可以實現用戶指紋的認證和管理,而且能很好地防御查詢修改攻擊。大多數指紋水印不可以追蹤深度模型的非法用戶,Xu等[36]采用社區關系碼和用戶識別碼為深度模型提供一個非法用戶追蹤通道,社區關系碼用于查找可疑的用戶群,用戶識別碼用于查證可疑用戶的身份。

圖4 DNN后門水印工作流程[34]Fig.4 DNN backdoor watermark workflow[34]
容量是一個衡量深度模型水印性能的重要指標,現有零位動態水印方法[33]和多位動態水印方法[37],多位動態水印方法不僅使水印容量更大,而且可以很好地證明用戶的身份。例如,Guo等[37]于2018年提出了多位動態水印方法,他們將嵌入用戶簽名的訓練樣本作為關鍵樣本,連同干凈樣本輸入到深度模型中,如果干凈樣本能使深度模型以正常的模式運行,關鍵樣本能使深度模型以一種特殊的模式運行,從而實現深度模型版權驗證的目的,該方法在嵌入式設備下得到有效的驗證。Chen等[12]提出多位動態水印框架BlackMarks,該框架將未標記的深度模型和模型所有者的二進制簽名一并輸入BlackMarks框架中,BlackMarks會輸出一個帶有一組水印密鑰的深度模型。實驗表明BlackMarks框架具有更高的深度模型水印容量,并且只需要查詢深度模型的預測結果即可提取水印信息,進而證明深度模型的版權。
關鍵樣本是使深度模型輸出預設標簽的樣本,后門水印方法的鑒別能力主要取決于它的誤報率。Guo 等[38]提出了一個基于差分進化的后門水印框架,該框架顯著降低了后門水印的假陽性率,獲得了很好的深度模型版權鑒別能力,同時也保持了深度模型水印對微調的魯棒性。Lü等[39]首先訓練一個小型深度模型HufuNet,然后將HufuNet分成兩部分,其中一部分稱為EPH,作為水印信息嵌入到需要保護的深度模型中,另一部分稱為SPH,作為密鑰被保護起來。如果需要驗證可疑的深度模型的版權,可將EPH從可疑的深度模型中提取出來,連同SPH重新組合成一個完整的HufuNet,新組合的HufuNet與原始的HufuNet預測值的差值是否小于某個設定的閾值,以此來鑒別可疑深度模型的真偽,實驗表明HufuNet對深度模型的微調、剪枝和水印偽造攻擊都具有很強的魯棒性。一般情況下,關鍵樣本的分布差異比普通樣本的分布差異較大,模型竊取者可以通過檢測器檢測到關鍵樣本,并控制深度模型不對關鍵樣本做任何響應,深度模型所有者便無法利用關鍵樣本證明深度模型的版權。為了保證關鍵樣本不被竊取者檢測到,Li等[40]把與普通樣本分布相似的樣本作為關鍵樣本,實驗表明該方法對逃逸攻擊和偽造攻擊都具有很好的魯棒性。
深度模型可以將有骨頭的胸腔圖片轉換成沒有骨頭的胸腔圖片,將有雨水的圖片轉換成沒有雨水的圖片。但是,大部分深度模型水印技術只適用于圖像分類任務, 不適用于如上更為復雜的圖像處理任務。Zhang等[41-42]將數字水印技術應用在醫學圖像去骨和圖像去雨領域,提出了能保護圖像處理模型版權的動態水印,他們提出在深度模型的輸出結果中嵌入水印,并對復雜圖像處理任務的深度模型進行標記,如果竊取者利用API對深度模型進行攻擊,并得到具有相近性能的替代模型,然而模型所有者可以從替代模型的輸出結果提取到深度模型的水印信息,再與原深度模型中嵌入的水印信息進行對比,根據對比值便可以判斷替代模型是否為被竊取的深度模型。為了進一步確保深度模型水印的安全性,Wu等[43]提出了帶有密鑰的動態水印技術,只有在保證密鑰正確的情況下才能提取深度模型水印信息,實驗表明在圖像彩色化、超分辨率、圖像編輯、語義分割等多種圖像處理任務中,深度模型水印都具有很好的有效性和魯棒性。
主動授權控制能夠有效阻止未授權用戶對深度模型的非法訪問或者使用。Szentannai等[44]增加了深度模型對權重參數的依賴性,使用者即使對深度模型的權重參數進行微小的修改,這都會極大地改變深度模型的輸出結果,甚至可能會使深度模型的推理功能完全失效。Chen等[45]將深度模型水印保護擴展到了底層硬件計算平臺中,該方法首先生成與特定硬件設備相關聯的指紋,其次獲得的指紋嵌入到深度模型中,再次從深度模型的輸出結果中提取指紋,最后將提取的指紋與真實指紋進行比對,如果兩個指紋高度匹配,則在深度模型上執行推理功能,否則深度模型中斷執行推理。Xue等[8]在實現主動授權控制的同時實現了用戶指紋管理,該方法將深度模型的對抗性樣例作為指紋分發給授權用戶,在深度模型的最后一層增加一層控制層,控制層可以限制非授權用戶對深度模型的訪問或者使用,當授權用戶向深度模型輸入指紋后,深度模型的控制層就會被自動刪除,深度模型也能恢復正常使用。除此之外,Xue等[46]還利用多觸發后門生成不同權限的用戶指紋,不同權限的用戶指紋能不同程度地控制深度神經網絡模型的使用權。如圖5所示,在少量的訓練樣本中插入N個后門信號,帶有N個后門信號的訓練樣本成為深度模型所有者的指紋,用于驗證深度模型的版權,帶有n個后門信號的訓練樣本成為用戶的指紋,用于驗證用戶的身份。

圖5 DNN后門信號指紋授權控制技術框架[46]Fig.5 DNN backdoor signal fingerprint authorization control technical framework[46]
Fan等[47-48]用一個指定的數字實體作為深度模型的授權憑證,這種數字實體被稱為數字護照,該方法是在深度模型的每個卷積層之后增加一層數字護照層,用戶只有出示正確的數字護照密鑰才能正常使用深度模型,偽造數字護照會使深度模型的性能顯著下降,然而這種方法會改變深度模型的內部結構,從而導致深度模型的性能有所降低。針對此問題,Zhang等[49]對基于數字護照的主動授權控制技術進行改進,利用數字護照感知歸一化公式保證深度神經網絡模型結構的穩定性,他們提出了數字護照感知歸一化公式算法,該算法適用于大部分含有歸一化層的深度模型,數字護照感知分支被添加到深度模型的歸一化層,并和深度模型聯合訓練。當深度模型在進行合法的預測推理時,數字護照感知分支被屏蔽起來,只有當深度模型被竊取時,數字護照感知分支將被添加回來,進而驗證深度模型的版權。數字護照感知分支不會使深度模型的內部結構發生改變,并且對深度模型的性能影響很小。
進一步地,Tian等[50]用選擇加密算法加密深度模型中重要的參數,根據訪問用戶的不同,深度模型解密出不同數量的參數,進而向用戶提供分級訪問服務。Pyone等[51]先利用帶有密鑰的塊像素變換技術對深度模型的輸入圖像進行預處理,然后輸入到深度模型中進行訓練,如果密鑰不正確,則深度模型的性能將會明顯降低,有效地防止了深度模型的被盜行為。Xue等[52]提出了一種新穎的解決辦法,利用密鑰加密深度神經網絡模型的參數,用戶利用密鑰解密參數,進而控制深度神經網絡模型的使用權。首先利用損失函數選擇深度模型的一部分參數并對其進行加密,其次利用深度模型的對抗性擾動修正參數,再次加密參數的位置和對抗性擾動的值聯合生成一份密鑰,最后授權用戶使用密鑰對深度模型進行解密,授權用戶就能獲得深度模型的推理功能,這種方法有效地防止了惡意侵權者使用深度模型的推理功能。
從理論價值上來看,靜態水印能驅動對深度模型的內部機制進行深入的理解。深度模型對于動態水印嵌入者來說就是一個黑匣子,不需要接觸深度模型的內部機制。然而,靜態水印則是需要將水印信息嵌入到深度模型的內部參數中,水印嵌入者必須理解深度模型的內部結構和內部參數,它可以促進對深度模型內部機制的理解。從應用價值上來看,動態水印的應用價值更高或者適應場景更為廣泛。靜態水印只適用于可以接觸深度模型內部機制的應用場景,動態水印除了適用于靜態水印使用的場景以外,還可以適用于能接觸深度模型API的應用場景。在真實場景中,很少有機會接觸到深度模型的內部機制,大多是通過調用深度模型的API來使用深度模型的推理功能,因此動態水印更適合商業應用。從保真性上來看,靜態水印嵌入深度模型的參數中會改變深度模型的參數值,因此靜態水印對深度模型的性能影響較大,動態水印則能很好地保持深度模型原有的性能。
從高效性上來看,動態水印比靜態水印更為高效。靜態水印需要對深度模型進行完整的水印嵌入,版權驗證時需要提取深度模型中的水印信息,導致水印信息在嵌入和提取時需要進行大量的計算,使得版權保護任務變得復雜。從容量上來看,靜態水印能在深度模型中嵌入更多的有效信息。現有的動態水印大多是零位水印,只有少量的動態水印是多位水印,如Guo等[37]將用戶簽名嵌入部分訓練樣本中,以及Chen等[12]提出的多比特水印框架BlackMarks技術。從可靠性和安全性上來看,主動授權控制比靜態水印、動態水印更可靠和更安全。在攻擊者盜取了深度模型之后,深度模型所有者才能驗證其版權,并且不能強制終止竊取者對深度模型的繼續使用,版權擁有者需要依靠政府的執法行動來阻止竊取者的侵權行為。然而,主動授權控制則可以提前阻止竊取者對深度模型的非法使用,從源頭上制止了侵權行為。
深度模型水印技術的攻擊方法主要有查詢修改攻擊、水印移除攻擊、逃逸攻擊和偽造攻擊,重點對這幾種攻擊方法進行詳細介紹,并針對不同的攻擊方法綜述了研究者們提出的不同防御策略。
3.5.1 不同類型的水印攻擊
利用關鍵樣本保護深度模型的版權是深度模型水印技術常用的一種方法[53],如果攻擊者利用查詢修改攻擊算法攻擊該種類型的水印信息,深度模型的版權保護就會失效。諸如Namba等[54]提出了查詢修改攻擊算法,這種攻擊算法的原理是竊取者首先檢測深度模型的查詢樣本是否為關鍵樣本,如果查詢樣本是關鍵樣本,就用自動編碼器修改查詢樣本,進而阻止關鍵樣本對深度模型的版權驗證,如果查詢樣本不是關鍵樣本,就不對查詢樣本進行任何操作。
水印移除攻擊旨在對深度模型水印進行破壞,導致模型擁有者無法驗證深度模型的版權。Uchida等[22]將深度模型水印嵌入深度模型的權重中,隨后Wang等[23]實驗證明了該種水印技術會修改深度模型權重的統計分布,并且深度模型的權重分布標準差也會隨著水印長度的增加而變長,通過測量權重分布標準差不僅可以檢測到深度模型水印的存在,還可以推斷出深度模型水印的長度,這樣攻擊者便可以利用深度模型水印信息設計一個偽造的深度模型水印,將偽造的深度模型水印去覆蓋原有的水印信息,從而實現水印移除攻擊的目的。Shafieinejad等[55]針對深度模型后門水印提出了黑盒攻擊和白盒攻擊,黑盒攻擊的原理是攻擊者首先通過深度模型API查詢公開數據的標簽,然后利用輸出的標簽訓練一個和深度模型性能相近的替代模型。白盒攻擊的原理和黑盒攻擊的原理非常相似,但是白盒攻擊能訪問深度模型的參數,可以直接訪問深度模型查詢公開數據的標簽。實驗表明使用20 000~50 000條數據就可以去除深度模型水印。Aiken等[56]提出了一種神經網絡“清洗”算法,如果攻擊者不清楚后門水印的結構,該算法也能利用低于1%的深度模型訓練集剔除Adi等[32]和Zhang等[33]提出的后門水印。Liu等[57]提出了一種新的后門水印去除框架WILD,WILD框架在訓練集訪問受限的情況下也可以使用,WILD框架僅使用10%~40%的訓練集數據就可以去除深度模型的后門水印,并且對深度模型的性能影響很小。Chen等[58]則提出了深度模型水印剔除的另一種框架REFIT,該框架將彈性權重合并技術(elastic weight consolidation,EWC)和未標記數據擴充技術(unlabeled data augmentation,AU)集成到REFIT框架中,它可以通過深度模型參數的微調來移除水印,實驗表明該框架在不降低深度模型性能的情況下可以成功移除深度模型水印。
如果深度模型水印技術對水印移除攻擊具有魯棒性,那么攻擊者就無法移除水印,進而無法阻止模型所有者驗證深度模型的版權。但是,在不能移除深度模型水印信息的情況下,Hitaj等[15]實驗表明竊取者仍然可以逃避模型所有者對深度模型的檢測。類似地,Fan等[47]則通過偽造深度模型水印來再次聲明深度模型的所有權,進而使得真實的水印失效。
3.5.2 不同類型水印攻擊的防御策略
針對查詢修改攻擊,Namba等[54]提出了一種基于指數加權的深度模型水印方法,該方法可以防御查詢修改攻擊,并且不影響深度模型的性能。Sun等[35]提出利用附加類別的隱寫圖像來保護深度模型的版權,利用LSB算法將用戶指紋嵌入到關鍵樣本中,該方法也可以抵抗查詢修改攻擊。
針對水印移除攻擊,Jia等[59]提出一種糾纏水印方法,該方法將深度模型水印與深度模型的訓練數據糾纏在一起,移除深度模型水印會導致深度模型的性能下降。Yang等[60]在深度模型蒸餾情況下對已有的深度模型水印算法進行了評價,實驗證明蒸餾攻擊可以很容易地移除深度模型水印,為此他們設計了一種稱為Ingrain的蒸餾攻擊防御方法,該方法可以提高深度模型水印對蒸餾攻擊的魯棒性,加強了深度模型水印嵌入任務和深度模型分類識別任務之間的相關性。
針對逃逸攻擊,Li等[40]首次提出了基于盲水印的深度模型水印保護框架,該框架旨在生成與深度模型的普通樣本分布相似的關鍵樣本,模型攻擊者無法檢測出這類關鍵樣本,這樣可以阻止關鍵樣本對深度模型的版權驗證。假設模型攻擊者知道深度模型水印的嵌入算法,他可能試圖通過嵌入新的深度模型水印來破壞原始的深度模型水印。因此,Li等[61]在深度模型的分類精度和水印之間建立了一種強相關性,以此來防御攻擊者的偽造攻擊。在動態水印中,攻擊者常常偽造觸發樣本和標簽的匹配關系來混淆深度模型的版權,針對這類偽造攻擊,Zhu等[62]利用單向哈希函數構造抗偽造攻擊協議生成觸發樣本鏈,并利用觸發樣本鏈來指定觸發樣本與標簽的關系。針對偽造攻擊,Xu等[63]還提出了一種新的深度模型水印框架,該框架在深度模型中嵌入一份機構認證的序列號,以此來證明深度模型的版權。該序列號經過認證機構認可,并且與深度模型的標簽無關,增加了模型攻擊者偽造深度模型水印的難度。Fan等[47]則提出了一種基于數字護照的深度模型水印保護策略,偽造數字護照會使深度模型的性能顯著下降,因此該策略也能防御偽造攻擊。
隨著人工智能的廣泛應用,深度模型已經成為一種昂貴的數字資產,各種深度模型極易被非法入侵或竊取,如何保護深度模型的版權已成為學術界和工業界亟待解決的問題。介紹了研究者們對深度模型水印技術的分類方法和深度模型水印技術的基礎,重點對比分析了靜態水印、動態水印和主動授權控制技術的優缺點,以及歸納總結了深度模型水印保護算法的攻擊和防御技術。
人工智能時代的深度模型已經被應用到各個不同的行業領域,深度模型水印技術已經成為深度模型版權保護的主要方法,近幾年來國內外研究者們提出了很多不一樣的深度模型水印技術,深度模型水印保護技術也因此得到了很大的發展,涌現出圖1所示的研究分支,越來越多的研究者參與到深度模型水印保護的研究領域中。然而,深度模型水印技術尚處在初級階段,還存在很多亟待解決的問題,梳理了深度模型水印技術未來的研究方向。
(1)需要更大體量的數據集,以此來適應更為復雜的深度模型任務和深度模型水印技術的性能評估。現有的深度模型水印技術主要是對MNIST、CIFAR-10、CIFAR-100等較小規模的數據集訓練出來的深度模型進行保護和評估,并且大多數深度模型水印技術僅適用于分類任務和簡單圖像數據處理。未來的研究方向應設計出能保護大規模數據集(ImageNet、COCO等)訓練出來的深度模型,能適應在音頻,文本,視頻等非結構化數據上訓練出來的紛繁復雜的各類深度模型。
(2)探索嵌入、檢測和驗證深度模型水印的新思路,增強深度模型水印技術的高效性和可靠性。目前,深度模型水印技術研究的重點集中在深度模型水印嵌入階段,但是水印嵌入階段大多需要再次訓練深度模型,這會耗費大量的人力、物力和財力。深度模型的嵌入、檢測和驗證各階段還有很大的研究空間,如何構建快速、高效的深度模型水印嵌入算法,力求深度模型水印保護變得更為簡單。
(3)探索主動授權控制技術新機制。現有的深度模型水印技術大多是被動驗證,只能在深度模型被盜取之后才能驗證深度模型的版權,不能事先防范或者制止竊取者對深度模型功能的使用,主動授權控制可以提前阻止竊取者對深度模型的非法使用,實現版權保護和用戶身份管理的功能。
(4)權衡深度模型水印保護策略的保真性和魯棒性。保真性和魯棒性是評價深度模型水印技術好壞的重要指標,深度模型水印技術在保持保真性的同時難免會降低魯棒性,權衡好兩者之間的關系不僅能降低深度模型水印技術對深度模型性能的影響,而且能提高深度模型水印技術對不同攻擊者的防御能力。
(5)開發一個通用的深度模型水印理論框架。多年來,多媒體水印已經構建起一套較為完善的理論框架,雖然它們的一些概念和結構可以直接引入到深度模型水印理論框架中來,但是深度模型和多媒體是兩個不同的載體,它們的應用場景也有很大的區別,構建深度模型水印的理論框架能促進深度模型及其水印技術的發展。
雖然,國內的張新鵬教授團隊、張衛明教授團隊和薛明富教授團隊等分別在靜態水印技術、動態水印技術和主動授權控制技術方面做出了非常重要的貢獻。但是,總體上中國的深度模型水印技術尚處于起步階段,在目標檢測、語音識別、自然語言處理、自動駕駛汽車和智能醫療等重要領域的研究成果較少,如果這些領域所應用的深度神經網絡模型被非法入侵或竊取,會造成嚴重的隱私危機和商業價值流失,甚至直接影響國民安全。因此,除了需要在如上5個發展方向上繼續探索和深入研究,還應進一步增強深度模型水印技術在各個行業領域的應用,重視不同行業領域數據集之間的差異,重視不同行業領域應用的深度神經網絡模型的結構差異等問題,以及高度重視產學研的深度合作,進而加快深度神經網絡模型水印技術的發展,有效解決深度神經網絡模型的版權保護問題。