999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

通用深度學習語言模型的隱私風險評估

2021-06-04 00:22:34潘旭東顏一帆陸逸凡
計算機研究與發展 2021年5期
關鍵詞:語義特征文本

潘旭東 張 謐 顏一帆 陸逸凡 楊 珉

(復旦大學計算機科學技術學院 上海 200438)

在過去10年,深度學習、云計算等新型技術的高速發展帶動了包括智能制造、數字醫療、智慧化服務在內的多行業、各領域的智能化革新.在自然語言處理(natural language processing, NLP)中,得益于深度學習的多項前沿技術,計算機已經可以準確地判別句子中蘊含的情感[1],與人類進行智能問答[2]或對話[3],也能獨立寫出1首高水平的古詩[4],甚至1篇以假亂真的新聞長篇報道[5].

這些技術突破大多離不開近2年自然語言處理領域涌現的基于深度學習的通用語言模型(general-purpose language models, GPLMs).其中,以Google提出[6]的BERT(bidirectional encoder representation from transformers)模型和OpenAI提出的GPT(generative pre-training)[7],GPT-2[8]等模型作為引領,Facebook、百度等知名IT公司陸續開發出多種通用語言模型,持續刷新著各類自然語言處理任務的最好成績.具體而言,通用語言模型主要由一種于2017年提出的被稱作Transformer[9]的新型神經網絡模塊雙向逐層堆疊而成,通常包含成萬上億的可訓練模型參數,例如,OpenAI的GPT-2模型具有15億左右的參數[8].當通用語言模型在海量的公開語料庫上完成預訓練后,該類語言模型能直接用于從輸入文本提取向量形式的文本特征(embedding,下文均以“通用文本特征”指代),并廣泛應用于不同的下游任務(包括情感分析、語義分析等).例如,BERT在2018年最早提出之時,以BERT作為文本特征提取模型,簡單配以下游的線性分類模型,同時在多達11種重要的自然語言處理任務上顯著提升了此前最優基準指標[6].

考慮到重新訓練通用語言模型的極大時間開銷和計算成本,通用語言模型的開發機構大多會在互聯網上公開預訓練版本以供使用者自行部署應用.相較于此前基于詞頻統計的文本特征提取方法,包括詞袋模型[10]、TF-IDF(term frequency-inverse document frequency)[10]等,和以淺層神經網絡作為主體預訓練特征提取模型,包括Doc2Vec(document-to-vector)[11],Skip-Thoughts[12]等,由于通用語言模型提取的文本特征通常具有更好的泛用性,這將催生一種以通用語言模型提取的文本特征作為“通貨”的基于云-邊模式的智能語言服務模式.在這類新型服務模式中,用戶在端側利用本地部署的通用語言模型將文本輸入轉化為相應的通用文本特征,接著傳遞給服務器端以請求相應的智能文本服務; 同時,服務器端部署有為各類具體應用場景在通用文本特征上構建的學習模型.當其接受到用戶相應的服務請求,便會將用戶提交的通用文本特征輸入相應下游任務模型,執行各類智能化任務.盡管在工業界暫未出現通用語言模型的最佳應用模式,其未來的應用前景是廣闊的.例如,谷歌已宣布將其開發的BERT語言模型應用于進一步提升其搜索引擎的用戶使用體驗[13];如文獻[14]所述,在引入通用語言模型后,云掛號服務也有望為患者提供更好的智能化導醫服務,而各類電商服務行業為提升自身的服務水平,也可借助通用語言模型對大量的用戶評價進行傾向分析和觀點提取.

然而,在實際應用場景中,用戶的原始輸入文本經過通用語言模型計算產生的文本特征可能在傳輸過程中被中間人攻擊截獲,或在云服務器端口緩存,而服務方試圖通過分析該特征以竊取用戶的隱私信息.由于數以億計的參數構成的通用語言模型中復雜的運算過程如同“黑盒”,現有相關研究也往往表明通常從數據的深層表征中難以還原數據本身[15],因而人們似乎會認為公開通用語言模型文本特征通常不會泄露個人隱私信息.然而,Pan等人[14]于2020年率先指出公開通用語言模型文本特征這一行為中存在不容忽視的隱私風險.該文強調了,盡管通用文本特征具有較好的泛用性和性能表現,其中卻也潛藏著用戶隱私信息泄露的風險:一旦原始文本中包含用戶輸入的敏感信息而相應通用文本特征被攻擊者獲取,攻擊者將能夠利用機器學習方法以較高的準確度推測原始文本中是否存在特定的敏感詞,從而逆向分析出用戶的隱私信息.然而,該工作存在3個局限:

1) 提出的關鍵詞推斷攻擊僅推斷在原始文本中是否存在給定關鍵詞這樣的2分類問題,暴露的隱私信息過于單一,離真正竊取用戶原始語義仍存在一定距離;

2) 需要為攻擊者試圖推斷的每個敏感詞都需要訓練單獨的攻擊模型,在實際攻擊中可擴展性較低;

3) 評估的通用語言模型也僅局限單一英語語種的模型.

本文的主要貢獻有3個方面:

1) 將文獻[14]提出的關鍵詞推斷攻擊擴展為1條較為完整的隱私竊取鏈,從截獲的通用文本特征開始,攻擊者能夠逐步推斷出多種隱私信息(包括產生通用文本特征的語言模型種類、文本長度、敏感詞列表、以至敏感語義).

2) 對文獻[14]提出的關鍵詞推斷模型進行了改良,設計了一種泛用的關鍵詞出現評分預測模型,提升了該攻擊的可擴展性.攻擊者在完成本文提出的關鍵詞出現評分預測模型的預訓練后,僅需提供敏感詞列表,便能準確地依據出現概率推斷原始文本中存在可能性最高的K個敏感詞,用以重建原始文本的敏感語義.這進一步降低了文獻[14]的攻擊成本.

3) 擴展了文獻[14]進行隱私風險評估的模型和語言種類.新加入了中文醫患問答數據集[16]和3種中文預訓練通用語言模型,即zh-BERT[17],zh-XLNet[18],ERNIE(enhanced language representation with informative entities)[19],在共計13種知名IT公司和研究機構開發的通用語言模型上開展了隱私竊取風險評估.

1 基礎知識和相關工作

1.1 通用語言模型與文本特征提取

得益于2017年由Vaswani等人[9]提出的基于注意力機制的Transformer結構和2018年Peters等人[20]提出的上下文相關詞表征(contextualized word embedding),以谷歌公司提出的BERT模型和OpenAI公司提出的GPT系列模型為主要代表的通用語言模型近年來在自然語言處理領域幾乎重演著預訓練極深卷積神經網絡對于計算機視覺發展的重要推動作用.

通用語言模型的主體結構通常都由沿著詞序列輸入方向和模型深度方向堆疊的Transformer模塊組成.例如,BERT的基礎版本共包含了12層這樣的Transformer陣列,其中可訓練的參數共計1.1億左右[6]; GPT-2則包含了48層Transformer陣列,其參數規模達到將近15億[8].

Fig. 1 Feature extraction with general-purpose language model圖1 通用語言模型用于文本特征提取

如圖1所示,當1個句子輸入到通用語言模型之后,它將:①經過分詞模塊(tokenizer)轉化成詞(token)序列,并根據具體模型設定和下游任務的不同,在序列頭部或尾部增加相應的特殊符號(例如BERT在提取用于分類的句表征時,會要求在句末增加額外的CLS符號).②經過嵌入層轉化為詞向量序列;③逐層經過各Transformer陣列的計算,輸入的單詞序列將被最終轉化為與其長度相同的向量序列.其中,對應于每個單詞位置的向量也被稱為該單詞的上下文相關詞向量.正如其字面意思,不同于Doc2Vec中各個單詞的詞向量在預訓練之后便固定不變,在通用語言模型的語境中,1個單詞的詞向量會隨著它所出現的上下文不同而發生變化,即自然語言中的歧義現象[10],這在一定程度上模糊了傳統概念中詞特征與句特征之間的界限,為通用語言模型學習自然語義提供了更強的表達能力.④對輸出層獲得的上下文相關詞向量序列進行池化操作,通常為最后位池化(last pooling),即提取對應最后1個單詞的向量來獲得輸入文本的通用文本特征.

除了層數、層寬、單/雙向等結構參數上的差異性,各種通用語言模型的主要區別之一在于其預訓練過程中采用的代理損失函數.例如BERT將預測輸入文本中被隨機隱去的單詞所產生的誤差和預測輸入句對是否共現(cooccurrence)在同一上下文中所產生的誤差相結合作為代理損失函數[6];GPT系列主要采用經典語言模型訓練過程中的最大似然損失函數作為自監督信號[7-8].當這些深而寬的通用語言模型在海量的互聯網公開語料上完成預訓練后,使用者可以依其所需將通用語言模型作為特征提取模塊接入到下游模型中,在相應的有監督場景下與下游模型進行聯合微調,或直接利用通用語言模型將自然語言文本轉化為語義空間上的向量化特征,即通用文本特征,用于訓練下游模型.

正如Devlin等人指出[6],BERT同時在多達11種重要的自然語言處理任務上顯著提升此前最優方法的性能指標.在GPT和BERT之后,越來越多的知名IT公司和科研機構開始投身于設計、開發和預訓練面向更多領域、語種、任務的通用語言模型,不斷刷新著各類下游任務的指標.表1列舉了本文所研究的13種代表性的通用語言模型,包含10種英文模型和3種中文模型.

Table 1 Basic Information of GPLMs Studied in this Paper表1 本文主要研究的典型通用語言模型的基本信息

1.2 通用文本特征的隱私問題

開放網絡下構建云-邊交互的分布式學習系統這一新興趨勢給深度學習的安全性和隱私性帶來了空前的挑戰.在傳統局域網下的分布式學習系統或單節點學習系統中,傳統基于詞頻統計的文本表征盡管會使得原始文本中存在的信息被充分披露,卻由于這類應用場景中的文本信息通常不具備隱私性、與數據所有者脫敏、不易被外部攻擊者所截獲等因素,文本特征的隱私性一直以來鮮有相關研究.而近2年隨著通用深度學習語言模型的興起,考慮該類模型所產生的文本特征具有空前的下游任務普適性,研究者開始注意到通用文本特征在開放網絡環境下可能帶來的隱私風險.2020年文獻[14]率先指出:用戶在端側的輸入的文本信息即使經由通用語言模型編碼,生成向量化的文本特征后,該類特征一旦被公開在網絡環境中、遭受中間人攻擊截獲、或被半誠實(honest-but-curious)的服務器嗅探,可能造成該用戶的隱私受到侵犯.文獻[14]提出一種基于機器學習方法的敏感詞推斷攻擊技術,根據截獲的文本特征判斷其背后的原始文本中是否存在攻擊者詢問的敏感詞.該攻擊方法首先根據公開語料庫生成1組包含或不包含攻擊者詢問的敏感詞的語料,隨后通過本地部署的同種通用語言模型,用以將相應語料轉化為對應的文本表征,最后訓練支持向量機、多層感知器等傳統模型用以預測敏感詞的存在與否.

1.3 其他相關工作

在現實世界中,尤其對于醫療、金融、安防等相關領域,數據集的全局屬性、數據集中是否包含特定數據樣本、數據集自身等信息都可能高度隱私.近年來,一些研究者提出了多種不同新型的攻擊手段從不同層面揭示了深度學習算法中存在的各類數據隱私問題[26].根據攻擊的目的性不同,現有工作主要可以分為推斷攻擊(inference attack)和重建攻擊(reconstruction attack)兩類.

推斷攻擊的主要目標是判斷模型訓練使用的數據集是否符合某種敏感條件或具備某種屬性,通常被建模為分類任務.根據推斷目的的不同,現有推斷攻擊工作又主要分為成員推斷攻擊和屬性推斷攻擊.成員推斷攻擊主要試圖揭示某些特定數據樣本是否在已知模型的未知訓練數據當中,由Shokri等人[27]于2017年率先提出,隨即引起了學術界的廣泛關注[28-30].不同于成員推斷攻擊,屬性推斷攻擊的目標更為粗粒度,攻擊者主要希望判斷訓練集是否具有某些特定的全局屬性,由Ganju等人[31]于2018年提出并在多種深度學習模型上實現了該類攻擊,并在近期由Melis等人[32]和Pan等人[14]推廣到用于文本的分布式學習系統,分別通過梯度信息和句向量信息推斷訓練集數據是否包含特定單詞.

重建攻擊的主要目的在于恢復訓練集中部分或全部的訓練樣本, 最早可追溯到2015年Fredrikson等人[33]首次提出的模型反演攻擊(model inversion attack).而正如Shokri等人[27]隨即指出,該類攻擊無法對一些寬泛的類標簽恢復出有意義的數據樣本.2019年Salem等人[34]和Zhu等人[35]在模型反演攻擊的基礎上進行了更為細粒度的改良,分別提出基于輸出變化和平均梯度的數據重構攻擊以在當前訓練輪次中恢復對應的小批量內的每個數據樣本.此外,近年來研究者也發現,僅僅通過請求在線機器學習調用接口,攻擊者便有可能竊取私有智能系統中所部署的模型參數[36]、結構[37]、超參數[38]等信息,侵犯相關機構的知識產權.

2 針對通用語言模型的隱私竊取鏈

本節介紹了如何從截獲的通用文本特征出發,逐步推斷出產生該文本特征的模型來源、相應原始文本的長度、最有可能出現的敏感詞列表,最終重建原始文本的敏感語義.本文稱該分階段推斷攻擊為1條針對通用語言模型的隱私竊取鏈.

2.1 相關記號與攻擊假設

2.1.1 相關記號

沿用文獻[14]中采用的記號,記1個預訓練通用語言模型為, 用戶輸入文本為x,可表示為1個長度為n的詞序列(w1,w2,…,wn), 其中每個單詞wi來自單詞表V.該文本經過通用語言模型f計算產生相應的文本特征zf(x)∈Rd,即1個d維的實值向量.記用戶原始文本中攜帶的隱私信息為s,且該隱私信息可表示為原始文本的函數P:x→s.例如,原始文本x為患者陳述“3天前孩子去中醫扎針灸”,經過BERT語言模型被編碼成d=1024維的實值向量作為其表征z, 而例如,攻擊者目標逆向出原始文本中包含的醫療相關的關鍵詞,那么“中醫”和“針灸”可以認為是該用戶相應的敏感信息s.

2.1.2 攻擊假設

假定攻擊者擁有3種能力:

假設1. 攻擊者截獲了N個由某個或多個通用語言模型產生的文本特征,而它們對應的原始文本中包含攻擊者想要獲取的用戶隱私信息,這里N∈N+.

假設2. 攻擊者了解截獲的文本特征對應的原始文本的語種、相關應用領域等元信息.

假設3. 攻擊者能夠獲取來自和原始文本相似領域的公開語料庫.

假設1主要為攻擊者準備了相應的攻擊信道,即用戶在使用通用語言模型過程中無意泄露或被半誠實的服務器端緩存的文本特征.注意到這里本文放寬了文獻[14]此前對于攻擊者知曉產生這些文本特征的通用語言模型的類型的假設,同時本文容許攻擊者截獲的文本特征可以來自于多個未知的通用語言模型.

對于假設2,攻擊者通常可以利用文本特征泄露過程中的一些側信道(side channel)來獲得這些信息,例如從相關服務提供方的服務類別可以推測具體的應用領域、根據服務提供方使用的主要語種或者受害人的IP信息來確定相應的語種等等.

假設3類似于Pan等人[14]在其關鍵詞推理攻擊中設計的白盒攻擊場景.隨著互聯網上的公開語料庫愈發增多,攻擊者也越發容易滿足該攻擊假設.例如,一些醫療機構或在線醫患問答平臺通常會公開脫敏后的患者主訴、治療方案描述、手術信息等語料用于促進科研或提升醫療服務質量,而在本文中攻擊者卻得以利用這些公開語料庫進行一系列的隱私竊取.此外,如若攻擊者無法獲得滿足假設2的語料庫,文獻[14]指出可以利用域對抗神經網絡技術(domain adversarial neural network)[39]來實現攻擊模型遷移,該技術路線可供未來工作繼續探索.

2.2 攻擊流程概述

如圖2所示,本文所提出的攻擊流程包含3個階段:

Fig. 2 Privacy theft chain targeted at GPLM embeddings圖2 針對通用語言模型文本特征的隱私竊取鏈

2.2.1 模型來源推斷攻擊

在階段1,為了開展下游攻擊,攻擊者首先需要確定它所截獲的各個文本表征分別來自于何種通用語言模型.盡管該任務似乎為攻擊者設置了巨大的挑戰,文獻[14]在其附錄中通過可視化方法指出,來自于不同通用語言模型的文本表征在高維空間上似乎可分性較好,如圖3所示.本文基于這一現象,設計了完整的模型來源推斷攻擊方法,用于對每個文本特征標記相應的模型來源.具體攻擊算法設計請見2.3節.

Fig. 3 t-SNE visualization of textual embeddings produced by GPLMs圖3 t-SNE算法可視化通用文本表征分布

2.2.2 長度推斷攻擊

在階段2,當攻擊者確定了模型來源之后,本文將進一步擴展暴露的隱私信息種類.具體地,在該階段中,攻擊者試圖獲取通用文本特征對應的原始文本中包含的單詞的個數,即原始文本的長度信息.推斷出該信息將有助于攻擊者在下一階段的語義重建攻擊中確定所需要嗅探的最可能出現的單詞列表的長度上限,記為K.相關攻擊框架和長度推斷攻擊的具體細節將在2.4節介紹.

2.2.3 敏感語義重建攻擊

在階段3,攻擊者試圖根據前2個階段中獲得的關于文本特征及其對應文本的元信息,重建出未知文本中包含的敏感語義.由于詞是構成文本語義的主要成分[40],本文仍以關鍵詞作為突破口,借鑒了對比學習(contrastive learning)[41]的思想,設計一種全新的基于神經協同過濾架構(neural collaborative filtering, NCF)[42]的關鍵詞出現評分預測模型,并給出了相應基于負采樣的訓練技術.攻擊者可以在公開語料庫上事先完成這類攻擊模型的訓練;在攻擊階段,攻擊者只需給定需要嗅探的敏感詞列表,即可直接利用提前訓練好的推斷模型輸出列表中各個敏感詞的出現得分,經由排序操作后,利用階段2中推斷出的長度信息,獲得前K個最有可能出現的敏感詞,從而重建原始文本的敏感語義.相較之下,文獻[14]最早將關鍵詞推斷攻擊建模成一種2分類問題(即給定1個目標關鍵詞,根據文本表征判斷原始文本中是否包含該關鍵詞).盡管該方法也可間接用于敏感語義重建攻擊(即對攻擊者給定的敏感詞列表中的每個詞進行1次關鍵詞推斷攻擊,并對預測為存在的關鍵詞利用預測置信度作為其出現概率.經過分析,發現其主要存在2點局限性:

1) 攻擊者需要對每個關鍵詞訓練1個相應的推斷模型,難以擴展到較大的敏感詞列表;

2) 為了給每個關鍵詞推斷模型準備均衡的訓練數據,攻擊者需要將公開語料庫中的每段文本替換成1對包含或不包含該關鍵詞的新文本,利用本地部署的通用語言模型重新生成相應的通用文本特征,攻擊開銷較大.

為了解決這2點主要不足,本文創新性地提出了解決方案:在框架層面,本文改變原先采用的分類任務的建模方式,提出將敏感語義推斷攻擊建模為排序任務,即根據文本特征預測按出現概率降序排列的敏感詞列表;在攻擊模型結構層面,本文將模型改變為同時輸入文本特征和待推斷關鍵詞經由在階段1中推斷出的通用語言模型編碼后獲得的詞特征,預測相應的關鍵詞在原文中的出現得分,從而得以讓敏感詞列表中的各個單詞共享同一個推斷模型;在訓練算法層面,本文利用公開語料庫中詞與句子的共現關系作為自監督信號,并利用負采樣(negative sampling)的策略,設計一種對比損失函數使得攻擊模型給實際出現在句子中的單詞輸出比未出現的單詞更高的得分.具體的模型結構和算法設計將在2.5節介紹.

2.3 模型來源推斷攻擊

2.3.1 攻擊場景定義

2.3.2 攻擊方法描述

2.3.3 具體模型設置

本文采用1個隱藏層大小為200的3層全聯接神經網絡作為分類器,其中輸入層神經元個數等同于文本特征的維度d,輸出層大小為候選集中模型的個數C,并經由1個Softmax層獲得最終的模型來源預測概率向量;隱藏層的激活函數為ReLU.在訓練過程中利用Adam優化器[43]以0.01的學習率最小化Dtrain,fingerprint中樣本的模型來源預測概率與實際來源之間的交叉熵(cross entropy)損失函數.

2.4 長度推斷攻擊

2.4.1 攻擊場景定義

2.4.2 攻擊方法描述

當攻擊者知曉了文本特征的模型來源后,它首先在本地部署相應的語言模型fc;接著,一方面,攻擊者利用語言模型,將獲得的與目標文本來自相似領域的公開語料庫Xpub轉化為相應的文本特征;另一方面,攻擊者利用公開可獲取的通用語言模型對應的分詞模塊,對公開語料庫中的每個樣本進行分詞并標記相應的文本長度lj;最后,在攻擊者完成了訓練數據集的準備后,它將選擇一種機器學習中經典的多分類模型在Dtrain,lia進行訓練,完成后對受害者暴露的來自同一語言模型的文本特征進行長度推斷.

2.4.3 具體模型設置

類似于來源推斷攻擊,本文同樣采用3層全連接神經網絡作為長度推斷模型,其中輸入層大小為文本特征的維度d,隱藏層大小為200,輸出層大小為攻擊者所獲得的公開語料中最長文本的長度(實驗數據集上的實際統計數據將在2.6節給出),并經由1個Softmax層預測相應的文本長度;隱藏層的激活函數為ReLU.在訓練過程中利用Adam優化器以0.01的學習率最小化Dtrain,lia中樣本的預測所具有長度與實際長度之間的交叉熵損失函數.

2.5 敏感語義重建攻擊

2.5.1 攻擊場景定義

2.5.2 攻擊方法描述

類似于2.4.2節,攻擊者在知悉文本特征的模型來源fc后,先在本地部署對應的語言模型.這里利用2.1.2節中的假設2,攻擊者獲得同z對應的原始文本相似的公開語料庫Xpub構建對應的詞表為Vpub.接著攻擊者就能借助本地語言模型將Xpub轉化為相應的文本特征并從中隨機采樣1個詞記為wj,+,同時從Vpub中隨機取1個不在中的詞記為wj,-.

Fig. 4 NCF-based sensitive keyword inference model圖4 基于神經協同過濾架構的敏感詞推斷模型

在敏感詞推斷模型的訓練階段,本文從對比學習的思想出發,提出訓練方法和損失函數:在訓練時,我們在每個小訓練批次(mini-batch)中同時加入在原始文本中出現的敏感詞wj,+和未在原始文本中出現的敏感詞wj,-(也被稱作負樣本),模型需要盡可能地擴大正例樣本wj,+的出現得分sj,+與負例樣本wj,-的出現得分sj,-之間的差值,具體對應損失函數為

(1)

其中,參數B是1個小訓練批次所包含的正負樣本對個數.經過優化對比損失函數,所提出的敏感詞推斷模型能夠學習通用文本特征與敏感詞特征之間的深層關聯,并根據這一關聯判斷敏感詞的出現與否,從而在隱私推斷過程中為更有可能出現的敏感詞賦予更高的出現概率評分.

2.5.3 具體模型設置

2.6 數據集選取與評估指標

2.6.1 數據集簡介

1) CMS公共醫療記錄數據集[44].由美國醫療及醫療補助服務中心統計并公開的全美各醫院的治療質量、收費情況等多類醫療數據,本文選取來自10個主要科室(如放射科、皮膚科等)的患者治療過程文本描述部分構成實驗部分使用的英文醫療語料,共計60 000條文本,按5∶1劃分訓練集(作為假設3中的公開語料)和測試集(僅可見相應的通用文本特征).實驗結果默認給出10次重復隨機實驗結果的均值.CMS醫療記錄數據集的詞表大小為1 652,平均句長為9.24.

2) 中文醫患問答數據集.由He等人[16]從某公開中文醫患問答平臺抓取的網民與醫療工作者在線問答中的單輪對話內容,本文選取來自其中60 000條網民的病情描述文本,按5∶1比例劃分為互不相交的訓練集/測試集并進行10次重復隨機實驗.中文分詞時均采用各預訓練模型同時公開的分詞模塊進行,該數據集的詞表大小為63 252,平均句長為27.5.

2.6.2 評估指標

(2)

即被正確推斷敏感信息的樣本個數與全部目標樣本個數的比值.由于模型來源攻擊和長度推斷攻擊均為多分類問題,在3.1節及3.2節中,本文主要根據攻擊模型的分類準確度來衡量相應的隱私風險.

2)Precision@K和Recall@K.這2個指標主要在敏感語義重建攻擊的評估中使用.具體地,給定任一用戶原始文本x=(w1,w2,…,wL)和攻擊者預先準備的敏感詞列表Vsensitive,當攻擊模型預測出前K個最有可能出現的敏感詞(v1,v2,…,vK),Precision@K指標定義為

(3)

即預測的K個敏感詞中實際出現在原始文本中的個數與列表長度的比值,主要用于衡量敏感語義重建攻擊的誤報率.同時,本文采用Recall@K指標衡量敏感語義重建的命中率,定義為

(4)

即預測的K個敏感詞中實際出現在原始文本中的個數與原始文本出現的敏感詞個數的比值.

3 實驗結果與分析

本節首先介紹模型來源推斷攻擊,可視化展示了產生于不同通用語言模型的文本特征的聚類現象;接著,給出了長度推斷攻擊的實驗結果;最后給出了敏感語義重建攻擊的實驗結果,并展示了相應的隱私泄露實例.

3.1 模型來源推斷攻擊結果分析

本節介紹了在3組不同的通用語言模型候選集上進行模型來源推斷攻擊的結果,這3組模型分別為:

1) 文本特征維度為768的英文語言模型(如圖3(a)所示);

2) 文本特征維度為1024的英文語言模型(如圖3(b)所示);

3) 文本特征維度為768的中文語言模型(如圖3(c)所示).

每組具體包含的模型請見圖3中的圖例.后續部分也將以分組進行實驗展示和分析.

表2給出了模型來源推斷攻擊分別針對3組模型上黑盒和白盒場景下醫療文本特征測試集上的攻擊準確度,其中黑盒場景指攻擊者在領域無關語料上(實驗中采用亞馬遜商品評論英文語料[45]中隨機采樣的1 000條評論)訓練模型來源推斷攻擊模型后,在醫療文本特征測試集上進行模型來源推斷;白盒場景為攻擊模型分別在相應語種的醫療語料訓練集和測試集上進行訓練和來源推斷.

如表2所示,在白盒與黑盒攻擊場景下,模型來源推斷攻擊的準確度均能達到98%以上,尤其在其中4種配置下重復實驗表明攻擊準確度能始終維持在100%.我們進一步利用經典的t-SNE算法對各組模型產生的通用文本特征進行了可視化分析,相應的散點圖在圖3中展示.可以看到,不同語言模型產生的文本特征在2維平面上形成了自然的聚類,這表明每類通用語言模型產生的文本特征向量具有各自獨特的分布特征,因而攻擊者能在僅有領域無關語料的情況下近乎精準地推斷出截獲的通用文本特征的模型來源,從而為下一階段攻擊提供了前置條件.

Table 2 Attack Accuracy of Model Finger-Printing Attack表2 模型來源推斷攻擊準確度 %

此外,縱向比較白盒與黑盒的攻擊結果可知,白盒攻擊由于其擁有更多的先驗知識因而在多數情況下會表現優于黑盒場景;而在中文模型上,黑盒場景的攻擊準確度100.0%卻略高于白盒場景的結果98.4%,通過分析訓練中間過程,該現象主要由于攻擊模型的過擬合所致,而黑盒場景由于利用了領域無關數據能更好地集中于學習僅和分布相關的攻擊知識,因而獲得了更好的攻擊效果.

3.2 長度推斷攻擊結果分析

本節介紹了在3組通用語言模型上進行長度推斷攻擊的實驗結果.具體地,為了對比的公平性,中英文醫療訓練及測試語料均預先經長度過濾得到句長在10~20之間的文本,其中英文語料訓練集與測試集分別包含48 224和9 743條文本;中文分別包含2 094和886條文本.作為基線,針對英文數據的隨機盲猜(random guessing)和眾數盲猜(majority-based guessing)的長度推斷準確度分別為10%和23.9%;針對中文數據時分別為10%和24.0%.圖5給出了相應的長度推斷攻擊準確度的柱狀圖.

Fig. 5 Performance of length inference attack on each group of GPLMs圖5 在各組通用語言模型上的長度推斷攻擊性能

從圖5可以看到,攻擊者針對各個通用語言模型發動的長度推斷攻擊的準確度均高于基線指標,這表明這些通用語言模型的特征中均包含與句子長度相關的信息.

特別地,對于大部分英文通用語言模型而言,攻擊者能夠以97%以上的準確度推斷句子長度.通過分析這些通用語言模型的結構設計細節,我們認為這可能是由于在圖1介紹的文本特征提取第3步中,即詞序列轉化為詞向量序列過程中,普遍采用位置向量信息(positional embedding)與傳統的語義詞向量融合來形成混合詞向量[6],而這些與長度相關的信息在經過模型計算后仍得以部分保留.一方面這些信息進一步增強了通用語言模型在語序相關任務上的通用性;另一方面,也使得本文提出的長度推斷攻擊能夠實施.類似地,由于谷歌新開發的Transformer-XL模型采用了相對位置向量[21]而非谷歌原先在BERT等模型中采用的絕對位置向量,其暴露的長度信息會相對較少,然而,針對它的長度推斷攻擊的準確度也達到了70%以上.此外,相比之下,對照圖5(a)~(c)可以發現,中文通用語言模型面對長度推斷攻擊的安全性比英文模型相對更強(例如百度開發的中文ERNIE模型上的長度推斷攻擊的準確度為37.8%),這可能是因為中文自身的復雜性(例如,中文醫療語料的詞表大小為60 000左右遠大于英文醫療語料的不到2 000的詞表大小)及詞邊界的歧義性導致最終獲得的文本特征中所包含的文本長度信息相對模糊.

3.3 敏感語義重建攻擊結果分析

本節介紹了敏感語義重建攻擊的實驗結果.針對中英文醫療語料,我們首先根據2.5節中的方法在訓練集上訓練相應的關鍵詞推斷模型;隨后,在訓練集上統計不為停詞的前100個高頻詞作為攻擊者希望嗅探的敏感詞列表;最后,對每個測試文本特征,利用關鍵詞推斷模型,計算敏感詞列表中的各單詞的出現概率得分并從大到小排序,將前K個單詞看作包含原始文本敏感語義的單詞列表輸出.K在實驗中取值5, 10, 15, 20.圖6給出Precision@K和Recall@K的曲線圖,2種攻擊性能指標定義請見2.6.2節.從圖6可見,對于10種英文通用語言模型中的4種(分別為OpenAI開發的GPT-2和GPT-2-Large,Google開發的XLNet以及Facebook開發的XLM),攻擊者在K=5的情況下Precision@5和Recall@5均能達到60%甚至更高.而隨著敏感詞預測集從5逐漸增大到20,攻擊者在這些模型上的Recall@K指標上升至90%,這意味著攻擊者能夠重建出原始文本中90%比例的敏感詞,而這時對應的Precision@K指標也在30%~50%區間內,這表明敏感詞預測集中的有效內容占比可觀.

Fig. 6 Performance of semantic reconstruction attack on GPLMs圖6 通用語言模型敏感語義重建攻擊效果

我們進一步采樣了一些實際的敏感語義重建樣例,圖7展示了3對隨機選擇的英文原始文本和從Google的XLNet模型產生的通用文本特征中推斷的前10個可能出現的敏感單詞,以及1對隨機選擇的中文原始文本和從百度的ERNIE模型產生的通用文本特征中推斷的前10個可能出現的敏感詞.其中原始文本中出現在攻擊者準備的敏感詞列表中的單詞用陰影標記,敏感詞預測集中命中的單詞用下劃線標記.

Fig. 7 Demonstration of sensitive semantic reconstruction attack圖7 敏感語義重構攻擊實例

這些結果直觀地反映了圖6中的數值指標對應的隱私暴露程度:攻擊者可以較為準確地推斷出原始文本中出現的大部分敏感詞;同時,得益于通用語言模型的語義捕捉能力,預測出的敏感詞候選集中未命中的詞也和原始文本具有較為相關的語義.例如,圖7的原始文本1中未命中的“assessment”(評估)和“test”(測試)均與原始文本中包含的“examination”(檢查)語義關聯緊密;類似地,圖7的原始文本2中的未命中的“X-ray”(X光)也與原始文本中的“radiation”(輻射)和“CT-scan”(CT-掃描)處于相近的語義維度.圖6(c)和圖7的原始文本4也給出了中文通用語言模型上的數值指標和實際攻擊樣例.類似于前2部分的中英文模型的對比分析,由于中文文本自身的復雜性且本節中使用的原始中文醫療語料的平均句長和詞表大小遠高于英文醫療語料,盡管中文通用語言模型在敏感語義重建攻擊下的安全性也相對較強,然而原始文本中的隱私信息仍有所泄露.例如,圖7中原始文本4,攻擊者可以因此推斷該受害者可能罹患高血壓及其并發癥.這些潛在的隱私風險對制定通用語言模型的使用規范以及其未來落地來說不容忽視.

4 總結與未來工作

盡管近年來設計、開發和預訓練通用語言模型的趨勢方興未艾,一些研究者已開始分析通用語言模型在開放網絡下的實際服務場景中可能潛在的隱私和安全問題.隨著谷歌公開宣布BERT模型在其搜索引擎中的落地,通用語言模型的安全與隱私研究急需更多的研究投入.在這些背景下,本文通過構建一系列的隱私竊取攻擊,進一步闡釋了潛在攻擊者將如何僅從受害者公開或無意間暴露的通用文本特征中,確定其模型來源,推斷其背后的原始文本長度,構建其中最有可能出現的敏感詞列表,最終得以重建原始文本的敏感語義.在10種代表性的英文通用語言模型和3種中文通用語言模型上的實驗結果表明,通用語言模型產生的文本特征存在不容忽視的隱私風險.一方面,本文證明和展示隱私風險的存在性將有助于用戶、服務隱私規則制定者和開發者更好地理解通用語言模型的隱私屬性;另一方面,通用語言模型潛在的隱私風險也應引起學術界和工業界對相關隱私增強技術的關注和研究.除了文獻[14]中提出的基于差分隱私、子空間投影等技術對通用文本特征進行后處理(post-processing),未來研究也可從預處理(preprocessing)和中段處理(in-processing)角度出發提出更多有效的隱私增強技術.從預處理的視角出發,終端可以采用例如文本脫敏、匿名化等技術來從源頭上減少用戶隱私的泄露;從中段處理的視角出發,通用語言模型的開發者則可以采用例如差分隱私訓練、對抗訓練等隱私保護的學習算法,使得最終獲得的模型減少對原始文本中敏感信息的收集和建模.由于篇幅所限,本文未對這些隱私增強技術進行系統性的評估分析,希望未來的研究工作可基于3種防御思路,提出更多切實有效的隱私提升技術,以進一步保障通用語言模型和相應服務模式的安全性.

猜你喜歡
語義特征文本
語言與語義
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产在线视频自拍| 少妇露出福利视频| 国产在线视频欧美亚综合| 色婷婷天天综合在线| 日韩精品一区二区三区免费在线观看| 成人综合久久综合| 韩国福利一区| 欧美视频在线不卡| 免费A∨中文乱码专区| 国产精品视频第一专区| 国产SUV精品一区二区6| 91福利国产成人精品导航| 国内黄色精品| 国产情侣一区| 日韩小视频在线观看| 91色在线视频| 在线观看欧美国产| 99在线视频免费观看| 国产激情无码一区二区免费| 国产成年女人特黄特色毛片免| 成人免费一区二区三区| 一本久道久久综合多人| 欧美综合区自拍亚洲综合绿色| 欧美国产在线看| 午夜激情福利视频| 国产99久久亚洲综合精品西瓜tv| 视频一区视频二区日韩专区| 久久毛片网| 天堂成人在线| 亚洲91在线精品| 亚洲不卡网| 国产欧美精品专区一区二区| h网址在线观看| 狠狠色狠狠综合久久| 亚洲香蕉伊综合在人在线| 国产精品无码影视久久久久久久| 亚洲综合久久一本伊一区| 99精品国产自在现线观看| 亚洲动漫h| 在线观看欧美国产| 免费国产小视频在线观看| 欧美午夜精品| 久久动漫精品| 亚洲无码视频一区二区三区| 亚洲天堂.com| 亚洲成综合人影院在院播放| www.91中文字幕| 青草视频免费在线观看| 亚洲成a人片7777| 亚洲首页国产精品丝袜| av手机版在线播放| 国产一级做美女做受视频| 国产午夜一级淫片| 无码一区18禁| 日韩欧美中文字幕在线精品| 亚洲无码91视频| 亚洲天堂日韩在线| 国内精品自在欧美一区| 美女被操黄色视频网站| 亚洲第一成网站| 制服丝袜一区| 亚洲制服丝袜第一页| 婷婷久久综合九色综合88| 99re热精品视频国产免费| av一区二区三区高清久久| 麻豆a级片| 亚洲综合极品香蕉久久网| a级毛片免费看| 九色91在线视频| 国产福利免费在线观看| 免费一看一级毛片| 日韩在线1| 在线国产91| 欧美激情视频二区| 精品成人一区二区三区电影 | 波多野结衣无码视频在线观看| 呦女精品网站| 男人天堂伊人网| 欧美在线视频不卡| 日韩在线永久免费播放| 欧洲精品视频在线观看| 免费一级无码在线网站|