張煜,呂錫香,鄒宇聰,李一戈
基于生成對抗網絡的文本序列數據集脫敏
張煜,呂錫香,鄒宇聰,李一戈
(西安電子科技大學網絡與信息安全學院,陜西 西安 710071)
基于生成對抗網絡和差分隱私提出一種文本序列數據集脫敏模型,即差分隱私文本序列生成網絡(DP-SeqGAN)。DP-SeqGAN通過生成對抗網絡自動提取數據集的重要特征并生成與原數據分布接近的新數據集,基于差分隱私對模型做隨機加擾以提高生成數據集的隱私性,并進一步降低鑒別器過擬合。DP-SeqGAN具有直觀通用性,無須對具體數據集設計針對性脫敏規則和對模型做適應性調整。實驗表明,數據集經DP-SeqGAN脫敏后其隱私性和可用性明顯提升,成員推斷攻擊成功率明顯降低。
隱私保護;數據脫敏;生成對抗網絡;差分隱私
近年來,深度學習技術有了突破性的進展,在各領域表現出了明顯優勢。大數據、算法設計以及高性能計算是支撐這一切實現的基礎,而數據是前提也是重中之重,數據和特征決定了機器學習的上限,模型和算法的選擇及優化只是在逐步接近這個上限。然而,敏感數據泄露是近年來全球普遍存在和受關注的安全事件,對隱私問題的擔憂阻礙著數據的開放、共享和融合,不利于數據價值的充分發揮,也是造成數據孤島、數據割據的主要原因。因此,設計有效的數據脫敏方法以防范隱私泄露風險,對于打通數據壁壘,消除數據孤島現象具有積極意義,利于數據的開放、共享和融合,進而促進機器學習的發展。
傳統的數據脫敏技術主要通過對隱私屬性的替換或模糊來實現[1-3],這類技術在實際應用中存在的問題是:隱私屬性的定義和定位難度大;不能抵御重識別攻擊[4];脫敏后數據的可用性有較大損失,表現為下游模型性能嚴重下降?;谕瑧B加密、安全多方計算等密碼學方法是機器學習相關應用中數據隱私保護的重要途徑[5-12],但計算或通信成本高,可能造成相關應用系統性能大幅度下降。面向高效數據脫敏需求,Triastcyn[4]和Park[13]等分別提出了基于生成對抗網絡(GAN,generative adversarial network)的適用于圖像或表格類結構型數據集的數據合成模型,這種模型能夠生成接近于原數據分布的去隱私數據,對圖像或表格型數據的脫敏效果表現良好。然而,這種生成模型在文本序列數據上的表現不好[14],Park等[13]也提出了隱私文本序列生成模型的開放問題。因此,如何利用生成對抗網絡生成高質量的文本序列數據集并且滿足數據可用性和隱私性需求,值得研究。
本文針對文本序列數據的隱私保護需求,提出了基于GAN 和差分隱私的文本序列數據集脫敏模型DP-SeqGAN,能夠在保持較高數據可用性的同時有效保護隱私,主要優勢表現在以下3方面:①具有直觀通用性,即無須針對不同文本序列數據集進行適應性的調整;②生成數據的可用性高,用DP-SeqGAN模型所生成的數據訓練 RNN和CNN模型,其分類準確率相比用原始數據訓練的模型分別由0.788和0.914提高到0.914和0.927;③降低成員推斷攻擊成功率,相比SeqGAN[15],攻擊準確率由0.73和0.61降為0.51和0.50。
典型的數據脫敏方法主要面向表格型數據,如-匿名[1]、-多樣性[2]、-closeness[3]等,這些經典方法通過對數據的隱私屬性進行替換或模糊,在數據發布環節實現一定程度的隱私保護。-匿名技術通過對敏感屬性的泛化處理使每條記錄至少與表格中其他-1條記錄具有相同的準標識符屬性值,從而減少鏈接攻擊所導致的隱私泄露,-匿名容易遭受一致性攻擊與背景知識攻擊[16]。-多樣性隱私保護技術要求數據表中每個等價類中最少有個可以代替的敏感屬性的值,從而使攻擊者推斷出目標個體敏感信息的概率至多為,該技術不能抵御同質性攻擊[17]。-closeness技術要求表中每個等價類中的屬性分布和整個表中的屬性分布之間的距離不超過門限,但依然不能抵御背景知識攻擊。
這類適用于表格數據的匿名化方法不適用于文本序列數據集。一方面,對文本序列數據來說,隱私屬性的定義和定位難度大,在不理解完整句、段、篇的情況下,很難找到其中的敏感信息,如個人的喜好信息等;另一方面,對文本序列進行隱私屬性模糊、替換等泛化處理會導致脫敏后數據的可用性大大損失。
利用同態加密能夠使深度學習模型在密態數據上進行訓練和預測,數據以密文的形式投放到開發、共享等下游數據應用。因此,同態加密是隱私保護最直接的手段。2013年,Graepel等[10]提出在機器學習算法中使用同態加密并致力于尋找能夠在加密數據上訓練的學習算法。2015年,Aslett等[11]提出了可在同態加密數據上實現訓練和預測的方法,適用于樸素貝葉斯分類器和隨機森林。Gilad-Bachrach等[5]基于同態加密方案YASHE[18]提出CryptoNets,首次將神經網絡用于加密數據的推理,CryptoNets不支持在加密數據上訓練模型,而主要關注基于訓練好的CNN 模型對密文數據實現預測。Hesamifard等[6]提出的CryptoDL,利用 Leveled同態加密算法并對激活函數做低次多項式逼近,提升了模型推理效率,CryptoDL能在加密數據上實現訓練和預測。這方面的代表性成果包括TAPAS[7]和FHE-DiNN[8],在預測效率上優于基于Leveled同態加密方案,并且支持對單個樣本的預測。目前,基于同態加密的隱私保護深度學習面臨的最大問題是計算復雜度高,同態加密能使進程至少慢一個數量級[6]。結合同態加密和加密電路的安全兩方計算協議也被用于在深度學習相關應用場景中的數據隱私保護,如SecureML[9],這類方法帶來較高的通信和計算代價。
差分隱私是機器學習中數據隱私保護的主要技術手段之一?;诓罘蛛[私[19]的隱私保護深度學習方法主要將訓練數據集和模型參數分別對應為數據庫和響應,在滿足差分隱私定義的條件下學習模型,降低了訓練數據隱私泄露的風險。根據噪聲的添加位置,這些方法可以分為3種:梯度級差分隱私、目標函數級差分隱私和標簽級差分隱私,分別是對梯度、目標函數的系數和教師學生模型知識轉移階段的標簽添加噪聲。梯度級差分隱私方法[20]的核心是DP-SGD算法[21],該算法在批量梯度更新中添加噪聲,限制每個樣本對最終模型的影響,其基于moment accountant 算法的累積隱私預算估計方法使該模型的隱私預算相對較小,因而能提供更好的隱私性。目標函數級差分隱私方法[20,22]指向經驗風險最小化的目標函數表達式中引入隨機項,并保證求解過程滿足差分隱私。這類方法要求目標函數是連續、可微的凸函數,故而具有較大的局限性。標簽級差分隱私方法[23]在教師學生模型的知識轉移階段對標簽引入噪聲,由于學生模型不直接接觸數據以及聚合階段對標簽噪聲的添加,這種方法能夠在教師模型安全的前提下提供較好的隱私性。針對移動云服務,Wang等[24]提出基于差分隱私對本地數據進行擾動變換的方法,同時利用噪聲訓練方法增加云端深度神經網絡的魯棒性。
自2014年,Goodfellow提出生成對抗網絡[25],其可應用于計算機視覺、自然語言處理等領域。GAN由生成器和鑒別器構成,兩者進行非合作零和博弈,交替優化,生成與原始分布近似的數據集。
自GAN誕生以來,出現了各種基于GAN的衍生模型進行理論擴展及應用。Arjovsky等[26]提出的WGAN徹底解決了GAN訓練不穩定的問題,并基本解決崩潰模式現象,確保了生成樣本的多樣性。Radford等[27]提出了深度卷積生成式對抗網(DCGAN),把有監督學習的CNN與無監督學習的GAN整合,升級了GAN的架構。Chen等[28]提出InfoGAN,結合信息論解釋了輸入噪聲變量的特定變量維數和特定語義之間的關系。最初,GAN的主要應用基本與圖像相關,如圖像修改方面的單圖像超分辨率[29]、交互式圖像生成[30]、圖像編輯、圖像到圖像的翻譯[31]等。
標準GAN在處理文本序列這種離散數據時遇到了生成器難以傳遞梯度更新和鑒別器難以評估非完整序列的問題。為擴展標準GAN 的適用范圍,2017年,Yu等[15]借鑒強化學習的思想,結合GAN與強化學習的策略梯度算法提出序列生成對抗網絡SeqGAN。SeqGAN把整個GAN 看作一個強化學習系統,用策略梯度算法更新生成器的參數,并借鑒蒙特卡洛樹搜索的思想對任意時刻的非完整序列進行評估。
本文提出的文本序列數據集脫敏模型DP-SeqGAN是在SeqGAN的基礎上實現的。
生成對抗網絡的誕生為數據脫敏提供了新的思路,即基于GAN 生成新的脫敏數據集代替原數據集用以訓練下游模型。這種方法能夠克服傳統數據脫敏方法需要設計針對性規則處理隱私屬性的缺陷,這種缺陷主要體現在兩方面:①隱私屬性的定義和定位困難;②規則不具有通用性,即對一個數據集設計的規則并不一定適用于另一個數據集。利用基于GAN的數據脫敏模型,工程師只需將待脫敏的數據集輸入模型,模型將自動學習數據的特征并“重寫”數據,輸出即為脫敏后的新數據集。模型對數據的自動學習與刻畫,簡化了人工操作,使工程師可以簡單地將其看作“黑盒”,不需要考慮其內部細節。
實際上,正是GAN模型自動學習原數據特征并“重寫”輸出新數據的原理保證了脫敏后數據的隱私性和可用性。一方面,該方法能夠避免傳統基于泛化思想的數據脫敏方法對文本序列語法語義的破壞,因而更適用于文本序列數據集;另一方面,“重寫”的生成數據與原數據間不存在一對一關系,某些數據的泄露并不會對應到具體實體身份,而且引入差分隱私能夠進一步提高生成數據的隱私性。
基于以上理論分析,針對文本序列數據集脫敏需求,本文基于生成對抗網絡和差分隱私提出一種文本序列數據集脫敏模型,即差分隱私文本序列生成網絡(DP-SeqGAN)。DP-SeqGAN在訓練過程中引入差分隱私,不僅降低了成員推斷攻擊的成功率,而且在可用性方面有所提高(表現為下游模型性能)。
本文模型借鑒了SeqGAN的思想[15],主要包括生成器(G)和鑒別器(D)兩部分,如圖1所示。生成器用于生成文本序列,將輸入的隨機噪聲加工成文本序列,鑒別器判斷其輸入樣本是原始的訓練數據還是由生成的數據,并將判別概率作為獎勵(Reward)反饋給G,用于指導G的更新。G和D多次迭代,交替優化,最終生成與原始數據分布接近的數據集。
具體來說,鑒別器是用于文本序列分類的TextCNN[32],依次包括嵌入層、卷積層、池化層和softmax 層,訓練集由原始樣本和生成器生成的樣本組成。對于每個序列,首先將詞對應的詞向量按行連接成表示序列向量的矩陣,即

生成器選用長短期記憶(LSTM,long short- term memory)網絡[33],將前一時刻的隱狀態和當前時刻的詞向量映射為當前時刻的隱狀態,可表示為


其中,為權重矩陣,為偏置。
利用蒙特卡洛搜索將D回傳的判別概率作為獎勵,通過策略梯度指導G的更新,最后G和D相互博弈,循環交替地分別優化G和D來訓練所需要的生成式網絡與判別式網絡,直到到達納什均衡點,可生成高質量的文本序列。為了提高生成數據的隱私性和在有監督任務下的可用性,本文在此基礎上對上述網絡的訓練過程做了以下調整:①按類別生成帶標簽的樣本;②基于DP-SGD(differential privacy stochastic gradient descent)的思想[21],在鑒別器的優化過程中進行梯度裁剪并加噪聲。

圖1 文本序列數據集脫敏模型框架
Figure 1 Framework of data privacy masking for sequence data sets
基于帶標簽數據訓練模型的有監督學習目前仍是機器學習的主流,然而現有的生成對抗網絡是不能生成帶標簽數據的,這是因為它只是從所學到的數據分布中采樣,整個過程并沒有用到標簽數據。針對生成帶標簽數據的需求,Mirza等[34]提出條件生成對抗網絡,通過將標簽作為輔助參數添加到生成器來生成對應類別數據,然而生成器的回歸問題造成的任意大錯誤輸出會大大降低這一網絡在實際中的可靠性。現有的針對文本序列的條件生成對抗模型[35]需要對原網絡做復雜的調整,并且在數據類別少時生成質量不高,這是因為學習出的鑒別器過于強大,反饋到生成器的信息缺乏指導價值,從而導致生成數據的質量降低。
針對文本序列生成,本文提出一個生成帶標簽序列的直接有效的方法,即根據數據的類別對訓練數據集做出劃分,按照此劃分分別輸入模型,則生成的數據可以繼承輸入數據的類別,最后將這些輸出數據匯總并打亂即得到帶標簽的生成數據集,具體過程如圖2所示。該方法不需要修改模型輸入、結構或者優化函數,避免了這些操作所帶來的不確定性。更重要的是,這種方法避免了在類別較少的情況下學習出的鑒別器過于強大的問題,促使生成器接收更多對生成數據有用的指導信息,最終生成與原數據分布接近的數據,數據可用性也與原始數據接近。

圖2 生成帶標簽文本
Figure 2 Generate tagged texts
生成的帶標簽文本序列數據可以直接用于數據集的擴充,通過添加不同比例的生成數據,可以讓模型學習到更多更有效的特征,并且減小了噪聲樣本的影響,達到減輕過擬合的效果。這里直接用生成數據代替原始數據完成下游模型的訓練,并且通過差分隱私的引入,保證數據的隱私性。
成員推斷[36]等攻擊已經具備從機器學習模型中重構或恢復出訓練樣本的能力,GAN是模型的組合,自然受到這些攻擊的威脅。此外,具有高模型復雜度的GAN會記住某些訓練樣本,造成學習到的分布集中在這些樣本上,進而增加了受到攻擊的風險。
差分隱私可以在很大程度上緩解這種影響,根據其定義,如果訓練過程是差分隱私的,則訓練數據集包含與不包含某一特定數據訓練出相同模型的概率是接近的。
為了引入差分隱私,需要“隱私化”鑒別器的訓練,這是因為模型的對抗性訓練過程中只有鑒別器接觸真實數據,生成器根據鑒別器的反饋信息調整自己的參數,由差分隱私的后處理定理[19],整個網絡滿足差分隱私保證。由于鑒別器選用的是CNN,可以基于DP-SGD的思想來差分隱私地訓練鑒別器,即在隨機梯度更新的過程中添加噪聲。具體地說,需要做以下兩步修改。


通過裁剪梯度,控制每個訓練樣本梯度的大小,一方面限制了每個梯度的敏感度,進而降低了每個訓練樣本對模型參數產生的影響,緩解了模型對訓練樣本的記憶;另一方面防止了梯度爆炸,降低了過擬合,使模型能更好地收斂。
(2)對算法引入隨機性,主要是通過給裁剪好的梯度添加從高斯分布中采樣的隨機噪聲實現的,即

隨機性的引入使分辨模型的哪些行為來自隨機性、哪些來自訓練數據變得困難。沒有隨機性,本文關心的問題是當在特定數據集上訓練時模型會選擇哪些參數。有了這種隨機性,問題轉變為當在特定數據集上訓練時模型在這組的參數中選擇的可能性。
通過以上兩步操作,差分隱私化鑒別器的訓練,確保在添加、刪除或更改訓練集中的單個訓練樣本的情況下學習出任何特定參數集的概率保持大致相同。換句話說,如果單個訓練樣本不影響學習的結果,則該樣本中包含的信息將無法被記憶,進而貢獻該樣本的個人隱私將會得到保護。
本節詳細闡述DP-SeqGAN模型的具體實現以及性能評估。本模型的目標是生成隱私文本序列,因此對模型的性能評估可以轉換為對生成數據的評估,即評估生成數據是否可以在保護隱私的前提下代替原始數據集完成相關的機器學習任務,具體表現為生成數據的隱私性與可用性兩個指標。
實驗是在Intel Core i5-7500 3.40 GHz CPU、8 GB RAM的硬件條件下,以Python3.6環境進行模型訓練和性能測試,基于TensorFlow框架在VScode集成環境中開發模型,在交互式開發環境Jupyter Notebook中利用機器學習算法庫Scikit-learn和數據分析軟件庫Pandas進行可用性與隱私性的測試。
DP-SeqGAN模型訓練和測試所用的數據來自YouTube 惡意評論檢測數據集[37],該數據集由2 000余熱門音樂視頻的正常評論(ham)和惡意評論(spam)組成,實驗中將這些數據匯總、打亂并劃分為3部分,分別是用于訓練生成模型的訓練集1、成員推斷攻擊過程中攻擊模型的測試集2,以及影子模型的測試集3(3也作為衡量下游模型性能的留出集)。
DP-SeqGAN模型的訓練基于Python 和TensorFlow 框架,并在SeqGAN 的基礎上借鑒TF-Privacy的optimizers.dp_optimizer 模塊實現差分隱私優化器,將SeqGAN 的AdamOptimizer 修改為DPAdamGaussianOptimizer。訓練中將一批樣本測值與標簽的損失向量輸入差分隱私優化器中,然后進行梯度裁剪和添加噪聲,求其平均值用于之后的參數更新。實驗中反復調試,最優的梯度裁剪閾值L2_norm_clip取為1,噪聲控制參數noise_multiplier取為0.001。
如前所述,評估生成數據集的性能需要從隱私性和可用性兩個方面進行測試,測試中以SeqGAN 直接生成的數據作為對照組。
本節從差分隱私和成員推斷攻擊兩方面評估生成數據的隱私性。
4.1.1 基于差分隱私的隱私性評估


差分隱私能夠限制單個數據對模型的影響,即這條數據的隱私就得到了隱藏。本節基于瑞利差分隱私[38]進行隱私分析,瑞利差分隱私是純差分隱私的擴展,特別適合分析添加高斯噪聲的差分隱私保護。

為了測試在實際攻擊中DP-SeqGAN對隱私性有無相對提升,本文進行了基于成員推斷攻擊的隱私性評估測試。
4.1.2 基于成員推斷攻擊的隱私性評估
成員推斷攻擊[36]是對機器學習模型的一種新型攻擊,是訓練數據隱私性的主要威脅,攻擊者能夠判斷一個樣本是否屬于模型的訓練集,進而重構訓練數據。成員推斷攻擊的攻擊目標是分類模型,攻擊者向分類模型輸入給定樣本,然后判定給定樣本是否在模型訓練集中。在DP- SeqGAN模型中,只有鑒別器是分類器,而且只有鑒別器接觸訓練數據,對它實施攻擊就可以評測訓練數據的隱私泄露程度。另外,本實驗中,鑒別器的訓練數據包括真實樣本和生成樣本,因此,成員推斷攻擊轉化為向DP- SeqGAN的鑒別器輸入給定樣本,然后判定給定樣本是屬于鑒別器訓練集中的真實樣本還是生成樣本。
假設攻擊者具有以下能力:①能夠得到任意多目標攻擊模型的輸出;②了解攻擊目標模型的算法和架構。基于這樣的假設,對每一類別的數據,本文利用DP-SeqGAN生成數據構成影子模型訓練集,訓練多個影子模型來模仿鑒別器的行為。訓練好影子模型之后,將影子模型的訓練集中的樣本輸入影子模型,得到預測向量,對相應的預測向量PV打標簽“In”,這里的“In”表示輸入樣本在影子模型的訓練集中;將留出的測試集3中的樣本輸入影子模型,得到預測向量,對相應的預測向量PV打標簽“Out”,這里的“Out”表示輸入樣本在測試集3中(即不在影子模型的訓練集中)。所得到的打上標簽的(PV,In/Out)構成攻擊模型的訓練集,因為屬于影子模型訓練集的樣本和不屬于影子模型訓練集的樣本所對應的預測向量PV不相同,訓練好的攻擊模型能夠分辨出這種差異。成員推斷攻擊正是利用所訓練的攻擊模型的這種分辨能力對目標模型實施攻擊。實施攻擊時,攻擊者將一條給定的數據輸入目標模型得到預測向量PV,再將預測向量PV輸入攻擊模型得到結果“In”或“Out”,從而推斷出輸入的這條數據是否屬于目標模型的訓練集。
具體流程如下。
(1)記為訓練好的攻擊者想要攻擊的目標模型,這里為,由于本文的數據是按類生成的,所以攻擊也是按類進行的。
(2)假設攻擊者足夠強大,已經通過攻擊下游任務模型恢復出生成數據。
(3)用這些生成數據訓練多個影子模型。
(4)對每個訓練好的影子模型,輸入影子訓練樣本或影子測試樣本,由影子模型的一對輸入和輸出獲得攻擊模型的一個訓練樣本((), In/Out),其中,()為鑒別器輸出的樣本為真的預測概率,即預測向量PV,In 代表影子訓練樣本,Out 代表影子測試樣本,影子測試樣本來自于留出的3。
(5)將所產生的這些樣本 ((), In/Out) 匯總成攻擊模型訓練集。
(6)用攻擊模型訓練集訓練攻擊模型。
(7)對D輸入給定樣本,實施攻擊。
本次實驗中的攻擊模型選用SVM,攻擊模型測試數據集一半來自生成模型的訓練集,一半來自留出的測試集S2,因此攻擊準確率0.5,即隨機猜測,意味著攻擊失敗。
表1對比了上述實驗在本文提出的DP- SeqGAN模型上的攻擊成功率和在SeqGAN模型上的攻擊成功率。顯而易見,DP-SeqGAN明顯降低了攻擊準確率,逼近0.5的隨機猜測概率。

表1 成員推斷攻擊成功率
為測試和評估模型生成數據集的可用性,即生成數據在下游任務模型上的性能,本文分別用原始數據、SeqGAN 生成數據和DP-SeqGAN 生成數據訓練分類模型,在留出的測試集3上測試三者的分類準確率。對于每個分類模型,除了訓練集不同,其他操作相同,包括數據預處理、文本向量化等過程,實驗結果對比如圖3所示。其中,綠色為原始數據集,藍色為SeqGAN生成數據,灰色為DP-SeqGAN 生成數據。由圖3可知,在SeqGAN生成的數據集上訓練的模型其分類表現相比用原始數據訓練的模型有所降低;用DP-SeqGAN 生成數據訓練的模型明顯優于SeqGAN生成的數據;在CNN和廣泛應用于文本相關任務的RNN上,DP-SeqGAN生成數據訓練的模型明顯優于用原始數據訓練的模型,即文本序列數據集經本文提出的DP-SeqGAN模型脫敏后,不但能保護數據的隱私,而且其可用性有明顯提升。

圖3 不同分類模型在3個數據集上的分類準確率
Figure 3 Accuracy of different classification models on three data sets
需要特別說明的是,一方面,基于GAN的數據生成模型(如SeqGAN)生成的是接近于原數據分布的數據,可用性降低;另一方面,引入隱私保護會一定程度減少原數據的信息量,進而導致脫敏后的數據可用性降低。然而,針對DP-SeqGAN模型的實驗表明,文本序列數據集經DP-SeqGAN模型脫敏后其可用性相對原數據集有明顯提升,這是因為加入差分隱私在一定程度上降低了鑒別器的過擬合[40]和模型的記憶性[36],訓練集中的一些異常值和未包含分布主要特征的數據會被歸為假,而且鑒別器會進一步將這些信息傳遞給生成器,從而生成的是反應主要特征和內在分布的數據,故而在這些生成數據上訓練的下游模型表現出更好的性能。換句話說,鑒別器加上差分隱私相當于對數據做了預先特征選擇,選擇帶有主要特征的數據,并通過生成更多的數據實現主要特征的多次重復。因此,DP-SeqGAN生成的數據集在RNN、CNN上的表現明顯超越原始數據,其根本原因是神經網絡模型更容易過擬合于原始數據集中的一些異常樣本,而加上差分隱私的DP-SeqGAN有效過濾了原始數據集的異常樣本。
在實驗中還發現,在RNN 的訓練過程中,用生成數據訓練的模型會更早收斂。用原始數據訓練的模型約在6個epoch 后收斂,而DP-SeqGAN生成數據對應的模型只需要1個epoch即收斂,并且DP-SeqGAN 的生成數據對應的模型更加穩定。RNN訓練過程對比如圖4所示。

圖4 RNN訓練過程對比
Figure 4 Comparison of RNN training process
本文結合生成對抗網絡與差分隱私機器學習,提出了隱私文本序列數據集脫敏模型DP-SeqGAN,該模型具有直觀通用性,無須針對數據設計脫敏規則和針對數據集對模型進行適應性調整。實驗證明,經該模型脫敏后的文本序列數據集在隱私性和可用性上都得到了明顯提升。DP-SeqGAN適用于文本序列這種非結構型的數據,其性能還需在實際應用中進一步驗證,也需要結合具體任務類型擴展其應用場景。
[1] SWEENEY L.-anonymity: a model for protecting privacy[J]. International Journal of Uncertainty, Fuzziness and Knowledge- Based Systems, 2002, 10(5): 557-570.
[2] MACHANAVAJJHALA A, KIFER D, GEHRKE J, et al.-diversity: privacy beyond-anonymity[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2007, 1(1): 3.
[3] LI N, LI T, VENKATASUBRAMANIAN S. T-closeness: privacy beyond-anonymity and l-diversity[C]//IEEE 23rd International Conference on Data Engineering. 2007: 106-115.
[4] TRIASTCYN A, FALTINGS B. Generating artificial data for private deep learning[C]//Proceedings of the PAL: Privacy-Enhancing Artificial Intelligence and Language Technologies, AAAI Spring Symposium Series. 2019.
[5] GILAD-BACHRACH R, DOWLIN N, LAINE K, et al. CryptoNets: applying neural networks to encrypted data with high throughput and accuracy[C]//International Conference on Machine Learning. 2016: 201-210.
[6] HESAMIFARD E, TAKABI H, GHASEMI M. Cryptodl: deep neural networks over encrypted data[J]. arXiv preprint arXiv:1711.05189, 2017.
[7] SANYAL A, KUSNER M, GASCON A, et al. TAPAS: tricks to accelerate (encrypted) prediction as a service[C]//International Conference on Machine Learning. 2018: 4490-4499.
[8] BOURSE F, MINELLI M, MINIHOLD M, et al. Fast homomorphic evaluation of deep discretized neural networks[J]. IACR Cryptology ePrint Archive, 2017.
[9] MOHASSEL P, ZHANG Y. SecureML: a system for scalable privacy-preserving machine learning[C]//2017 IEEE Symposium on Security and Privacy (SP). 2017: 19-38.
[10] GRAEPEL, THORE, KRISTIN, et al. Ml confidential: machine learning on encrypted data[C]//Information Security and Cryptology–ICISC 2012. 2012: 1-21.
[11] ASLETT L J M, ESPERAN?A P M, HOLMES C. A review of homomorphic encryption and software tools for encrypted statistical machine learning[J]. Stat, 2015, 1050: 26.
[12] 宋蕾, 馬春光, 段廣晗. 機器學習安全及隱私保護研究進展[J]. 網絡與信息安全學報, 2018, 4(8): 1-11.
SONG L, MA C G, DUAN G H. Machine learning security and privacy: a survey[J]. Chinese Journal of Network and Information Security, 2018, 4(8): 1-11.
[13] PARK N, MOHAMMADI M, GORDE K, et al. Data synthesis based on generative adversarial networks[J]. Proceedings of the VLDB Endowment, 2018, 11(10): 1071-1083.
[14] REED S, AKATA Z, YAN X, et al. Generative adversarial text to image synthesis[C]//International Conference on Machine Learning. 2016: 1060-1069.
[15] YU L, ZHANG W, WANG J, et al. SeqGAN: sequence generative adversarial nets with policy gradient[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.
[16] MAYILVELKUMAR P, KARTHIKEYAN M.-diversity on-anonymity with external database for improving privacy preserving data publishing[J]. International Journal of Computer Applications, 2012, 54(14):7-13.
[17] WANG Q, XU Z W, QU S Z, et al. An enhanced-anonymity model against homogeneity attack[J]. Journal of Software, 2011: 1945-1952.
[18] BOS J W, LAUTER K, LOFTUS J, et al. Improved security for a ring-based fully homomorphic encryption scheme[C]//IMA International Conference on Cryptography and Coding. 2013: 45-64.
[19] DWORK C. Differential privacy: a survey of results[C]// International Conference on Theory and Applications of Models of Computation. 2008: 1-19.
[20] PHAN N, WANG Y, WU X T, et al. Differential privacy preservation for deep auto-encoders: an application of human behavior prediction[C]//AAAI Conference on Artificial Intelligence. 2016.
[21] ABADI M, CHU A, GOODFELLOW I, et al. Deep learning with differential privacy[C]//Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. 2016: 308-318.
[22] CHAUDHURI K, MONTELEONI C. Privacy-preserving logistic regression[C]//Advances in Neural Information Processing Systems. 2009: 289-296.
[23] PAPERNOT N, ABADI M, ERLINGSSON U, et al. Semi-supervised knowledge transfer for deep learning from private training data[J]. Stat, 2017, 1050: 3.
[24] WANG J, ZHANG J G, BAO W D, et al. Not just privacy: improving performance of private deep learning in mobile cloud[C]// Proceedings of ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD). 2018.
[25] GOODFELLOW I. Generative adversarial nets[C]//NIPS. 2014: 2672-2680.
[26] ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein generative adversarial networks[C]//Proceedings of the 34th International Conference on Machine Learning 70. 2017: 214-223.
[27] RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. arXiv preprint arXiv:1511.06434, 2015.
[28] CHEN X, DUAN Y, HOUTHOOFT R, et al. InfoGAN: interpretable representation learning by information maximizing generative adversarial nets[C]//Proceedings of the 2016Neural Information Processing Systems of Information Technology IMEC. 2016: 2172-2180
[29] LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 4681-4690.
[30] ZHU J Y, KR?HENBüHL P, SHECHTMAN E, et al. Generative visual manipulation on the natural image manifold[C]//European Conference on Computer Vision. 2016: 597-613.
[31] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1125-1134.
[32] KIM Y. Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014: 1746-1751.
[33] HOCHREITER S, URGEN SCHMIDHUBER J, ELVEZIA C. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[34] MIRZA M, OSINDERO S. Conditional generative adversarial Nets[J]. arXiv preprint arXiv:1411.1784, 2014.
[35] LI Y, PAN Q, WANG S, et al. A generative model for category text generation[J]. Information Sciences, 2018, 450: 301-315.
[36] SHOKRI R, STRONATI M, SONG C, et al. Membership inference attacks against machine learning models[C]//2017 IEEE Symposium on Security and Privacy (SP). 2017: 3-18.
[37] YouTube spam collection data set[EB].
[38] MIRONOV I. RéNYI. Differential privacy[C]//2017 IEEE 30th Computer Security Foundations Symposium (CSF). 2017: 263-275.
[39] CARLINI N, LIU C, ERLINGSSON ú, et al. The secret sharer: evaluating and testing unintended memorization in neural networks[C]//28th USENIX Security Symposium. 2019: 267-284.
[40] DWORK C, FELDMAN V, HARDT M, et al. The reusable holdout: preserving validity in adaptive data analysis[J]. Science, 2015, 349(6248): 636-638.
Differentially private sequence generative adversarial networks for data privacy masking
ZHANG Yu, LYU Xixiang, ZOU Yucong, LI Yige
School of Cyber Engineering, Xidian University, Xi’an 710071, China
Based on generative adversary networks and the differential privacy mechanism, a differentiallyprivatesequence generative adversarial net (DP-SeqGAN)was proposed, with which the privacy of text sequence data sets can be filtered out. DP-SeqGAN can be used to automatically extract important features of a data set and then generate a new data set which was close to the original one in terms of data distributions. Based on differential privacy, randomness is introduced to the model, which improves the privacy of the generated data set and further reduces the over fitting of the discriminator. The proposed DP-SeqGAN was universal, so there is no need to adjust the model adaptively for datasets or design complex masking rules against dataset characters. The experiments show that the privacy and usability of a sequence data set are both improved significantly after it is processed by the DP-SeqGAN model, and DP-SeqGAN can greatly reduce the success rate of member inference attacks against the generated data set.
privacy preserving, data privacy masking, generative adversarial network, differential privacy
s: The Foundation of Scienceand Technology on Information Assurance Laboratory (KJ-17-108), The Key Research and Development Project of Shaanxi Province, China (2019ZDLGY12-08), The National Key R&D Program of China (2018YFB0804105)
TP309.2
A
10.11959/j.issn.2096?109x.2020046

張煜(1995-),男,陜西延安人,西安電子科技大學碩士生,主要研究方向為隱私保護和機器學習。
呂錫香(1978-),女,陜西洛南人,西安電子科技大學教授、博士生導師,主要研究方向為網絡與協議安全、機器學習與安全、密碼算法與協議。

鄒宇聰(1999-),男,湖南桃江人,主要研究方向為隱私保護和機器學習。
李一戈(1995-),男,陜西洛南人,西安電子科技大學博士生,主要研究方向為機器學習與安全。
論文引用格式:張煜, 呂錫香, 鄒宇聰, 等. 基于生成對抗網絡的文本序列數據集脫敏[J]. 網絡與信息安全學報, 2020, 6(4): 109-119.
ZHANG Y, LYU X X, ZOU Y C, et al. Differentially private sequence generative adversarial networks for data privacy masking[J]. Chinese Journal of Network and Information Security, 2020, 6(4): 109-119.
2020?03?12;
2020?04?09
呂錫香,xxlv@mail.xidian.edu.cn
信息保障重點實驗室基金(KJ-17-108);陜西省重點研發計劃(2019ZDLGY12-08);國家重點研發計劃(2018YFB0804105)