周娜 劉剛
摘要:作為有效促進個人數據有序流動、合規共享的技術手段,匿名化在個人信息保護和個人數據共享方面發揮著至關重要的作用。本文介紹了匿名化技術領域的最新發展,對常見的匿名化隱私保護方法進行了對比與分析,并總結了匿名化技術的度量方法和存在的問題。最后,提出了關于個人數據共享中匿名化技術進一步發展的建議。
關鍵詞:匿名化;個人信息保護;個人數據共享
隨著移動互聯網、物聯網、5G、大數據等技術的普及應用,新一代信息技術正在促進和深化電子商務、醫療保險、交通出行、智能家居和在線教育等各行業的融合、創新和發展。各行各業都在收集和共享大量的個人數據[1],數據共享不僅可以打破信息壁壘,促進產業的創新與發展。同時,行業間的數據共享也可以使用戶獲得更加個性化、便利化、高品質的服務。很多數據中存在著用戶的敏感信息,可能危及用戶的隱私。個人信息處理者在向其他組織、機構共享個人數據或發布用戶數據之前應確保用戶的敏感信息和隱私數據受到保護。這些可以通過數據匿名化技術實現。匿名化是隱私保護領域的重要技術手段之一。在法律規制層面上,我國也逐步確立了匿名化處理的法律標準。例如,新實施的《個人信息保護法》第七十二條中規定了匿名化的定義:“個人信息經過處理無法識別特定自然人且不能復原的過程”。從法律及現行標準來看,我國已確立的匿名化處理的法律標準是數據處理后“無法識別特定自然人且不能復原”。
一、常見的匿名化技術
為實現匿名化,專家學者提出了很多匿名化模型和實現匿名化的技術手段。1998年,Sweeney等人[2]首次提出了K-匿名模型。此后,學者們在此基礎上相繼提出了更有效的匿名化模型,如L-多樣性[3]、T-接近[4]和差分隱私[5]等匿名化模型。還有學者在這些模型基礎上提出了很多改進的匿名化模型,這些模型通過引入更多的約束條件以達到更高的隱私保護強度,例如(α,k)-匿名模型[6]、(C,l)-多樣性[7]等。接下來我們將介紹一些常用的匿名化模型和實現匿名化的技術手段等。
(一)匿名化模型
1.K-匿名化。K-匿名化算法最初由Sweeney提出。該算法的主要目的是通過將至少K個用戶置于具有相同準標識符的等價類中來保護用戶隱私。在K-匿名模型中,如果發布的數據集中的每個信息都不能與發布數據集中至少出現K-1次的元組區分開,則該數據集為K-匿名的。該算法的缺點是易受鏈路攻擊,無法抵御屬性泄漏的風險。攻擊者可以通過背景知識和同質屬性等攻擊方法攻擊K-匿名數據集中的用戶屬性信息。
2. L-多樣性。L-多樣性模型是為了解決K-匿名模型的局限性而提出的。L-多樣性要求任意一個匿名后的等價類至少包含L個不同的敏感屬性值。通過對敏感屬性進行約束,保證每個等價類中敏感值的多元化,可以有效抵御同質性攻擊的威脅。與K-匿名算法相比,符合L-多樣性算法的數據集顯著降低了數據泄露的風險,但會受到傾斜攻擊和相似攻擊的影響。此外,L-多樣性隱私模型由于在匿名化過程中不考慮準標識符的分布和相似性,降低了匿名數據的可用性。
3. T-接近。T-接近的提出解決了K-匿名和L-多樣性模型在隱私保護方面的局限性。T-接近要求每個等價類中敏感屬性取值分布與該屬性在整個數據集中的總體分布之間的距離不超過閾值T。T-接近度通過將所有敏感屬性保持在一個特定的范圍內,解決了針對敏感屬性值的偏斜性攻擊和相似性攻擊。入侵者重新識別信息的概率降低了,但數據的可用性也更低。
4.差分隱私。差分隱私由Dwork提出,通過向數據集添加噪聲使用戶數據匿名化,從而使攻擊者無法確定是否包含特定的用戶數據。數據處理者在向第三方提供子數據集時使用差分隱私的方法生成匿名化視圖。差分隱私算法的優勢在于直接將特定查詢的結果提供給第三方,而不需要將整個數據集轉交給第三方。然而,攻擊者可以通過多次查詢來不斷縮小樣本范圍,從而可能獲取到個別或一組數據主體的特征。差分隱私被認為是一種非常有效的隱私保護技術,因為其定義的隱私不依賴于攻擊者的背景知識,并廣泛應用于數據挖掘、機器學習等領域[8]。
(二)實現匿名化的技術
1.泛化。對數據進行歸納總結,將具體的值替換為更一般化的值。對于類別屬性,可以使用通用的類別值替換特定的值;對于數值屬性,可以用區間代替精確值,以減少個體被識別的可能性。泛化技術簡單易行,但過度泛化會損失數據的可用性。
2.抑制。隱藏或刪除直接標識符,以防止數據與個人信息直接關聯。抑制技術包括屏蔽、局部抑制和記錄抑制等方法。抑制技術可以與泛化技術結合使用,特別是用于去除異常值,避免過度泛化。
3.擾動。使用合成的數據值替換原始數據,使得從擾動數據計算的統計信息與從原始數據計算的統計信息沒有顯著差異。擾動數據與真實數據不對應,因此攻擊者無法從已發布的數據中推斷出敏感信息。擾動技術的局限性在于數據是合成的,只能保留發布者選擇的統計屬性。
4.置換。根據特定規則重新排列原始數據。通過對敏感屬性值的重排置換,解除準標識符和敏感屬性之間的關聯,從而達到數據去標識化的目的。對稱密鑰的數據重排置換算法具有加解密速度快、軟硬件標準化等優點,但密鑰生成和操作對算法的安全性有重要影響。
5.微聚集。根據相似程度將數據分組,每個組至少包含k個記錄,然后使用質心替代該組內所有記錄的值。微聚集可以減少敏感屬性的泄露風險,并保持數據的可用性。
二、匿名化技術度量方法
第一節介紹了一些匿名化隱私模型,但總體而言,匿名化的主要目標是保護數據的隱私性和可用性。本節分別從這兩個方面介紹匿名化算法的度量方法。
(一)數據隱私性度量方法
在基于泛化的匿名化技術中,K-匿名,L-多樣性和T-接近等算法被用作衡量匿名數據隱私程度的指標。
在基于隨機化的匿名化技術中,貝葉斯后驗置信概率被廣泛應用于量化匿名級別。該方法基于攻擊者的背景知識和匿名數據構造了一個二叉樹,并利用貝葉斯推斷的信息關聯構造了另一個二叉樹。它主要考慮了局部變化的影響。基于熵的度量方法可以用來量化隨機擾動機制可能達到的匿名級別[9]。Díaz等人[10]是最早提出使用信息熵來測量匿名通信系統的匿名性的研究者之一。Ma等人[11]通過量化位置信息和特定個人聯系人的不確定性,利用信息論量化每個用戶的位置隱私水平。在基于差分隱私匿名化技術中,還有一些度量方法,如基于多數據集關聯的差分隱私測量度量[12]和基于互信息的差分隱私測量度量[13]。
(二)數據可用性度量方法
有多種方法可以量化匿名化算法對數據保護的可用性。本文根據數據發布時是否已知數據處理的目的將衡量匿名數據可用性的指標分為兩類:專用指標和通用指標。專用指標是指在數據發布時已知數據的處理的目的。通用指標是指數據發布者不知道接收者將如何分析處理發布的數據。專用指標使用機器學習方法來衡量匿名數據質量。最廣泛使用的專用指標是準確率或錯誤率、F值、精度和召回率。通用指標衡量的是修改原始數據造成的信息損失。目前比較流行的通用效用評估方法是加權確定性懲罰、廣義信息損失(GenILoss)、可辨別性度量、最小失真、平均等價類大?。–AVG)、Kullback-Leible散度、粒度、查詢準確度、全局損失懲罰(GLP)、歸一化互信息(NMI)、相對誤差(RE)和信息神權度量(ITM)。一些研究對這些可用性指標進行了詳細分析介紹。
三、目前存在的問題
匿名化技術在數據共享的過程中要發揮著重要作用,但仍存在一些問題。在法律和監管方面,我國目前對匿名化的法律標準“無法識別特定自然人且不能復原的過程”并沒有明確的判定標準;行業監管也沒有制定明確的匿名化處理效果的監管方案。在技術方面存在以下問題。
(一)匿名化再識別風險
個人信息匿名化處理再識別風險是指在使用技術手段對個人信息進行匿名化處理后,仍然存在通過技術手段重新識別出被隱匿的個人身份的風險。Narayanan 等人[14]在研究中發現,利用外部數據源的輔助信息可以成功對被匿名化的數據進行去匿名化處理[15]。在大數據時代,隨著數據發布規模的增加以及數據挖掘和分析技術的提升,通過組合多個數據來源的數據集,重新識別匿名化后的個人信息的可能性會大大增加。因此,如何最大程度地避免匿名化數據再識別問題,把握匿名化再識別風險成為匿名化技術進一步發展的重要研究內容。
(二)匿名化數據隱私性和可用性的平衡問題
目前在數據匿名化中,現有技術的主要問題是要么泛化數據超過所需,降低了數據的可用性,要么沒有充分保護個人隱私數據。個人信息的價值主要在于其識別性的特征,若匿名化后的個人信息毫不具備識別性,那么其利用價值也大打折扣。這是匿名化技術領域長期面臨的挑戰。
(三)匿名化技術暫無統一度量標準
如引言所述,目前存在一些問題需要解決。首先,匿名化的定義僅僅表明個人無法被識別且無法復原,但并沒有明確界定“無法識別”的具體范圍,也沒有明確“無法復原”是相對還是絕對的標準,這給信息處理者和法院帶來了合規成本和界定的困擾。因此,研究匿名化技術的統一度量和評價標準是迫切需要解決的問題。
此外,還有其他一些問題需要進一步研究,如動態數據發布和動態社會網絡的匿名化問題,異構數據類型的適用性問題,高維數據的匿名化以及如何實現個性化匿名等。對這些問題的深入研究可以提供更全面和有效的解決方案。
四、個人數據共享中匿名化技術的發展建議
本文對匿名化技術在個人數據共享中的問題提出了一些解決方案和發展建議。對于法律規制方面,我國未來應制定個人信息匿名化處理統一標準和匿名化處理再識別風險防范規則。其中,立法可規定個人信息共享中不得從事對接收到的數據進行再識別的法律義務,并規定違反法律負有的法律責任。同時,可詳細規定數據處理者對數據共享后續的保護義務,解決目前數據處理者背負過重責任的問題。這樣,在進一步保護個人數據的同時,最大程度減小匿名化數據再識別風險,促進數據的有序流動和合規共享。
對于行業監管部門,可從以下四個方面考慮對企業數據共享和匿名化技術進行監管和評估:①進行數據保護影響評估,驗證匿名化與最初收集數據的目的的兼容性。這個評估可以確保匿名化處理后的數據仍然符合原始收集數據的目的,并且不會對個人隱私造成不良影響。②確定可用于共享的數據,以及其匿名化和聚合的程度,進行技術評測和合規評估。通過技術評測可以確保匿名化技術的有效性和可行性,合規評估則可以驗證企業是否按照相關法規和標準進行匿名化處理。③通過考慮第三方接收方的技術、經濟和組織能力,評估匿名化數據再識別的風險。這個評估可以幫助監管部門了解匿名化數據可能被再識別的風險,并采取相應的監管措施,確保個人數據的安全性和隱私保護。④建立評估有效性長效機制,對匿名化數據階段性進行評估,降低匿名化數據再識別風險。這個長效機制可以對企業的匿名化處理和數據共享進行定期地監督和評估,以確保匿名化數據始終保持高度的安全性和隱私保護。
在技術層面,本文提出了兩種解決匿名化技術中的問題和未來發展方向的方法:去中心化的匿名化方法和個性化匿名化方法。去中心化的匿名化方法[16]基于區塊鏈,通過智能合約進行信息交互,保證了數據共享的可靠性和安全性。這種方法不依賴數據處理者和第三方的信任,解決了傳統匿名化技術中數據共享雙方的信任問題。不僅可以讓企業從數據共享中受益,而且能夠有效保護用戶的隱私。
個性化匿名方法[17]允許個人數據主體定義自己隱私數據的用途,既尊重個人隱私偏好,又最大程度地保持了數據的可用性。有研究表明,每一項屬性對數據的隱私性和可用性都有不同的影響[18]。該方法通過只選擇那些隱私比值大于某一閾值的數據屬性進行匿名化,從而最小化個人數據的損失。未來的研究方向可以通過自然啟發算法等優化方法來優化數據屬性的選擇過程,以達到最大隱私保護和最小可用性降低的平衡,從而提高匿名數據庫的隱私保護水平和數據效用。
通過引入這兩種方法,可以在保護數據隱私性的同時增加數據的可用性,并且為未來匿名化技術的發展提供了方向和思路。
五、結束語
信息共享已成為許多個人、公司、組織和政府機構日?;顒拥囊徊糠?。匿名化技術可以有效保護個人隱私和敏感信息,是一種非常有前景的信息共享方法。然而,除了匿名化技術本身需要進一步提升外,還需要幫助個人信息處理者解決使用匿名化技術時面臨的非技術性困難,如匿名化技術的復雜度越來越高和數據的可用性降低,導致企業合規成本提高和服務質量降低等問題。本文認為跨學科研究是解決這些問題的關鍵,不同領域的專家學者從不同角度更好地理解隱私問題,有助于匿名化技術未來在數據共享過程中發揮更大的價值。
作者單位:周娜 博鼎實華(北京)技術有限公司
劉剛 中國信息通信研究院
參? 考? 文? 獻
[1] Yao X, Farha F, Li R, et al. Security and privacy issues of physical objects in the IoT: Challenges and opportunities[J]. Digital Communications and Networks, 2021,7(3):373-384.
[2] Sweeney L. k-anonymity: A model for protecting privacy[J]. International journal of uncertainty, fuzziness and knowledge-based systems, 2002, 10(05): 557-570.
[3] Machanavajjhala A, Kifer D, Gehrke J, et al. l-diversity: Privacy beyond k-anonymity[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2007,1(1):3-es.
[4] Li N, Li T, Venkatasubramanian S. t-closeness: Privacy beyond k-anonymity and l-diversity[C]//2007 IEEE 23rd international conference on data engineering. IEEE, 2006:106-115.
[5] Dwork C, McSherry F, Nissim K, et al. Calibrating noise to sensitivity in private data analysis[C]//Theory of cryptography conference. Springer, Berlin, Heidelberg, 2006: 265-284.
[6] Wong R C-W, Li J, Fu A W-C, et al. (α, k)-Anonymity: An Enhanced k-Anonymity Model for Privacy Preserving Data Publishing[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2006: 754–759.
[7] 韓建民, 于娟, 虞慧群等. 面向數值型敏感屬性的分級 L-多樣性模型[J]. 計算機研究與發展, 2011,48(1):147-158.
[8] Jayaraman B, Evans D. Evaluating differentially private machine learning in practice[C]//28th USENIX Security Symposium (USENIX Security 19). 2019:1895-1912
[9] Nguyen H H, Imine A, Rusinowitch M. Anonymizing social graphs via uncertainty semantics[C]//Proceedings of the 10th ACM symposium on information, computer and communications security. 2015: 495-506.
[10] Diaz C, Seys S, Claessens J, et al. Towards measuring anonymity[C]//Privacy Enhancing Technologies: Second International Workshop, PET 2002 San Francisco, CA, USA, April 14–15, 2002 Revised Papers. Berlin, Heidelberg: Springer Berlin Heidelberg, 2003: 54-68.
[11] Ma Z, Kargl F, Weber M. A location privacy metric for v2x communication systems[C]//2009 IEEE Sarn off Symposium. IEEE, 2009:1-6.
[12] Wu X, Dou W, Ni Q. Game theory based privacy preserving analysis in correlated data publication[C]//Proceedings of the Australasian Computer Science Week Multiconference. 2017:1-10.
[13] Cuff P, Yu L. Differential privacy as a mutual information constraint[C]//Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. 2016:43-54.
[14] Narayanan A, Shi E, Rubinstein B I P. Link prediction by de-anonymization: How we won the kaggle social network challenge[C]//The 2011 International Joint Conference on Neural Networks. IEEE, 2011: 1825-1834.
[15] Narayanan A, Shmatikov V. De-anonymizing social networks[C]//2009 30th IEEE symposium on security and privacy. IEEE, 2009: 173-187.
[16] Talat R, Obaidat M S, Muzammal M, et al. A decentralised approach to privacy preserving trajectory mining[J]. Future generation computer systems, 2020,102:382-392.
[17] Can O. Personalised anonymity for microdata release[J]. IET Information Security, 2018, 12(4): 341-347.
[18] A. Majeed and S. Lee, “Attribute susceptibility and? entropy based data anonymization to improve users community privacy and utility in publishing data,” Appl. Intell., vol. 50, no. 8, pp. 2555–2574, Aug. 2020.
通訊作者:周娜(1995-),女,漢族,山西長治,研究生,研究方向:數據通信技術、信息安全、網絡安全;
劉剛(1974-),男,漢族,北京,研究生,高級工程師,研究方向:數據通信技術、信息安全、標準研究與制定、新技術演進發展等。