楊洋 陳紅軍



摘要:
隨著云計算、物聯網和社交媒體技術的快速發展,大數據挖掘和分析成為未來知識發現的重要手段,數據隱私泄露問題日趨嚴重,如何保護用戶隱私和防止敏感信息泄露成為面臨的最大挑戰。由于大數據具有規模大、多樣性、動態更新速度快等特點,許多傳統的隱私保護技術不再適用。文章從知識發現的視角,總結了隱私保護數據挖掘的生命周期模型;從輸入隱私和輸出隱私方面對隱私保護數據挖掘的相關技術研究進行了分類評述;最后,對隱私保護數據挖掘的研究挑戰和未來展望進行了闡述。
關鍵詞:
大數據分析; 隱私保護; 數據挖掘; 知識發現
中圖分類號: TP 309
文獻標志碼: A
A Review of Research on Privacy Preserving Data Mining Technology
YANG Yang, CHEN Hongjun
(School of Management, Beijing Institute of Economics and Management, Beijing 100102, China)
Abstract:
With the rapid development of cloud computing, Internet of Things and social media technologies, big data mining and analysis have become an important means of knowledge discovery in the future. The content of information with personal privacy is becoming more and more diverse, and the problem of data privacy leakage is becoming increasingly serious. How to protect user privacy and prevent sensitive information leakage has become the biggest challenge. Because of the large scale, diversity, and fast dynamic update of big data, many traditional privacy preserving technologies are no longer applicable. This article summarizes the life cycle model of privacy preserving data mining from the perspective of knowledge discovery. The related research on privacy preserving data mining is classified and reviewed in terms of input privacy and output privacy. The research challenges and future prospects of privacy preserving data mining are described.
Key words:
big data analysis; privacy preserving; data mining; knowledge discovery
0引言
隱私保護通常與安全性混淆,隱私保護主要是指個人信息,安全性主要是指數據處理的完整性、可用性和機密性。數據挖掘(data mining)是指從大量數據中獲取有價值信息,并采用數據挖掘技術來揭示隱藏在大數據中的有用業務模型和知識,這可能對個人隱私構成威脅。數據挖掘中的隱私保護主要是利用算法來改變數據,并確保數據挖掘過程之后的敏感數據和知識仍然是私有的。在數據收集和數據轉換期間保護數據稱為輸入隱私,在挖掘狀態期間的保護稱為輸出隱私。 隱私保護數據挖掘將是未來知識發現(Knowledge Discovery in Database,KDD)數據挖掘領域研究的重點問題之一。目前,隱私保護的數據挖掘已經取得了豐碩的研究成果,大數據研究領域的一個關鍵問題是在保證用戶隱私的前提下,如何提高大數據的利用率和挖掘大數據的價值,這將直接影響公眾對大數據的接受程度和未來大數據的發展趨勢。由于數據發布者有時會惡意利用大數據中的私人信息,因此在這種情況下,更有必要加強數據發布過程中的隱私保護,實現數據利用與隱私保護的折衷[1]。
隨著云計算、互聯網技術的發展,由Web應用程序和物聯網設備(包括醫學圖像)生成的大量數據、基因組和社交媒體數據每天都在增加[2]。這種數據泛濫使得用戶淹沒在數據中,但卻渴望獲得有效使用數據挖掘技術的知識。在數據上執行的這些挖掘任務會詢問用戶的隱私。本文從知識發現的視角,首先,介紹了隱私保護數據挖掘的生命周期模型;其次,從輸入和輸出隱私保護方對相關研究進行了分類評述;最后,對隱私保護數據挖掘的研究挑戰和未來發展趨勢提出了展望。
1隱私保護數據挖掘生命周期模型
在隱私數據整個生命周期過程中,主要涉及數據收集、數據轉換、數據挖掘分析和模式評估四個階段,包括隱私保護數據屬性、各種參與者角色和各種數據化操作,它們之間的關系[3]如圖1所示。
大數據下的隱私保護數據挖掘技術主要關注以下兩個方面:一是如何對原始數據集進行加密和匿名化操作,實現敏感數據的保護;二是探究新的數據知識產權保護模式,限制對敏感知識的挖掘。數據挖掘的隱私保護技術主要包括輸入隱私和輸出隱私[4],如圖2所示。
3.2數據查詢審計技術
在云存儲環境中,用戶將失去對存儲在云服務器上的數據的控制。如果云服務提供商不受信任,則它可能會篡改并丟棄數據,但會向用戶聲明數據是完整的。數據查詢常采用云存儲審計技術,即數據所有者或第三方組織對云中的數據完整性進行審核,從而確保數據不會被云服務提供商篡改和丟棄,并且在審核期間不會泄露用戶的隱私。
現有云存儲審計的研究主要關注靜態數據的審計和動態數據的審計研究。Ateniese [20]等人最早給出了可證明的數據持有(Provable Data Possession,PDP)模型,該模型可以對服務器上的數據進行完整性驗證,但沒有考慮數據在傳輸過程中的安全性。Juels等人[21]提出了數據可恢復證明(Proof of Retrievability,POR)模型,該模型主要使用糾錯碼技術和消息認證機制,確保遠程數據文件的完整性和可恢復性。Ateniese [22]等人基于對稱密鑰加密算法改進了PDP模型,該模型支持數據的動態刪除和修改。Wang Q等人[23]改進了前人的POR 模型,通過引入散列樹來對文件塊標簽進行認證。同時,他們的方法也支持對數據的動態操作,但是此方案無法對用戶的隱私進行有效的保護。
3.3分類結果的隱私保護
分類方法會降低敏感信息的分類準確性,并且通常不會影響其他應用程序的性能。分類結果可以幫助發現數據集中的隱私敏感信息,因此敏感的分類結果信息需要受到保護。
決策樹分類是建立分類系統的重要數據挖掘方法。在保護隱私的數據挖掘中,挑戰是從被擾動的數據中開發出決策樹,該決策樹提供了一種非常接近原始分布的新穎重構過程。Agrawal [24]提出了基于貝葉斯過程的分類和定位兩種算法,使用隨機擾動對原始數據進行加密,以達到有效保護分類結果隱私的目的。Ge[25]查出了標記、布爾和分類屬性擾動的缺陷和重構精度較差的不足,提出了基于轉移概率矩陣的隱私保護分類回歸決策數(Classification and Regression Trees,CART)算法。Moskowitz L M等人[26]設計的“Rational Downgrader”的隱私保護系統著力于降低信息公開過程中隱私泄露的程度,使得普通用戶無法通過已經或將要公開的信息推測出應被保護的隱私信息。賈春福[27]等人基于同態加密數據集,應用機器學習分類算法來進行云端數據的存儲和計算,以確保服務器端的任何敏感信息不會泄露。這些研究主要集中于消除信息擁有者在信息共享時的顧慮,在隱私保護過程中減少信息損失,保證信息在數據挖掘領域的可用性防止隱私信息的泄露提供有利的技術保障,在隱私保護和數據可用性之間達到一個較好的平衡。
3.4聚類結果的隱私保護
與分類結果的隱私保護類似,保護聚類的隱私敏感結果也是當前研究的重要內容之一。黃海平等人[28]對發布的數據采用平移、翻轉等幾何變換的方法進行變換,確保實現保護聚類結果的隱私內容。
Vaidya [29]等人提出了一種分布式Kmeans聚類方法,該方法專門面向不同站點上存有同一實體集合的不同屬性的情況。使用此聚類方法,每個站點可以學習對每個實體進行聚類,但在學習過程中并不會獲知其他站點上所存屬性的相關信息,從而在信息處理的過程中保障了數據隱私。
4隱私保護數據挖掘研究的挑戰與展望
隨著知識挖掘,機器學習,人工智能等技術的研究與應用的不斷深入,大數據分析的能力越來越強,這對保護個人隱私也提出了更為嚴峻的挑戰。
1. 隱私度量問題。隱私有不同的定義,是一個主觀概念,它受不同地域文化、傳統、習俗的影響,根據不同的人、時間的變化而變化,難以對其定義和度量。隱私保護具有一定的相對性,不同的行業對隱私保護程度定義的標準不同,統一隱私保護的度量標準是最終實現數據安全共享、保護數據隱私的基礎,這是最基礎也是最難衡量的指標。
2. 隱私保護的理論框架問題。當前,數據保護技術有數據聚類、差分隱私和匿名化等技術方法,但在實際應用中存在一定的局限性。能否研究出大數據環境下的具有開創性的隱私研究理論,這是一個基礎性挑戰,需要計算機科學技術、管理科學、社會學和心理學等多方面的知識研究。
3. 隱私保護算法的可擴展性。隱私保護技術往往針對不同的數據挖掘算法采用分治的機制和策略,適用于關聯規則、分類、回歸、聚類等多種數據挖掘模型。但是針對大數據的規模運算,需要形成適應多種數據集的通用方法,設計可擴展性強、效率高的算法來實現隱私保護也是一個挑戰。
4. 數據源的異構性。隨著移動通信、嵌入式、定位等技術的發展,人們獲取數據的能力得到了極大的提高,數據量以及維數都大大增加,當前可用的隱私保護算法主要用于同構數據,但實際上大部分是異構數據,因此,如何以有效方式處理異構大數據將是未來研究的新挑戰。
5總結
隨著人工智能和深度學習的興起,大數據時代數據挖掘與隱私保護之間的技術博弈將成為常態,保護用戶隱私將成為人工智能發展的關鍵。人們需要改進數據挖掘的隱私保護方法,并建立新的隱私保護框架和機制。本文認為,以下研究方向值得隱私保護研究人員做進一步研究。
1. 建立完善的數據隱私保護評估機制與法律手段。數據隱私的保護效果可以通過攻擊者披露隱私的多少來側面反映,因此,有必要建立一套統一的隱私泄露安全評估標準和衡量標準,完善相關法律,從源頭上制止企業和組織非法泄露用戶信息。
2. 開發新的隱私保護理論框架。本文探討了K匿名、L多樣性、T閉合和差分隱私等隱私保護技術,盡管它們具有一定的實用性,但它們容易受到各種類型的攻擊。雖然不同的隱私保護方法具有嚴格的要求,但是它們計算復雜、運行時間長,并且缺乏靈活性和可行性。因此,需要結合計算機技術、計算心理生理學、博弈論、模糊邏輯、社會學、管理學等一系列不同學科理論知識,開發統一的隱私保護理論框架。
3. 高效的加密算法。當前大約80%的數據是非結構化的,需要有效的信息存儲和收集以及解決時空和維數問題。現有的基于隨機化的加密技術和算法都是為較小的數據集設計的。同態加密技術運算開銷過大,并且需要消耗大量計算資源的深度學習算法,這將大大降低算法性能。因此,開發和研究適用于大數據的高效且可擴展的算法,以滿足數據處理、數據轉換、數據挖掘、模式評估分析、審計跟蹤和隱私保證的需求是未來研究的重要方向。
參考文獻
[1]
胡昌平,仇蓉蓉,王麗麗.學術社交網絡用戶的隱私保護研究——以科學網博客為例[J].情報學報,2019,38(7):667674.
[2]馮登國,張敏,李昊.大數據安全與隱私保護[J].計算機學報,2014,37(1):246258..
[3]方賢進, 肖亞飛, 楊高明. 大數據及其隱私保護[J]. 大數據, 2017, 3(5): 4556.
[4]Sangeetha S, Sadasivam G S. Privacy of Big Data: A Review [M].Handbook of Big Data and IoT Security. Springer, Cham., 2019: 523.
[5]Kantarcioglu M. A survey of privacypreserving methods across horizontally partitioned data [M].Privacypreserving data mining. Springer, Boston, MA, 2008: 313335.
[6]Pfitzmann A, Khntopp M. Anonymity, unobservability, and pseudonymity—a proposal for terminology[C].Designing privacy enhancing technologies. Springer, Berlin, Heidelberg, 2001: 19.
[7]Sweeney L. kanonymity: A model for protecting privacy [J]. International Journal of Uncertainty, Fuzziness and KnowledgeBased Systems, 2002, 10(05): 557570.
[8]Homayoun S, Ahmadzadeh M, Hashemi S, et al. BoTShark: A deep learning approach for botnet traffic detection [M].Cyber Threat Intelligence. Springer, Cham, 2018: 137153.
[9]Agrawal D, Aggarwal C C. On the design and quantification of privacy preserving data mining algorithms[C].Proceedings of the twentieth ACM SIGMODSIGACTSIGART symposium on Principles of database systems. ACM, 2001: 247255.
[10]Li N, Li T, Venkatasubramanian S. tcloseness: Privacy beyond kanonymity and ldiversity[C].2007 IEEE 23rd International Conference on Data Engineering. IEEE, 2007: 106115.
[11]Dwork C, McSherry F, Nissim K, et al. Calibrating noise to sensitivity in private data analysis[C].Theory of cryptography conference. Springer, Berlin, Heidelberg, 2006: 265284.
[12]Dwork C. Differential privacy [J]. Encyclopedia of Cryptography and Security, 2011: 338340.
[13]方濱興,賈焰,李愛平,等.大數據隱私保護技術綜述[J].大數據,2016,2(1):118.
[14]Privacypreserving data mining: models and algorithms [M]. Springer Science & Business Media, 2008.
[15]許重建,李險峰.區塊鏈交易數據隱私保護方法[J].計算機科學,2020,47(3):281286.
[16]Aggarwal Charu C, S Yu Philip. Privacypreserving data mining: models and algorithms[M]. Springer Science & Business Media, 2008.
[17]Atallah M, Bertino E, Elmagarmid A, et al. Disclosure limitation of sensitive rules[C].Proceedings 1999 Workshop on Knowledge and Data Engineering Exchange (KDEX'99)(Cat. No. PR00453). IEEE, 1999: 4552.
[18]Chang L W, Moskowitz I S. An integrated framework for database privacy protection [M].Data and Application Security. Springer, Boston, MA, 2002: 161172.
[19]Tapan Sirole, Jaytrilok Choudhary, Tapan Sirole, et al. A Survey of Various Methodologies for Hiding Sensitive Association Rules [J]. International Journal of Computer Applications, 2014, 51(96):1215.
[20]Ateniese G, Burns R, Curtmola R, et al. Provable data possession at untrusted stores[C].Proceedings of the 14th ACM conference on Computer and communications security. Acm, 2007: 598609.
[21]Juels A, Kaliski Jr B S. PORs: Proofs of retrievability for large files[C].Proceedings of the 14th ACM conference on Computer and communications security. Acm, 2007: 584597.
[22]Ateniese G, Di Pietro R, Mancini L V, et al. Scalable and efficient provable data possession[C].Proceedings of the 4th international conference on Security and privacy in communication netowrks. ACM, 2008: 9.
[23]Wang Q, Wang C, Li J, et al. Enabling public verifiability and data dynamics for storage security in cloud computing[C].European symposium on research in computer security. Springer, Berlin, Heidelberg, 2009: 355370.
[24]Agrawal R, Srikant R. Privacypreserving data mining[C].ACM Sigmod Record.ACM, 2000, 29(2): 439450.
[25]Ge W, Wang W, Li X, et al. A privacypreserving classification mining algorithm[C].PacificAsia Conference on Knowledge Discovery and Data Mining. Springer, Berlin, Heidelberg, 2005: 256261.
[26]Moskowitz L W, Chang I S. A decision theoretical based system for information downgrading[R]. NAVAL RESEARCH LAB WASHINGTON DC CENTER FOR HIGH ASSURANCE COMPUTING SYSTEMS (CHACS), 2000.
[27]賈春福,王雅飛,陳陽,等.機器學習算法在同態加密數據集上的應用[J].清華大學學報(自然科學版),2020,60(6):456463.
[28]Oliveira S R M, Zaiane O R. Privacy preserving clustering by data transformation [J]. Journal of Information and Data Management, 2010, 1(1): 3737.
[29]VAIDYA J, CLIFTON C. Privacy preserving kmeans clustering over vertically partitioned data[C].Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 2427, 2003, Washington DC, USA. New York: ACM Press, 2003: 206215.
(收稿日期: 2020.01.20)
基金項目:
北京市教育委員會社科計劃一般項目(SQSM201714073001)
作者簡介:
楊洋(1980),女,碩士,講師,研究方向:信息管理、電子商務。
通訊作者:陳紅軍(1972),男,博士,教授,研究方向:信息管理、電子商務。
文章編號:1007757X(2020)08004104