郭宇紅 童云海

摘 ?要:已有的隨機化回答模型調控的數據范圍寬、粒度粗,對隱私數據的保護粒度缺乏靈活性,無法實現精細化、個性化、差異化的隱私保護。提出三類多參數隨機化回答模型,包括行多參、復合多參、分組多參共11種隨機化回答模型,給出了模型的分類框架和分類層次。細粒度多參數隨機化模型可實現精細化、個性化、差異化的隱私保護效果。
關鍵詞:隨機化回答;隱私保護;頻繁項集;敏感問題調查
中圖分類號:TP311 ? ? 文獻標識碼:A
Abstract:The existing randomized response model regulates a wide range of data with coarse granularity and lacks flexibility in protecting privacy,unable to achieve fine,personalized and differentiated privacy protection.Three kinds,11 types of multi-parameter random response models are proposed,including row multi-parameter,compound multi-parameter and grouping multi-parameter.The classification framework and hierarchy of these models are given.The fine-grained multi-parameter randomized response models can realize fine,individualized and differentiated privacy protection effect.
Keywords:randomized response;privacy preserving;frequent item set;sensitivity survey
1 ? 引言(Introduction)
頻繁項集挖掘是數據挖掘中的一個重要分支,隨著人們對數據隱私和安全的日益關注,頻繁項集挖掘賴以生存的數據環境發生很大變化,表現在:(1)在數據收集階段,出于隱私的考慮,人們可能不再愿意提供真實的數據供分析使用,比如在線調查,一家藥品公司為了發現各種疾病之間的關聯關系,需要開展疾病的調查以收集數據,而調查者出于隱私的考慮不愿意提供數據或提供虛假數據;(2)在企業試圖將頻繁模式挖掘任務外包給第三方,或多個企業合作進行頻繁模式挖掘而需共享數據時,出于客戶隱私和商業安全的考慮,在數據共享前需對數據進行預處理,以保護客戶隱私和隱藏一些敏感規則;(3)頻繁項集挖掘的科研人員對自己的算法進行測試時,難以得到真實數據作為benchmark。如何在基于隱私和安全考慮的環境中,很好地實施數據挖掘任務和各種應用,是隱私保護數據挖掘要解決的問題[1-3]?!?br>