楊麗麗
(廣西警察學院,南寧 530000)
信息化社會使我們的生活更加便捷,數據通信與資源共享更加方便,但互聯網中數據的傳輸與共享也會造成隱私的泄漏,使個人信息被泄露的風險大大提升。目前,盡管研究者們都在不斷努力去預防信息泄露問題,但個人信息仍然以各種意想不到的方式被泄露。
當下的隱私數據發布技術大多是針對單敏感屬性數據,而在實際應用中,很多數據之間往往存在著某些特定的聯系,在發布一些信息時,就相當于間接發布了另外一些信息,像這種相關聯系的信息屬性就叫做相關敏感屬性。由于單敏感屬性隱私數據的發布方法與多敏感屬性方法完全不同,所以,對于這樣的關聯信息敏感數據,利用單敏感屬性發布方法就很有可能會出現信息泄露問題。
數據泛化是指對數據表中的原始屬性值按照某種規則轉換,使轉換后的數據比原始數據包含的信息更多,以防范推理性攻擊。這種方法能夠保留原始數據的一些重要特性,所以能夠保證數據的可用性。
數據抑制是指通過采用從數據表的記錄中刪除某些或者部分屬性,來避免數據表的隱私泄露問題。數據抑制方法通常不會單獨使用,而是與數據泛化方法配合使用。
微聚合是指將原始數據中相似的記錄組合在一起,形成一個等價組。為保證隱私安全,降低隱私泄露的風險,數據發布時只發布等價組中最具代表性的元祖。但用何種方式進行微聚合,其相應的數值應該如何計算是我們需要研究的課題。
數據交換是指將原始數據表中各個數據記錄的相應屬性值進行隨機交換,然后將交換后的數據用來發布以滿足信息不被泄露的目的。但是,數據交換的前提是,需要保證原始數據表中的一些重要統計特性得到保持。通過使交換后的數據與原始數據無法對應的方式來使數據增加一些不確定性,從而增加數據分析的難度,以降低數據泄露的風險。但是,需要研究如何在數據交換過程中使原始信息盡可能地保留,而保持原始數據保留統計屬性也是信息交換技術研究的目標。
子采樣是指在數據發布時不將全部的原始數據對外發布,而是抽取具有代表性的小部分數據記錄進行分析研究。這樣不僅可減少發布數據記錄的數量,而且因大部分記錄沒有發布而減少了隱私泄露的風險。但是,由于減少樣本容量,就需要對數據進行更細致的分析。這樣不僅增加了分析的工作量,還會使數據發布的準確性降低。為了提升數據的可用性,子采樣方法需要盡可能地保留原始數據中的有用信息。這種方法比較適用于發布推理攻擊性行為數據,但也不是全部都適用。
去標識是指將原始數據表中惟一準確標識記錄的顯示標識符去除,比如去除姓名數據。但由于這種方法操作過于簡單、容易失效,并且還可以通過對個體進行再標識后再進行攻擊,所以一般僅用于作為匿名數據預處理的第一個環節或是非常簡單數據的發布情況。
插入噪音是指通過在原始數據中添加一些與原始數據吻合的干擾信息,來對原始數據進行一些擾動,通過擾動使新數據與原始數據之間產生一些差異,從而減少隱私泄露的風險。插入噪音數據的核心操作是保持原始數據相關性的統計屬性不改變,僅僅使某一條具體信息的準確性降低,來減少隱私推理攻擊。因此,插入噪音數據的強度是我們需要把握的,也是我們在該技術研究過程中的研究重點。
國外對隱私保護的意識比較早,所以理論也較為先進,吸引了各方面學者對該領域的重視。我國在該方面的研究也慢慢地引起了學者的重視,在學者們的不斷的努力下也取得了顯著的成果。例如,多維桶分組技術就是針對多敏感屬性的隱私發布而提供的一種很好的方式。但是這種方法不是都適用,比如對于數值型敏感屬性的數據發布就不可以,還有一些延伸性的情況。雖然現在已經對數據泄露問題有很高的重視,但是我們的解決方案還可以更加完善,精益求精。有很多問題可以研究得更細致,解決方案也可以變得更詳細。
可以通過設計匿名模型來解決數據發布中的隱私安全性問題,以防止對數據的攻擊和泄露。也可以根據模型,結合所需要的情境進行數據發布。對數據發布和渠道之間可能出現的問題做出相應的假設,在潛在攻擊的可能性上提出相應隱私保護的模型。
在多敏感屬性上容易出現聯合推理性攻擊,這需要我們多加防范。很多匿名模型只是單個敏感性屬性攻擊,這種攻擊方式較為單一,也相對容易預防。但當其衍生或者多個單個敏感屬性疊加時,就容易出現問題。多個單屬性的投影及多個敏感屬性就會使簡單問題復雜化。雖然很多問題是簡化產生的,但多敏感屬性聯合的推理攻擊還是我們需要大力防范的問題。
雖然匿名化方法有很多,但是在選擇上還需要慎重。因為在執行中可能會出現各種各樣的因素影響數據分析,影響數據可以操控的可能性,雖然現在的匿名研究也對這種可能性進行了研究,但是我們可以拓展思路,對其他方法進行探究。比如我們可以采用更合理的匿名方法,當然也可以對這些方法進行分解。
在統計匿名發布中,對匿名數據的有效性進行測算,對可用性也要進行度量,這樣才能知道匿名處理效果的影響。通過查詢準確度來判斷匿名處理的情況,這是判斷匿名處理的重要標準。數據查詢的準確率通過查詢的準確度來判定,在統計查詢中,查詢準確率越高,其可用性就越好。原始數據損失的部分叫做匿名代價,匿名代價越小,即說明匿名數據集可用度就越高。現在常見的匿名代價的測量是在匿名屬性層次化以及對比化進行的。根據不同的情況,比如不同的度量方式,要使匿名度量變得準確而又具有現實性就需要綜合因素進行考量。
信息泄露風險意味著惡意用戶通過已知信息來推斷自己想要信息的可能。比如很多信息通過攻擊者以獲取的發布數據,推測出想要的數據。數據發布前進行預先處理,以降低數據被泄露的風險也是隱私保護的要求。而隱私保護的基礎是信息度量。
隱私保護不僅需要保護數據的可用性,還要減少數據被泄漏的風險。所以在對原始數據進行分類處理時,不能使信息造成損失而減少了數據的可用性。信息損失主要是因為修改后的數據和原數據相差太多,或者已經削減了有效信息。其次是在原始數據處理時加入的噪聲強度過大,降低了數據的有效性。所以一定要避免將一些錯誤信息輸入到結果數據中,保證數據的可用性。
信息損失度量的方法非常多,但都需要在經典信息損失度量方法的基礎上進行完善。對不同的情境和需求進行不同的信息損失度量方法的改變,因為每種方法都存在于它的適用情況,每種方法都具有各自的優缺點,因此在選擇信息損失度計量方法時要考量其應用的環境。
目前,大多數針對數據發布的隱私保護方法是面向單維敏感數據,但在實際應用中,數據中卻更多的是多維敏感屬性數據。如果將已有的針對單維敏感數據屬性數據的處理方法,直接應用到多敏感屬性數據的處理中,就可能引起信息被泄露的風險。因此,研究多維敏感屬性數據的隱私保護,具有相當重要的實際意義。