Mary Branscombe
如果把數據比喻成新油田,那么想要避免相當于有毒泄漏的數據泄露,必須做好安全工作。這一切都始于強大的數據刪除策略。
在65萬多個客戶的個人信息被泄露后,連鎖酒吧Wetherspoon決定刪除其存儲的幾乎所有客戶信息,為的是降低風險。畢竟,如果你沒有數據,就不需要檢查是否合規,也不用針對GDPR的“主題訪問請求”進行披露,不會因為出現數據泄露而道歉。
事實上,數據是如此有毒,以至于加州律師協會互聯網與隱私法委員會主席Joshua de Larios-Heiman建議將其視為鈾礦而非油田。他說:“廢鈾棒怎么辦?它們變成了有毒資產,很難處理掉它們。如果處理不當,人們會起訴你。”
如果你開始從這些方面考慮風險,那么你的企業丟掉存儲的哪些數據會變得更好?
不收集不需要的數據
有很多數據是由人們自己產生的,你無法從中獲得任何價值,而保留這些數據可能又會增加風險。微軟負責Azure和企業安全的副總裁Julia White評論說:“令我非常震驚的是,人們似乎并沒有發現他們不想要的數據,或者出于GDPR的原因應該清除掉的數據。”
ACLU高級技術研究員Jon Callas指出,不要被存儲成本下降所迷惑,以為保存數據很便宜。
他說:“保存數據的成本比想象得要高,而且收益也很低。它有可能是有用的,對分析有所貢獻。但更有可能是有害的——會讓你輸掉違約案,或者被法庭傳喚。隨著時間的推移,其可用價值越來越少,但危害價值保持不變。如果你丟失了某個人五年前的住址,歐盟并不關心這是你不想要的不準確的數據,也不關心這對你的業務有什么幫助,丟了你就得負責。在某一時點上,數據和業務會出現交叉。你應該在這些數據交叉之前把它們扔掉。”
Callas指出,“被傳訊和主題訪問請求的成本高于存儲媒介的成本。有些糟心事可能會發生,有些數據可能會令你陷入更多的糟心事中,結果所導致的成本要遠高于這些數據的價值。當你說‘我只保留有理由保留的數據時,你必須采取的程序會讓你陷入截然不同的境地中。”
高風險數據
Veritas公司的高級主管Jasmit Sagoo在接受CIO.com采訪時表示,數據中心存儲的數據有1/3是可有可無的、過時的甚至是多余的。
他說:“這些數據幾乎沒有什么業務價值,應該主動刪除,尤其是考慮到數據泄露和風險等級時。例如,前員工和前客戶數據的風險非常高。這包含個人身份信息,因此只有出于法律原因才值得保存這些數據。財務記錄特別容易受到黑客的攻擊,這也是需要謹慎管理的敏感數據的具體實例。”
怎樣找到不需要并且應該刪除的數據呢?Sagoo說:“作為一個起點,企業應能夠識別數據中的具體細節,準確指出風險范圍及其潛在價值。了解存儲了什么、誰在訪問它以及訪問頻率也很重要。只有這樣,才能知道有哪些數據,根據定制的數據保留策略對其進行分類。然后,至少每季度刪除一次這些文件。”
ISG首席分析師Blair Hanley Frank認為,“有些數據永遠不應該存儲起來進行分析。在2019年仍以純文本形式存儲用戶密碼的任何企業都是在自找麻煩。”
刪除與不再使用的生產系統相關聯的數據。例如,WeatherSpoon公司泄露的用戶數據來自一個老網站,而這些數據本不應該還在那里。而Adobe公司泄露的密碼數據也來自一個老的非生產系統。Frank指出:“企業不能僅僅因為這些系統是老的IT基礎設施的一部分就忽略這些過時或者很少使用的系統。”
特別要注意跟蹤已經提取(通常是XLS或者CSV文件)并移交給開發人員用作示例數據的客戶數據庫副本。
對此,你應該屏蔽數據。通過屏蔽數據,可以保留相關的數據統計分布,以便在測試中使用,而不存在泄露的風險。
Delphix公司董事Benjamin Ross指出:“非生產開發和測試環境雖然非常重要,但卻帶來了很大的風險,而且往往是GDPR合規的軟肋。”
不要“去身份標識”,直接刪除就好
只有出于當前業務的原因才保存數據,而不是模糊地希望機器學習系統能從中發現一些有用的東西。Callas指出,即便是人工智能初創企業投資人的Andreessen Horowitz,也在質疑收集大量數據是否有價值。Callas說:“有一種神秘的信念,即擁有這種‘數據護城河便具備了可持續的競爭優勢,而作為投資者,經驗告訴他們,并非如此。你可能認為這會使你的企業變得更好,但現實卻是不太可能。”
微軟研究院(Microsoft Research)高級研究員Mary L.Gray說,這尤其適用于你正在考慮用于訓練機器學習模型的數據集的個人識別信息(PII)。她說:“既然有了GDPR,就應該非常嚴格地限制PII可以收集什么,誰能訪問它,采用什么審計措施來說明PII在哪里、何時以及怎樣被重新調整用途,出售給收集它的公司之外的某個實體,說清楚這些實體能保留多長時間。”
而且“去身份標識”的數據并不能保證安全保存,因為只要有足夠的數據,仍然可以識別個人身份——即使你不想這樣做。她警告說:“認為能夠永久地把收集到的數據‘去身份標識,這實在是無稽之談。”
她繼續道,“以數據為中心的技術行業還沒有找到怎樣徹底刪除數據的方法,更不用說能確定完全停止收集哪些數據。該行業最終同意了對PII進行散列處理:這相當于在其上運行一個黑色標記。但他們可以收集我們所做的一切。如果你能預測自己在做什么和在哪里做什么,那么你仍然留下了數字足跡,這與圖片中的PII沒有什么不同。”
她補充說,雖然刪除明顯的身份標示(例如,姓名和出生日期)很簡單,但“去身份標識”的數據中仍然會包含PII,例如,當用戶把全名添加到沒有標記為姓名的字段中時,等等。
Gray解釋說:“這就是為什么很難堵住數據泄露的原因。”你可以獲取一組電子郵件地址數據、另一組地理位置元數據和第三組搜索查詢數據,并運行足夠的這些數據組合,產生能生成姓名、出生日期和位置的搜索字符串,重新識別出與某一電子郵件地址相關的人員。”
Frank警告說,這些潛在的有害數據甚至會延緩企業的數據策略。他說:“擁有大量基本上無用的信息會增加人們花在構建和測試模型上的時間,從而使分析有用數據變得更加困難。為了解決這個問題,企業應該主動判斷信息帶來的價值,并測試這些數據,看看它是否具有預測價值。”
微軟云與人工智能部執行副總裁Scott Guthrie建議減少存儲的數據,并盡可能匿名。他說:“如果能夠遠程監測網絡搜索,你會存儲進行網絡搜索的人的確切位置嗎?或者,你在街道或者其他級別上進行匿名處理,這樣無論你是否有數據泄露,都不會侵犯隱私了?”
如果你沒有數據,就不會有人濫用數據。
Callas說:“不要問,‘我為什么要丟掉這些數據?而是要問,‘我為什么要保留它?除非你知道為什么要保留數據,否則就應該丟掉數據,因為在現在的環境中,我們能以更低的成本收集更多、更新的數據。”這可以是在自己的網站上提供某種選項,填寫調查問卷進行獎勵,或者對測試軟件程序進行遠程監測。
他指出,扔掉PII后,可以認為,“不管怎樣,這才是你想要的。”
Callas說:“如果公交管理部門因為想知道人們在做什么而進行調查,那么就真得需要準確的數據,并且為這些數據付費是有意義的,但是你應該通過數據過濾機(data grinder)來運行這些數據,丟掉原始數據,然后在一年內徹底處理掉這些數據。比如,如果你想弄清楚要修哪條道路,就不需要那些剛剛修過的道路的數據,特別是數據顯示你已經修過這些道路了。剛剛修好的道路的每一條數據都是有毒的:沒有好處,只有壞處。”
對數據的保存時間也要有明確的政策,比如日志文件的保存時間不超過一周(調試除外)。Callas建議建立一些“強制職能”,以確保做出這些決定。“如果我說,‘你放進我的數據倉庫的所有東西,十年后我都會刪除,除非你告訴我你為什么要保留它,那么你就得想清楚為什么要把數據放進數據倉庫。”
Mary Branscombe是一位自由撰稿人,他二十多年來一直致力于技術寫作,其寫作主題涵蓋了從編程語言、Windows和Office的早期版本,到最早的網絡以及消費類小工具和家庭娛樂的各個方面。
原文網址
https://www.cio.com/article/3405129/data-deletion-your-data-strategys-greatest-defense.html