魏國富, 葛新瑞, 于 佳,2,3
1.青島大學計算機科學技術學院, 青島266071
2.密碼科學技術國家重點實驗室, 北京100878
3.中國科學院信息工程研究所信息安全國家重點實驗室, 北京100093
隨著云計算的日益普及, 越來越多的用戶傾向于把自己的數據儲存在云服務器上, 以減少本地的儲存開銷和管理成本.EMC 的調查顯示, 云中 75% 的數據是重復的[1].一方面這會增加用戶的網絡帶寬成本, 另一方面也會浪費云服務器的存儲資源.因此, 對云數據去重就顯得尤為重要.數據去重吸引了越來越多云服務器供應商的注意力.數據去重[2–7](data deduplication) 是一項通過檢測并刪除重復數據以達到減少存儲資源浪費的技術.按數據處理時間, 數據去重可以分為在線去重(inline deduplication) 和后處理去重(post-process deduplication).在線去重指在數據存儲到存儲設備的同時進行去重處理.后處理去重指在數據存儲到設備后統一進行去重處理.在線去重相對來說使用更加廣泛, 該技術通過對比云服務器上存儲的數據和用戶計劃上傳的數據, 檢測云服務器上是否已存在相同的文件, 如果目標文件已存在, 云服務器則為當前用戶分配目標文件的權限, 若目標文件不存在, 則允許當前用戶上傳該文件.數據去重的提出大大的緩解了云服務器的存儲壓力.
數據存儲在云服務器后, 就脫離了用戶實際物理控制, 這可能會導致敏感數據的泄露.為了保護敏感數據的隱私性, 用戶在外包數據之前往往會對數據進行加密, 數據以密……