宋桂平
(河南測繪職業學院,河南 鄭州 451464)
在大數據時代,要想整合數據資源、挖掘數據價值,首先要從海量數據中篩選、檢索出目標數據。為了減輕這一工作量,必須要進行“數據瘦身”。而重復數據刪除(De-duplication)就是一種常用的數據縮減技術。其中,數據塊分塊算法、指紋庫查詢等,都是重復數據刪除中的核心技術。雖然重復數據刪除技術已經得到廣泛應用,但是仍然有一定的缺陷,例如會導致元數據增加,誤刪除數據恢復難度較大等。在這一背景下,探究云存儲模式下重復數據刪除技術的優化應用策略成為一項熱門研究課題。
重復數據刪除大體包含5個步驟:第一步,選擇需要存儲或備份的文件,然后使用分塊算法將整個文件分解成若干個獨立的數據塊,并對每個數據塊進行命名、標記;第二步,使用哈希函數(hash)分別對各個數據塊進行計算、處理,得到對應的hash 值,即指紋。若兩個數據塊相同,則其指紋能夠完全匹配;第三步,將所得指紋與指紋庫中已存指紋進行配對,判斷該指紋是否存在。若不存在,則執行第四步;若存在,則執行第五步;第四步,將該指紋及其對應的數據塊存儲起來,同時更新元數據;第五步,直接更新元數據。從上述流程來看,重復數據刪除技術的核心在于重復數據的檢測、hash 指紋計算函數、指紋在指紋庫中的查詢。
重復數據檢測結果將會直接決定系統的重刪率,同時選擇不同的檢測技術還會產生不同的性能開銷?!?br>