




摘要:為保證數據安全性, 緩解數據存儲空間, 提出基于密度劃分的分布式數據容錯存儲算法。過濾分布式數據高密度數據區域, 將具有高度相似的目標劃分到不同區域, 通過數據來源樣本點描述數據的密度分布, 設定數據彈性, 利用概率以及數據粒度推算出對應的存儲梯度和強度指數, 并在信息存儲中引入數據存儲梯度和數據彈性, 完成分布式數據容錯存儲。實驗證明, 所提算法有較高的容錯性, 帶寬吞吐量平穩, 平均路徑長度較小, 能提高網絡數據的安全性。
關鍵詞:密度劃分; 分布式數據; 數據容錯存儲; 數據粒度; 強度指數
中圖分類號: TP393 文獻標志碼: A
Research on Distributed Data Fault-Tolerant Storage Algorithm Based on Density Partition
WENG Jinyang, ZHU Tiebing, BAI Zhian
(Computer Centre, Ruijin Hospital, Shanghai Jiaotong University School of Medicine, Shanghai 200025, China)
Abstract:In order to ensure data security and alleviate data storage, a distributed data fault-tolerant storage algorithm based on density partitioning is proposed. High-density data areas of distributed data are filtered, highly similar targets are divided into different areas, the density distribution of data is described through data source sample points, the data elasticity is set, probability and data granularity is used to calculate the corresponding storage gradient and intensity index, and data storage gradient and data elasticity is introduced into information storage to complete distributed data fault-tolerant storage. Experiments show that the proposed algorithm has high fault tolerance, stable bandwidth throughput, small average path length, and can improve the security of network data.
Key words:density division; distributed data; data fault-tolerant storage; data granularity; strength index
0 引 言
隨著計算機網絡技術的飛速發展[1], 人們逐漸步入到信息化時代, 而高效地存儲數據信息已經成為人們日常生活和工作中的一個普遍現象。隨著時間的推移[2], 數據的存儲量也在不斷增長。然而, 在實際應用中, 大部分的數據存儲算法不具有較好的安全性能[3]。大數據存儲算法是通過計算機實現的, 結合了云端[4], 實現了一種高實用性、 低成本的存儲技術[5], 憑借線上數據存儲和隱私加密, 使用戶與用戶的信息可以實現無障礙的交流和回傳。由于分布式數據的處理能力更強, 傳輸速度更快, 更容易實現集成化[6-7], 并且服務器的覆蓋面[8]更廣, 所以得到越來越廣泛的應用。
為提高分布式數據存儲的容錯性能, 張基等[9]采用分布式編碼運算算法, 把多個運算節點的數據冗余實行分配, 從而減少了在shuffle階段運算節點的數據傳送量, 譯碼接收到的編碼中間結果實現了數據的容錯。……