史 驍 宋永浩 鄭曉輝 唐宏偉 于 雷 趙曉芳
(*中國科學院計算技術研究所 北京 100190) (**中國科學院大學 北京 100049)
分布式對象存儲是云計算存儲的主要形式之一,其可有效滿足數據中心存儲服務的高擴展性需求[1-4],常用于存儲大規模的非結構化數據,包括文本、圖片、視頻、訓練集、機器學習模型等。為充分發揮存儲系統性能、提高存儲系統利用率,良好的系統I/O并行性是一個基本條件[5]。
系統設計人員常常通過降低系統的數據一致性級別來提高系統的I/O并行性,但弱一致性級別及相關I/O并行優化技術無法滿足具有強一致性需求的應用。最終一致性是分布式對象存儲中常采用的一種弱一致性模型[4],其特點是:對象讀(GET)請求可以在任意可用的副本節點執行。但是,當應用的I/O模式具備流水線特征時,最終一致性模型所引發的數據不一致會影響應用計算的準確性及存儲系統利用率[1]。針對弱一致性模型,現有工作提出了一系列借助負載均衡優化I/O并行性的方法[5-10]。例如,C3[5]提出根據存儲節點主動反饋的I/O請求隊列長度,在存儲客戶端建立存儲節點的實時負載模型以供調度參考,從而實現負載均衡。其他針對一致性的研究多集中在探討如何協調復雜應用的一致性需求及存儲系統所提供的一致性服務能力[11,12],或如何高效、實時地對服務中出現的數據不一致性進行檢測[13]。這些研究工作通常以較弱的一致性模型為基礎,這使得其難以移植到強一致性的場景中。……