隨著大數據時代的到來,各領域的數據呈現出爆炸式增長態勢,數據資源得到了各行各業的廣泛關注.如何挖掘大數據價值,進而充分發揮大數據效益?大數據的4V特征使得數據獲取、數據存儲、數據搜索、數據共享、數據分析、數據可視化等各個環節對存儲系統構建帶來了新的技術挑戰.同時,伴隨著人工智能的崛起,智能存儲與智能分析逐漸成為發揮大數據效益的有效技術途徑.
基于上述背景,為促進存儲領域技術交流,《計算機研究與發展》推出了本期“大數據時代的存儲系統與智能存儲技術”專題.本專題收錄了9篇論文,分別展示了大數據存儲和智能存儲等存儲領域研究熱點的研究現狀和最新研究成果,希望能為從事相關工作的讀者提供借鑒和幫助.
徐光偉等作者的論文“基于多級網絡編碼的多副本云數據存儲”針對糾刪碼容錯在數據恢復時產生的計算和通信開銷問題,研究提出了一種基于多級網絡編碼的多副本生成和損壞數據恢復算法,利用多級編碼矩陣的數據編碼信息和云存儲中保存的數據塊進行數據恢復,避免從云存儲中遠程下載數據,有效減少數據恢復時的通信開銷,提高數據可用性.
李乾等作者的論文“基于蟻群優化算法的糾刪碼存儲系統數據更新方案”針對糾刪碼的更新效率問題,研究提出了基于蟻群優化算法的多數據節點更新方案,采用兩階段數據更新方式以優化多數據節點更新過程,有效進行數據增量收集和校驗增量分發,從而降低更新延遲.
林霄等作者的論文“面向跨數據中心網絡的節點約束存儲轉發調度方法”針對跨數據中心間大數據傳輸難題,量化分析存儲節點數量對調度問題性能與復雜度的影響,進一步研究提出了節點約束SnF調度方法,將部分數據途經節點納入調度決策,降低調度問題求解難度,引入拓撲抽象壓縮被選節點間鏈路狀態,縮小調度問題規模,提高算法求解效率.
劉渝等作者的論文“基于語義相似性的跨模態圖文內容篩選存儲機制研究”針對云端數據呈現出大規模多模態混合并存的特性,在傳統存儲系統之上研究提出了一種跨模態圖文數據內容篩選存儲機制,用于提供大規模在線相似性內容篩選服務,從存儲系統層面緩解數據分析時必須從存儲中讀出所有數據的讀帶寬壓力,有效降低讀取延遲.
韓書楷等作者的論文“基于持久化內存的索引設計重新思考與優化”針對非易失性內存的特性,深入分析已有的持久化索引工作,對混合索引工作進行了優化,研究提出了一種基于混合內存的異步緩存方法,有效降低訪問延遲.
閆瑋等作者的論文“基于持久性內存的單向移動B+樹”深入研究了持久性內存的索引更新問題,通過分析B+樹節點利用率、不同更新模式下持久化開銷以及更新操作之間的關系,提出了一種基于節點內數據真實分布的數據單向移動算法,通過原地刪除的方式,減少刪除帶來的持久化開銷;利用刪除操作在節點內留下的空位,減少后續插入操作造成的數據移動,減少數據持久化開銷,有效提高單一負載與混合負載性能.
陳茂棠等作者的論文“一種基于RDMA 多播機制的分布式持久性內存文件系統”針對現有的基于RDMA 的分布式系統的性能問題,研究設計了一種基于RDMA 多播機制的分布式持久性內存文件系統.利用低延遲多播通信機制、多模式多播遠程過程調用機制和輕量級一致性保障機制等降低傳輸延遲,保證了數據的可靠性和一致性.
汪慶等作者的論文“一種多核友好的持久性內存鍵值系統”針對持久性內存具有容量大和非易失的特點,深入分析在多核服務器架構下設計持久性內存鍵值系統面臨的并發控制帶來的CPU 緩存抖動、對持久性內存有限寫帶寬的消耗和競爭以及持久性內存高延遲帶來的線程沖突加劇等諸多挑戰,研究設計了一種多核友好的持久性內存鍵值系統.通過設計高效并發控制方法和減少對持久性內存的寫操作,充分提高多核并發性能.
屠要峰等作者的論文“基于持久性內存和SSD 的后端存儲MixStore”充分利用持久性內存的技術優勢,研究提出了一種基于持久性內存和SSD的后端存儲MixStore,通過易失區段標記和待刪除列表技術實現了適用于持久性內存的并發跳表,通過結合元數據管理機制的數據對象存儲優化設計,把非對齊的小數據對象存放在PMEM 中,把對齊的大塊數據對象存儲在SSD上,充分發揮了PMEM 的字節尋址、持久性特性和SSD的大容量低成本優勢.
本專題所錄用的9篇論文中,2篇論文重點關注糾刪碼存儲的性能優化,2篇論文重點關注云存儲的訪問效率,2篇論文重點關注持久存儲的數據結構優化,3篇論文重點關注持久性內存存儲系統的設計與性能優化.既有關注前沿熱點,又有關注實用系統.由于稿源豐富和專題篇幅有限等原因,本專題無法全面覆蓋存儲領域各方面的最新研究進展,不當之處請同行學者批評指正!感謝各位作者、審稿專家和編輯部的全力支持和辛勤付出!
舒繼武(清華大學)
王意潔(國防科技大學)
吳晨濤(上海交通大學)2020年元月