沈建苗
冷存儲由Facebook于2014年開源,這種存儲服務器專為不常訪問的數據而設計。它針對低成本硬件、高容量和高存儲密度,以及低功耗進行了優化。如今,亞馬遜網絡服務、谷歌云平臺,以及微軟Azure都可以為客戶提供云存儲服務,同時這三家公司也在云端冷存儲領域實現了“三足鼎立”的局面。
冷存儲由Facebook于2014年開源:這種存儲服務器專為不常訪問的數據而設計,比如舊的Facebook照片。它針對低成本硬件、高容量和高存儲密度,以及低功耗進行了優化。為了放置這些冷存儲服務器,Facebook特意建立了獨立的、簡化的數據中心。
由于許多公司生成并需要保存的數據量急劇增長,各大云提供商推出了一種可以代替傳統備份產品的云服務。作為云服務來提供的冷存儲正在改變企業組織存儲和提供大量信息的方式。但一大問題是,冷存儲用于備份是否更劃算。
亞馬遜網絡服務、谷歌云平臺,以及微軟Azure現在都提供云存儲服務。它們各自采用的方法各不相同,那么它們彼此相比又如何?
應對數據洪水
幾乎所有調研公司都預測,云服務市場會繼續增長,而且快速增長。Gartner最近表示,云在今年的新IT支出中會占據大頭。今年對這個領域來說將是關鍵的一年,因為私有云開始讓位于混合云,近一半的大企業會在2017年底之前部署混合云。那么,企業在生成多少數據呢?思科估計,全球數據中心流量完全進入了澤字節(ZB)時代,將從2014年的3.4 ZB增加到2019年的10.4 ZB。數據中心流量中迅速增長的一部分就是云流量,到2019年將在預測的10.4 ZB中占有8.6 ZB。
由于谷歌和亞馬遜已經在冷存儲市場中,所以微軟也決定加入游戲。去年4月,微軟宣布正式推出Cool Blob Storage,這是面向對象數據的低成本存儲服務。
有什么用場?
微軟當時宣布Cool Blob存儲服務時,列出了幾種典型的使用場合,比如備份、媒體內容、科學數據、合規和歸檔數據。實際上,任何很少訪問的數據都很適合使用冷存儲:法律數據、信息的第三個副本、因合規而需要保留較長時間的數據和歸檔信息,這些都是典型的例子。那么,冷存儲與較傳統的存儲方案有何不同呢?
不妨先從定義開始說起,冷存儲的定義是,這是存儲非活躍數據的一種操作模式和存儲系統。部署冷存儲后,預計數據檢索時間會超出在線或生產應用通常被認為可接受的范圍。部署冷存儲是為了節省資金和運營成本。
實際上,不是所有的冷存儲架構都是同樣設計的。牢記這一點,不妨看看三大提供商的冷存儲方案。
谷歌Nearline:谷歌在2015年發布了Nearline歸檔存儲產品,很快就被認為是市場上具有顛覆性的解決方案。為什么?因為它直接承諾:檢索時間非常短(只有幾秒鐘)。與市場領導者AWS Glacier相比,這相當快。谷歌聲稱,Nearline提供的可用性比公司的標準存儲產品低一點,延遲高一點,不過成本較低。Nearline“檢索首個字節的時間”在2秒到5秒。如果看一下其他解決方案,可以說谷歌Nearline真正改變了游戲規則。不過它有幾個問題。
一個問題是,谷歌Nearline將數據檢索速度限制在每個存儲的TB為4MBps。存儲使用量增加后,這種吞吐量可線性擴展。所以,如果你發覺需要下載大量數據,可能需要等一陣子。不過,如果遇到這種情形:需要比默認的4MBps更快地從谷歌云存儲Nearline檢索內容。一項名為On-Demand I/O的功能讓你可以提高吞吐量。有兩點需要牢記:
1. 默認情況下,On-Demand I/O已被關閉。
2. On-Demand I/O僅適用于Nearline存儲,對標準存儲或低可用持久存儲I/O(Durable Reduced Availability Storage I/O)沒有影響。
總的來說,谷歌承諾提供一種低成本、高度持久、高可用性的存儲服務,用于數據歸檔、在線備份和災難恢復。數據立即可用,不是等待幾小時或數天。由于3秒的平均響應時間和每月每GB僅1美分的價格,Nearline為你提供了出色的性能和低成本。此外,它讓你可以存儲“無限量”數據,并通過谷歌云平臺Storage API獲得快速訪問,數據檢索的響應時間大約是3秒。
最后,很酷的地方是它所提供的功能。除了On-Demand I/O外,還能獲得傳輸服務。這基本上讓你可以從亞馬遜S3、HTTP/HTTPS網站和本地環境之類的地方導入數據。這個過程可自動化,實現全面的生命周期管理。
AWS Glacier:作為最早的領先冷存儲解決方案之一,Glacier是一種安全、成本極低的存儲服務,用于數據歸檔和在線備份。客戶可以存儲大量或少量的數據。據亞馬遜聲稱,起價低至每月每GB只要0.01美元,與本地解決方案相比大大節省了成本。為了保持低成本,Glacier針對不常訪問的數據進行了優化,幾小時的檢索時間對這類數據而言是適合的。同樣是檢索和提供1TB的數據,使用Glacier與使用Nearline的體驗會不一樣。Glacier在大約3到5小時內提供該存儲對象。相比之下,下載4小時后,谷歌Nearline客戶下載1TB數據的任務才完成5%,大約需要69個小時才能全部完成。
在Glacier環境中,數據存儲在“歸檔”中。歸檔可以是任何數據,比如照片、視頻或文檔。可以將某個文件作為歸檔文件來上傳,也可以將多個文件聚合成一個TAR或ZIP文件,然后作為一個歸檔文件來上傳。
一個歸檔文件可能有40TB這么大。可以在亞馬遜Glacier中存儲無限數量的歸檔文件和數據。每個歸檔文件在創建時被分配一個獨特的歸檔ID,歸檔的內容是不可變的,這意味著歸檔文件創建后就無法更新。
亞馬遜Glacier使用“保管庫”(Vault)作為存儲歸檔的容器。可以在AWS管理控制臺中查看保管庫列表,使用AWS SDK對保管庫執行各種操作,比如創建保管庫、刪除保管庫、鎖住保管庫、列出保管庫元數據、檢索保管庫清單、標記保管庫以便過濾,以及配置保管庫通知。此外,還可以為每個保管庫設置訪問策略,允許或禁止用戶執行特定活動。在一個AWS賬戶下,最多可以有1000個保管庫。
一旦你的數據進入保管庫,管理員就有機會使用一些細粒度的控制功能,包括清點庫存、訪問控制、訪問策略、保險庫鎖住(比如一次寫入多次讀取控制)、審核記錄、集成的生命周期管理、高級和低級的AWS API集成、數據保護和數據可靠性。
微軟Cool Blob Storage:去年4月推出的Cold Blob存儲服務是微軟追趕領頭羊的舉措。
Azure冷存儲層經過了優化,用于存儲不常訪問、長期存儲的數據。Cool Blob Storage每月每GB的成本從0.01美元到0.048美元不等,這取決于地理區域和存儲的數據總量。“熱”Blob存儲層(用于存儲頻繁訪問的數據)的同類價位是每GB 0.0223美元到0.061美元。在一些情況下,將部分數據存儲在冷存儲層可節省50%以上的成本。
微軟強調,你可以基于對象數據的訪問模式,選擇熱訪問層或冷訪問層來存儲對象數據。要關注的一些功能:API集成(但僅與其他現有的Blob存儲服務集成)、安全、可擴展性、多地理區域分布和99%的可用性(熱存儲層提供99.9%)。
面對挑戰
Nearline、Cool Blob Storage和Glacier功能強大、價位合理,但端到端集成和管理仍是個挑戰。備份和存儲方面的管理功能至關重要。
比如說,AWS Glacier讓客戶可以設置策略,但只允許用戶每天檢索一定數量的數據。此外,用戶還可以設置策略,只在免費套餐的范圍內檢索數據。相比谷歌Nearline,Glacier似乎缺少同樣的細粒度。至于微軟,只要你的數據一開始就存儲在微軟云中,Cool Blob Storage的表現就很棒。
這個領域沒有絕對的贏家。這取決于冷存儲特定的使用場合。你在構建自己的冷存儲架構時,要確保基于最佳集成實踐來搭建環境。這意味著你要了解存儲何種類型的數據、保留策略、定價以及恢復期間需要多快獲得信息。