集群存儲不同于傳統的SAN和NAS 架構,它就像一列高速馳騁的“動車組”,車廂增加了,速度也絲毫不受影響。這就是集群存儲,容量擴展的同時,性能同步提高。
為非結構化數據而生信息高速增長勢不可擋。據IDC的報告顯示,現在全球數據量每18個月就要翻一番,每年全球產生的數據量已經高達40EB(1EB=1000PB)。而這些瘋狂增長的數據主要來自非結構化數據。結構化數據主要是指那些數字的或能用統一的結構來表示的數據,如存儲在數據庫中的數據,這些數據基本上是以塊(Block)的形式呈現;不言而喻,非結構化數據是指那些無法用數字或統一的結構來表示的數據,像文本、圖像、視頻、音頻、報表、網頁等都是非結構化數據,它們大多以文件(File)的形式保存;另外,還有一種介于結構化和非結構化之間的半結構化數據,電子郵件就是半結構化數據。正是網絡的發展和數字化程度的提高,使我們的生活發生了變革,更重要的是,企業的業務數據類型正在發生著巨大的變化,非結構化數據所占的比例越來越高,而且增長速度遠超過結構化數據。根據Gartner的統計,2008年,基于文件的存儲系統容量出貨量以微弱的優勢首次超過了基于塊的存儲系統容量的出貨量。根據以上趨勢,到2012年,基于文件的存儲系統容量將占到總容量的70%。而IDC也同時預測,鑒于基于文件類型的非結構化數據的增速極快,到2012年,全球存儲市場的總出貨量中將有80%的容量被文件級數據所覆蓋。
如此看來,非結構數據快速增長且占據總數據量的多數已毋庸置疑。而擺在企業用戶面前的難題是如何去應對這些無法預計的數據存儲需求,同時,過去傳統的存儲架構基本上是為塊級存儲而設計的,很難適應當前存儲的變化和新的需求。因此,集群存儲應運而生,并迅速發展起來。
捷華潤公司技術經理陳爽認為,數據規模的爆炸性增長和由此產生的對存儲I/O性能的更高要求使集群存儲有了更廣闊的發展空間。無疑,高性能、高容量以及可擴展性是集群存儲得以發展的最得人心的特征。
NetApp公司大中華區總經理陳文俊則從另一個角度闡述了集群存儲發展的驅動力,他認為,運行于Linux和Unix上的計算集群具有極高的存儲要求,性能要求通常在每秒GB級范圍內,而容量可以增加到PB級。為避免熱點并且最經濟,人們非常希望能夠在不中斷應用的情況下,在存儲系統之間或不同類別存儲之間移動數據,并可以方便而有效地管理存儲環境。
惠普相關人士則認為,隨著文件級存儲市場的發展,集群NAS在很多文件級的應用中,比如數據文件檢索,擁有著極大的優勢,這也將成為驅動集群NAS系統發展的重要原因。
對于集群存儲,專注于集群存儲領域的Isilon公司中國區技術部總監楊峰認為,一般來說,集群存儲有兩種實現方式。一種是在現有硬件基礎架構上加上軟件,典型的代表是SAN架構+并行文件系統。這種架構是折衷的解決辦法,面向的是已經采用了大量SAN、NAS架構的存儲用戶。在現有硬件架構之上+并行化文件系統,并不能跨越原有硬件架構的局限性,只不過是局部的改良而已。另一種是專用集群存儲,采用獨特的開放式架構,通過分布式操作系統實現集群存儲,這是完全并行化的解決方案,從硬件到軟件都實現了并行化。
就像開上了“動車組”
集群存儲是有別于傳統的SAN和NAS的一種新的存儲架構。傳統的SAN與NAS分別提供的是數據塊與文件兩個不同級別的存儲架構,而集群存儲是主要面向文件級別的存儲系統。因此,也常常被稱為集群NAS。
楊峰認為,SAN系統具有很高的性能,但是構建和維護起來很復雜。由于數據塊和網絡需求的原因,SAN系統也很難擴容。NAS系統的構建和維護雖然比較簡單,但由于其聚合設備(又稱為NAS頭)是其架構上的瓶頸,造成其性能很有限。集群存儲集中了SAN和NAS的優點,且具備它們不具有的優點。在大多數使用集群存儲的案例中,隨著存儲系統的擴容,性能也隨之提升,理論上,一個大的集群存儲的性能往往勝過一個SAN系統,但是價格卻比SAN更加具有優勢。集群存儲和NAS的概念是在文件系統層面上的,而SAN是在LUN層面上的,集群存儲可以利用SAN環境實現。因此,集群存儲與SAN解決的問題不同。如果一定要比較這兩者的優缺點的話,可以說,SAN做到的是多個服務器節點可以同時看到SAN環境中的同一個LUN,還不能做到多服務器節點間的文件級共享。集群存儲在性能、可靠性及擴展性等多個方面都遠遠優于傳統的NAS。
華為賽門鐵克公司全球存儲行銷部部長姜天露認為,盡管NAS技術是存儲文件等非結構化數據的首選方案,但傳統的NAS設備會形成新的“信息孤島”。在企業數據中心,NAS通過IP網絡幫助用戶實現了多服務器數據共享的功能,但由于業務以及數據的大量激增,盡管單臺NAS目前的最高容量也已經達到了PB級,但仍然難以滿足要求。面對越來越多的數據,用戶只好不斷地購買NAS存儲,而越來越多的NAS存儲就像以前的DAS和SAN那樣形成了新的“信息孤島”,多文件系統、多命名空間、多個掛載點給企業的IT維護人員帶來了不小的麻煩。因此,姜天露認為,集群NAS是存儲向集群化發展的必然方向。其實不管是NAS還是SAN,這種不斷向上發展的方法幾乎都已走到了盡頭。看看CPU技術,不也從不斷地提高頻率而變為不斷地增多內核了嗎?關于集群存儲的優勢,他認為不外乎兩點。一是靈活性,這是集群存儲最明顯的優勢。用戶可以根據當前的需要來購買存儲,需要多高的性能、多大的容量,都可以自由選擇,也就是按需購買,即買即用,而不是一下子就買一臺非常龐大的設備,支付非常高的成本。二是可管理性,因為不管用戶購買了多少個控制器,也不論購買了多少磁盤,它看起來還是一套系統。
陳爽認為,相比SAN和NAS,集群NAS具有更好的橫向擴展能力以及簡便的管理和低維護成本。說到橫向擴展(Scale-out),這是近兩年在業界出現頻率較高的詞匯,在存儲中,橫向擴展是指存儲具有模塊化的結構,其擴展容量的同時,性能也呈線性增長,用戶最初只需部署能滿足眼下需要的容量和性能,也就是按需配置,之后可根據應用的需要逐漸增加容量,當然性能也隨之增加。與之相反的是一般傳統存儲的縱向擴展(Scale-up),也稱向上擴展,這種存儲設備擴展時往往增加了容量,降低了性能,并且可擴展的空間也很有限。集群NAS則是橫向擴展的存儲,Isilon就稱其集群存儲產品為橫向擴展NAS。
集群存儲與傳統的SAN、NAS的區別在業界有一個很形象的比喻,即SAN和NAS就像傳統的火車,一列火車能承載的乘客數量(即存儲容量)完全取決于火車頭的功率(即機頭的性能),當火車的車廂增加后(即在允許范圍內擴容),火車的速度自然也就降低了。而集群NAS(或橫向擴展NAS)就像最新的動車組,每節車廂都有自己的引擎,當需要增加車廂時,整列火車的動力也相應增加了,只要條件允許(如站臺長短,相當于機房),車廂數就沒有限制。
可以想見,集群存儲的這些特點帶來的是用戶初次采購成本的降低、系統的靈活性和簡單管理性。HDS亞太區內容及文件服務總監Sunil Chavan就認為,集群NAS的價格是其獨特的優勢,用戶不必投入巨資,而采用“按需購買、漸進擴展”模式,這是中型企業關注的一個主要問題。
競爭促進市場成熟
對于一個新興的市場,總是有一些先驅者來耕耘開拓,當一些實力雄厚的大廠商開始進入這個市場時,往往預示著這個市場已經迎來了大發展的階段,而市場競爭也會由此拉開帷幕。集群存儲現在正處在這一時期。
4月7日,惠普存儲推出了可橫向擴展的P4000G2和X9000產品。這兩款產品均來自惠普之前收購的兩家存儲廠商。2008年10月,惠普以3.6億美元收購了LeftHand,增強了其存儲虛擬化和iSCSI能力,為日后進入可橫向擴展存儲領域奠定了基礎。接著,2009年11月,惠普又出手將與其有密切合作的IBRIX公司收為己有。IBRIX的橫向擴展NAS平臺和IBRIX Fusion能夠極大地擴展性能、容量和管理能力。毫無疑問,這兩家公司的加入,將使惠普的集群NAS大大向前跨了一步。惠普存儲產品部產品總監范圣儉表示,隨著應用對系統性能需求的逐步增加,以及數據中心應用的廣泛發展,會有越來越多的企業考慮到集群NAS系統的優勢,因此,從長遠來看,集群NAS發展的前景將會越來越廣。
今年2月,IBM發布其首款集群NAS存儲系統SONAS(Scale Out Network Attached Storage),正式吹響了殺入集群NAS領域的進軍號。盡管這款產品目前還沒有在中國發布,但已經備受關注和期待。其實,IBM此前就已經憑借XIV產品進入到橫向擴展領域,2008年1月,IBM曾以3.5億美元收購了一家以色列存儲公司XIV,并通過不到1年的整合就正式推出了IBM XIV產品,這是一款采用橫向擴展架構的存儲產品,IBM認為,它所帶來的影響將改變傳統存儲的規則。
NetApp公司一直是傳統NAS領域的領先廠商,不過對于集群NAS,NetApp也一直有不俗的表現,尤其是一些成功的案例使NetApp的集群NAS出了風頭。當電影《阿凡達》大獲成功后,人們發現,在為電影動畫渲染等做出巨大貢獻的數據中心里,也有NetApp集群存儲的功勞。
Isilon公司是專注于集群存儲領域的廠商,它的IQ橫向擴展NAS在業界處于領先水平,其獨有的操作系統OneFS目前已經到了第五代,最多可支持144個存儲節點。進入中國市場后,Isilon在石油天然氣、生命科學、互聯網、電視臺等行業贏得了不少用戶的青睞。
華為賽門鐵克公司是存儲領域里的新興廠商,但其雄厚的技術背景和資金實力,注定它進入存儲領域的起點就非常高。集群NAS是華為賽門鐵克很重要的產品線,盡管其Oceanspace N8000產品推出時間不長,但已經有了成功的應用,具備很強的競爭力。
BlueArc公司是集群NAS領域公認的先進廠商,它的著名產品Titan在電影《阿凡達》等影片中的卓越表現被業界津津樂道。最近,一直代理Panasas集群存儲產品的北京捷華潤公司成為BlueArc產品在中國的代理。其實,我們對BlueArc的產品并不生疏,HDS公司與BlueArc一直是互相OEM的合作伙伴,從HDS的高端NAS產品中就可以了解到BlueArc產品的特點。
EMC在集群NAS方面也有產品支持,據EMC介紹,其Celerra系列都支持集群NAS,至少支持2個NAS機頭(也稱做NAS刀片或NAS控制器),其中NS-960最多支持8個刀片,是業界單機支持刀片最多的產品。
在國內存儲廠商中,也不乏一些鐘情于集群存儲的廠商,像九州初志、藍鯨、龍存等,都在這方面開展了研發和應用推廣工作。
另外,今年年初,Dell公司宣布將收購集群存儲廠商Exanet,使集群存儲陣營又添新的強勁的競爭者。有以上這些廠商的參與競爭,注定這一領域將不會消停,同時,我們也期待這一市場盡快走向成熟。
目前,集群存儲的應用正被廣泛挖掘。姜天露認為,集群存儲比較適合兩種類型的應用:一類就是對性能有特殊要求的應用,如高性能計算領域,典型的包括衛星氣象云圖、石油勘探等;另一類就是低成本、超大容量需求的,如一些監督、歸檔類的應用,包括短期文件歸檔存儲,銀行監督稽核應用等。此外,在互聯網行業,集群存儲的應用也越來越多。未來,集群存儲將越來越多地應用于云存儲中,成為云存儲的一部分。
對于集群存儲中目前存在的問題,陳爽認為,集群NAS能否支持在不同磁盤介質間合理而有效地分層存儲數據已變成一個十分突出的問題,目前許多集群NAS廠商對磁盤介質的支持類型還比較單一,即使能支持不同磁盤介質,也只能讓不同介質類型的磁盤各自使用,無法有機地結合在一起使用。另外目前集群NAS都采用開源或私有的文件系統,缺少必要的標準,帶來了兼容問題。不過,pNFS作為標準已經被確立,相信很快各集群NAS廠商將推出支持pNFS標準的產品。
鏈接
集群存儲
目前,業界對于集群存儲產品還沒有一個統一的標準,因此,各廠商所提供的產品都宣稱具有獨特的功能。一般來說,所謂集群存儲就是一種開放式的存儲架構,它采用分布式操作系統,能將多臺物理存儲設備中的存儲空間聚合成一個能夠給應用服務器提供統一訪問接口和管理界面的存儲池(也叫統一命名空間),應用可以通過該訪問接口非常容易地管理存儲池后端物理存儲設備上所有的磁盤,充分發揮存儲設備的性能和磁盤利用率。數據將會按照一定的負載均衡策略,從多臺存儲設備上存儲和讀取,以獲得更高的存儲性能。
從以上定義中可以看出集群存儲有六個非常關鍵的特點:
1. 開放式架構(高擴展性)
它針對集群存儲內部構成元素而言。一般集群存儲應該包括存儲節點、前端網絡、后端網絡等三個構成元素,每個元素都可以非常容易地采用業界最新技術而不用改變集群存儲的架構,且擴展起來非常方便,像搭積木一樣進行存儲的擴展。特別是對于那些對數據增長趨勢較難預測的用戶,可以先購買一部分存儲,當有需求的時候,隨時添加,而不會影響現有存儲的使用。
2. 分布式操作系統
這是集群存儲的靈魂所在。所有對集群存儲的操作都經由分布式操作系統統一調度和分發,分散到集群存儲各個存儲節點上完成。使用分布式操作系統帶來的好處是各節點之間沒有任何區別,沒有主次、功能上的區別,所有存儲節點功能完全一致,這樣才能真正做到性能最優。
3. 統一命名空間
統一命名空間在很多廠家的存儲概念中都出現過。在集群存儲中,統一命名空間強調的是同一個文件系統下的統一命名空間。它同樣可以支持上PB級別的存儲空間。如果是通過將若干有空間上限的卷掛載到某一個根目錄的方式來達到統一命名空間,其效率和出現存儲熱點時的性能將會大大低于把上PB級別的存儲空間置于同一個文件系統下管理的統一命名空間。
4. 易管理性
目前存儲業界的管理方式都是通過各廠商的管理工具,或通過Web界面進行管理和配置,往往客戶端還需要安裝相關軟件才能訪問到存儲上的空間。隨著需要管理的存儲空間逐漸增大,管理存儲的復雜度和管理人員的數量也將會隨之增加。而集群存儲應該提供一種集中的、簡便易用的管理方式,對客戶端沒有任何影響,采用業界標準的訪問協議(比如NFS,CIFS)訪問集群存儲。
5. 負載均衡
集群存儲通過分布式操作系統的作用,會在前端和后端都實現負載均衡。前端訪問集群存儲的操作,通過幾種負載均衡策略,將訪問分散到集群存儲的各個存儲節點上。后端訪問數據,通過開放式的架構和后端網絡,數據會分布在所有節點上進行存放和讀取。
6. 高性能
關于高性能領域,目前對集群存儲的討論還僅局限在高帶寬、高并發訪問的應用模式下。毫無疑問,集群存儲對于該類應用可以提供比傳統存儲架構更優的性能。但目前應用除了高帶寬、高并發訪問類的之外,還有高IOPS、隨機訪問、小文件訪問以及備份歸檔等其他類的應用,集群存儲應該在以上領域同樣提供高性能的解決方案。(Isilon公司中國區技術部經理楊峰提供)