王毅
【摘要】文章介紹了高校信息中心在數據存儲方面的現狀和集群式存儲的一些特點,對在高校部署集群式存儲系統做了簡要的論述,并且總結了部署集群式存儲系統所帶來的意義。
【關鍵詞】存儲;高校;共享;安全
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2013)06—0120—03
一 引言
隨著教育行業信息化建設的不斷深入和完善,學校教學、科研、管理等工作的正常運行越來越依賴于網絡信息平臺。目前很多高校的數據中心仍然采用很多年前的數據處理方式,將前端應用程序、數據庫、資源庫全部放在服務器本地硬盤中,雖然現階段基本可以滿足要求,但也存在很多弊端。如:沒有備份恢復系統、服務器的硬盤空間沒有統一的規劃,使用分布不均,造成空間浪費、數據無法在各種版本的操作系統間實現簡單快速的共享等。隨著學校各種業務數據的不斷增加,現有架構的不足將日益凸現出來。因此,建立可靠、安全、便于檢索、快速共享的集群式存儲系統已經變得勢在必行。
二 高校信息中心數據存儲的現狀
1 幾乎沒有集中的存儲設備,數據丟失風險大
重要的教學資源、學生信息、財務數據均存放在服務器本地硬盤或者Raid硬盤組當中,缺乏相應的保護措施、相應的專業數據管理人員。大大加重了數據丟失的風險。
2 存儲空間浪費嚴重,數據無法安全簡單共享
數據分散存儲在各個服務器中,服務器硬盤空間無法統籌規劃,形成一個一個的信息孤島,空間使用分布不均,嚴重浪費。
不同的主機間所擁有的存儲區域不可能交叉訪問,傳統文件服務器基于單一操作系統,故不可能實現真正實現異構操作系統如Linux和Windows數據的共享。而Linux和Windows之間的互訪則只能通過購買第三方軟件來實現,并且保證不了應有的文件訪問權限。
3 沒有真正的備份恢復保護系統
服務器的數據很容易因為誤刪除,病毒感染,硬盤設備壞等原因丟失。沒有專業的備份系統可以恢復數據。
4整體擁有成本不合理
傳統架構下,服務器的平均資源利用率并不高,造成很多CPU、內存、電力、制冷、機架空間等資源的浪費,增加了不必要的開銷,整體擁有成本不合理。
三 集群式存儲
1 集群式存儲發展的背景
傳統的存儲已經不能滿足于當下信息的爆炸式發展。面對日益臃腫和復雜的數據,一旦遇到存儲系統的瓶頸,就不得不升級到更大的存儲系統和添加更多的管理工具,從而浪費了社會資源,加深了數據管理的難度。而采用集群存儲則可以提供按比例增加的服務器或存儲資源的性能、容量、可靠性及可用性,突破了單機設備的種種限制,帶來更高的可用性、穩定性,以及更低的成本。
2 什么是集群式存儲
集群存儲就是將多臺存儲設備中的存儲空間聚合成一個能夠給應用服務器提供統一訪問接口和管理界面的存儲池,應用可以通過該訪問接口透明地訪問和利用所有存儲設備上的磁盤,可以充分發揮存儲設備的性能和磁盤利用率。數據將會按照一定的規則從多臺存儲設備上存儲和讀取,以獲得更高的并發訪問性能。
3 集群式存儲的功能
(1)海量數據高效管理
隨著資料處理業務的增多,存儲系統中將積累大量的數據,這就需要存儲系統能夠容納海量的數據。同時,存儲系統里面的文件數量也會快速增長,當文件數量增長到數千萬以上時,文件的檢索查找等操作將會給文件系統帶來巨大的壓力,特別是一個目錄下面存放的文件超過一定數量甚至會造成文件查找效率急劇下降。集群存儲系統單卷可支持PB級的存儲空間,高效的管理上百億個文件,單目錄可以高效支持千萬級的文件數量。集群存儲系統擁有高效的多元數據服務器集群技術和高效的海量文件檢索技術,在存放上百億文件的同時保持極高的文件檢索效率。集群存儲系統能夠在單個目錄下高效管理上千萬個文件的存儲系統,在單目錄下存放上千萬數量文件時,仍然能夠提供每秒數萬的文件檢索效率。
(2)數據讀寫性能
集群存儲系統通過多臺存儲服務器提供同時數據存取服務的方法以滿足大量應用服務器的并發訪問需求。在應用服務器端,當應用程序往存儲系統上寫文件時,文件將會被根據一定大小進行分片存放到多臺存儲服務器上;在應用程序讀文件時,則并發的從多個服務器上讀取數據。由于大量的數據IO請求都被分散到多臺存儲服務器上,使得所有的存儲服務器上的磁盤性能和網絡帶寬都可以同時得到充分的利用,這樣集群存儲系統的聚合帶寬由多臺的存儲服務器上的10帶寬相加而成,從而克服了單一出口點所造成的性能瓶頸,可以滿足多臺應用節點并發訪問的帶寬需求。通過實現多存儲服務器的并發數據訪問支持,消除了傳統存儲方案中常見的負載不均導致的熱點數據問題。通過數據在存儲服務器集群中的條帶化分布實現高效、全面的負載均衡功能,充分利用硬件和網絡的性能,發揮出最高IO吞吐量。
(3)數據全局共享
大規模集群存儲系統采用文件系統全局命名空間,所有計算節點都可看到一致文件系統視圖。數據的全局共享可以加強各計算節點之間的協作,提高了作業的運行效率。而且數據的統一管理也方便用戶數據的統一管理,并簡化應用系統的開發。
(4)數據安全性
基于數據安全性方面的考慮,用戶可以通過配置工具設置數據相應的安全等級,選擇將數據和校驗數據分別存放在不同的存儲服務器上。集群存儲系統可以同時使用多條高速數據通道,可消除網絡層的單點故障,進一步提高系統的高可用性。在這樣的情況下,即使出現存儲服務器宕機、網絡中斷、磁盤損壞時,仍然能夠保障數據完整性和數據服務的持續運行。例如,在運行中存儲服務器由于磁盤損壞而丟失了該磁盤上的部分數據,集群存儲系統將會立刻發現該異常并自發的啟動數據恢復流程,利用存放于其它存儲服務器中該部分數據的校驗數據重新生成一份以保證數據仍有一定的冗余度。由于數據恢復是基于真實丟失的數據,并且數據恢復是通過整個存儲集群同時并發進行,所以相對于傳統的RAID技術具備更快的數據重建速度,這也能夠有效提升數據的安全性。通過將數據和校驗數據存放在不同存儲服務器的方法可以對一系列的軟硬件故障(網絡、主機、磁盤等)進行自動的隔離,消除了存儲系統的任何單點故障,而且也無需配置任何復雜的配置。
4 集群式存儲的優勢
集群存儲的優勢主要體現在提高并行或分區I/O的整體性能,特別是工作流、讀密集型以及大型文件的訪問,通過采用更高性價比的通用硬件來控制整體成本。目前,能源行業、廣電行業和科學計算、互聯網等領域的很多創新企業成了集群存儲市場上首批用戶,并且從集群存儲帶來的種種優勢中獲得了非常高的投資回報率。
四 在高校部署集群式存儲的可行性和帶來的意義
1 在高校部署集群式存儲的可行性
(1)集群式存儲系統和現有環境無縫兼容
存儲系統的設計是面向通用的硬件和軟件環境,如使用通用的以太網絡作為數據傳輸通道可以確保充分利用現有的環境,并且可以無需對環境做出任何修改。另外能夠直接支持Linux、Windows、Mac等常用的操作系統之間進行數據共享,無需對操作系統做任何修改,所以能夠無縫的接入到高校現有的軟硬件環境。
(2)系統化的可擴展性
集群存儲系統可以支持動態的擴展存儲容量,而無需中斷應用的運行。用戶可以通過配置工具動態添加存儲服務器以擴大系統的容量和規模,而且隨著存儲服務器數據的增多,整套系統的聚合帶寬也會線性的增長,完全可以滿足業務不斷發展所產生的容量和性能需求。而工業標準的通用硬件良好的兼容性和可獲得性方便了整套存儲系統將來的使用和擴展。
(3)系統的整體擁有成本低
考慮到教育機構不是直接生產單位,不產生直接的效益。因此,考慮系統的整體成本是必要的。由于集群式存儲系統的動態可擴展技術,使得用戶可以按需擴展存儲容量,無需一次性投入大量成本來構建存儲系統,有效降低了用戶投資的風險。
(4)另外,集群式存儲系統將所有的存儲設備聚合成單一的存儲池,提供給所有的前端應用服務器集群共享訪問,克服了使用單一設備時所出現的存儲設備利用率不均衡的情況。
2 部署集群式存儲所帶來的意義
(1)數據的充分共享
校園網中的數據可以被前端的各種類型的主機共享,無需在Linux和Windows、Mac系統之間進行數據遷移。這允許一個數據拷貝被所有人員與進程共享,大大減少了對不同環境下相同的數據的多種形式的管理費用。
(2)安全應用隔離
存儲系統可以將不同的應用在邏輯上進行隔離,校園網中不同應用之間的存儲內容相互獨立,有效降低人為因素造成的數據損壞,大幅度提升了存儲內容的安全性和數據的完整性。
(3)更低的存儲架構規劃成本
存儲系統可與用戶的現有應用環境無縫連接,便捷地加入到用戶的應用環境中,并即時對外提供存儲服務。無需像傳統存儲系統一樣對大量復雜的硬件設備進行長期的分析、規劃和配置,大大節約了前期的規劃成本,極大提高了存儲系統部署的效率。
(4)集群式存儲系統采用圖形化管理工具,極大簡化了對系統使用的復雜度,減短了對管理員的培訓時間。
(5)提高應用服務器之間的協作效率
存儲系統對外提供單一的系統映像,所有的應用服務器都看到相同的文件視圖。集中的數據共享存儲,方便用戶各業務部門之間進行數據協同處理,極大提高了各個部門間的整體效率。
(6)快速的故障恢復
集群式存儲系統高效的自動數據恢復技術,使得故障恢復時間是通用RAID技術的五分之一,恢復過程不影響相應業務的運行,保證業務的連續性。
五 總結
數據存儲是數據中心的基礎,是一切服務的保障,保證數據的正確、完整性至關重要。高校應深化對數據存儲重要性的認識,在經費保障的基礎上,實現逐步調整,實現數據的高效存儲。