文/上海電力學院 謝蘭玉
“云”環境下的數字檔案信息存儲方案設計
文/上海電力學院 謝蘭玉
傳統數字檔案信息存儲在技術結構、存儲方案、數據備份和災難恢復等方面存在著不足,云存儲以其獨特的技術和理念優勢,有助于彌補這些不足之處。根據云存儲體系的架構方案,筆者對“云”環境下的數字檔案信息存儲方案設計的前提條件、原則以及體系構架提出了自己的看法。
云計算;云存儲;數字檔案信息;存儲方案
隨著信息社會的不斷深入和網絡IT技術的迅速發展,傳統數字檔案信息存儲在技術結構、存儲方案、數據備份和災難恢復等方面顯得越來越難以適應檔案工作現代化的需要,也越來越不能滿足用戶對其個性化高層次的需求。檔案部門如何突破數字檔案信息存儲的現有條件制約,解決其在存儲容量、資源共享、滿足用戶個性化服務等方面所面臨的難題。作為云計算重要組成部分并集合了集群應用、網格技術、分布式技術等眾多技術的云存儲技術,有望能為檔案部門帶來新的機遇和突破。
(一)數字檔案信息存儲的技術結構。依據存儲設備在構成數字網絡系統中的結構,可將數字檔案信息存儲的技術結構分為三類,即DAS(直接連接存儲)、NAS(網絡連接存儲)、SAN(存儲區域網)。
1.DAS存儲結構。DAS是指將存儲設備通過SCSI接口或光纖通道直接連接到服務器上。隨著服務器CPU的處理能力越來越強,存儲硬盤空間越來越大,陣列的硬盤數量越來越多,SCSI通道將會成為IO瓶頸;服務器主機SCSIID資源有限,能夠建立的SCSI通道連接有限。隨著檔案數字化建設的不斷發展,存儲容量的增多,訪問用戶量增大,DAS存儲技術將逐漸被淘汰。
2.NAS存儲結構。NAS采用網絡技術,通過網絡交換機連接存儲系統和服務器主機,建立專用于數據存儲的存儲私網。雖然NAS存儲結構具有即插即用、較強的可擴展性、異類文件共享等優點,但附網存儲設備直接與以太網連接,其安全性存在一定問題,而且該結構在LAN上存儲大批數據可能會占用大量的帶寬,增加了網絡負載。
3.SAN存儲結構。SAN是一種高速網絡或子網絡,可以提供在計算機與數字檔案信息存儲系統之間的數據傳輸。一個SAN網絡由負責網絡連接的通信結構、負責組織連接的管理層、存儲部件以及計算機系統構成,從而保證數據傳輸的安全性和力度。通常SAN與其它計算資源緊密集群來實現數字檔案信息遠程備份和檔案存儲過程。SAN支持磁盤鏡像技術、備份與恢復、檔案數據的存檔和檢索、存儲設備間的數據遷移以及網絡中不同服務器間的數據共享等功能。雖然SAN功能強大,但許多設備價格高昂并難以維護,使很多檔案部門只能“望SAN興嘆”。
(二)數字檔案信息的“雙套制”存儲方案。雙套制融合了紙質檔管理和數字檔案管理的優勢,既可發揮高效存取檢索功能,又可在最大限度上保障數字檔案信息的安全長期存儲。然而,雙套制意味著每份文件都必須對電子和紙質兩個版本同進行保存管理,投入雙倍的人力、物力、財力,大大增加檔案部門的經濟負擔。同時,雙套制沒有考慮到文件在其生命周期中,尤其是在辦理過程中會留下各種各樣痕跡,例如領導的批示、簽字等。這些重要的痕跡內容就沒有在上述紙質副本中體現出來,導致該副本的真實性和完整性難以保證。
(三)數字檔案信息的數據備份和災難恢復問題。當前數字檔案信息的數據備份一般是采用數據內置或外置的磁帶機進行的冷備份,備份磁帶同時也存放在本地的網管中心,一旦本地的網管中心出現了災難,如空襲、戰爭、火災、盜竊和地震等災難時,這些備份磁帶也隨之俱毀,災難數據恢復也就失去了前提。彌補冷備份不足的辦法是采取異地實時備份,它在災難發生時可以全面及時的恢復整個系統,但是這種備份策略投資比較大,對于經費一向拮據的檔案部門缺乏可行性。
云存儲是在云計算基礎上延伸和發展出來的一個新概念,它是通過集群應用、網格技術或分布式文件系統等功能,將網絡中大量不同類型的存儲設備通過應用軟件集合起來協同工作,共同提供數據存儲和業務訪問功能的一個系統。從根本上說,云存儲不是存儲,而是服務。人們使用云存儲,并不是使用某一個存儲設備,而是使用云存儲系統帶來的一種數據訪問服務。總體來說,云存儲運用于數字檔案信息存儲方面主要有以下優勢:由成千上萬臺甚至更多服務器組成的集群具有無限空間,支持無限存儲容量和超強擴展能力;用戶不再需要購買和升級相關管理軟件,只需要根據自己的需要和喜好來租用服務商的價格低廉的云服務,大大降低了數字檔案信息存儲成本;提供更容易的群組協作,增強各部門的溝通,有利于實現數字檔案信息的共享;采用虛擬化技術,其物理設備可能分布在世界上的不同地點,幫助用戶更為方便地形成多個異地備份。
(一)方案設計的前提條件。主要有以下幾個方面:
1.觀念前提。檔案人員必須認識到那種認為把資源放在自己眼下比放在云中更為安全可靠的想法是不科學的。檔案人員一定要轉變傳統觀念,認識到云計算技術和理念給檔案信息化建設帶來的機遇與挑戰,在認真研究數字檔案信息存儲現狀的基礎上,結合云存儲的優勢,探索“云”環境下的數字檔案信息存儲方案。
2.管理前提。檔案部門將云存儲技術引入到數字檔案信息存儲領域必然會導致整個管理體制和管理方式的變革,同時會使整個部門的業務流程發生變化。因此,面臨云計算浪潮的沖擊,檔案部門如何重新調整管理是一個擺在眼前的首要問題。
3.技術前提。云存儲本身就是一個多設備、多應用、多服務協同工作的集合體,而將云存儲應用到數字檔案信息存儲中,還要考慮到數字檔案信息的特點,因此數字檔案信息云存儲的實現需要以多種技術發展為前提。這些技術主要包括,影響云存儲性能的寬帶網絡技術,以共享為核心的Web2.0技術,保證存儲系統高效運行的應用存儲技術、集群技術、網格技術、虛擬化技術和分布式文件系統技術等。
(二)方案設計應該堅持的原則。主要內容如下:
1.在對原有存儲系統充分整合的基礎上,進行平滑遷移。云存儲系統是要整合原有的存儲系統,充分利用現有設備,在此基礎上構建更大容量、更快響應速度的存儲系統。因此,檔案部門在準備將數據遷移到云端時,一定要充分利用原有存儲系統,并做好擴容準備,滿足數字檔案信息的長期存儲需求。同時,由于原有的存儲系統對所處的生態環境已形成一定的依賴性,在向云端遷移時稍不注意就有可能造成數字檔案信息的損壞或丟失。因此,系統遷移過程中一定要注意遷移的平滑性,盡可能保持數據的所處環境的安全穩定。
2.最大限度地保障數字檔案信息的安全長期保存。數字檔案信息的安全長期保存是存儲方案設計的核心,也是難點。“云”環境下的數字檔案信息存儲方案的設計一定要從各方面最大限度地保障數字檔案信息的安全長期保存。
3.保障數字檔案信息的共享性,滿足檔案部門的各種存儲需求。利用云存儲的共享優勢,解決數據存儲的多樣性和零散性,將地理位置分散的數字檔案信息進行整合,形成具有統一邏輯視圖的高性能數字檔案信息云存儲系統。同時,由于各地區檔案部門在數字檔案資源建設發展程度上有很大的差別,對數字檔案信息資源的存儲需求有很大不同,而且云存儲中的存儲設備多種多樣,各種設備的性能根據資源的特點而有所差異。所以,在設計云存儲方案時就要考慮到不同檔案部門的差異化需求。
(三)數字檔案信息的存儲體系架構設想。筆者認為,參照云存儲的體系架構,可以將“云”環境下的數字檔案信息存儲體系分為四層,分別為:存儲層、基礎管理層、應用接口層和用戶訪問層。
1.存儲層。存儲層是“云”環境下的數字檔案信息存儲架構的底層,也是存儲的硬件層面。它為整個存儲系統提供基本的網絡環境、物理存儲資源和邏輯存儲資源。它通過網絡把數量龐大且地理上分散的各種物理設備組合起來,用虛擬化技術屏蔽掉底層的硬件差異,使得檔案部門以資源池的方式對外提供服務,并通過統一的管理邏輯和接口,進行存儲設備的邏輯虛擬化管理、多鏈路冗余管理,以及硬件設備的狀態監控和故障維護,確保硬件設施的安全與及時更新。
2.基礎管理層。基礎管理層是集群系統、分布式文件系統和網絡分布技術的集成,它是“云”環境下的數字檔案信息存儲體系架構的核心層。通過集群、分布式文件系統、網格計算等技術,檔案部門可以實現云存儲中的多個存儲設備間的協同工作,包括存儲監控、調度,副本管理等,并根據檔案部門的需求通過分布式文件系統在任何地點任何時刻向檔案用戶提供同一種數字檔案信息服務,并保障了更強更好的數據訪問性能,保證眾多檔案用戶可以同時訪問使用數字檔案信息資源。
3.應用接口層。應用接口層是指利用云基礎設施為用戶提供各種應用軟件部署和運行環境,并使根據用戶需求開發出來的應用程序可以運行在這個環境之內,并且其生命周期被該環境所控制,而并非只是簡單地調用平臺提供的接口。應用層為檔案用戶提供了數字檔案信息存儲平臺和各種個性化的Web服務,并用靈活簡易的方式實現數字檔案信息資源的聚合共享,同時可以對數字檔案信息的安全備份和系統容災進行全程監控。
4.訪問層。經過授權,任何一個用戶可以通過互聯網終端設備隨時隨地地登錄“云”環境下的數字檔案信息存儲系統,并對各種數字檔案信息服務實行“一站式”瀏覽與體驗,從而滿足自己對數字檔案信息的個性化需求。為了保障數字檔案信息免遭非法用戶的訪問,云計算采用用戶訪問控制、身份認證、用戶行為監測與審計等技術手段,對數字檔案信息的安全性進行全方位的監控,以保障合法用戶獲取安全數字檔案信息的權利。
[1]郎斌.檔案數字化建設中信息資源存儲系統的選擇[J].蘭臺內外,2007(2):60~62.
[2]百度百科.SAN[2011-12-08].http://baike.baidu.com/ view/120921.htm.
[3]張健.電子文件雙套制存在的風險[J].北京檔案,2009(3):25~26.
[4]李勇.云計算對信息服務的影響及存在的問題[J].情報理論與實踐,2009(12):90~92.