□馬躍福 王 平 楊 靜
隨著社會信息化程度的不斷提高,各級檔案館也將逐步成為海量數字化檔案信息的存儲中心。建設安全、可用的數字化檔案信息存儲體系將成為現代檔案館的一個極其重要的內容。目前數字化檔案信息存儲體系一般包括存儲、容災、備份和歸檔四方面的內容。
存儲架構分為3種:DAS(直連存儲)、NAS(網絡附加存儲)、SAN(網絡區域存儲)。在檔案系統應用中NAS和SAN架構最為適合:NAS數據結構是基于文件系統,因此NAS架構應用于檔案文件的存放,可以經濟高效地實現檔案電子化;SAN數據結構基于數據塊,因此SAN架構適用于檔案數據庫的構建,可以高性能地實現檔案數據的查詢和管理。
考慮完架構后,要考慮存儲產品自身的可靠性,如存儲控制器是否冗余、存儲相關設備是否冗余、存儲構造的合理性、存儲自身的數據安全保護等等。一個可靠的存儲系統必須至少擁有2個或以上的高性能控制器,以保證核心控制的可靠性;必須擁有至少N+1設備冗余(電源、風扇、通道卡等);存儲構造應當采用交換或點對點模式,來確保內部的數據傳輸性能及容錯性;存儲自身的數據安全保護涉及硬盤raid級別、故障監測、數據快照支持和遠程數據復制支持。
容災顧名思義就是為了預備災難發生時所做的預防應急措施。在規劃遠程容災系統方案時,應根據具體要求明確方案所要達到的目標。因為不同的災難恢復目標,可以使用不同的災難恢復技術實現方案,相應地,投資規模和運行成本也將會不同。根據信息中心的實際狀況,檔案館選擇容災系統方案時應考慮以下幾點:
目標-1:應對災難的種類
有許多計算機系統內部以及計算機所處環境中的潛在因素可能會造成數據丟失情況的發生。據不完全統計,造成數據丟失的事件中,軟硬件和網絡故障占11%左右,斷電和電源故障占50%左右,火災地震爆炸和雷電等災害占18%左右,人為因素占17%左右,其他因素占4%左右。為應對不同的災難,主中心和災備中心的選址也會不一樣。例如為抵御地震災害,主中心和災備中心應選擇在不同的城市,而不宜選擇同城;為抵御長時間停電故障,主中心和災備中心就應選在由不同的輸變電網絡和電廠覆蓋的區域。
只有明確災難恢復方案所要應對的災難的種類,才能科學地選擇主中心和災備中心的地理位置。
目標-2:恢復時間目標(RecoveryTimeObjective)
恢復時間目標(RecoveryTime Objective-RTO)是災難發生后業務能夠容忍的停頓時間,或者說災難發生后,恢復業務運行所需要的時間。一般來說,恢復時間(RTO)越短,那么災難恢復方案的成本就越高,但是造成的業務損失就越小;反之,恢復時間(RTO)越長,災難恢復方案的成本較低,但是造成的業務損失就較大。
最佳的恢復時間目標(RTO)應為業務影響(損失)曲線和方案成本曲線的交點所對應的時間。比最佳恢復時間更短的目標將造成投資浪費;而比最佳恢復時間更長的目標,災難發生造成的損失會大于方案投資成本,所以災難損失的風險較大。
目標-3:恢復數據目標(RecoveryPointObjective)
恢復數據目標(RecoveryPoint Objective-RPO)是災難發生后業務能夠容忍的數據丟失量,或者說災難發生造成的數據丟失量。一般來說,恢復數據目標(RPO)越高(即丟失的數據越少),方案的成本越高,但是由于災難造成的業務損失就越小;反之,恢復數據目標(RPO)越低(即丟失的數據較多),方案的成本較低,但災難造成的業務損失也較大。
最佳的恢復數據目標(RPO)應為業務影響(損失)曲線和方案成本曲線的交點所對應的目標。比最佳恢復數據目標更高的目標,將造成投資浪費;而比最佳恢復數據目標更低的目標,災難發生造成的損失會大于方案投資成本,所以災難損失的風險較大。
目標-4:確定關鍵業務數據(需災備保護的數據對象)
按照數據的重要和關鍵程度,大致將IT系統的所有數據分為三大類:
客戶服務類數據:指那些支持數據中心核心產品和服務所需數據,該類數據的恢復時間目標(RTO)一般在一小時內,而且不允許數據丟失。
業務支持類數據:指那些業務運行所需數據,該類數據的恢復時間目標(RTO)一般小于24小時。
可延緩數據:其他數據如辦公室OA等,該類數據的恢復時間目標(RTO)一般小于48小時。
考慮到上述三類數據之間的互相耦合和關聯,一般來說,客戶服務相關的數據約占數據總量的80%;業務支持數據約占15%;可延緩數據約占5%。
綜合以上因素選擇適合的容災模式和機制是非常重要的,可以幫助最大限度避免損失。
備份是保證數據安全的最后一道屏障,因為無論是存儲還是容災,所有數據均為在線存放,而備份的數據既可以在線存放,也可以通過磁帶等介質離線保存,在線保存的數據可以快速恢復,離線保存的數據可以存放在一個更為安全的特殊環境中。一個大范圍的災難造成本地及容災系統的數據完全不可用時,通過該備份數據,可以盡可能完整地恢復至可用數據,減少損失。若是由于人為操作失誤造成的數據丟失,那么磁盤等介質在線備份的數據可以較快地檢索出之前的正確數據。
因此如果在條件允許的情況下,可以考慮磁盤備份和磁帶備份相結合,從而盡可能地保障數據安全。現今眾多的備份軟件越來越好地支持災難備份恢復,能夠通過災難恢復介質恢復至災難前的數據、系統設置等,從而更加快速的恢復業務系統。
備份的目的就是為了恢復,保證在出現意外情況時保證業務的連續進展;特別是在線備份,對速度的要求相對較高,但對容量的要求則相對較小。
歸檔的目的與備份完全不同。檔案館保存著大量的數據,其中的60%-80%今后可能很少使用到,但這些數據必須保留以備查詢。簡言之,歸檔的目的是為了保證數據的完整性。在如何最大化使用存儲,保證數據的訪問方面歸檔和備份有很大區別。
選擇歸檔系統有四個原則:
數據必須永遠保留。無論是歸檔還是備份,數據的完整性必須得到保證,必須在規定的時間內保證數據的安全存儲。
數據易于讀取。雖然大部分數據重復讀取的可能性不大,但歸檔系統依舊不是一個“死”倉庫,必須保證在需要的時候能方便地讀取數據,這也是歸檔系統的必備原則之一。
保證法規遵從。目前國內這方面的法規還在逐步完善過程中,國外如在美國的美國證券交易委員會SEC(SecuritiesExchangeCommission)法案、薩班斯-奧克斯萊法案(Sarbanes-Oxley)等,對電子記錄在完整性、保密性和可存取性三個方面都有明確規定。摩根公司就曾因為沒有在規定時間找到全部的電子數據,被罰款14.5億美金。數據歸檔系統也必須完全符合這些要求。
數據的可擴展性。數據是無時無刻不在擴展的,歸檔系統必須保證自身的可擴展性,以滿足迅速增長的數據量的要求。
目前各級檔案館都開始投入巨資建設現代化的數字化檔案信息存儲體系,包括存儲、容災、備份和歸檔等功能的存儲系統,但由于不同的廠家產品之間缺乏集成,對數據的完整性和有效性缺乏有效的管理。數據管理人員對所存儲的數字化檔案信息缺乏整體的了解,往往是知道數據在,卻不知道具體位置在哪里。對數據的存儲狀況是否有效也不清楚,不能根據各個存儲系統的運行狀況及時提出數據遷移的計劃,往往是即使找到了數據,也可能發現數據已損壞不可讀了,從備份系統中恢復數據也非常麻煩。為了盡可能地做好數據備份,目前大多采用局部集中備份、單獨備份、手工定期備份等不同的備份模式,導致部分系統的應用數據備份不充分,備份時間過長,不能產生備份報表,無法了解真實的數據保存狀況,也沒有有效的介質管理與異地保存。這些問題在不斷增加數據保護風險的同時,也使管理成本居高不下。
數字化檔案信息的存儲中心的功能應該是最大程度地挖掘出它所保管的檔案信息資源的價值。存儲設備、服務器、網絡為實現這個功能提供了工具和基礎架構,但一個成功的數字化檔案信息的存儲中心應該體現在在適當的時間和適當的地點提供適當的信息的能力上。要達到這個目的需要實現存儲、容災、備份和歸檔等各個環節的整合,建設統一的數字化檔案信息存儲管理平臺。
統一數據管理平臺把數據備份、恢復、歸檔、復制、資源管理和搜索這些功能模塊利用同一套源代碼無縫地結合在一起。這些功能不僅強大,而且從一開始設計軟件架構時就確保這些功能模塊能共享相同的服務功能,從而能通過單一控制臺,迅速、簡單、可靠地執行所有的數據管理功能,以獨特的方式幫助客戶消除基礎架構成本,并大幅度提高數據管理效率。
一個標準的數據管理平臺可以提升整體表現,減少存儲復雜性并且減少開銷,還可以使所有的數據拷貝更具有意義和可獲得性。統一數據管理平臺應該采用一個統一的視圖提供以下的功能:
數據備份/恢復。能對異構環境下的各種操作系統、文件系統、數據庫、郵件系統和應用進行備份和恢復,備份過程是基于策略的自動操作,能提供小顆粒精確恢復。
快照管理和恢復。能利用硬件、軟件快照引擎,在存儲設備上創建具有時間點的恢復卷,在短短幾分鐘內就能完全恢復硬軟件,確保業務的連續性。
遠程連續數據復制。利用有限帶寬來有效復制文件和應用軟件數據,并創建恢復點來確保數據的一致性。可利用該功能把中心的數據復制到異地,達到容災的目的;也可把分布在不同地方的數據復制到中心,進行集中保護。
數據遷移和歸檔。按照用戶制定的策略把不常用的文件或郵件遷移到二級存儲中,當數據遷移走后,原系統中還留有“存根”,當用戶訪問“存根”時,數據會自動遷回到原處。如果把“存根”刪除,數據就自動歸檔到二級存儲中。該功能有效降低了在線存儲的壓力,提高系統性能,并節約了存儲費用。
存儲資源管理。對在線存儲上的文件、數據庫及應用的數據進行跟蹤、分析、發現、預測和報告,讓IT管理者及時準確掌握數據存儲的動態情況,為數據管理策略制定提供依據。
服務管理和報告。利用該工具軟件,管理者能輕松地跟蹤數據管理的所有操作和存儲資源管理,提供相關報告,確保規定的服務等級。
雖然可能還不成熟,但是各路廠商的集中數據管理平臺已經在起步了。一些備份廠商已經通過提供統一代理、統一政策引擎和共同服務、存儲而發展出了完全集成的、多功能的產品和很多其他的聯合點解決方案(pointsolutions,主要是通過集成)。比如 EMC、CommVault,HP和IBM提供集成的備份和歸檔。而這些廠商軟件——BakBone,CA和CommVault可以將備份和復制合并。而對于 Asigra、CommVault和Symantec而言,部署連續的備份抓取特性也是可行的。這些廠商——Asigra、CommVault、EMC、EVault、IBM和Symantec都在它們的備份特性中提供了數據重復刪除特性。
和傳統的存儲管理相比,統一數據管理平臺具有以下的特性和優勢:
提供文件系統、應用程序和數據庫當前存儲使用情況的報告,了解基礎架構內文件系統、應用程序和數據庫占用存儲空間情況,無論磁盤類型或其連接方式均可獲取信息,如DAS、NAS和SAN等。
趨勢分析和未來存儲需求預測。全面檢視存儲環境,做出更好的決策。提供支持性趨勢分析數據,優化存儲開支,協助年度預算預測以及消除不必要的開支。
淺度數據收集。避免傳統的詳細統計數據收集,減輕CPU和服務器存儲相關的I/O負載,適用于無需分析型數據的查找場景。
深度數據收集。能夠執行更強大的數據收集,滿足深入分析的需要。
應用程序相關的存儲容量視圖。了解映射到應用架構的存儲使用狀況,如數據庫表、消息存儲或NAS共享等。
基于閾值的提示。通過策略管理數據存儲能力,以減少人工干預。通過主動提示可能影響生產環境的事件或故障降低風險。
歸檔ROI報告。計算通過歸檔陳舊數據可以節省的成本數量。
禁用文件報告。查明垃圾文件、多媒體和非業務相關文件的存儲位置和所有者。
邏輯資源與物理資源的映射。提供磁盤卷所有邏輯存儲實體,或與邏輯存儲實體相關的所有磁盤卷的使用狀態報告。
運行過程監控。提高生產率和數據訪問效率,通過多種視圖查看主存儲資源。
操作窗口。可定義針對數據保護任務的操作規則,比如在特定的時間啟用或禁用特定的操作。這有助于確定數據保護任務的優先級別,同時不會對SRM數據收集工作造成任何潛在影響。