王建文
北京數字檔案館(電子文件中心)系統存儲體系是檔案數字資源的載體,是系統軟硬件基礎環境建設的核心,也是檔案數字資源的信息安全基礎保障。高效可靠的檔案數字資源存儲體系,將確保核心應用能夠穩定支撐多種關鍵業務、相關業務按需獲得資源;能夠按照數據存儲量和分步實施的需要,擴展未來的存儲、備份相關設備。
一、概述
北京數字檔案館(電子文件中心)的存儲體系建設,以先進性、擴展性、實用性、可靠性為原則,基于信息技術行業標準進行了系統設計與實施,在北京市檔案館專網(內部局域網)、北京市政務外網及因特網進行部署,建設完成專網存儲系統、政務外網和互聯網存儲系統。存儲系統分別采用云存儲架構,并通過分級存儲,滿足按需獲取和分級資源管理的要求。
二、需求分析
北京數字檔案館(電子文件中心)的存儲備份系統需要對各種來源的數據進行充分整合集中,提高協同能力,由“面向單系統”的結構轉變成“面向資源”的檔案館云系統。存儲體系部分主要需求包括:整合不同類型、不同階段的檔案數字資源形成統一的存儲管理;按照特定應用需求規劃存儲資源分級管理;根據數據生命周期管理理念,兼顧數據特性和數據訪問規律,實現設備內部磁盤間和跨設備間的數據分層存儲管理;結構化數據和非結構化文件存儲的高效訪問以及原有存儲的利舊整合。根據北京市檔案館現有存儲所承載業務及檔案數據的現狀,要解決以下六個方面關鍵問題:
(一)對數據集中、媒資系統、檔案管理系統等多個存儲系統進行資源整合共享、數據統一管理
(二)檔案數字資源多個平臺,文件系統不一,大量非結構化檔案數據文件存儲受原有操作系統限制,單盤容量較小,檔案數據無法集中,數據訪問效率低、系統平臺整合存在結構性缺陷
(三)隨著電子文件的累積以及檔案數字化程度越來越高,檔案數字資源數據量級對計算資源和存儲資源要求越來越高,計算系統的單一架構處理檔案數據已無法滿足性能要求,同時存儲空間也不能滿足檔案數字資源的存儲
(四)現有數據訪問模式使用NAS方式,通過IP網絡對數據進行共享訪問,性能和穩定性都難以得到保證
(五)本地存儲空間越來越緊張,尤其是音視頻檔案管理系統數據量很大,在前期項目設計中,由磁帶庫保存全集數據,而且設計磁帶庫主要功能為數據集中及備份,實際工作中無法利用歸檔模式,直接調閱磁帶庫數據,嚴重影響了數字化音視頻檔案利用效率
(六)檔案數據的增長以及檔案業務逐漸走向熱點,存儲系統的存儲量以及數據讀取性能都不可能在一次建設中完備,應考慮存儲架構未來的發展方向,統籌設計系統擴展性能
三、功能設計
根據需求分析以及存儲技術現狀,系統建設主要運用存儲虛擬化、多協議文件共享等技術滿足系統關鍵需求,這里主要就系統功能設計中的五個方面進行說明。
(一)統一存儲池
配置具有存儲虛擬化功能的高端存儲陣列建立統一存儲池,兼容各品牌、各型號、各存儲介質,實現存儲設備的開放式統一管理,將眾多獨立系統、分布在各種存儲介質中和各個來源的檔案數據融合在其中,實現面向所有數據的統一優化平臺,解決業務系統對存儲資源透明的統一存儲的要求,也為統一容災備份打下堅實的基礎。
(二)分級分類存儲
指按照數據生命周期的發展規則,將數據分成三級,一級是業務系統結構化數據庫數據、服務器虛擬化存儲、業務處理中的數據,這些數據需要存放在高性能、快速磁盤陣列中,保證本部分數據存儲的高性能、高可靠性和高可用性。二級存儲承接在線數據的近線備份和共享文件系統的遷移歸檔數據,部署轉速稍慢容量大的SAS NL磁盤。三級存儲承接長期遷移歸檔數據以及系統、數據庫等結構化數據的備份,部署更為廉價的磁帶介質。
(三)存儲動態邏輯分區
動態邏輯分區主要包括存儲邏輯分區、動態供給和動態分區等三個主要功能點。存儲邏輯分區針對不同的安全域在磁盤陣列上劃分不同的業務分類存儲邏輯分區,實現對所有服務和業務的數據資源分配。動態供給使得用戶可以將上述邏輯分區中沒有被真正使用的存儲空間分配給其他應用系統,動態伸縮邏輯分區的空間,而不改變分區的安全屬性。動態分區根據數據訪問頻率,自動化地遷移數據到最適合的磁盤類型;動態分層技術,高效地使用閃存或磁盤,以較低的成本提高性能,會將最經常訪問到的數據,遷移到更高速度的磁盤,也會自動地將很少訪問的數據遷移到低速的磁盤如SAS NL盤上,這樣可以提升存儲的整體效率。
(四)多協議文件共享
多臺服務器組成高性能集群進行數據處理,利用多協議文件共享,在原有IP網絡數據共享的基礎上,實現FC網絡的共享,不僅提供更高的性能滿足業務快速處理的需要,由FC網絡層實現非應用層的數據遷移,可提升檔案數據業務流轉中的安全性。
(五)橫向擴展
根據檔案業務前端應用的需求擴展,有較好的系統容量、性能擴展能力,以支撐海量檔案數據的保存和處理,并提供主機到存儲系統的I/O通道負載平衡和故障自動切換功能。
四、存儲體系架構
北京數字檔案館(電子文件中心)存儲系統建設包括專網存儲系統建設、政務外網和因特網存儲系統建設相關部分。
(一)專網云存儲系統
專網的統一存儲系統采用統一的SAN分級管理存儲池結構,利用高性能存儲通過存儲虛擬化技術掛接原有的存儲陣列,把大容量低速存儲陣列作為二級存儲,所有物理存儲設備在一個虛擬化存儲池統一調度和管理,然后再結合超大容量的磁帶庫設備作為三級存儲,在保證擴容和利舊的同時,實現整體存儲池的分級管理(見圖1)。
(二)政務外網和因特網存儲系統
政務外網在集中存儲基礎上,針對不同的數據類型添加相應的優化的數據處理節點,以實現數據統一后的面向各區檔案館、各檔案移交單位數據的統一平臺。為統一各區檔案館、委辦局檔案信息管理進行數據組織并獲得硬件級的技術支持。
因特網使用共享的SAN存儲網絡和存儲設備,只需要在存儲端根據因特網的業務應用劃分不同的分區給因特網生產服務器,整體仍然采用SAN存儲架構。
政務外網和互聯網存儲系統從架構層次上分為主機層、網絡層和存儲層,如圖2所示。
1.主機層。采用以太網連接方式,與內容云網關集群建立連接,結合各區縣檔案館部署的前置存儲收集器,形成內容云存儲網絡,為各服務器提供內容云存儲通道。
2.網絡層。采用全冗余鏈路通過FC交換機連接光纖磁盤陣列,實現數據雙鏈路,保證鏈路安全性。同時通過云架構設計的內容網關集群模塊,實現對內容云存儲的管理。
3.存儲層。由磁盤陣列提供存儲空間給內容云平臺的網關模塊,其上存儲所有應用系統的數據,并針對不同的安全域在磁盤陣列上劃分存儲分區,各安全域只能存取對應分區上的數據。存儲設備上的存儲分區與LAN業務網絡中的安全域一一對應,通過對其配置的高性能SAS磁盤和高容量SAS NL磁盤進行劃分,形成單獨的存儲空間,作為各區檔案館、檔案移交單位集中到數據中心的云存儲容器,并實現高可用、高性能的存儲訪問。
五、結語
隨著社會以及政務信息化的發展和進步,在大數據時代的今天,檔案數據,不管是結構化還是非結構化的數據都呈幾何級增長,檔案數字資源的數據存儲需求將不再只是簡單的安全存放、數據的共享訪問和實時共享交換、海量數據的快速訪問和檢索,同時還要能進行數據分析和挖掘、數據的內容管理等。檔案信息化工作者必須思考這些業務發展模式,在現有塊存儲、文件存儲模式的基礎上,就最適合檔案數據的對象存儲技術模式進行探索,為檔案信息資源的安全保管,整合共享奠定技術與設施基礎。同時,北京數字檔案館作為區域性數字檔案館,符合國家信息化建設集約化的發展趨勢,其功能擴展特別是全市檔案數字資源數據量的累積,決定其存儲體系必須滿足大數據處理,存儲體系應融入數據中心構建模式來統籌規劃設計。