中國移動通信集團黑龍江有限公司業務支撐中心 | 付載國、楊敬巍、孫長秋
存儲運維管理是運營商IT運維走向精細化管理過程中的重要里程碑,黑龍江移動通過對創新系統的研究和應用,滿足了企業業務對存儲資源的各方面需求。
近年來,運營商各個機構數據量每年都在成倍增長,隨之而來的是對數據存儲資源的大量需求。然而運營商對存儲環境的管理還處于起步階段,在存儲監控、存儲使用方面都缺少相應的方法管理,導致不能及時發現故障,以及存儲資源的利用率不高或過度使用,使企業在信息化存儲方面付出了高昂的成本。
因此,運營商需要建立一套基于存儲容量監控、預警、預測和管理的系統,幫助公司降低綜合的存儲運行成本,同時達到綠色節能環保的目的,提升公司效益和社會效益。黑龍江移動根據存儲系統所面臨的問題,以及未來云存儲時代存儲的運維和管理分析,提出相應的管理方案和系統方案。通過創新系統完善運營商存儲資源的管控過程,以及容量數據的收集、關聯、整合,實現容量資源的動態預警。
在企業信息化快速發展的今天,各大機構的IT存儲系統作為應用數據承載的核心載體,每年都在快速地增長,無法相對準確地了解存儲運行情況和預知存儲容量的變化情況幾乎成為每個IT組織最大的困擾。
黑龍江移動在存儲運維過程中,面臨多個問題,主要集中在四個方面。一是存儲設備健康狀態、性能狀態、容量狀態等都需要依靠人工統計分析,無法真正做到對存儲設備的實時監控和告警,針對存儲設備的運維處于被動方式,這種被動式運維導致有了問題不能得到及時發現和處理,同時消耗大量人力、物力資源。
二是存儲設備廠商多、種類多,環境復雜、設備間關系不明確。出了問題需要各個廠商一同查找問題,很難快速直接判定問題出在哪,對故障處理時間有直接影響,同時導致業務恢復時間的推遲,影響業務系統的正常運行,大大降低服務質量。
三是黑龍江移動需要一套基于存儲運維的管理系統,收集所有存儲設備相關的信息,以圖形化方式展現出來,幫助黑龍江移動做到對存儲系統知過去、曉現在、預未來。同時做到系統的自動化,盡量避免人工干預,降低人力、物力資源成本。
四是未來的IT運維管理發展趨勢必定是一體化、多廠商的運維管理模式,這套運維管理系統應該考慮到此因素,向綜合運維管理平臺靠攏。

圖 1 存儲管理模式
因此,黑龍江移動需要建設一個存儲運維管理系統,幫助IT管理者預知存儲容量的變化趨勢、性能趨勢、故障情況等,使黑龍江移動能夠有計劃的準備適當的存儲資源,以最高效的方式解決業務發展和存儲管理成本間的矛盾。
需求分析是決定系統能否符合公司需求的關鍵步驟。由于黑龍江移動對存儲的容量、性能、監控、配置管理當前還沒有一個統一的管理方法,對于解決問題所需的數據還沒有獲得積累的途徑,因此對于存儲運維管理信息的準確捕獲、積累和分析是需求分析的重點內容。
在之前的系統運維管理中,存儲運維管理都是花費較多時間人工進行管理。在傳統的存儲管理方式下,存儲設備一般會與應用一同立項采購、建設投產和運維管理。通常使用設備級管理工具分散管理,并且沒有專設的管理人員。
在分散式的存儲管理模式下,由于存儲設備由某一應用獨立占用,存儲與業務應用間的關系顯而易見,也不會與其他應用間產生存儲容量使用上的沖突,但這種模式對于存儲資源的高效利用非常不利,大量的存儲資源由于應用上線前的評估問題處于閑置浪費狀態,這不僅會給公司帶來采購成本上的壓力,額外的運維持續成本付出也是也是非常可觀的費用。
因此,當前公司正采用集中式的存儲管理模式應對分散管理的缺陷(圖1)。集中式的存儲管理模式基于SAN網絡環境架構,這使得應用與存儲設備之間的關系相對獨立,存儲系統本身形成了IT基礎設施的獨立核心子系統,后臺多個應用通過SAN網絡可以共享同一存儲設備上的存儲空間。這種方式大大緩解了分散模式下存儲資源利用的問題,但同時也帶來了新的三個問題。
一是應用與容量間的關系復雜化:由于存儲系統的獨立性,單從存儲設備的配置情況很難了解容量在應用間的分配情況,這就要求在日常運維過程中對存儲的分配有詳細的記錄和跟蹤。
二是應用容量的需求更容易超出設備的能力:由于存儲資源的集中供給,在應用的存儲容量分配過程中更易產生容量和性能的沖突。這就要求我們能實時的觀察存儲容量的變化,發現潛在的容量和性能問題,通過運維手段及時解決潛在的性能和容量問題。
三是對于存儲管理的需求日益突出,管理成本明顯提升:集中式的管理對存儲系統集中規劃提出了更高的要求,對存儲資源的統籌規劃要求運維人員隨時掌握存儲系統的變化情況,另一方面,隨著IT服務管理的不斷深化,存儲資源作為重要的IT服務資源,也需要被更精細化的管理起來。
因此對于黑龍江移動來講,存儲管理是要建立基本的存儲運維管理方法,在此管理方法的指導下,建設一套集存儲架構管理、自動采集、分析、監控、預警,以及容量變更管理的系統工具,有效的建立起容量管理的基礎平臺。
通過分析,黑龍江移動希望通過存儲容量管理系統的建設,達到以下管理目標:清晰的了解存儲系統當前的系統架構和配置情況;準確掌握存儲資源的分配和使用情況;用規范化的流程管理存儲配置和資源的變更情況;對存儲資源的利用情況進行實時的監控,在合理的范圍內進行容量預警;對業務存儲容量趨勢能夠進行一定程度的預測;所有數據的采集、解析、關聯、展現等盡量做到自動化,減少人工干預。
從對存儲運維管理的需求和困擾出發,分析實現和解決上述問題需要建立的基礎運維管理的方法模型,根據方法模型的指導,總結系統開發和建設的功能性需求。
存儲容量管理過程模型是由一系列復雜的管理子過程組成的,目的是從不同側面描繪存儲系統在運維的各個時期內的總體和細節情況,這些管理子過程將提供最終進行容量分析和預測的操作數據,并根據特定的數據挖掘方法進行統計、分析和預測。
容量數據管理包括對容量信息的識別、采集和導入活動。容量數據管理將對存儲系統中的容量分配和業務使用情況進行記錄,保證數據的及時、準確和完整性。這些信息一方面是面向存儲的容量管理信息,從存儲設備的角度觀察設備容量的分配和變化情況,這些信息可以包括:設備的裸容量、可用容量、已分配容量、空閑容量等信息。面向存儲的容量管理信息可以指導我們分析當前設備的容量消耗情況和剩余能力。
另一方面是面向應用的容量管理信息,從主機或應用的角度觀察當前分配容量和容量使用情況,這些信息可以包括:文件系統容量、文件系統使用率等信息。這些容量信息來自于最底層的應用存儲單元,需要結合配置管理的關聯信息整合成特定應用的容量信息。面向應用的容量管理信息可以指導我們分析當前應用的存儲容量占用和使用情況,容量管理的總體過程如圖2所示。
存儲容量管理的核心內容是控制存儲資源的分配,使不同設備上的資源使用合理化,因此對于存儲系統的物理配置和邏輯配置的變更,都需要在規范的過程指導下完成。日常運維的操作需通過嚴格的審批審核流程,保證資源的分配使用不會帶來業務性能和容量的沖突,同時保障生產系統的變更過程能夠在風險可控的范圍內平滑過渡,變更過程可追溯、可評估。變更管理過程將控制存儲系統的配置變化和容量分配變化情況,并將更新的信息第一時間輸入到配置管理數據庫和容量管理數據庫。
此外,在配置管理中將建立統一的配置管理數據庫來記錄各存儲配置元素的屬性、配置和關系,使存儲環境信息能夠準確、完整、直觀的表現出來。配置管理本身的任務是維系一個與實際環境一致的配置管理數據庫,因此需要相關的管理過程進行支持。這里我們采用ITIL推薦的配置管理方法進行管理。
在存儲性能管理方面,存儲設備的性能主要關注存儲IOPS、吞吐量、物理磁盤、前端口、后端口、LUN、容災接口等設備的性能,通常這些性能數據無論哪個廠家的存儲設備都可以通過它自己的性能管理工具采集到,我們需要對這些性能數據進行解析和展現。
在存儲監控告警管理方面,存儲設備的監控告警包括故障監控、性能監控及容量監控,故障告警監控來自于存儲設備,可以通過存儲管理軟件、SNMP、SMI-S等方式獲取,性能、容量監控都來自于存儲性能管理和容量管理功能模塊中的性能閥值管理和容量閥值管理中獲取報警信息,這些告警信息同時會與BOMC接口,及時送到BOMC系統中。

圖 2 存儲容量管理模型

圖3 存儲管理系統體系結構圖
在總體框架設計中,存儲運維管理系統的主要實現目標是維護存儲數據的準確性、完整性,系統架構的設計除應滿足這一目標外,還應使數據處理過程盡量自動化。架構設計需有利于數據操作和過程管理功能的完整實現,功能歸納、定義清晰,但盡量簡潔明了。
存儲運維管理系統的軟件架構設計采用三層結構,分別為:展現層、業務邏輯層、數據層。如圖3所示。
展現層構筑于企業運維門戶的基礎上,是系統中存儲運維信息的統一展現、查詢平臺。展現層將后臺復雜的技術數據進行分析和提煉,形成運維人員需要了解的信息,并以圖形化的方式展現給各級運維人員,這些內容包括:設備容量實時狀態、業務影響分析、監控告警實時信息等,使各級運維人員可以直觀的了解存儲系統當前的運行狀況。展現界面可以根據不同人員的管理需要進行客戶化定制。
展現層同時負責運維報告的管理和展現,用戶可以根據需要為自己定制相應的運維報告,展現層負責定期從數據庫中提取和分析相關信息,并定期推送給目標用戶。
作為運維管理人員訪問系統的惟一接口,展現層提供用戶管理和訪問權限控制的功能,對用戶劃分角色進行授權和鑒權。
業務邏輯層提供支持存儲容量管理全過程的流程、數據、管理及相關分析功能。這些功能將分散在不同的業務子系統中分別進行管理。為子系統間的通信和數據傳輸提供相關接口支持,同時也將提供與外部系統的數據接口,向外部系統提供所需的容量管理數據或獲取所需的相關信息。
業務邏輯層是容量數據進行集中存儲、管理的主要場所,對數據提供基礎的安全保障也是這個層面的重要工作之一。
數據采集層包含數據準備的基礎模塊,數據采集層負責將原始的配置和容量信息從存儲設備和其它存儲環境元素中提取出來,然后將文本型的采集數據正確的傳輸和儲存起來,最后將數據導入容量數據庫中。
腳本是數據采集的基礎工具,包括:采集腳本和導入腳本,通常這兩種腳本將配對使用,因此對于腳本的版本控制、部署和運行監控也是數據采集層的主要功能之一。
在系統的主頁包括存儲設備的性能管理、容量管理、監控告警管理、配置管理的總體展現,各功能模塊的詳細信息可以點擊具體功能模塊連接進行查看。
黑龍江移動進行實踐后發現,該系統通過流程化的資源管控,對資源的申請、評估、分配和審計進行了系統的和規范化的管理,使管理者可在容量資源使用的全生命周期內掌握資源的流向和狀況;通過對存儲環境資源的配置和容量信息的完整收集和關聯,使存儲環境和容量資源的細節信息能夠真實完整的展現給存儲運維管理人員,幫助黑龍江移動實時動態的了解當前存儲環境和容量資源發生的變化;在容量的預測預警管理中,系統通過學習容量資源的歷史消耗情況,幫助管理者準確的發現容量危機,從而從容面對潛在的容量不足問題,同時使存儲容量保持在一個合理的水平,降低企業在閑置容量上的運維成本。