王俊 郝姜菲 周紅亮


摘? 要:為解決機房基礎設施傳統管理體系當中存在的效率低下的問題,構建基礎設施運維管理體系。采集機房基礎設施的相關信息,并進行分類存儲建立設備的信息檔案,分別從設備巡檢和遠程IT設備監控兩個方面,制定設備運維的管理制度,完成機房基礎設施運維管理體系構建。在故障點數量相同的情況下,構建的運維管理體系所消耗的管理時間同人工管理和傳統管理體系所消耗的管理時間相比有明顯縮短,因此,運維管理體系的效率更高。
關鍵詞:基礎設施;運維管理;體系構建
中圖分類號:TP308? ? ? ? ?文獻標志碼:A 文章編號:2095-2945(2019)14-0195-02
Abstract: In order to solve the problem of low efficiency in the traditional management system of computer room infrastructure, the operation and maintenance management system of infrastructure is constructed. We collect the relevant information of the computer room infrastructure and carry on the classification storage to establish the equipment information file. From the equipment inspection and the remote IT equipment monitoring, we formulate the equipment operation and maintenance management system, and complete the construction of the operation and maintenance management system of the computer room infrastructure. In the case of the same number of fault points, the management time consumed by the constructed operation and maintenance management system is significantly shorter than that consumed by manual management and traditional management system. Therefore, high efficiency of the operation and maintenance management system is obtained.
Keywords: infrastructure; operation and maintenance management; system construction
引言
信息化技術的飛速發展,為了擴展數據中心的計算、存儲、網絡甚至安全應用等服務,維持信息之間的交互穩定運行,需要機房基礎設施作為支撐,為數據中心提供良好的工作環境[1]。數據中心機房當中的基礎設施由主機房、基本工作間和三類輔助房間組成。主機房是信息化網絡設備以及綜合布線的核心區域,同時也是整個系統數據匯總中心[2]。為了能夠高效的對機房當中繁雜設備的運維管理需要構建完備的管理體系,保證機房基礎設施的使用安全。
1 構建基礎設施運維管理體系
1.1 設備信息歸檔
將機房當中的所有基礎設施進行統計,首先需要將不同類型和不同用途設備的信息進行采集,采集過程需要借助硬件設施提供基礎支持,分別構建內網區網絡和外網區網絡,接入交換機,實現多層信息交換的功能[3]。利用監控設備記錄下進入機房的人員,當需要調用機房當中的基礎設施時,需要向系統發送使用請求,系統查詢機房基礎設施數據庫查看設施的運行狀態,若查詢結果是非故障且未被使用的狀態,系統向用戶端反饋允許調用的信息,并將調用用戶的IP定位以及相關信息進行登記并記錄。機房內基礎設施信息采集完成之后,建立機房基礎設施的數據檔案,其中包括硬件設備的型號、數量、種類、保質期、故障維修記錄以及使用記錄等。將所有的基礎設施相關信息進行編號,在數據庫檔案當中分類存儲。在日程的設備使用過程當中也需要及時對檔案信息進行更新處理,保證設備信息的實時性。
1.2 制定設備運維管理制度
設施運行管理制度當中需要實現設備巡檢運維管理制度以及遠程IT設備監控管理制度,主要對機房環境進行實時監控,獲得運維管理的實時數據情況,為機房當中的基礎設施提供良好的運作環境。其中設備的運維管理制度又具體分為兩個部分:
(1)設備巡檢制度。設備巡檢制度當中包括人工巡檢、硬件故障巡檢以及機房環境巡檢。按照機房基礎設備巡檢的功能要求,構建巡檢的基本邏輯架構如圖1所示。
按照圖中的邏輯將巡檢量化。規定每一次的巡檢時間和巡檢周期,借助各個硬件設備采集到的環境參數信息,具體任務就是巡檢機房服務器及磁盤陣列設備的運行情況是否異常;觀察機房中的照明情況有無異常狀態;觀察電源燈有無異常狀態;觀察專用空調等設備有無報警蜂鳴;查看機房溫濕度監測軟件溫濕度記錄,將機房溫濕度報警服務器與短信服務器相連。將巡檢情況匯總成為一套巡檢工作報告,上傳到數據庫當中,將巡檢數據與數據庫當中的正常活動范圍作比對,分析基礎硬件設施是否存在故障隱患。在此基礎上建立巡檢記錄表,除了規定巡檢時間之外,對人工巡檢情況進行記錄,其中包括人工巡檢人員、人工巡檢時間等信息。綜合服務器巡檢結果以及人工巡檢結果,最終生成巡檢報告,由此實現巡檢前數據下載和巡檢后記錄上傳,使手持終端與巡檢數據庫服務器的數據同步一致。
(2)遠程IT設備監控管理制度。網絡遠程IT設備監控管理制度是對機房內各類設備以及網絡管理、維護的重要技術手段,標準化、流程化的遠程設備監控,其最終目的是保證基礎架構上的管理功能持續可用且穩步運行。網絡遠程IT設施監控與維護模塊主要通過以下幾個步驟來實現其功能。首先利用光纖電纜以及通信設備將機房當中所有的照明設備和照明電路連接到管理系統控制中心當中,由此控制中心可以調節機房的照明程度,可以按照控制監控要求對機房當中的基礎設備進行全面管理。在機房區域當中安裝視頻監控設備,監控范圍覆蓋整個機房,確保監控影響當中可以監控觀察到每一個機房基礎設備的運行狀態,監控管理機制如圖2所示。
從圖中可以看出監控設備監控容易出現漏水、漏電等問題區域,確保當出現安全隱患時可以第一時間接收到消息,并及時進行解決。對采集到的視頻畫面數據進行分析,觀察機房基礎設備當中是否有明顯的數量上的差別,以及是否出現明顯的設備變形情況,進行自動告警和形成維護任務信息。依照近階段監控情況,自動生成應急預案,如此可以提高該管理系統對突發事件的處理能力,更加高效的保障機房當中基礎設備的安全,最大程度當的防止和減少突發事件可以發生的故障。
2 實驗分析
構建出的機房基礎設施運維管理體系可以解決人為管理以及傳統管理體系當中存在的管理效率低的問題,效率低下具體的表現形式是管理時間長,為了驗證該體系的運維管理效果選用人工運維管理和傳統管理體系作為對比組針對運維管理時間進行測試。
2.1 實驗準備
構建好的機房基礎設施運維管理體系采用VDI模式的KVM虛擬化技術,發布的虛擬機與物理服務器系統類型無關。在此次測試實驗當中選用64位Windows系統,同時將傳統的管理體系按照相同的版本與連接方式連接到控制中心當中,而人工管理組安排日常的運維管理人員進行管理與視察。此測試實驗為了遵循變量唯一的原理,管理的機房以及機房當中的基礎設施的數量、種類以及型號都完全相同,利用虛擬化平臺創建相同個數的設施故障,此次實驗當中故障點個數設置為6個,以方便觀察測試結果。
2.2 實驗過程
首先將所需要的硬件部分設置在機房當中,按照體系構建的設計要求連接好線路,啟動遠程控制設備。管理員使用用戶名和密碼登陸到管理體系當中進行身份認證和授權管理,當獲得管理權限之后便可以進行進一步的測試。同時啟動三組實驗對象的巡檢功能,分別記錄下完成運維檢驗的管理時間,需要注意的是管理的終止時間以巡檢到全部的故障點為準。
2.3 實驗結果及分析
通過對管理時間的統計可以得出時間消耗數據,即得出本測試實驗的實驗結果,如表1所示。
從表中的時間統計數據可以看出,人工管理找尋每一個故障點的平均時間為26.1秒,傳統管理體系的平均時間為22秒,而構建完成的運維管理體系的平均時間僅為15秒。由此可以推理出三種管理體系的管理效率,在任務數量與難度相同的情況下,消耗時間最短的運維管理體系效率最高,達到了體系構建的最終目的。
3 結束語
通過對機房基礎設施運維管理體系的構建,可以更加全面、高效的管理機房當中的設備,掌握每一個設備的運行情況,為其提供更加適宜的工作環境,最終可以達到提高設備自身可用壽命的效果。
參考文獻:
[1]沈蕾,王芳,吳麗華.NFV硬件資源池規劃建設重點[J].電信科學,2018,34(6):113-120.
[2]賴作財,吳華娟.基于云計算的智慧機房建設與運維管理研究[J].電子世界,2018(2):194-195.
[3]徐為,徐永峰,周彩.數字航道機房運維管理體系的建設[J].中國水運(下半月),2017,17(8):60-62.