魏冠華
摘 ?要:高校圖書館數據中心機房管理是高校圖書館信息化工作的重點之一,也是一項涉及范圍廣、管理任務重的工作。該文主要從選定管理模式、建立管理制度、做好日常運行維護等多個層面討論了高校數據中心機房的規范管理,同時還分析了機房管理方面的重點內容,并對未來數據中心機房的管理進行了展望。
關鍵詞:高校圖書館 ?數據中心 ?中心機房管理
中圖分類號:TP308 ? 文獻標識碼:A 文章編號:1672-3791(2020)06(c)-0199-02
在信息時代,數據中心機房是高校圖書館信息化建設的核心之一,是服務器、存儲、核心網絡設備等重要設備的承載地。數據中心機房的管理與它的建設相比更為重要[1]。因此,圖書館的管理者應重視此項工作,一方面要參照國家住建部2018年發布的《數據中心基礎設施運行維護標準》(GB/T 51314—2018)以及行業發布的其他相關標準,如《數據中心運行維護管理規范》《數據中心場地基礎設施運維管理標準》《數據中心運維管理技術白皮書》等,踐行相關標準細則,另一方面要注重從選定管理模式、建立管理制度、做好日常運維等多個層面對機房進行規范管理。
1 ?確定管理模式
數據中心機房的管理工作范圍廣、任務重,因此圖書館應在機房建設前就考慮選定合適的管理模式。高校圖書館往往缺乏足夠的專業技術人員專門維護機房設施,所以不同的院校應根據自身條件采取不同的管理模式。
當前,普遍存在3種管理模式:第一,自主管理模式。采用此種模式的圖書館需要具備較為充足的技術人員,能擔負起大部分的設施設備日常維護,其優點是花費較少、管理者責任意識較強,缺點是需要消耗大量的人力和精力且對技術水平要求較高。第二,外包管理模式。采用此種模式的圖書館把機房的日常管理和維護全部外包給服務商,其優點是節省本館的人力資源、外包服務人員專業技術較強,缺點是花費較高。第三,混合管理模式。采用此種模式的圖書館把部分專業性較強、難度較大的管理維護業務外包給服務商,其余業務由自己來做,其優點是既保證了管理維護的專業需求,又能兼顧節省人力和財力。因此如果條件允許,采用第三種管理模式將更有利于高校圖書館的運行和發展。
2 ?建立管理制度
自中心機房進入試運行階段開始,機房管理人員就要著手接管機房,除學習并熟悉各設備設施的使用操作以外,還要探索建立科學完備的機房管理制度。
在中心機房管理制度的制定中,除了參照國家和行業相關標準外,更重要的是要從該館的實際入手,不斷修正、逐步完善,直至形成相對穩定的制度。一般而言,中心機房的管理制度主要包含以下6個部分:一是IT類設備管理制度。此類設備管理制度是所有管理制度中的重點,在制訂該制度時,要根據各設備的功能特點,從性能管理、配置管理、故障管理、安全管理、質量管理等多角度、全方位考慮。二是環境設施管理制度。環境設施是保證機房基本運轉的重要保證,其管理制度應特別注重故障管理部分,尤其對故障報警的處理方面要做到及時、有效。三是電氣管理制度。中心機房內各類用電設施繁多、強弱電線路復雜,尤其是強電用電的安全管理一定要特別注意。四是消防設施管理制度。消防設施的管理重在日常的巡查。因此其制度的制訂應一方面考慮結合設備特點檢查其狀態和有效性,另一方面考慮根據可能發生的問題后果做出合理的處理措施。五是門禁管理制度。門禁涉及設備安全、數據安全和人員安全,其制度的制訂需要從各類人員特別是外來人員的出入授權、出入記錄、出入監控、入侵報警等多個方面考慮,同時還要特別考慮在出現特殊狀態下的人員安全疏散問題。六是人員管理制度。中心機房設備設施復雜,需要由內外各類人員參與管理維護。因此,在人員管理的制定上需要考慮內部工作人員的職責、考勤、培訓、獎懲等多個方面,還要考慮外來運維人員的相關管理等。
總之,無論采用哪種管理模式,管理人員都要把管理制度落實到工作中去。對于制度的落實,圖書館的主管負責人應該做好督促,發現問題及時問責并糾正。
3 主要管理工作
3.1 巡檢
機房內部的多數設備都需要24h運轉,如服務器、存儲、交換機、UPS等。這些設備雖然不易損壞,但出現性能下降、器件老化、設備故障等問題在所難免。為此,管理維護人員必須按照管理制度做好各類設備的日常巡檢。近年來,隨著設備自動化、智能化程度的提高,越來越多的設備實現了故障自動報警,為管理者減輕了不少負擔,例如環境監測、消防、安全防范等系統。一些數據中心機房,已經引入了具備智能監控、智能監測配置變更、智能提示等功能的智能運維管理平臺,大幅度提高了管理效率[2]。
3.2 維護
除了做好巡檢工作外,對設備設施的維護也是機房管理的主要工作內容之一。按維護的時間周期劃分,維護可分為不定期維護和定期維護。
不定期維護一般包括反應性維護和前攝性維護,這些維護往往是因為在日常巡檢中發現問題而做出的。例如,在巡檢中,發現磁盤出現物理故障及時更換、發現新系統補丁及時更新等事先無法預見的問題,就屬于反應性維護。而通過優化設備配置、改善設備狀態進而提升設備性能等維護工作,則屬于前攝性維護,如修改配置以提升虛擬機計算能力或為減輕主機負擔而遷移虛擬機等。
定期維護一般都是按照預先計劃做的維護,因此它們多數都屬于預防性維護,如空調濾網按期更換、操作系統定期查毒、消防設施的定期檢查等。這些維護是為避免故障發生而做的,同樣不可忽視。
4 ?管理重點
4.1 服務器管理
服務器是圖書館提供各項信息服務的計算核心,具備高速的運算能力和I/O數據處理能力,主要有塔式服務器、機架式服務器、刀片服務器等類型[3]。對于服務器的管理主要包括故障處理和性能管理兩個方面。
4.1.1 故障處理
從實踐經驗看,由于服務器的可靠性較強,其出現故障的概率并不高。當服務器出現故障時,往往是因為外部環境較差或者設備老化引起的。因此,管理者要在解決故障的同時,明確引起故障的原因,進而避免以后發生類似問題。例如,當外界環境溫度過高時,可能會引起服務器散熱差,造成磁盤故障。因此,在更換磁盤的同時,還要降低環境溫度,從而解決根本問題。除磁盤故障外,服務器的內存、主板、電源等也是易損部件,同樣需要管理者在巡檢中發現、分析問題并予以解決。一般而言,管理者可以通過兩個方面了解服務器部件是否有故障,一是服務器的外部指示燈,管理員可以通過實地觀察指示燈狀態初步判定故障情況;二是服務器管理功能,很多服務器都具有專用的管理功能,如HP服務器中的iLO(Intergrated Light-Out)。管理者可以通過此類管理功能遠程查看和管理服務器的主要硬件。在發現故障后,管理者需要盡快解決故障以保證業務不受影響。
4.1.2 性能管理
服務器的性能好壞決定著業務是否順利開展。當服務器出現性能下降時,管理者需要及時判斷原因并采取應對措施。對于物理服務器而言,服務器性能下降主要包括CPU、內存或者I/O等負載過大,以及設備老化造成的總體性能下降等多個方面。對于負載過大引起的性能問題,需要仔細排查具體原因,例如,服務器受到網絡攻擊、業務量突增、軟件故障等。在解決此類問題時,需要根據它的主要原因對癥解決,如堵系統漏洞、擴充硬件、軟件修復等。對于設備老化造成的性能問題,只能采取更換設備的方式解決。對于虛擬服務器而言,它的性能問題的解決相對要簡單得多。例如,當它因業務突增而負載過大時,可以很方便地通過虛擬化管理軟件增加其CPU數量、內存容量以及磁盤容量等硬件配置,從而保證業務順利實施。
4.2 存儲管理
近年來,雖然在高校圖書館購買的數字資源中,鏡像資源有減少趨勢,但自建特色資源、需要長期保存的鏡像資源(尤其是多媒體資源)、業務數據仍然占用不少存儲空間。因此,磁盤陣列、磁帶庫等存儲設備仍然是高校圖書館數據中心的常用設備。存儲設備的管理重點是它的數據安全性。因此圍繞這一重點,管理者需要做好以下幾點:一是做好硬件維護。主要包括故障磁盤的及時更換,磁帶驅動器及時清洗等,以保證數據不丟失、業務不中斷。為此,管理者應及時通過預警提示或查看日志發現故障信息,并嚴格根據規定予以解決。二是做好日常巡檢。主要包括設備基本狀態巡檢、日志查看、任務管理等,如根據業務情況及時調整磁盤空間大小。三是做好數據備份。一方面,應充分利用磁帶庫大容量、低成本等存儲優勢,采用合適的備份策略及時備份重要信息;另一方面,有條件的圖書館可以采取異地容災備份,保證極端情況下的數據安全。
4.3 環境設施管理
由于服務器、存儲、交換機等業務設備高度依賴穩定的外部環境,因此,根據實踐經驗,環境設施的管理也是重點管理內容之一[4]。環境設施主要包括精密空調、溫濕度傳感器等。管理者可借助環境監控系統定期查看各個節點的環境狀況,如溫度、濕度、空氣質量是否達標等。當系統因設定參數超過閾值或出現故障而報警后,管理者需要及時處理。同時,還需定期實地查看主要設施的運轉狀況。環境設施的正常運轉離不開定期維護,主要包括空調濾網的更換、空調室外機的散熱器的清洗等。如果不及時做維護,輕則影響環境質量、加重設備運轉負荷,重則造成設備故障、影響業務正常開展。因此,管理者應根據制度做好定期維護。
5 ?結語
高校圖書館數據中心機房的規范管理需要從選定管理模式、建立管理制度、做好日常運維等多個方面入手。在管理過程中,建立完善的管理制度是數據中心機房規范化管理的前提,而合適的管理模式則是數據中心機房管理專業化的保障。在此基礎上,管理者需要做好巡檢和維護工作,并重點做好服務器管理、存儲管理等。除此之外,隨著技術的不斷革新,數據中心機房的管理也正隨之演進。例如,在近年的市場上,一體化機房、智能機房[6]等新機房模式已得到一定范圍的應用??梢灶A見,這些新變化必將為未來高校圖書館數據中心機房的管理工作提供新的思路和機遇。
參考文獻
[1] 李本強,劉紅.《數據中心基礎設施運行維護標準》(GB/T 51314—2018)解讀[J].建筑技藝,2019(10):14-17.
[2] 程少良.數據中心智能運維管理平臺的建設研究[J].計算機產品與流通,2019(10):127.
[3] 宋帥.數據中心IT硬件設施的一體化設計與實現[D].上海交通大學,2014.
[4] 王群.高校圖書館核心機房環境設備及環境監測分析[J].內蒙古科技與經濟,2017(11):96-98.
[5] 劉偉.淺談一體化機房系統[J].中國交通信息化,2018(1):133-135.
[6] 李莉.節能環保型智能機房研究與設計[J].山東工業技術,2019(7):115-116.