李銳



[摘 ? ?要]隨著云計算、移動互聯(lián)網(wǎng)、大數(shù)據(jù)等新業(yè)務(wù)模式和新技術(shù)的不斷發(fā)展,以智慧城市、虛擬現(xiàn)實(shí)、人工智能等為代表的產(chǎn)業(yè)應(yīng)用正在全面實(shí)施和加速演進(jìn),數(shù)據(jù)中心已成為國家戰(zhàn)略性的信息基礎(chǔ)設(shè)施。數(shù)據(jù)中心的安全性、可靠性和穩(wěn)定性支撐作用會更加凸顯。文章在了解傳統(tǒng)數(shù)據(jù)中心配套設(shè)施運(yùn)維基礎(chǔ)上,深入研究大數(shù)據(jù)時代數(shù)據(jù)中心設(shè)施運(yùn)維管理工作的具體措施,提出通過主動、積極地精細(xì)化運(yùn)維管理來不斷提高數(shù)據(jù)中心各系統(tǒng)的可用性,從而滿足用戶需求。
[關(guān)鍵詞]數(shù)據(jù)中心;基礎(chǔ)設(shè)施;運(yùn)維管理
[中圖分類號]TP308 [文獻(xiàn)標(biāo)志碼]A [文章編號]2095–6487(2022)03–0–03
Research on the operation and Maintenance Management of Data Center Infrastructure
Li Rui
[Abstract]With the continuous development of new business models and new technologies such as cloud computing, mobile Internet, and big data, industrial applications represented by smart cities, virtual reality, artificial intelligence, etc. are being fully implemented and accelerated. Data centers have become national Strategic, fundamental information infrastructure. The security, reliability and stability of the data center will be more prominent. On the basis of understanding the operation and maintenance of the supporting facilities of traditional data centers, we deeply study the specific measures for the operation and maintenance of data center facilities in the era of big data, and propose to continuously improve the availability of various systems in the data center through active and active refined operation and maintenance management. meet user needs.
[Keywords]data center; infrastructure; operation and maintenance management
1 概述
互聯(lián)網(wǎng)從最初Web1.0、2.0應(yīng)用,逐漸演進(jìn)到云計算、大數(shù)據(jù)時代,進(jìn)而全面邁向“互聯(lián)網(wǎng)+”的萬物互聯(lián)時代,數(shù)據(jù)中心作為互聯(lián)網(wǎng)的關(guān)鍵基礎(chǔ)設(shè)施和物理承載體,逐漸從成本中心演變?yōu)榉?wù)中心,從支撐業(yè)務(wù)到驅(qū)動業(yè)務(wù)發(fā)展,并成為業(yè)務(wù)創(chuàng)新的加速器[1]。
隨著“互聯(lián)網(wǎng)+”滲透到各行各業(yè),數(shù)據(jù)中心的規(guī)模日益龐大,系統(tǒng)日漸復(fù)雜,數(shù)據(jù)中心安全運(yùn)行也面臨諸多挑戰(zhàn):
(1)系統(tǒng)設(shè)施大幅增加,標(biāo)準(zhǔn)化程度不高,管理難度大。隨著數(shù)據(jù)中心不斷發(fā)展、業(yè)務(wù)系統(tǒng)不斷擴(kuò)容,數(shù)據(jù)中心供配電系統(tǒng)、制冷系統(tǒng)、消防系統(tǒng)、安防系統(tǒng)以及VESDA(極早期煙霧報警系統(tǒng))等設(shè)備同樣迅速增加,基礎(chǔ)設(shè)施運(yùn)維任務(wù)日益繁重,維護(hù)質(zhì)量難以保證。
(2)運(yùn)維管理難度大,運(yùn)維工作碎片化,行業(yè)運(yùn)維人才短缺,運(yùn)維管理規(guī)范化、一體化程度不足。
2 關(guān)鍵設(shè)施運(yùn)行維護(hù)
數(shù)據(jù)中心設(shè)施系統(tǒng)架構(gòu)包含關(guān)鍵基礎(chǔ)設(shè)施、人員構(gòu)成、操作規(guī)程以及運(yùn)維操作管理平臺(DCOM),如圖1所示。
圖1中可以看出,數(shù)據(jù)中心關(guān)鍵設(shè)施包括IT模塊、強(qiáng)電模塊、弱點(diǎn)模塊以及暖通模塊,這些關(guān)鍵設(shè)施的運(yùn)行維護(hù)要求對日常工作的細(xì)節(jié)進(jìn)行嚴(yán)格把控,尤其是對它們的操作及其維護(hù)要點(diǎn)應(yīng)有較為深入的了解,有計劃、有重點(diǎn)地針對關(guān)鍵設(shè)施開展行之有效的維護(hù)工作并使之常態(tài)化,是運(yùn)維人員及時發(fā)現(xiàn)故障隱患和提升維護(hù)質(zhì)量的有力手段。
2.1 高低壓配電
高低壓配電系統(tǒng)為數(shù)據(jù)中心所有設(shè)備提供電力支持,合理的供配電系統(tǒng)設(shè)計和安全穩(wěn)定輸出是數(shù)據(jù)中心連續(xù)、高效運(yùn)行的可靠保證。供配電系統(tǒng)具有結(jié)構(gòu)設(shè)計復(fù)雜、自動化程度高、運(yùn)行方式靈活、設(shè)備質(zhì)量和性能要求高等特點(diǎn)。
數(shù)據(jù)中心的高低壓供電系統(tǒng)由高壓和低壓配電線路、變電站(或配電站)及用電設(shè)備組成。一般由10 kV高壓配電柜、變壓器、低壓主配電柜、終端配電箱、應(yīng)急發(fā)電機(jī)、UPS等主要設(shè)備構(gòu)成。
高低壓配電系統(tǒng)維護(hù)的技術(shù)性強(qiáng),內(nèi)容專業(yè)且具體,執(zhí)行過程中通常需要設(shè)備原廠專業(yè)工具和儀器,其維護(hù)一般分為自主維護(hù)和購買專業(yè)廠家維保,作為使用方更多關(guān)注維護(hù)工作計劃和管理以及在廠家維護(hù)過程中進(jìn)行現(xiàn)場監(jiān)督和提供支持,確保設(shè)備日常巡檢項(xiàng)目以及預(yù)防性檢測項(xiàng)目保質(zhì)保量完成。
(1)高壓配電柜檢測維護(hù)周期。以施耐德10 kV配電柜PIX產(chǎn)品為例,在實(shí)際運(yùn)行過程中,檢測維護(hù)周期,如表1所示。
(2)變壓器檢測維護(hù)周期。干式變壓器與油浸式變壓器相比具有安裝輕便、結(jié)構(gòu)簡單、防火性能好的特點(diǎn),在數(shù)據(jù)中心被廣泛使用,檢測維護(hù)周期,如表2所示。
(3)低壓配電柜檢測維護(hù)周期。以奧利圖iPD智能精密配電柜為例,在實(shí)際運(yùn)行過程中,檢測維護(hù)周期,如表3所示:
2.2 UPS
UPS的作用主要有不間斷切換、隔離作用、電壓變換作用、頻率變換作用和提供一定的后備時間。其中不間斷切換和提供后備時間是保證對負(fù)載供電的連續(xù)性;其他三項(xiàng)是保證對負(fù)載供電的質(zhì)量。通常情況下,UPS設(shè)備開機(jī)時會檢查設(shè)備運(yùn)行環(huán)境,設(shè)備房間的溫度、濕度等設(shè)定應(yīng)符合要求,一般溫度不宜超過25℃。
UPS系統(tǒng)的日常維護(hù)內(nèi)容包括UPS設(shè)備巡檢、UPS的輸入/輸出配電柜巡檢、蓄電池巡檢等,巡檢頻次為2~3次/d,UPS系統(tǒng)的定期維護(hù)主要包括功能性檢查(含電池放電測試)、故障模擬測試等,一般檢查頻次為1次/季度。
2.3 蓄電池組
閥控式密封鉛酸蓄電池(VRLA)在UPS電源中廣泛的應(yīng)用,數(shù)據(jù)中心機(jī)房對蓄電池的要求可以歸納為安全性、可靠性(高功率)、長壽命、經(jīng)濟(jì)性。但由蓄電池故障而引起供電系統(tǒng)故障的比例約為30%至50%。因此,加強(qiáng)蓄電池的正確使用和維護(hù),對提升系統(tǒng)可用率、降低UPS電源系統(tǒng)故障率、延長設(shè)施使用壽命都有著重要的意義。
進(jìn)行蓄電池組例行化維護(hù)時,應(yīng)重點(diǎn)檢查電池外觀與結(jié)構(gòu)不可出現(xiàn)裂紋、變形、漏液等現(xiàn)象,檢查連接條緊固程度、氣密性、電壓/內(nèi)阻(1次/每季度)、環(huán)境、電流校準(zhǔn)(對比UPS顯示值)。同時做好每季度激活性充放電以及每年核對性放電。另外,針對蓄電池出現(xiàn)漏液或者內(nèi)阻過大(>3 mΩ)的情況,考慮12 V 200 AH VRLA使用壽命約5~8a(不同品牌、不同使用單位的規(guī)定略有差異),應(yīng)當(dāng)盡快更換蓄電池單體或蓄電池組以確保安全穩(wěn)定運(yùn)行。
2.4 制冷系統(tǒng)
通常情況下,數(shù)據(jù)中心制冷系統(tǒng)可分為水冷型和風(fēng)冷型。風(fēng)冷型適用于小型數(shù)據(jù)中心,具有獨(dú)立的制冷回路,成本較低,維護(hù)量較小。水冷型則適用于大型數(shù)據(jù)中心,采用自然冷卻手段,規(guī)模節(jié)能效應(yīng)顯著,但系統(tǒng)組成復(fù)雜,維護(hù)量較大。
2.4.1 風(fēng)冷精密空調(diào)維護(hù)
風(fēng)冷精密空調(diào)維護(hù)工作主要針對室內(nèi)機(jī),室內(nèi)機(jī)主要由壓縮機(jī)、風(fēng)機(jī)、蒸發(fā)器、過濾器、加濕器、加熱器、排水系統(tǒng)、控制器等構(gòu)成。在實(shí)際運(yùn)行過程中,壓縮機(jī)、加濕器出現(xiàn)故障的比例較高。
壓縮機(jī)是維持制冷系統(tǒng)高低壓力的核心,其正常工作時,高低壓的壓力值會在一個正常范圍內(nèi),以艾特網(wǎng)能Cool Master系列CM100DA精密空調(diào)使用R410A制冷劑為例,壓力值正常范圍設(shè)定,如表4所示。
以佳力圖MEAD802精密空調(diào)使用R22制冷劑為例,壓力值正常范圍設(shè)定,如表5所示。
當(dāng)壓力值超出正常范圍時,應(yīng)判斷壓縮機(jī)或制冷系統(tǒng)存在故障。若壓力偏低,檢查是否系統(tǒng)中制冷劑不足,或存在泄露;當(dāng)壓力偏高,檢查冷凝系統(tǒng)(室外機(jī))是否工作正常,或系統(tǒng)是否存在堵塞問題等。
精密空調(diào)加濕器分為電極加濕器和紅外加濕器,電極加濕器結(jié)構(gòu)原理相對簡單,成本較低,但對水質(zhì)要求較高,維護(hù)工作量較大。應(yīng)定期清潔加濕,避免大量水垢積淀在加濕灌中,同時在日常加濕過程中,注意檢查加濕電流及排水管排水是否正常。
2.4.2 冷凍水型空調(diào)系統(tǒng)維護(hù)
冷凍水型空調(diào)系統(tǒng)主要由制冷主機(jī)、冷卻塔、冷卻水泵、冷凍水泵、分集水器、末端機(jī)房空調(diào)和膨脹水箱等組成。在實(shí)際運(yùn)行中,應(yīng)當(dāng)嚴(yán)格遵守維護(hù)規(guī)程,按照操作手冊對系統(tǒng)各組成部分進(jìn)行定期巡檢。
除此之外,冷凍水型空調(diào)系統(tǒng)還應(yīng)注意如下事項(xiàng):
(1)預(yù)防市電中斷。宜采用雙路市電保證水泵不間斷運(yùn)行和自啟動,對于T4標(biāo)準(zhǔn)的數(shù)據(jù)中心冷凍水循環(huán)水泵和末端可采用UPS或EPS電源。
(2)水源儲備。應(yīng)當(dāng)儲備一定數(shù)量的水源用作冷卻塔熱量排放蒸發(fā)以及排污,一般可儲備8~12 h且雙路補(bǔ)水水源。
(3)管網(wǎng)和設(shè)備的備份冗余。對于大型數(shù)據(jù)中心,管網(wǎng)應(yīng)當(dāng)為環(huán)形管路或雙支路[4]。管路和閥門的配置可滿足系統(tǒng)不停機(jī)維護(hù)的要求,制冷主機(jī)、冷卻塔、水泵和末端可采用N+1備份。
3 DCIM運(yùn)維管理可視化
數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)是一套可以收集、監(jiān)控、管理、控制基礎(chǔ)設(shè)施的工具。DCIM向管理人員提供諸多信息,包括環(huán)境監(jiān)測、電力系統(tǒng)、制冷系統(tǒng)、報表管理、數(shù)據(jù)分析等,輔助管理人員根據(jù)需求做出適當(dāng)?shù)木S護(hù)計劃[2]。對于DCIM的維護(hù)工作可從以下兩個方面開展。
3.1 IP化采集設(shè)備
IP化采集設(shè)備目前有兩種,一種是透傳模式,另一種是前端智能主機(jī)模式。以前端智能主機(jī)模式為例,在實(shí)際巡檢維護(hù)中,應(yīng)當(dāng)模擬以下場景:
(1)后臺管理系統(tǒng)與前端智能主機(jī)設(shè)備出現(xiàn)通信異常,通過網(wǎng)頁是否可以登錄IP化采集設(shè)備,查看相關(guān)動力、環(huán)境設(shè)施的參數(shù)信息,對該設(shè)施進(jìn)行模擬狀態(tài)變化,查看在IP化采集設(shè)備上是否有相應(yīng)的事件記錄;判斷通過網(wǎng)頁設(shè)定的UPS、空調(diào)等控制功能是否生效。
(2)對被監(jiān)控設(shè)施進(jìn)行相關(guān)的操作,模擬故障告警等相關(guān)狀態(tài),查看DCIM管理端是否能夠收到狀態(tài)變化信息、是否能夠在指定時間內(nèi)頻繁告警。
3.2 管理服務(wù)器
DCIM管理服務(wù)器包含硬件和軟件兩個層面。①硬件層面維護(hù)通常包括除塵以及硬件配置升級,保證服務(wù)器處理性能的同時兼顧穩(wěn)定性;②軟件層面維護(hù)應(yīng)當(dāng)包括數(shù)據(jù)維護(hù)、應(yīng)用軟件升級等。
4 運(yùn)維管理規(guī)范化
做好數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維管理離不開完整的規(guī)章制度和嚴(yán)格的維護(hù)操作規(guī)程。
4.1 加強(qiáng)制度體系建設(shè)
加強(qiáng)數(shù)據(jù)中心運(yùn)維體系制度建設(shè),明確運(yùn)維體系組織結(jié)構(gòu),落實(shí)管理人員主體責(zé)任,維護(hù)人員定崗定責(zé)[3]。
4.2 建立健全操作規(guī)程
結(jié)合實(shí)際,針對數(shù)據(jù)中心具體設(shè)施制定相應(yīng)的維護(hù)操作規(guī)程并嚴(yán)格執(zhí)行,做到有章可循、有法可依。加強(qiáng)考核管理,最大程度降低人為因素造成的故障。
4.3 制定設(shè)施維護(hù)計劃
按照配電、制冷、監(jiān)控、消防和物理安全五大系統(tǒng)分類制定維護(hù)計劃表,做到有日常巡檢、周巡檢、月度維保、季度維保、半年維保和年度維保,巡檢和維保內(nèi)容對應(yīng)五大系統(tǒng)各類設(shè)施,特別是關(guān)鍵設(shè)施如:冷水機(jī)組、高低壓配電柜、變壓器、發(fā)電機(jī)、UPS、PDU、精密空調(diào)等,同時做好關(guān)鍵基礎(chǔ)設(shè)施的應(yīng)急演練;消防、監(jiān)控系統(tǒng)設(shè)備巡檢時注重設(shè)備的可用性和聯(lián)動性。
4.4 完善運(yùn)維培訓(xùn)體系
制定系統(tǒng)的專業(yè)知識培訓(xùn)體系,并隨著新技術(shù)、新業(yè)務(wù)的引進(jìn)不斷完善;制定崗位規(guī)范培訓(xùn)計劃,強(qiáng)化設(shè)備運(yùn)行狀態(tài)分析和故障判斷處置能力;制定安全生產(chǎn)培訓(xùn)計劃,不斷提升運(yùn)維人員的職業(yè)素質(zhì)和技能水平,提高獨(dú)立分析和解決問題的能力。
5 結(jié)束語
數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)維管理是一項(xiàng)長期而復(fù)雜的工作,“以業(yè)務(wù)為中心,以制度為根本,以關(guān)鍵設(shè)施為重點(diǎn)”,嚴(yán)格執(zhí)行維護(hù)規(guī)程,不斷提高維護(hù)效率,才能有效促進(jìn)數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維管理水平的
提升。
參考文獻(xiàn)
[1] 程小丹,李崇輝,曹潔.數(shù)據(jù)中心設(shè)施運(yùn)維指南[M].北京:電子工業(yè)出版社.
[2] 鄭立.DCIM賦能數(shù)據(jù)中心智能化運(yùn)維[J].電信技術(shù),2019,9(10):171-172.
[3] 喬曉攀.大數(shù)據(jù)時代下機(jī)房管理與運(yùn)維工作的研究[J].現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化,2018,16(50):15.
[4] 付雷.提高數(shù)據(jù)中心基礎(chǔ)設(shè)施可用性運(yùn)維管理體系研究-以G數(shù)據(jù)中心為例[D].南昌大學(xué),2019.