王好為(上海郵電設計咨詢研究院有限公司,上海 200092)
信息化是當今時代發展的大趨勢,數據中心建設也在國內遍地開花,行業競爭日趨激烈。為了提高行業知名度,進一步吸引高端用戶,國內越來越多的數據中心運營商開始著力于建造Uptime Tier III或Tier IV數據中心。部分高端用戶會在數據中心招標的要求中提出,機房需參照Uptime Tier III或Tier IV標準建設。
Uptime Institute成立于1993年,是全球公認的數據中心標準組織和第三方認證機構。對于數據中心的等級認證,主要基于《Data Center Site Infrastructure Tier Standard: Topology》[1]和《Data Center Site Infrastructure Tier Standard: Operational Sustainability》兩個標準。這兩個標準由Uptime Institute根據數年來對數據中心的研究經驗與其終端用戶的運營知識逐年更新積累發展而成,是目前數據中心業界最知名、權威的認證,在全球范圍得到了高度認可。
每個運營商可根據具體需求向Uptime Institute申請對其建造的數據中心進行Tier等級認證。認證過程分為以下三個階段:
(1)設計認證Tier Certif i cations of Design Documents(TCDD);
(2)建造認證Tier Certif i cations of Constructed Facility(TCCF);
(3)運維認證Tier Certif i cations of Operational Sustainability(TCOS)。
運營商只有在完成數據中心設計認證的基礎上,才能進行建造認證;完成建造認證后,方可對建成的機房進行運維認證。其中,最基礎的設計認證僅有2年認證年限,2年后該數據中心如沒有繼續完成建造認證,設計認證將無效。
由于Tier IV等級數據中心的設計難度較高,國內部分數據中心為滿足設計認證要求,設計方案往往無法滿足后期機房建設的可行性要求,導致目前國內數據中心完成設計認證及建造認證的只有一家,且沒有數據中心完成以上三個階段的全部認證。
在Uptime認證標準中,將數據中心機房基礎設施Tier分為4個等級,定義及具體要求如下。
1.2.1 Tier I
Tier I,基本的現場基礎設施,建設要求如下:
(1)Tier I基本的數據中心沒有冗余容量組件,且只有一個單一的非冗余分配路徑來為關鍵環境提供服務。Tier I基礎設施包括:1個IT系統的專用空間、1套不間斷電源系統(UPS)用來濾除輸入功率尖峰、電壓驟降和瞬間電力中斷的影響;專用供冷設備;1避免IT功能受長期斷電影響的現場發電系統,如引擎式發電機、燃料電池等。
(2)用于現場發電(如引擎式發電機、燃料電池)的12 h現場燃料儲存。
1.2.2 Tier II
Tier II,冗余的現場基礎設施容量組件,建設要求如下:
(1)Tier II數據中心擁有冗余容量組件,以及單一的非冗余分配路徑來為關鍵環境提供服務。冗余組件是指額外的現場發電系統(如引擎式發電機、燃料電池)、不間斷電源(UPS)模塊和能力儲存、冷水機組、排熱設備、泵、冷卻裝置和燃料儲存罐。
(2)支持“N”容量的12 h現場燃料儲存。
1.2.3 Tier III
Tier III,可并行維護的機房基礎設施,建設要求如下:
(1)一個可同時維護的數據中心擁有冗余容量組件,以及多個獨立分配路徑來為關鍵系統提供服務。對于電力中樞和機械分配路徑,只需要一個分配路徑為關鍵環境服務。電力中樞指從現場發電系統(如引擎式發電機、燃料電池)的輸出到IT用不間斷電源(UPS)輸入端的電力分配路徑,以及為關鍵機械設備供電用的電力分配路徑。機械分配路徑指將熱量從關鍵空間移除到室外環境的分配路徑,如冷凍水管路、冷卻水管路以及制冷劑管路等。
(2)所有IT設備均為雙電源供電且合理安裝,與現場架構的拓撲相匹配。如果不滿足該要求,則須使用轉換裝置如小型機架式轉換開關。
(3)支持“N”容量的12 h現場燃料儲存。
1.2.4 Tier IV
Tier IV,容錯的現場基礎設施,建設要求如下:
(1)一個容錯的數據中心同時具有多個、獨立的、物理隔離的系統來提供冗余容量組件,以及多個獨立的、不同的、主用的分配路徑同時為關鍵環境服務。冗余容量組件和多種不同的分配路徑的配置應使“N”容量在任何基礎設施故障后能繼續為關鍵環境提供電力和冷卻。
(2)所有IT設備都具有雙電源,裝置內部帶有容錯電力設計且正確安裝,與現場架構的拓撲相匹配。如果不滿足該要求,則須使用轉換裝置如小型機架式轉換開關。
(3)互為備份的系統和分配路徑相互之間必須進行物理隔離(分隔),以防止任意單一事件同時對兩套系統或兩路分配路徑造成影響。
(4)要求連續供冷。連續供冷依據《數據處理環境傳熱指南(第三版)》為所有關鍵空間提供一個滿足IT設備ASHREA最大溫度變化范圍的穩定環境工況。另外,連續供冷的持續時間應該能保證持續供冷至機械系統恢復在極端環境條件下運行所提供的額定制冷量。
(5)支持“N”容量的12 h現場燃料儲存。
以上4個等級的定義與要求詳見《Data Center Site Infrastructure Tier Standard: Topology》(2009-2018版本)。需要注意,Uptime設計認證只有以上4個等級,并不存在Tier III+之類的模糊定義。
根據以上內容,歸納各認證等級需求如表1所示。
從表1可見,Tier I~Tier IV的每一個等級需求逐步遞進。Tier III~Tier IV中,還要求每一個冗余組件和分配路徑都要符合要求。
以某家申請進行Tier IV認證的機房設計認證為例:數據中心內UPS系統、水冷主機的配置已滿足Tier IV的要求,但由于末端空調配置無法滿足連續制冷這一要求,則認證人員會判斷該機房無法評定為Tier IV,只能滿足Tier III要求;之后又發現,它的發電機組方案由于配電路徑無法滿足可并行維護,則判斷該機房無法評定為Tier III,只滿足Tier II要求;最后,由于該數據中心油罐沒有考慮冗余配置,則判斷該機房無法評定為Tier II,只滿足Tier I要求。于是,整個數據中心最終只能評定為Tier I等級。
Uptime認證標準并不會像其他數據中心設計規范制定條條框框和具體量化要求,僅對機房建設提出概念化建設需求。每個數據中心可以通過各種方式滿足需求,只要達到相應等級的建設需求,便可通過相應的等級認證。
在Uptime認證學習及設計認證的參與過程中,與以往國內數據中心建設的要求及理解有所不同。
目前,國內通信設計規范中對公共市政資源的使用有一定要求。例如,《通信電源設備安裝工程設計規范》[3](GB 51194-2016)中將市電供電分為四類。根據引入市電的數量、引入市電是否相互獨立、市電穩定供電時間和平均故障時間等因素,結合通信局站的等級需求確定機房需配置的供電系統及備用發電機組方案。又如,《數據中心設計規范》(GB 50174-2017)中對供電電源有要求,如表2所示。

表2 供電電源要求
由以上兩個規范可見,國內重要的數據中心至少需要引入兩路相互獨立的市電,并在此基礎上配置備用電源。引入市政用電的數量及冗余模式,對數據中心的等級評定是一個重要的考核指標。但在Uptime認證中,各等級數據機房對公共市政資源沒有具體要求。也就是說,一個沒有市政用電引入的數據中心,也有可能可以通過Tier IV機房的認證。對Uptime Institute來說,公共市政資源(包括供電及供水等)都是不可靠的服務供應,是數據中心日常運營時為節約運營成本而采用的經濟性替代。數據中心配置的發電機組等備用電源才是評定Tier等級的重要指標。

表1 認證等級需求
國內通信行業對發電機組的輸出功率的常用定義有以下幾種:
(1)備用功率:在商定運行條件下,按制造商規定的維修間隔和方法實施維護保養,發電機組平均每12 h內能滿負載運行1 h的最大功率。
(2)主用功率:在商定運行條件下,按制造商規定的維修間隔和方法實施維護保養,發電機組能以此功率連續運行24 h以上,且每12 h內應能過載10%連續運行1 h;當連續運行超過24 h,其輸出功率不低于該功率的90%。發電機組每年允許的累計運行時間不低于500 h。
(3)持續功率:在商定運行條件下,按制造商規定的維修間隔和方法實施維護保養,發電機組每年運行時間不受限制地為恒定負載持續供電的最大功率。
配置發電機時,機組輸出功率具體采用以上哪種定義并沒有具體規定,一般根據機組的使用工況、運行時長等選擇具體的發電機型號。比如,在三類、四類市電故障時間高且市電質量低的情況下,會按主用功率或持續功率選擇發電機;而一二級城市,市電故障率低且穩定性高的情況下,會按主用功率或備用功率選擇發電機。
但在Uptime認證中,明確規定Tier III~Tier IV機房必須使用持續功率作為對發電機組輸出功率的選型標準。該數據可由發電機制造商提供不限小時數連續運行容量證明,或按發電機主用功率的70%作為持續功率的參考值。
歸納各認證等級發電機組輸出功率要求如表3所示。
《數據中心設計規范》[2](GB 50174-2017)中對備用發電機組的供電及供油系統的配置要求,如表4所示。
可見,不同等級機房主要對發電機的數量、冗余度、燃油存儲時間有一定要求外,并沒有其他具體要求。但Uptime認證中,發電機及油罐作為容量組件都有冗余(Tier II)、可在線維護(Tier III)和容錯(Tier IV)的要求。而從油罐到各臺發電機組的供、回油管道,發電機組的輸出并機柜(或油機配電柜)、配電線路等作為分配路徑也有冗余(Tier II)、可在線維護(Tier III)和容錯(Tier IV)的要求。
按《數據中心設計規范》[2](GB 50174-2017),A類機房要求建設備用發電機組供電及供油系統(3臺發電機組構成2+1并機冗余系統)如圖1所示,稱為方案1。
根據Uptime的認證標準,由于方案1油罐缺少冗余只符合Tier I的標準。

表3 各認證等級發電機組輸出功率要求

表4 備用發電機組的供電及供油系統的配置要求

圖1 方案1
同樣,由3臺發電機組構成2+1并機冗余系統,按Tier III或Tier IV要求建設備用發電機組供電及供油系統結構,如圖2所示,稱為方案2。
上述兩個方案可以明顯看到,方案2同樣將發電機按N+1冗余配置,其配套的油罐也需要在N滿足2臺發電機組12 h供油時間的基礎上進行冗余。同時,在供油管路及供電線路上也需要進行相應冗余,以滿足Tier III可并行維護的要求。
當然,多數申請進行Tier IV認證的數據中心,在滿足同樣供電容量發電機配置(44 00 kW)要求下,會采用2N的模式,如圖3所示,稱為方案3。
比較方案2和方案3可見,方案3供電系統結構較方案2清晰,在Tier IV認證時,更便于實現系統自動響應的建設。但是,由于增加了1臺油機,對數據中心機房場地面積要求更大,建設投資和維護成本也會相應增多。可見,兩種方案各有利弊,實際設計過程中建議結合機房場地條件、機房建設規模、投資規劃及經濟評估等各項因素選擇合適的方案進行設計。
方案2和方案3都是單線圖,從供油及供電系統結構來說,都已滿足Tier III及Tier IV的要求,但實際認證時還需要提供其他圖紙,明確方案中各臺發電機、各套油罐、并機控制系統、各套供電線路、供油管路是否均需滿足Tier IV的容錯,以及防沖撞、自動響應等要求。

圖2 方案2

圖3 方案3
《數據中心設計規范》[2](GB 50174-2017)中,對不間斷供電系統的配置要求如表5所示。
可見,一般A類機房都采用2N的方式建設不間斷供電系統,對供電系統輸出線路的走向沒有特別要求。部分行業規范會對輸出電纜有隔離或分橋架布置的需求。
在Uptime設計認證中,只要不間斷供電系統及其輸入輸出分配路徑的建設均可滿足冗余及可并行維護等相關要求,即使將系統按N+X(X=1)建設,仍可認證成為Tier III。當然,不間斷供電系統如采用N+X的冗余方案,要滿足Tier IV的容錯要求困難會較大。Tier IV要求對每X套系統及其供電分配徑也需要考慮容錯,X的數字越小,容錯要求越高,對機房建筑物本身的建設條件要求苛刻。一般要在大樓建設時,考慮此要求來規劃建筑物配電房、機房和走道的布局。一般由普通民用建筑改造的機房,在滿足當地消防規范的基礎上,較難滿足Uptime Tier IV的容錯要求。
通過學習及參與設計認證,筆者認為數據中心的不間斷供電系統若又要滿足A類機房標準又要滿足Tier IV的認證要求,采用2N的方案較好。這樣不僅滿足國內規范的標準,而且2N系統滿足Tier IV容錯要求的可行性更高,一般對稱建設的建筑有機會實現容錯要求。
《數據中心設計規范》[2](GB 50174-2017)中,對機房水冷系統冷機及末端空調的配置要求如表6所示。

表5 不間斷供電系統的配置要求

表6 機房水冷系統冷機及末端空調的配置要求
在Uptime設計認證中,只要確保IT機房及不間斷供電系統等關鍵區域的持續供冷即可滿足Tier IV的要求。其中,最核心的要求是機房15 min內溫度變化不超過5 ℃。
數據中心空調系統種類繁多,滿足以上要求的系統多種多樣,這里用較簡單的風冷空調為例:數據中心末端空調一般按N+X(X<N)冗余配置,此時如需滿足機房持續制冷的要求,則每X末端空調需配置ATS切換裝置,其前級需來自2套相互獨立的不間斷供電系統。其中,若1套不間斷系統發生故障,機房內會有部分末端空調的ATS切換裝置發生動作,導致部分末端空調壓縮機在短時間內停機重啟。此時,要求證明在空調壓縮機停機到其重啟并穩定運行的時間內,機房中每15 min溫度變化不超過5 ℃。這對前級配電系統、配電路由、空調管道路由分布等有很高的冗余、可維護及容錯要求。X數值越小,容錯難度越高。因此,部分數據中心為滿足這一要求往往采用最簡單方式將機房內末端空調按2N配置,以便于前級配電系統及分配路徑等方案的設計。但是,這樣的配置會增加空調數量,且由于機房面積有限,機房單機架功耗被降低。投資增加但機房經濟回報過低,導致后期數據中心無法按Tier IV的設計完成建造認證。如何在滿足機房現有條件的基礎上合理配置空調數量及冗余方案,有效利用ATS切換裝置,按需求規劃配電路由及空調管道等分配路徑,是日后設計Tier IV機房時需要重點注意的地方。
在Tier IV設計認證中,一部分重要要求是需要系統自動檢測故障情況,將故障自動隔離,避免造成二次故障影響機房正常運行。這要求涵蓋數據中心每一個關鍵設備,包括配電屏、斷路器、發電機、油罐、閥門、油泵以及控制系統等。設計認證過程中除提供設計圖紙外,還需另行編制一套數據中心各類事故自動響應操作序列。數據中心事故主要包括:發電機組如何自啟動控制、啟動失敗后的故障如何自動隔離、各套冷機系統如何切換、單套水管閥門故障后如何自動隔離、水管或油管發生泄漏后如何自動檢測及自動響應。認證方要求對各類故障一一列舉并闡明系統自動響應的操作序列,確保數據中心的設計滿足Tier IV的要求。
基于Uptime認證培訓及參與Tier IV數據中心設計認證的過程,針對幾個設計難點進行了對比和案例分析。此外,數據中心的負荷統計、供電分配路徑及空調管道的建設方案等,也是Tier IV數據中心設計認證中需要重視的部分。