雷鳴,劉芹,封鐸,劉玲
(中國移動通信集團設計院有限公司,北京100080)
數據中心業務可用性分級研究
雷鳴,劉芹,封鐸,劉玲
(中國移動通信集團設計院有限公司,北京100080)
通過分析國內外數據中心分級現狀及承載在數據中心內業務系統的可用性,提出業務可用性分級建議以及業務系統對數據中心基礎設施的需求及配置建議,從而讓數據中心基礎設施的配置更加合理化,進一步降低數據中心的建設成本。
數據中心;分級;可用性
數據中心(data center)通常是指在一個物理空間內實現對數據信息的集中處理、存儲、傳輸、交換、管理,一般含有計算機設備、服務器設備、網絡設備、存儲設備等關鍵設備。數據中心的基礎設施(data center infrastructure)是指為確保數據中心的關鍵設備和裝置能安全、穩定和可靠運行而設計配置的基礎工程,也稱機房工程(facility site engineering),數據中心機房工程的建設不僅要為數據中心中的系統設備運營管理和數據信息安全提供保障環境,還要為工作人員創造健康適宜的工作環境。
近幾年隨著“互聯網+”、云計算、大數據、物聯網等新技術與應用的飛速增長,對數據中心基礎設施的建設和服務需求大幅度增加,與此相關的大型建設投資項目也逐步增多,如何優化數據中心基礎設施配置也越來越重要。數據中心承載業務的可用性需求是數據中心面向服務設計的基礎,對數據中心基礎設施資源配置起決定性影響,業界通過對與其上部署業務可用性相匹配的基礎設施(電源配電、暖通空調以及其他的相關系統)進行等級劃分,滿足業務系統可用性需求。本文主要通過對數據中心承載業務可用性分級的研究,探討其對數據中心基礎設施建設的影響。
2.1 數據中心分級概念
數據中心構建設計非常復雜,集建筑、結構、電氣、暖通空調、給排水、消防、網絡、智能化等多個專業技術于一體。為了更好地區分不同數據中心的安全及可靠性,給管理者、運營人員及客戶更清晰的數據中心定位,數據中心的等級劃分就成為數據中心建設的一個重要問題。目前國際及國內都有相關的標準或規范對數據中心的等級進行劃分,這些等級劃分主要基于數據中心的基礎設施層面,對不同等級的數據中心提出了不同的要求。通常數據中心等級劃分考慮的基礎設施主要包括建筑結構、電源保障、空調系統等幾個方面。
2.2 數據中心分級的國際標準
TIA-942等級劃分及Uptime等級劃分是目前國際上影響力最大的數據中心分級標準。
(1)TIA-942分級
美國通信工業協會(Telecommunications Industry Association,TIA)發布的NSI/TIA-942-2005《Telecommunications Infrastructure Standard for Data Centers(數據中心的通信基礎設施標準)》,是國際上第一部較為全面的、以數據中心為對象的技術規范標準,該標準規范了數據中心機房場地、供電、冷卻、安防、地面承載、接地、電氣保護以及其他工程和建筑上需要滿足的條件,為數據中心機房的設計和安裝提供要求和指南,已成為通信與信息行業建設數據中心的國際標準。
該標準將數據中心分為4個等級。
· T1級:最基本的數據中心,即基礎設施沒有冗余部件。
· T2級:部件冗余,即關鍵設備冗余配置。
· T3級:可在線維修,即有多余的備用組成部分。
· T4級:故障容錯,使數據中心具有維持意外故障發生或者運行錯誤時,不發生運行中斷的能力。
(2)Uptime分級
Uptime組織成立于1993年,是全球公認的數據中心標準組織和第三方認證機構。由于TIA-942涉及的一系列標準頒布于不同時間,內容多有相互覆蓋,為使這些標準更易于落實,并具備可執行性,Uptime組織將上述國際標準中涉及的信息機房可用性的內容進行研究、歸納、整合,形成一套連貫的技術標準。基于這樣的具有可執行性的標準,定義出數據中心的可用性等級(以 TierⅠ、Tier Ⅱ、Tier Ⅲ、Tier Ⅳ等級命名)以及與之配套的等級認證程序。
目前Uptime等級認證是數據中心業界最知名、權威的認證,在全球范圍得到了高度的認可。
TIA-942與Uptime的分級基本一致,但在細節上有所區別。
從根本上來說,TIA-942是對數據中心的規范性標準,對數據中心各方面進行規定和要求,并提出相應的分級標準,但僅作為指導,并不作為認證的依據;而Uptime是從認證角度出發,更多地考慮了可操作性,更加全面和靈活。
2.3 數據中心分級的國內標準
目前涉及數據中心分級的國內標準主要有:GB 50174《數據中心設計規范》、YD 5193《互聯網數據中心(IDC)工程設計規范》及YD/T 2441《互聯網數據中心技術及分級分類標準》3部標準。
(1)GB 50174《數據中心設計規范》
該規范目前正在修訂,是在數據中心分級相關的規范中影響最大、規定最為全面的一部規范。其主要將數據中心分為A、B、C 3類,并對每一級別數據中心的基礎設施進行了不同的要求,設計時應根據數據中心的使用性質、數據丟失或網絡中斷在經濟或社會上造成的損失或影響程度確定所屬級別。
符合下列情況之一的數據中心應為A級:
· 電子信息系統運行中斷將造成重大的經濟損失;
· 電子信息系統運行中斷將造成公共場所秩序嚴重混亂。
符合下列情況之一的數據中心應為B級:
· 電子信息系統運行中斷將造成較大的經濟損失;
· 電子信息系統運行中斷將造成公共場所秩序混亂。
不屬于A 級或B 級的數據中心應為C級。
在同城或異地建立的災備數據中心,設計時宜與主用數據中心等級相同。
(2)YD 5193《互聯網數據中心(IDC)工程設計規范》
該規范對于IDC的分級要求如下。
· IDC應根據運營需要分為不同級別,可劃分為A、B、C 3級,不同級別對外可在可靠性、綠色節能、安全性、服務質量和服務水平等方面予以區別,對內可在各子系統技術要求方面有所區別。
· IDC內所裝業務系統的運行中斷將造成重大損失的,IDC應為A級;IDC內所裝業務系統的運行中斷將造成較大損失的,IDC應為B級;不屬于A級或B級的IDC應為C級。設計時應根據IDC的業務需求確定所屬級別。
· 一個IDC內的不同部分可根據業務需求按不同的標準進行設計。
該規范主要從 IDC承載的業務系統的重要性,即:中斷運行是否會造成重大損失進行等級劃分,并且對各級別對應的機房、機架、電源、空調、送風、網絡架構、服務質量等進行了描述,A級IDC網絡可用性大于或等于99.99%;B級IDC網絡可用性大于或等于99.9%;C級IDC網絡可用性大于或等于99.5%。
(3)YD/T 2441《互聯網數據中心技術及分級分類標準》
本標準從綠色節能、可靠性和安全性3個方面提出了對IDC分級分類的技術要求。
綠色節能部分按照能源效率、節能技術和綠色管理3個方面的具體項目進行打分,并根據總分得到該IDC對應的等級Green1~Green5,簡稱G1~G5,其中G1為最低等級,G5為最高等級。
可靠性部分按照機房位置選擇、環境要求、建筑與結構、空氣調節、電氣技術、電子信息設備供電電源質量要求、機房布線、環境和設備監控系統、安全防范系統、給水排水、消防、網絡結構、機架要求和服務質量共14個方面的具體指標和要求,得出IDC的可靠性方面的等級 Reliability1~Reliability3,簡稱R1~R3,其中R1為最低等級,R3為最高等級;R3級IDC的業務可用性大于或等于99.95%;R2級IDC的業務可用性大于或等于99.9%;R3級IDC的業務可用性大于或等于99.5%。
根據YDB 116《互聯網數據中心安全防護要求》和YDB 117《互聯網數據中心安全防護檢測要求》的要求,IDC的安全等級劃分為Security1~Security5,簡稱S1~S5,其中S1為最低等級,S5為最高等級。
2.4 現階段數據中心的分級標準應用情況
目前數據中心分級標準中,以Uptime為主流,這是因為Uptime不僅從實際的可操作性及便利性角度出發,對數據中心進行了合理、細致的等級劃分,并且有一套完整的認證體系,因此在世界范圍內得到廣泛的認可及應用。
國內數據中心的等級劃分基本以 GB 50174《數據中心設計規范》為依據,國內數據中心的劃分基本與Uptime分級標準對應:C級數據中心基本對應Uptime Tier I,B級數據中心基本對應Uptime Tier Ⅱ,而A級數據中心基本對應Uptime Tier Ⅲ和Tier Ⅳ,但在細節上又有所區別。
數據中心承載的業務種類多種多樣,按照應用類型可以分為網絡系統、支撐系統、業務系統、安全系統等。業務具有需求多樣性特點,各種業務特點不同,對及時、安全、可靠等方面的要求各不相同,如圖1所示。

圖1 業務系統需求示例
業務分級可以從不同的維度來劃分,如可以從維護、管理、業務等方面進行劃分。從維護角度來看,可根據運維人員的技術資質、運行監控系統功能、運維流程等劃分為不同級別;從管理角度來看,可根據客戶服務內容、流程和客服指標等劃分為不同級別;從業務角度來看,可根據業務功能、性能、可用性等劃分為不同等級,其中業務可用性對基礎設施資源配置起決定性影響。
3.1 業務可用性概念
可用性是在某個考察時間,系統能夠正常運行的概率或時間占有率期望值。一般用來衡量應用系統可用性的標準,即X個9,X=3, 4, 5。X個9表示應用系統在1年時間內運行,系統可以正常使用時間與總時間(1年)之比,如下計算可以看出不同可用性級別的差異。業務分級示意如圖2所示。

圖2 業務分級示意
· 3個9:(1?99.9%)×365×24=8.76 h,表示該應用系統在連續運行1年時間里最多可能的業務中斷時間是8.76 h。
· 4個9:(1?99.99%)×365×24=0.876 h=52.6 min,表示該應用系統在連續運行1年時間里最多可能的業務中斷時間是52.6 min。
· 5個9:(1?99.999%)×365×24×60=5.26 min,表示該應用系統在連續運行1年時間里最多可能的業務中斷時間是5.26 min。
目前一般業務系統的可用性都只考慮3~5個9。
3.2 電商網站業務分級
對于電商網站,用戶體驗是第一位的,系統穩定運行是保證用戶良好體驗的基礎。在資源有限的條件下,采取對系統進行級別劃分的方式,對高級別系統保持重點關注,在設計、部署、監控等方面確保高級別系統具備良好的伸縮性、頑健性和敏感度,能夠應對電商業務中不確定的極限峰值沖擊。
例如某電商網站基于可能對用戶產生影響的程度與敏感度,將所有應用系統分為三級,簡單描述見表1。

表1 某電商網站應用系統等級劃分標準
依此標準,某電商網站的一級系統主要包括賣場系統、商品詳情、價格系統、庫存系統、促銷系統、購物車、交易系統、支付系統、會員系統等。二級系統則包括商品信息系統、訂單系統、ERP(enterprise resource planning,企業資源計劃)、倉儲系統、物流與干線運輸系統等。三級系統主要包括結算系統、報表系統以及運營、活動管理類系統。
3.3 IDC業務可用性分級
從行業層面來看,目前業內對 IDC分級沒有統一的標準。從企業層面來看,社會IDC普遍沒有IDC等級管理機制;運營商企業自行設置企業內部IDC分級標準,逐步實現了IDC分級管理。按照地理位置、硬件設施、網絡條件、服務水平、人員配備等因素,將全國的IDC分為4~5個不同等級,在每個等級中提供了不同的服務承諾,從而面向政府、企業和零散客戶等提供不同業務的需要。
3.4 公有云業務可用性分級
公有云針對企業客戶(大型企業、互聯網企業、中小企業)和個人客戶(MM開發者、個人)提供服務,不同客戶的需求是多樣化的。公眾服務云目標用戶分析見表2。

表2 公眾服務云目標用戶分析
根據公有云業務的可用度劃分,可將不同公有云業務分為高、中和低3個等級:A級為高等級,業務可用度為99.99%;B級為中等級,業務可用度為 99.9%;C級為低等級,業務可用度為99.5%。
數據中心由許多復雜而龐大的系統組成,如電力、空調、通信,數據中心作為承載業務的重要IT基礎設施,承擔著穩定運行和業務創新的重任。在對業務進行可用性分級的前提下,根據不同等級的業務,對數據中心提出了不同的要求。
數據中心可以簡單認為由兩個層面組成:IT層面和機房設施層面。其中基礎設施包括電源和機房環境(機房、空調、消防等)資源;業務系統包括網絡資源、計算資源和存儲資源等,將各種資源簡化為串聯關系,具體如圖3所示。

圖3 業務系統組成示意
對于每類業務來說,可將機房電源系統、機房環境和業務系統等簡化抽象為串聯關系的計算模型,采用AGREE算法進行可用度指標分配,這個方法是美國電子設備可用性顧問團(AGREE)首先提出的。在該方法中假設設備的故障時間符合指數分布,系統由k個子系統組成,現在要由系統的可用性指標值確定各子系統相應的可用性指標值。
第 i個子系統的復雜度與其組成單元數量、技術水平有關,用iλ表示,若給不出確切的統計數值,還可用經驗評分法確定之。第 i個子系統的重要度是引起系統故障的某子系統的故障概率與該子系統的故障概率之比。若給不出確切的統計數值,還可用經驗評分法確定之。若某子系統的所有故障均導致系統發生故障,則此時該子系統的重要度Wi=1。

其中,ti為第 i個子系統的任務時間,mi為第i個子系統的平均無故障工作時間。
考慮子系統的重要度之后,把系統變成一個等效的串聯系統 則可用度RS可以表示成:


將式(4)代入式(3),則系統可用度 RS可表示成:

考慮子系統復雜度之后,采用對比等分配方法,有式(6)成立:

因此第i個子系統平均無故障時間為:

根據式(7)求出某子系統的平均無故障工作時間,再代入式(2)便求得子系統的可用度分配值。
該算法的核心思想為可用度指標不是均勻分配給各子系統,而是根據各子系統的復雜性、重要性等因素進行加權:復雜度高的子系統分配的指標低,復雜度低的子系統分配的指標高;重要度高的子系統分配的指標高,重要度低的子系統分配的指標低。
針對上述可進行業務分級的 IDC、公有云等業務,通過該算法可以得出基礎設施的可用性指標,進而得出基礎設施的配置要求,從而更好地滿足不同等級業務的需求。
如對于高等級的業務來說,對數據中心的可用性提出了較高的要求,可以通過設備的可靠性、合理的規劃和良好的組織管理來提升數據中心基礎設施的高可用性,可著重從建筑結構、電氣系統、空調系統、綜合布線等角度采取相應的技術設施提供高可用性。
通過分析國內外數據中心分級標準來看,國際上數據中心分級大多以Uptime分級作為公認的標準;國內比較權威的是GB 50174《數據中心設計規范》,但需要注意的是,國標編制過程中有國內互聯網企業參與,有些等級的要求更多地向互聯網企業傾斜,運營商需要結合自身需求來選擇建設規范標準。目前主流運營商或者互聯網企業的數據中心都是按照 Uptime Tier Ⅲ+或 GB 50174的A級標準來建設的,而按照這個等級建設數據中心需要巨大投資。
針對數據中心承載的各類業務系統,尤其是互聯網應用、IDC和公有云業務等,考慮到業務在安全性、重要性等方面有所差異,建議可考慮根據可用性進行分類、分級,為用戶提供不同等級的服務,同時也可以對數據中心基礎設施的配置進行相應調整,對可用性指標要求低的業務系統,適當降低建設標準,從而降低建設成本。
隨著云計算和大數據技術的引入,對業務連續性衡量的標準已經從單純 IT 領域的容災備份上升到了保障業務持續運行的層面。在成本允許的情況下,建議對非強一致性的業務應用進行分布式架構改造,不僅可以實現業務規模的負載均衡,有利于業務規模的擴展,也同樣起到了災備作用,保證了業務的連續性,降低了災備成本。對于實現同城多活數據中心,包括傳統的“兩地三中心”(裸光纖距離不超過 40 km的情況下),在原有基礎設施基礎上可以適當考慮降低建設標準。
[1] 工業和信息化部. 數據中心設計規范: GB 50174 [S]. 2015. Ministry of Industry and Information Technology. Design specification of data center: GB 50174 [S]. 2015.
[2] 工業和信息化部. 互聯網數據中心技術及分級分類標準: YD/T 2441[S]. 2013. Ministry of Industry and Information Technology. Technology and classification criteria of internet data center: YD/T 2441[S]. 2013.
[3] 工業和信息化部. 互聯網數據中心(IDC)工程設計規范: YD 5193[S]. 2014. Ministry of Industry and Information Technology. Engineering design specification of internet data center(IDC): YD 5193[S]. 2014.
[4] 宋保維, 李彩霞, 毛少勇, 等. 并聯系統可靠性分配的模糊層次分析法[J]. 火力與指揮控制, 2009, 34(12): 151-153. SONG B W, LI C X, MAO S Y, et al. Fuzzy hierarchical analysis for reliability allocation of parallel system[J]. Fire Control and Command Control, 2009, 34(12): 151-153.
[5] 郝曉峰. 復雜機械系統可靠性分配最優分配方法的研究[D].沈陽: 東北大學, 2008. HAO X F. Research on optimal assignment method for reliability assignment of complex mechanical system[D]. Shenyang: Northeastern University, 2008.
[6] 李丹, 劉方明, 郭得科, 等. 軟件定義的云數據中心網絡基礎理論與關鍵技術[J]. 電信科學, 2014, 30(6): 48-59. LI D, LIU F M, GUO D K, et al. Fundamental theory and key technology of software defined cloud data center network[J]. Telecommunications Science, 2014, 30(6): 48-59.
[7] 孫振正, 龔靖, 段勇, 等. 面向下一代數據中心的軟件定義存儲技術研究[J]. 電信科學, 2014, 30(1): 39-43. SUN Z Z, GONG J, DUAN Y, et al. Research on software defined storage technology for the next-generation data center[J]. Telecommunications Science, 2014, 30(1): 39-43.
[8] 辛晃, 易興輝, 陳震宇. 基于 Hadoop+MPP架構的電信運營商網絡數據共享平臺研究[J].電信科學, 2014, 30(4): 135-145. XIN H, YI X H, CHEN Z Y. Design of telecom operators’ network data sharing platform based on Hadoop+MPP architecture[J]. Telecommunications Science, 2014, 30(4): 135-145.

雷鳴(1973?),女,中國移動通信集團設計院有限公司高級工程師,主要從事云計算、IDC領域的規劃、咨詢、設計等工作。
劉芹(1977?),女,中國移動通信集團設計院有限公司高級工程師,主要從事業務網、云計算領域的規劃、咨詢、設計等工作。
封鐸(1973?),男,中國移動通信集團設計院有限公司高級工程師,主要從事支撐網、云計算領域的規劃、咨詢、設計等工作。
劉玲(1982?),女,中國移動通信集團設計院有限公司高級工程師,主要從事業務網、云計算領域的規劃、咨詢、設計等工作。
Research on the availability grading of business systems in the data center
LEI Ming, LIU Qin, FENG Duo, LIU Ling
China Mobile Group Design Institute Co., Ltd., Beijing 100080, China
By analyzing the grading status of data centers at home and abroad and the availability of business systems in the data center, business availability grading recommendations, and business system requirements and configuration recommendations for the data center infrastructure were proposed, thus making the data center infrastructure more rational and reducing the cost of data center.
data center, grading, availability
TN915.02
A
10.11959/j.issn.1000?0801.2017079
2017?01?13;
2017?03?22