◆田輝 田峻超 穆釗
中小型數據中心PUE值與可用性平衡方法的研究
◆田輝 田峻超 穆釗
(中國石油集團東方地球物理勘探有限責任公司信息技術中心 北京 100007)
數據中心的PUE值與可用性是一對矛盾體,由于計算復雜、難以量化等原因,其平衡方法相關的研究工作一直未能深入展開,但該項研究對數據中心運行的穩定性和節能方面都具有重要的意義。本文以多個企業中小型數據中心的測試數據為基礎,深入探討了PUE值與可用性之間的關系,以及維持PUE值與可用性平衡的主要計算方法,并在中小型數據中心進行了實際驗證,驗證了方法的有效性,為該項研究的繼續展開提供了一定的依據。
數據中心;節能;PUE;可用性
隨著我國信息化進程的高速推進,各種不同級別的數據中心被陸續建立起來并投入到使用中,特別是一些企事業單位的中小型數據中心,其數量占據到數據中心總量的70%-80%,能耗體量巨大。而這些中小型數據中心往往受到成本或其他條件約束,并非完全按照國家規定的標準來建設,因此中小型數據中心在能源效率和可用性維持上并不盡如人意。面對這樣的問題,能否從數據中心PUE值與可用性相互關系上入手來尋找某種節能方法,即:保持一定可用性的前提下,盡可能降低數據中心PUE值,從而達到中小型數據中心節能的目標。
數據中心PUE(Power Usage Effectiveness)是目前衡量數據中心或機房能源效率的通用指標,其計算公式為:

在數據中心能耗結構中,制冷設備能耗是除IT設備能耗以外最大的能耗,相對于供配電系統與輔助系統的運行能耗來說,制冷設備運行能耗變化范圍最大。一些較為著名的綠色數據中心PUE值可達到1.2左右,其制冷設備、供配電系統以及輔助系統的能耗合計只占數據中心的總能耗的20%左右,但此類綠色數據中心在制冷設備、供配電系統、輔助系統、場地建設、動環控制系統的成本投入遠高于普通數據中心,對為數眾多的中心型數據中心和機房來說,根本無法達到,因此許多機房節能方法的研究重點集中在如何降低制冷設備能耗的方面,如:采用精密制冷設備、改善氣流組織、機房保溫措施等。
數據中心的可用性構成比較復雜,由于數據中心是多種不同系統的綜合體,其可用性是:網絡可用性、IT設備可用性、制冷設備可用性、供配電以及其他輔助設備可用性共同組成,內部既有冗余子系統的并行,也有不同子系統的串行。就基礎設備可用性而言可通過平均無故障時間MTBF(Mean Time Between Failures)與平均修復時間MTTR(Mean Time to Repair)等指標計算完成,具體公式為:

從公式可以看出:數據中心基礎設備可用性的提高方法在于提高平均無故障時間MTBF或降低平均修復時間MTTR,降低MTTR與人員、技術、管理等因素的相關度較高,而延長MTBF與設備自身的可靠性和運行環境的相關度較高。
通過研究發現,在一定條件下數據中心PUE值與可用性存在一定的相關性,數據中心的服務器、網絡、UPS、監控等基礎設備的可用性受到溫濕度環境因素影響較大,而制冷設備的工作狀態又直接影響了數據中心的PUE值,當維持較低的環境溫度時,制冷設備能耗的提升則導致PUE值的升高,反之亦然。據統計:環境溫度每高于器件工作溫度10攝氏度,設備元器件壽命就會縮短30%-50%,可靠性MTBF下降25%左右。已知一個線路輸出30kW企業級小型數據中心,在其能耗結構中IT設備耗電占44%、制冷設備占38%、供配電設備占15%、其他輔助設備占3%,PUE值為2.27,可用性為99.99%,工作全年最多允許中斷(1-99.99%)*365天*24小時=0.876小時。當制冷設備溫度上調10攝氏度時,該數據中心基礎設備可靠性MTBF下降25%,假定平均修復時間MTTR取最大允許停機時長0.876小時,則根據公式2可推算出:數據中心當前可用性下降為99.96%,溫度上調后,制冷設備功耗降低為原來的50%-60%,根據公式1可計算出該數據中心PUE值為1.84,比原可用性狀態下的PUE值下降了18.9%。通過對多個中小型數據中心的PUE值與可用性數據分析發現:數據中心基礎設備的可用性與PUE值在一定范圍內呈現正比關系,每個數據中心可用性與PUE對應關系并非完全一樣,但在關系曲線的某一段取值范圍內呈現局部線性關系,正好可以利用這種線性關系,通過調整數據中心基礎設備的可用性來降低數據中心的PUE值,從而達到節能的目標。如圖1所示:在A點與C點之間的區域內,可用性與PUE值關系曲線為局部線性遞增關系,A點的可用性為0.9,PUE為1.4,C點的可用性為0.999,PUE為2.2,對中小型數據中心來說可用性分布在0.9-0.999之間較為合理,PUE值可在1.4-2.2范圍之內調節,因此A點與C點之間的區域為平衡區域。平衡區域的實際物理意義在于,數據中心基礎設備的可用性過低或過高都是不可取的,特別對于中小型數據中心來說,維持0.999以上的可用性極大地增加了數據中心制冷設備能耗,而單純為追求制冷設備極低功耗,把可用性下降到0.9以下,將引發數據中心嚴重的熱島效應,可能造成大面積的設備損壞。依照國際數據中心等級標準所規定的Tier 1的可用性為99.67%,恰好位于A點與C點PUE的均值點B附近,因此,B點為能耗與可用性平衡的最優位置。

圖1 中小型數據中心可用性與PUE值關系曲線
為維持數據中心PUE值與可用性的平衡關系,需要分別計算當前PUE與可用性的具體數值,數據中心PUE值可以通過監控系統的數值直接計算,而可用性的計算相對來說較為復雜,公式2所給出的只是針對單個系統或單一設備的計算公式,整體計算需要考慮到不同子系統之間的耦合關系,通常使用RBD(Reliability Block Diagram)模型和Markov模型進行計算,這里不做贅述,本文的重點是論證可用性與能耗之間的關系,為簡化可用性的計算方法,可采用如下方法:(1)把中小型數據中心看作一個單一的基礎設備來計算其可用性;(2)采用黑盒測試的方法,采集環境溫濕度、制冷設備能耗等作為輸入數據,采集數據中心基礎設備平均無故障運行時間MTBF和平均修復時間MTTR作為輸出數據,模擬可靠性與制冷設備能耗、溫濕度關系曲線;(3)確定最佳平衡點,即可靠性在0.99附近對應的環境溫度與制冷設備能耗的數值,即是制冷設備所調控的目標。需要說明的是:可靠性與制冷設備能耗之間并完全非線性關系,可通過建立二次或三次多項式進行擬合,并采用最小二乘法求解最優參數值:
Y=AX2+BX+C
這里Y為基礎設備可用性,X為制冷設備即時能耗,A、B、C為求解參數。除了多項式的擬合方法外,其他基于機器學習的方法也可以使用,如神經網絡、遺傳算法等模型方法,如果數據中心有完整的日志數據與測試數據,則對數據模型的訓練更有幫助。
本文對國內某企業的中小型數據中心進行長期測試實驗和日志數據的收集與整理,并利用文中所介紹的方法建立了基礎設備可靠性與制冷設備功耗的關系曲線,進而求解出PUE與可用性的平衡點,并以此來控制制冷設備的工作狀態,使得數據中心在保持0.99可用性的前提下,PUE值得到明顯改善。當然每個數據中心的情況也不盡相同,并非都存在相同的關系曲線與平衡點,文中的方法是否具有普適性,還需進一步的研究與探討。
[1]黃赟. 數據中心合規設計中PUE值范圍選擇與分析[J]. 電信技術,2016(12):56-59.
[2]戴新強. 數據中心空調系統能耗與節能應用研究[J].中國設備工程,2020(2):12-13.
[3]沈海華.基于馬爾可夫過程模型的服務器集群數據可用性分析[J].小型微型計算機系統,2006,27(7):1276-1278.
[4]黃守鵬.國內外高端服務器可用性測試方法研究[J].網絡安全與技術應用,2011(3):54-57.
[5]劉元展. 數據中心供配電系統可用性設計[D]. 哈爾濱工業大學,2015,6.
[6]吳亞奇. 數據中心機房節能方法研究[D]. 蘇州科技大學,2015,6.