王繼業 周碧玉 張 法 石 翔 曾 楠 劉志勇
1(國家電網公司 北京 100031)2(中國科學院信息工程研究所 北京 100089)3(中國科學院計算技術研究所 北京 100190)
近年來,云計算技術發展迅猛.作為云計算的物理平臺和重要基礎設施,數據中心的數量和規模都得到了前所未有的發展.據報道[1],截止2017年,世界上正在運營的各種類型的數據中心總數已經高達860萬.迅速增長的數據中心數目帶來了2方面問題:1)給運營商帶來日益龐大的能耗開銷.統計結果表明[2],2014年美國的數據中心電能消耗總量占據全美全年總耗電量的1.8%;預計到2020年,全球的數據中心總的耗電量將占到當年全球總的耗電量的8%[3].2)給社會來了沉重環保的壓力.全球環保組織(Global e-Sustainability Initiative, GeSI)估計,到 2020年數據中心的溫室氣體的排放將占到信息技術領域的18%[4].
與巨大的能耗相對應的是極低的資源利用率,統計報告稱[5-6],典型數據中心的資源利用率通常在5%~25%之間.產生這一現象的主要原因是數據中心的運營者通常會為了追求高性能、保證服務質量和可靠性,而采用冗余資源部署的策略.因此,不論當前負載如何,所有的服務器都將處于最高速率運行狀態.這些多維度資源(CPU、存儲、內存和網絡帶寬)的低利用率直接導致了巨大的資源浪費.而計算、存儲、通訊等資源的無效使用,也加重了其他如冷卻系統、配電裝置等配套設備的投入.
數據中心巨大的能源消耗,嚴重阻礙了數據中心本身的發展以及節能型社會的創建,已經成為一個對技術、經濟、環境發展具有重要影響的重大社會問題,急需解決.結合數據中心巨大的能耗和極低的資源利用率兩大問題,目前已經有很多研究者利用提高數據中心資源利用率的方法來降低數據中心能耗.然而,不恰當的提高資源利用率也可能帶來應用的性能和服務質量的損失.因此,在進行數據中心能耗優化研究的同時,針對數據中心的特點,提出在保障服務質量和應用性能的前提下可以優化數據中心能耗的策略和算法,對于提高數據中心能效研究具有重大意義.
本文從資源和任務的分配調度的角度研究數據中心的節能問題,從能效分析、能耗模型、分類標準和策略算法4個方面對近年來數據中心能效優化領域的研究進展和最新成果進行全面的綜述.
數據中心是一整套用于承載計算機系統和相關組件的復雜設施.它不僅僅包括計算機系統(例如服務器、通信和存儲系統等),還包含與之配套的數據通信連接、環境控制設備(例如空調系統和消防系統)、監控設備以及各種安全裝置[7-8].計算機系統和其他與之配套的設備是數據中心的重要組成部分,同時也是數據中心能量消耗的主要來源.
如圖1所示,數據中心的能量消耗來源可以大致分為2部分[5]:IT設施能耗和基礎設施能耗.IT設施指的服務器系統(包含服務器和存儲)、網絡系統等信息技術設施,而配套基礎設施主要包含冷卻系統和供電系統(包含供電系統和照明系統).

Fig. 1 Data center energy source decomposition圖1 數據中心能耗來源分解
IT設備和配套基礎設施的能耗比重由數據中心的具體設計和設備本身的能耗效率決定.通常,數據中心能耗最大系統是服務器系統,其能耗占據數據中心總能耗的40%以上,其次是制冷系統[6].IT設備的總能耗占據數據中心總能耗的50%左右,而在Pelley等人[9]的報告中,該比重甚至高達61%.
制定合理的數據中心能效衡量標準是提高數據中心能效需要解決的第1個問題.目前,工業界廣泛使用的數據中心能效衡量標準主要是電能使用效率(power usage efficiency, PUE)[10],其定義為數據中心的總輸入能耗占輸入到IT設備子系統的總能耗的比值.PUE是基于數據中心有效能耗這個概念來設計的,其原理是數據中心輸入的總能耗中只有一部分用于數據中心計算功能實現上,剩下的能量消耗在支撐計算功能運行的環節,即供電系統和冷卻系統等.類似的衡量標準還有PUE的倒數,即數據中心基礎設施效率(datacenter infrastructure efficiency, DCiE)[10].然而,PUE可用性很差,因為數據中心的總輸入能耗在實際中不好測量,因此GreenGrid建議將數據中心的總輸入能耗分解為總制冷能耗、總電源供電系統能耗以及IT總能耗3個部分分別進行測量.此外,PUE衡量的只是輸入到IT設備的在總能耗與數據中心總輸入能耗之間的關系,用來描述數據中心能效并不十分恰當,更合理的能效評估標準應該是比較系統的有效輸出與系統的總輸入之間的關系.然而,對系統的有效輸出的定義和測量尚未有令人信服的研究.
除上面2個常用衡量指標外,數據中心的能效指標還有衡量數據中心計算效率的數據中心有效能耗比(data center energy productive, DCeP)[4]、衡量數據中心綠色環保程度的碳使用效率(carbon usage effectiveness, CUE)[4]、衡量數據中心IT能耗的碳排放效率的冷卻系統效率(cooling system efficiency,CSE)[11]、衡量冷卻系統效率的氣流節省器效率(air economizer utilization, AEU)[11]、水流節省器效率(water economizer utilization, WEU)[4]等.上述指標均針對特定系統和目標而設,研發更加實用的數據中心性能指標仍舊是目前一大難題.
研究和分析數據中心能耗模型對提高數據中心能效有著重要的意義.一方面,數據中心是一個非常復雜的設施,找出影響數據中心能效的瓶頸因素才能有針對性地提高數據中心總體能效;另一方面,通過對數據中心能耗的形式化描述,把數據中心能效優化問題轉化為一些經典的優化問題,通過對優化問題的求解可以為數據中心能效優化提供方針和策略.
與IT設備相比,基礎設施的能耗行為不僅取決于設備本身的能耗效率、負載水平,還取決于輸入能源的種類、時間和地理等復雜因素.此外,數據中心IT設備能耗占據數據中心總能耗的一半多,該比例隨著數據中心高效制冷和智能供電技術的提高逐年增加,而降低IT設備的能耗也能降低冷卻系統和配電系統等配套設備的能耗.因此,本文主要研究數據中心IT設備的節能問題.本節將總結近年來使用廣泛的服務器系統和網絡系統的能耗模型,為后續高能效策略和算法的設計和構建提供基礎.
2.1.1 服務器設備的能耗模型
數據中心的服務器設備主要包括通用的計算型服務器和存儲型服務器.目前,數據中心應用最廣的服務器設備的能耗模型主要有加性模型和基于系統利用率模型.
加性模型指的是將整個服務器的能耗形式化成服務器子結構的能耗之和.核心思想是將擬合后的局部非參量函數組合在一起以建立目標模型,因此加性模型可以簡單地看作是一種線性回歸的改良版本.Roy等人[12]利用這種思想提出了一種簡單的服務器加性模型,該模型考慮了CPU和內存的能耗,其模型為
E(A)=ECPU(A)+Ememory(A),
其中,ECPU(A)和Ememory(A)分別表示運行算法A時CPU和內存消耗的能量,具體計算細節詳見文獻[12].此后,很多研究者圍繞該模型進行了細化和完善,這些工作[13-15]主要著眼于將更多的服務器能耗部件考慮進模型,比如磁盤、IO設備、網卡等.此外,還有一些研究[16-18]將服務器主板的能耗考慮進去,或者干脆直接將這部分能耗看作一個常量加到模型中[19].然而,這些模型的通病在于現有的平臺只可以測量出服務器總能耗,而這些子系統的精確能耗值尚不能獨立地測量出來[20].
除了加性模型之外,另一類最常用的服務器能耗模型是基于系統利用率的模型.人們觀察到服務器系統能耗由靜態能耗與動態能耗2部分組成,而系統的動態能耗與各個子系統的資源利用率相關,因此將子系統資源利用率作為變量納入服務器能耗模型之內.考慮到CPU是服務器各個子系統中能耗最大的部件,通常將CPU的利用率作為服務器系統能耗模型的變量.這類模型最早是將CPU的運行時鐘頻率作為變量納入能耗模型中進行計算[21-22].這類研究基本上可以看作基本數字電路級功率模型[23-24]的一個擴展,將CPU的能耗形式化為
P=c0+ACV2f,
其中,c0為CPU的靜態功率,ACV2f是其動態功率.A為轉換系數,C為電容,V為電壓,f為時鐘頻率.對于特定的硬件,c0,A,C均為常數.而V與f成正比,所以CPU的動態能耗可以認為是與其時鐘頻率成3次方關系.又因為f與系統運行速度s成正比例關系,因此,相關研究[25-26]建立了動態功率P與運行速率s(s>0)之間的關系為
P(s)=σ+μsα,
其中,σ為靜態功率,μ和α為常數,與具體的硬件設備有關,α>1.此類模型另一個常用的方式是通過預估系統各個部件的功率情況,采用線性回歸的手段得到服務器與各種資源利用率的函數關系[27-30].對系統各個部件的功率預估可以采用入侵式和非入侵式2種策略.然而,這種基于歸回分析的方法需要針對特定的服務器做大量的實驗,以得到相應服務器的能耗參數.除上面2種模型之外,還有一種使用廣泛的基于利用率的功率模型,由Fan等人[31-32]提出.該模型自提出后,一直被用來對數據中心能耗進行建模,在數據中心能耗研究領域影響甚是深遠.模型提出者證明,線性功耗模型可以更加精確地追蹤服務器系統的功率使用情況.在假設服務器處于關閉狀態下功率近似為0的條件下,可以將任何一臺服務器在任意CPU利用率u情況下的全系統功率形式化為表達式:
Pu=(Pmax-Pidle)u+Pidle,
其中,Pmax和Pidle分別代表服務器在全速率工作和空閑狀態的平均功率.
加性模型和基于系統利用率的模型是當前數據中心能耗研究中應用最廣的服務器能耗模型.除此之外,學術界針對服務器的能耗還提出了一些其他模型[33],在此不一一列舉.
2.1.2 網絡系統的能耗模型
本文中我們全面考慮數據中心網絡的能耗行為,具體來說,包括連接數據中心內部各個服務器設備以及連接不同地域分布的數據中心站點之間的網絡系統的能耗模型.
從全局角度對數據中心網絡能耗行為進行建模的研究主要采用的是加性模型,將網絡全局能耗拆分為3個部分能耗之和,即網絡鏈路、網絡設備和網絡接口3個部分.通常情況下,普通網絡接口能耗所占比例很小,因此一些研究在建模時直接將該部分能耗忽視,或者將網絡接口能耗整合進網絡鏈路或者是網絡設備能耗中,不再單獨考慮,該類模型的典型表達式[34-38]為
其中,a(u,v)是鏈路(u,v)的能耗,b(u)是網絡設備(交換機或者路由器等)u的能耗,Xu,v為二元變量,代表鏈路(u,v)的狀態是開啟或者關閉,Yu也是二元變量,代表網絡設備u的狀態是開啟或者關閉.對于給定的網絡場景,鏈路的能耗與網絡設備的能耗均是固定不變的常量.
另一些研究側重于研究數據中心網絡設備,尤其是交換機和路由器的能耗模型.這一類研究主要借鑒于對服務器能耗的研究[33],也主要分為2種:加性模型和基于利用率的模型.具體的模型刻畫過程在此不再贅述.
為了保證對用戶提供穩定和高質量的計算服務,不管當前負載水平如何,傳統數據中心內的IT設備都是以最大運行速率運行,造成了大量的能耗浪費.對上述數據中心服務器系統和網絡系統的能耗模型進行分析可以很容易得到節省數據中心能耗的基本思路.最直觀的方式是讓處于空閑狀態的IT設備進入休眠或者關閉狀態;其次是使得設備可以根據當前負載水平動態調整設備電壓和CPU運行的時鐘頻率.總結起來有2個方面的內容:1)在構建數據中心時,淘汰落后的設備和儀器,選用更先進和能效比更高的設備節點等.該方法注重于提高單個設備本身的能量利用效率;2)通過優化數據中心IT設備的資源和任務調度和分配方式來提高整體資源的能耗利用效率.對具有節能功能的IT設備的研究工作主要集中于設備本身硬件的升級換代,這方面的研究超出了本文的討論范圍.優化數據中心IT設備的資源和任務調度依賴于采用的調度策略和算法的優劣,本文將在第4節重點對這部分內容進行總結.
目前對數據中心進行節能的研究方法主要是將上述2種方法進行結合,即在部署具有節能功能的IT設備的數據中心內,通過優化數據中心IT設備的資源和任務調度和分配方式來提高數據中心整體資源的能耗利用效率.該方法包含2個核心要素:首先數據中心設備具有節能功能,其次設計有效的資源調度和任務分配策略和算法指導資源的優化配置,使得更多的設備可以最大程度地節省能耗.根據不同的應用場景和需求差異,目前最主流的數據中心IT設備節能機制可以分為3種:
1) 休眠機制.在IT設備運行的過程中,系統不可避免會在不同時間段內處于空閑狀態,該狀態下設備消耗額定功耗的能量卻未進行任何有效的計算,此時如果將設備狀態切換至休眠或者關閉狀態,可以減少空閑狀態下的能耗浪費.事實上,目前大部分設備在工作和休眠之間還存在多個對應不同能耗水平的休眠狀態.然而,在不同的休眠狀態下將設備喚醒至工作狀態需要花費不同的時間.一般來說,隨著休眠深度的增加,設備消耗的能量也相應減少,而從休眠狀態下喚醒該設備需要的時間也相應的延長.實現通過休眠的方式使全局設備節省能耗最多且對服務性能損失最小化這個目標需要通過設備間的配合和合理的資源調度策略來實現.通常的做法是采用資源聚合的思路將任務合并到盡可能少的物理機器上運行,或者用盡可能少的數據鏈路傳輸給定的數據傳輸任務.該做法的難點在于如何在保證各種服務質量的情況下使得可節省的能耗最大化.
2) 速率縮放.在運行過程中,不管當前負載水平如何,傳統的設備都是以最大運行速度運行.而設備的能耗與其運行速度成正相關,因此在負載水平低時大量能耗被浪費.調整設備運行的電壓或者時鐘頻率、速率等,使之適應不同的負載水平,以節省設備動態能耗的方法被稱作速率縮放節能機制.通常而言,設備的能耗是設備運行速率的超線性冪函數(例如y=a+bxn,n>1),因此,降低設備能耗往往意味著調低設備的運行速率.然而,低速運行的設備需要花費更長的運行時間來完成給定的計算任務,由此將導致對服務質量的影響.因此,利用速率縮放機制進行設備節能的關鍵問題在于如何權衡能耗與服務性能之間的關系.

Fig. 2 Data center energy saving strategy classification圖2 數據中心節能策略分類標準
3) 混合策略.除上述2種節能策略外,目前研究比較多的還有混合策略.顧名思義,該策略就是將休眠機制和速率縮放機制結合起來考慮,兩者的結合給設備的節能提供了更多的潛在節能空間.然而,采用速率縮放機制進行節能的策略會盡可能降低設備運行速率,與之相反,采用休眠機制的節能策略會盡可能提高設備的運行速率以產生更多的設備空閑時間片供設備休眠省能.如何去尋找2種機制的平衡點和最優折中點是混合策略機制的最大挑戰.
在數據中心內,IT設備的節能機制主要配合虛擬化技術進行.近年來,數據中心虛擬化技術的發展給數據中心節能帶來了新的活力.虛擬化技術最初用于在1個宿主操作系統上運行多個客戶操作系統(稱為虛擬機),通過1個管理程序來生成模擬真實計算環境的虛擬環境,然后在這些虛擬機上分發真實資源.這項技術使得服務軟件不再需要固定占用某些硬件資源,而是能夠以非常靈活的方式部署,使得各種軟件可以更加靈活利用硬件平臺;此外,數據中心的計算能力不再由物理機的數量決定,而是隨著資源的動態變化而增減,也就是所謂的彈性計算.彈性計算環境中,虛擬機可以在不同物理計算位置間遷移與合并,還可以隨時被快速啟動和關閉刪除,這樣的靈活性使得人們可以從優化數據中心能效的角度來對數據中心資源進行合理分配與調度以提高資源使用效率.例如,通過將適量虛擬機合并到盡可能少的物理設備中,以最大化可關閉的物理設備,從而最大化能耗節省;再例如,可以通過合理分配虛擬機在不同物理位置上設備的分布,使得全局設備能耗最小.虛擬化技術的引入,使得數據中心資源和任務的分配可以更加的靈活,從而提高了數據中心節能的潛在空間.隨著云計算和大數據的蓬勃發展,虛擬化技術在全球范圍內的數據中心內均有廣泛的應用,因此,針對虛擬化資源的調度與分配研究逐漸成為數據中心節能研究的熱點之一.
面對數據中心的高能耗與低利用率,近幾年很多研究者紛紛提出了降低能量消耗、提高能效的方案,這些方案基本上都是圍繞上節中總結的節能機制來展開的.本節首先總結現有的優化數據中心能效策略的分類標準,然后依據上述總結的分類標準對現有節能策略進行對比分析.
針對數據中心IT設備能效優化策略的分類方法有很多,已有的分類標準可以總結如圖2所示.最直觀的分類標準是按照優化部件劃分的.依據數據中心IT設備的能耗情況可以將節能策略分為兩大類:針對服務器設備的節能策略與針對網絡設備的節能策略.其中,2種節能策略有時候需要彼此的相互配合,例如,為了達到最佳的網絡節能水平,需要聯合優化服務器的部署產生有利于網絡節能的流量分布.
節能策略可以根據實施對象的節點數目進行分類,例如單處理器節點、多處理器節點、單個數據中心以及跨數據中心.不同場景下需要考慮的因素不同,因此針對不同節點數目設計的節能策略也不盡相同.針對單節點的節能策略主要通過單個節點的資源分配使得能耗與負載成正比例;對于多處理器的節點就要涉及到節點內部不同處理器之間的任務分配,這時候已經上升成全局視角的能耗優化;對于數據中心內部的節能機制也是全局視角的能耗優化,不同的是數據中心內部能耗優化不僅涉及服務器,還涉及數據中心內網能耗優化;至于跨數據中心,需要在更高的層次考慮整個分布式系統的資源調度問題.
按照實現方法可以分為動態速率縮放、休眠機制、混合策略以及虛擬化4個類別.這個分類標準主要是基于節能機制的不同劃分的,各個實現方法可以相互配合.例如虛擬化技術通常都需要配合另外3種機制才可以發揮最大的效果,而混合策略本身就是動態速率縮放與休眠機制共同配合的產物.
不同的節能策略需要的信息輸入也不盡相同.例如一些策略需要提前知道系統的歷史數據,將歷史數據進行分析處理,從中總結出一些規律和特征,然后根據這些特征提出特定的節能策略;另一些策略不需要提前知道系統的歷史數據,策略本身可以根據實時數據進行自適應迭代,或者策略本身就是固定不變的.2種方式各有利弊,前1種可能有比較好的節能效果,但是歷史數據的獲得本身是困難甚至是不可能完成的任務;后者不需要歷史數據輸入,但是如何做到實時對系統狀態的變化做出高效的反應也是個非常具有挑戰性的問題.
數據中心的負載大體可以分為3類:預測數據、及時交互型以及批量處理型.針對不同的負載提出節能策略對時間敏感程度不同.針對即時交互型負載的事件敏感度最高,其次是批量處理型,對于預測數據的事件敏感程度最低.
針對上述各種的分類方法涌現了很多的研究成果,在此不再一一詳細描述.接下來主要介紹數據中心能耗系統模型的構建和算法設計問題.
在本節中,我們將從節能部件的角度對近年來數據中心能耗系統的模型構建方法與算法設計進行總結,分為對服務器端節能和對網絡端節能2類.
采用速率縮放機制進行服務器節能的研究主要的思想是降低服務器的運行速率.然而,降低運行速率會引起任務完工時間延長,因此,采用該種機制進行節能時,必須要考慮到對完工時間的影響.首先將采用速率縮放機制的服務器節能問題描述如下:
假設處理速度為s時的服務器能耗函數為p=sα,α>1.給定n個相互獨立的任務集J={J1,J2,…,Jn}和m個同構或者異構的服務器節點集合P={P1,P2,…,Pm}.每個任務Jj的需要執行的周期數為wj.假設任務具有搶占性,即1個服務器節點1個時刻只能處理1個任務.所有任務在調度之前已經到達,并且有相同的截止時間C.在時刻t,服務器節點執行任務Jj的處理速度為sjt,相應的功耗為(sjt)α.記cj為完成任務Jj的時間,xij(i=1,2,…,m;j=1,2,…,n)為0或1的指示變量,表示Jj是否分配給服務器Pi處理.問題是如何為每1個任務分配1個服務器節點,并且為每個任務設置處理速度,使得在滿足任務截止時間限制條件下,所有服務器節點消耗的總能耗最小.該問題可以被形式化為約束的優化問題:
s.t.cj≤C, ?Jj,
(1)

(2)
xij∈{0,1}, ?Jj,Pi∈M,
(3)
其中:式(1)限制所有任務均在截止時間之前完成;式(2)限制每個任務只能部署在1臺服務器上;式(2)為0-1二元變量約束.該問題的求解可以借鑒多處理器上最小完工時間的調度問題.Yao等人[25]最先使用了速率縮放機制來研究單服務器節點上的最優能耗調度問題.此后,針對不同的限定性約束和不同的計算環境平臺設置,研究者們紛紛提出了不同的節能資源調度方法以及得到了相應的結果,歸納如表1所示:

Table 1 The Classification of Energy Efficient ResourceScheduling Strategies表1 節能資源調度策略分類
然而這些研究都假設每個任務能在所有的服務器節點上運行,但是在當前的數據中心計算系統中任務與服務器節點間存在選擇關系,即任務只能在部分的服務器節點上運行.這個特性主要源于3個原因:
1) 由于計算系統中的服務節點會在不同的時間點采購,所以表現出不同的計算能力和差異配置[50].比如需要GPU輔助來執行的任務必須在有GPU的服務器節點上執行[54];
2) 有些服務器節點與某類任務之間存在定制的關系,即這些服務器是專門針對這類任務設計的,所以這類任務應該安排在最適合它們運行的那些服務器節點上[55];
3) 當考慮輸入端的數據時,任務需要安排在包含有它的輸入數據的服務器節點上運行,比如Hadoop應用需要考慮數據的局部性[56].

伴隨著人工智能的熱潮,GPU被大量用于數據中心應用加速.在混合CPU-GPU集群中,每個服務器同時配備有多個CPU-GPU對.每個CPU-GPU對可以處于3種狀態,即關閉、工作和空閑,其中CPU與GPU處于相同的狀態.然而,由于GPU具有與CPU不同的能耗特性,因此,現有的CPU節能方案不能直接用于CPU-GPU混合框架的節能.文獻[52]研究了在CPU-GPU混合數據中心內的節能問題.由于在通常情況下,1個GPU處理器的能耗遠大于1個CPU處理器,因此,該研究假設CPU功率為定值,并將CPU的功率看作是GPU卡的靜止功率的一部分,CPU的運行時間也與GPU的運行時間保持一致.1個GPU卡包含1個多核GPU模塊和1個GPU存儲模塊.GPU核以及GPU存儲均可以獨立調整對應的電壓和頻率,從而改變整個GPU卡的運行速率和對應的能耗.因此,一個給定的任務在特定的CPU-GPU服務器中運行的功耗和運行時間可以建模為

其中,P(VGc,fGc,fGm)和T(VGc,fGc,fGm)分別表示CPU-GPU的功率以及運行時間,PG0表示GPU卡的靜態功耗(包含CPU功率),fGm表示CPU存儲的頻率,VGc和fGc分別表示GPU核的電壓和頻率,t0表示除GPU卡外其他部件的運行時間(包含CPU運行時),而γ,cG,δ,D均為參數.在該模型下,處理單個任務的能耗可以計算為
EJ=P(VGc,fGc,fGm)×T(VGc,fGc,fGm).
優化目標是最小化執行所有任務所消耗的總能量,并且保證每個任務在其完工時間前完成處理任務.該問題的求解仍舊是NP難的,而求解的關鍵點在于合理運用VGc和fGc之間的超線性關系.文獻[52]首先針對單個任務在放松完工時間的約束以及固定GPU存儲頻率的前提下求解最優的GPU核電壓和頻率.在該基礎上利用求導的方式得到最佳的GPU存儲頻率設定.隨后對完工時間超額的任務進行縮放,得到最優的設定值.基于單任務最優方案可以由截止時間最短優先的貪心思路得出多任務的啟發式方案.類似的CPU-GPU混合節能方案還有文獻[53,59].隨著深度學習類應用在數據中心的占比不斷攀升,針對深度學習框架下的CPU-GPU混合架構節能優化研究逐漸引起人們的關注,然而,目前尚缺乏該領域的研究工作.
除速率縮放機制外,休眠機制也廣泛應用于數據中心服務器系統的節能領域.休眠機制的基本思想是將處于空轉狀態的服務器節點調至低功耗狀態,從而節約能量消耗.因此,研究的問題一般可以概括為如何在保證完成任務的前提下,確定什么時候切換低功耗狀態以及保持低功耗狀態多長時間,使得總能耗最低.最基本的采用休眠機制的服務器節能模型可以構造為
其中yi為0-1二元變量,代表服務器i的開關狀態.休眠機制需要將任務集中合并到盡可能少的服務器上運行,使得處于空閑狀態的、可關閉的服務器盡可能多,從而使得能耗最小化.由于真實情況下物理服務器計算資源有限,因此不能夠無限度地將所有任務集中到幾臺服務器中運行.假設所有服務器i的資源容量為Ci,而每個任務需要的資源為cj.考慮與前面描述的速率縮放機制下同樣的數據中心服務器系統場景,基于休眠機制的服務器系統節能問題可以形式化為優化問題:

(4)

(5)
xij≤yi, ?Jj;
(6)
xij,yi∈{0,1}, ?Jj,Pi;
(7)
其中,目標函數是處于開啟狀態的服務器總能耗.式(4)限制合并到服務器上運行的任務總資源需求量不能超過該服務器的資源容量;式(5)限制每個任務只能部署在1臺服務器上;式(6)限制只要有任務運行,服務器必須處于開啟狀態;式(7)為0-1二元變量約束.
傳統的計算集群中1個服務器節點通常只運行1個應用,在應用的資源利用率很低時會造成資源的浪費和多余的能量消耗.而現代數據中心內的虛擬化技術通過資源復用,可以讓1個服務器節點運行多個部屬在虛擬機上的應用,從而提高了服務器節點的資源利用率.虛擬化的這個特性為數據中心提高能效帶來了新的思路:當多個服務器節點的資源利用率都很低時,可以聚合部署在它們上面的虛擬機,從而減少開啟的服務器節點數量以節約能量消耗.目前已有一些研究通過讓資源利用率低的應用部署到不同的虛擬機上,然后共用同1個物理服務器節點,從而提高服務器節點資源利用率和降低能耗[60-66].這些研究大都利用虛擬機的歷史使用資源情況確定聚合時給虛擬機分配的資源,然后轉化為各種背包問題,以解決虛擬機的部署和調度.
然而,上述虛擬化聚合技術存在2點問題:1)在動態虛擬機聚合的過程中,為滿足峰值計算而設計的靜態虛擬機資源分配方法將導致資源利用率低;2)虛擬機聚合過程中未考慮因為虛擬機的遷移而導致的服務質量(service level agreement, SLA)損失問題.這些問題嚴重影響了上述虛擬化聚合技術在實際數據中心內的應用.
為了解決2個問題,文獻[67]研究了虛擬機聚合過程中服務質量的優化問題,其中包括了為虛擬機分配資源的隨機規劃以及運行時的虛擬機動態整合算法這2方面的內容.主要解決3個問題:1)設計隨機規劃方法解決虛擬機在動態運行中的資源分配問題;2)根據虛擬機在時間片上的資源需求,設計虛擬機動態聚合算法;3)采用PlanetLab提供的真實負載,設計實驗來評估算法在節約能量消耗與保障服務質量之間的權衡作用.
考慮1個包含m個同構或者異構的服務器節點M={1,2,…,m}.在時刻t有nt個虛擬機在運行,每個虛擬機裝載1個應用實例.求不同時刻運行的服務器節點數Mt?M,使得將空轉服務器關閉后數據中心總能耗最低.首先建立物理服務器的功耗模型與服務器節點CPU利用率u之間的關系:
P(u)=Pidle+(Pbusy-Pidle)×u,
其中,Pidle和Pbusy分別表示服務器節點在CPU空轉和滿負荷運行狀態下的功耗.當分配給虛擬機的資源少于完成應用請求所需要的資源時,平均響應時間會超過請求定義的服務質量要求,因而產生服務質量損失.時刻t的CPU利用率ut對服務質量損失代價建模為
其中,λt定義為時刻t的請求數目,要求的響應時間為ta.T(ut,λt)為通過經驗學習得到的該時刻的真實響應時間.g(·)為罰函數,表示對返回的響應時間大于要求的應用時間ta部分的懲罰.定義時間表tk為虛擬機觸發遷移的時間,τ為遷移間的持續時間.在每個調度時間表tk=kτ,k=1,2,…,T,虛擬機的資源需求uk都將進行重分配.定義T(uk,λt)為請求返回的響應時間.文獻[68]的研究表明CPU利用率ut與請求數目λt成正比,因此,通過經驗學習的方法可以得到請求返回的響應時間可以用計算為
T(uk,λt)=(auk+b)ut,
其中,(a,b)為2個調優參數.在各個時間間隔段上CPU資源利用率ut已知的情況下,最優的CPU分配需求uk的值可以通過最小化問題得到:

上述模型完成了最小化能量消耗和最小化服務質量損失雙目標的虛擬機聚合任務,其中,Pidleuk表示分配的CPU資源為uk時,該虛擬機消耗的CPU靜態功耗.算法求解過程中,為了降低求解的時間復雜度,文中首先使用裝箱問題中的FFD算法估算應該處于開啟狀態的服務器節點數目;然后計算各個虛擬機之間的喜好程度;最后使用穩定匹配算法,求得虛擬機在服務器節點上的部署和調度,實現優化能耗與應用性能的目標.在真實數據集上的評測結果表明,文中提出的算法可以大幅度地節省數據中心能耗,與此同時亦能降低服務質量的性能損失,此外,文中的動態虛擬機聚合算法并不需要繁重的計算開銷,尤其適合于含有大量虛擬機的現代數據中心.類似的研究還有文獻[69-72].
在優化數據中心能耗的同時,另一個需要考慮的是如何處理聚合在物理服務器節點上的虛擬機之間的性能干擾問題.這種性能干擾主要是由于服務器節點上的虛擬機對共用資源的競爭而產生的,常見的如最后一級共用寄存器、內存總線、數據和網絡帶寬等的競爭.虛擬機間性能干擾將會嚴重影響部署在虛擬機中運行的應用程序的性能.
一般來說,虛擬機間的性能干擾主要由于2個原因:1)虛擬機間資源需求重合;2)虛擬機間生命周期重合.如果把虛擬機間不同組合與虛擬機生命周期均考慮在虛擬機的節能部署內,那么虛擬機的部署和調度問題將更加具有挑戰性.這是因為:一方面,聚合運行生命周期相同的虛擬機到同一物理服務器節點上能提高資源利用率,從而降低邊際成本;而另一方面,由于性能干擾的作用,降低虛擬機間生命周期的重合時間能降低應用性能的下降比率.也就是說,能加快部署在虛擬機上的應用的完工時間.
目前關于探索能量消耗與性能干擾之間量化權衡關系的研究還比較少,文獻[73]對能耗與性能干擾進行了統一的建模,并且在虛擬機部署和調度中同時考慮了虛擬機間的組合以及不同虛擬機生命周期的重合,以通過虛擬機部署和調度來降低數據中心能量消耗,同時降低虛擬機之間的性能干擾.
用戶為提交給云數據中心的每個虛擬機請求vmj都指定了1組參數Ij=[aj,pj,Rj],其中aj表示資源請求到達的時間,pj為虛擬機獨占1個服務器節點時的執行時間,該值可以從事例信息管理器中得到.資源向量Rj=[Rjk](k=1,2,…,s)表示虛擬機運行時所需要的計算資源情況.當每個虛擬機到達時,需要對其進行部署和調度.把時間劃分成離散的時間片,t=1,2,…,T,記xij為0或者1的指示變量,xij(t)=1表示在時間片t,虛擬機vmj部署在服務器serveri上面.定義ci(t)為服務器節點serveri在時間片t上消耗的能量,因此有ci(t)=P(u(t))τ.定義Q(t)為時間片t上運行的虛擬機集合,D(t)為在時間片t上剛好完成任務的虛擬機集合.因此,vmj(j∈D(t))實際執行時間為:tj=t-aj.定義虛擬機性能下降的懲罰函數為凸函數f(·),并且用f((tj-pj)pj)=α(tj-pj)pj-1 (tj≥pj)作為一個適用模型對超出獨占服務器節點運行時間pj的懲罰.由上述定義可以將降低能量消耗與減少性能損失這兩者之間均衡的虛擬機部署和調度問題形式化為優化問題:

(8)

(9)
xij(t)≤xij(t+1),?t,j?D(t);
(10)
xij(t)∈{0,1}, ?i,?j,?k;
(11)
其中,目標函數表示最小化數據中心能量消耗與性能損失代價之和,調節參數β>0表示能量消耗與性能損失代價之間的權重.式(8)約束了服務器節點上部署的虛擬機資源需求總量不超過服務器節點的資源容量;式(9)限制在同一時刻1個虛擬機只能在1個服務器上運行;式(10)限制1個虛擬機只能部署在1個服務器上.然后根據不同虛擬機間的組合(即哪些虛擬機分配到同一個物理服務器節點上運行)以及虛擬機間生命周期的重合提出和實現了離線與在線的部署和調度方法.實際運行結果表明:本文提出的方法能大幅度地改進能耗和性能下降兩者的總和,改進能量消耗和降低由于競爭產生的性能損失.關注數據中心虛擬機間干擾的節能研究還有文獻[74-77].
本節主要總結了近年來針對數據中心服務器系統的能效優化研究,包含模型的構建以及對應的能效方案.總而言之,在現代數據中心內進行服務器能效優化是非常復雜的問題,需要考慮到應用與服務器之間的選擇關系、虛擬機的動態資源分配、虛擬機遷移造成的性能損失、虛擬機之間的干擾等多方面因素.
網絡設備的節能機制主要借鑒與服務器系統的節能研究,網絡設備的能耗函數可以刻畫為
其中,函數f(·)描述了鏈路傳輸速度x與該鏈路能耗之間的對應關系.σ,μ和α均為由鏈路性質決定的常數.通常情況下,有α>1.當σ=0時,該函數為速率縮放機制的能耗函數;當μ=0時,該函數為休眠機制的能耗函數;當σ>0且μ>0時,為混合機制的能耗函數.

可以描述網絡中的流量守恒約束.


(12)
xe≤ce, ?e;
(13)
yi,e={0,1}, ?e;
(14)
yi,e: 流守恒;
(15)
其中:式(12)計算鏈路總流量;式(13)限制鏈路e的鏈路速度不可以超過容量限制ce;式(14)二元變量yi,e表示請求i是否通過邊e;式(15)為流量守恒約束.該模型是個整數規劃模型,對于大多數能耗函數而言,這是NP難問題,通過對該問題進行適當的約束,利用啟發式算法可以得到不同形式能耗函數的近似解.
現有的數據中心網絡節能方案僅僅考慮如何最大限度地降低網絡能耗,并沒有協同優化網絡性能.然而,網絡能耗和性能是2個互相矛盾的優化目標,降低網絡能耗通常需要以犧牲網絡性能為代價.無法保障網絡性能在很大程度上局限了這些節能優化方案在實際系統中的部署和使用.通常網絡的性能可以用吞吐量或網絡延遲來描述.然而,數據中心內各種網絡流對性能的要求各不相同,例如來自實時應用的網絡流需要低延遲傳輸以提高服務效率,而后臺備份類應用的網絡流一般對延遲沒有太高的要求,但需要較大的網絡吞吐量.文獻[78]對網絡能耗與性能間的權衡問題進行了研究.文中指出,不論來自何種應用的網絡流,最重要的性能指標可以概括為:網絡流能否在規定的時間內完成傳輸.因此提出以網絡流完成時間作為最重要的統一性能指標對網絡的性能進行保障.
數據中心內的每個應用程序建模成一系列具有完成時間限制的網路流的集合,其中每條網絡流包含了一定量的需要在一定時間內在網絡上從某個給定源點路由到給定的目的地點的數據.對于時間區間[T0,T1],給定網絡流J={j1,j2,…,jn},ji=wi,(ri,di),(pi,qi),其中wi為數據包的數據量,(ri,di)為網絡流到達時間和完成時間,(pi,qi)為網絡流的源點和目的點.定義Si=[ri,di]為網絡ji的跨度,定義每條網絡流的密度為Di=wi(di-ri).因此調度被定義為集合:
S={(si(t),Pi)|?ji∈J,?t∈[ri,di]},
其中,si(t)表示網路流ji在時刻t的傳輸速率,Pi是為網絡流ji選擇的路由路徑上所有鏈路的集合.定義Je∈J為鏈路e上路由的網絡流集合,則約束
限制了對于任意鏈路e,Je的任意子集內的網絡流都可以在該子集中所有網絡的最遲完成期限前處理完畢.
文中對2個決策過程從網絡流的層面進行優化,即網絡流的調度和路由.研究如何合理地調度網絡流并對網絡流分配適當的路由路徑,以達到網絡能耗的最優化,同時滿足所有網絡流的完成時間限制.類似的考慮網絡流截止時間的還包括文獻[79-81].
如果對速率縮放機制中設備速率數值的選擇做出限制,就可以得到速率自適應機制,該機制在實際應用中更加廣泛.速率自適應機制的核心思想是通過實時調整網絡設備的接口速率來達到節能的目的.與速度縮放機制不同的是,速率自適應機制要求網絡設備具備多個候選的運行速率,在實際運行中網絡設備根據自身負載從這些候選速率中選擇合適的速率運行.由于較低的速率通常具有更低的功耗,因此該技術可以在很大程度上消除網絡冗余,降低網絡能耗.由定義可以很容易得出在該機制下的鏈路容量約束可以建模為
xe≤ze,ze∈{R1,R2,…,Rk}, ?e,
其中,ze代表設備所選擇的有效運行速率,R1,R2,…,Rk代表k種可供選擇的運行速率.Gunaratn等人[82]最早研究這一類問題,他們提出了一種鏈路速率調整機制,該機制綜合考慮了當前的鏈路負載、緩存隊列的長度以及鏈路利用率等信息,以確定是否調整鏈路速率.當鏈路的負載較低并且緩存隊列長度和鏈路利用率均低于預設的閾值時,網絡鏈路將降低其傳輸速率;而當鏈路負載較大并且緩存隊列長度和鏈路利用率高于預設的閾值時,網絡鏈路將提高其傳輸速率.當網絡流量狀況發生改變導致鏈路的速率需要調整時,鏈路的一端會向對端發送請求,并在該請求中攜帶發送端所期望的鏈路速率信息.當另一端接收到該請求時,判斷并確定是否接受該請求以進行速率調整.以上機制能夠使鏈路速率根據負載動態變化,因此可以有效地降低網絡鏈路的能耗.然而,頻繁的速率調整會帶來一定的額外能耗開銷,并且會因為調整期間的延遲對網絡的穩定性造成不利影響.目前ALR技術已經被一些通用網絡設備所支持,例如 InfiniBand.
設備休眠也被廣泛應用在網絡節能研究中.IEEE已經專門成立了針對以太網網絡設備節能技術的討論組EEE(Energy Efficient Ethernet Task Force),并且已經將以太網鏈路休眠技術標準化為 IEEE 802.3az[83].基本的基于休眠機制節能模型的網絡能耗優化問題可以按如下方式建模.假設給定網絡G=(V,E),其中,V代表節點集合,E代表鏈路集合,假設每條鏈路e都有容量限制值Ce,鏈路均為雙向鏈路,而且彼此相互獨立.在時刻t,給定網絡流集合,定義網絡流為一個序列的數據包,這些數據包包含同樣的頭域信息(例如源目的IP地址,目的節點的端口).為了避免數據包亂序重排,假設每個數據流中的所有數據包都只走同一條路徑.假設每條鏈接e在開啟狀態消耗的功率為Pe,處于關閉狀態的鏈接不產生能耗.定義xe(t)∈{0,1}為鏈接e在時刻t的狀態,xe(t)=1代表鏈接e在時刻t處于開啟狀態,反之表示處于關閉狀態.定義fe(t)為所有源節點對經過鏈接e的總流量.給定時間限制[t0,t1],在該時間段內的網絡總能耗最小化的問題可以形式化為優化問題:
s.t. 0≤fe(t)≤xe(t)Ce, ?e∈E;
(16)
xe(t)={0,1}, ?e∈E;
(17)
fe(t): 流守恒, ?e∈E;
(18)
其中:式(16)限制網絡中每條鏈接上的流量不能超過流量的容量限制;式(17)是二元變量限制;式(18)是流量守恒限制.對該問題的求解意味著為每個網絡流分配合適的路徑,然后為不同鏈接選擇合適的開啟或者閉合狀態,使得在給定時間區間[t0,t1]內網絡中總能耗最小.顯而易見,上述問題是個整數規劃問題,因此,對上述問題的求解是NP難的,目前的研究普遍尋求近似算法或者啟發式算法進行求解[34,84-86].
傳統網絡模型中網絡設備的主要功能是負責數據包的轉發.然而,為了豐富網絡的功能,越來越多的中間件被引入到網絡中.這些中間件負責諸如防火墻、深度包檢測或代理等各種附加網絡功能.由于這些中間件一般為特殊硬件設施,其部署和管理通常需要人工參與.隨著網絡功能的不斷復雜化和網絡規模的不斷擴大,在網絡中正確高效地進行中間件的布置及協調已經成為網絡管理的一大挑戰.為了解決這個問題,近年來研究人員提出了新的網絡模型——網絡即服務(network-as-a-service, NaaS).相比于傳統模型,該模型下的網絡節點由通用服務器構建并基于虛擬化技術運行網絡功能,并且由1個基于軟件定義網絡的邏輯集中式的控制單元負責網絡功能的部署與協調.在傳統數據包轉發網絡中,鏈路利用率是網絡流聚合的首要標準.然而這在 NaaS 模型下不僅要考慮數據傳輸的擁塞,還需要考慮其他資源例如處理單元或者內存等的過載問題.文獻[87]研究如何在多重資源維度環境內進行網絡的優化,并以網絡能耗優化問題為例進行詳細的闡述.

該約束限制了所有流經相同節點的網絡流的總資源請求不超過該節點的總資源.當K=1時,上述優化問題對應于一般的容量限制的網絡設計問題,該問題已經被廣泛研究.
上述多重資源節能路由問題被證明是不存在漸過性多項式時間近似方案,除非P=NP.文獻[87]中提供了一種基于迭代的路由方案,該方案通過不斷選擇網路流來最大化占用已經開啟的網絡節點的剩余資源,并且基于網絡流的資源請求向量和網絡節點的剩余資源向量的分布情況來為網絡流選擇合適的路由路徑.通過對網絡拓撲的規律性加以利用,文中又提出了一種拓撲感知的啟發式多重資源節能路由算法.該算法可以在提供相當水平的節能效果的同時顯著地降低運行時間.
針對數據中心網絡的能耗或性能的優化通常基于流量工程方法,通過聚合網絡流來調整網絡鏈路的負載.流量工程方法需要基于網絡流量矩陣來設計,而實時獲取數據中心網絡上的流量信息很難實現.因此,該類方法通常需要分析網絡流量在不同時間的重復性特征,并根據歷史流量數據來對網絡流量進行預測.然而,文獻[88]指出數據中心網絡的流量具有高突發性,并且不具備細粒度特征信息,很難基于歷史流量信息進行精確預測.因此,基于流量預測的網絡流量工程優化方法在實際運行中的效果也就很難預知.
不同于傳統網絡,數據中心網絡具有一些獨特的特征可以被利用以輔助優化方案的設計.這些特征包括:1)拓撲的規律性.相比于傳統網絡,數據中心網絡拓撲例如fat-tree,BCube,DCell等通常具有非常高的對稱性與規律性;2)虛擬機布置.得益于虛擬化技術,在數據中心環境中,網絡流的端點可以通過虛擬機布置來進行確定;3)上層應用特征.云計算數據中心內運行的大部分應用都是基于MapReduce框架構建,這些應用會產生非常規律的通信模式.對這些通信模式信息加以利用,將可以構造出更加有效的網絡優化方案.
文獻[88]考慮數據中心內影響網絡流量特征的4個關鍵因素:上層應用通信特征、虛擬機布置、網絡拓撲和流量工程.結合這些因素,文中提出一種針對數據中心網絡能耗或性能優化的一般性框架.基于該框架,利用時域相關的模型來對網絡節能問題進行建模,并且對該問題的求解復雜度進行了理論分析.首先對文中的問題進行描述:
假設1組作業J需要在時間范圍[t1,tr]內被執行,每個作業j∈J由nj個任務組成,對于每個作業j,其任務之間的流量矩陣為Tj(t),其中t為指定時間范圍內的1個時間片.每個任務由1個虛擬機處理,所有虛擬機的集合為M.假設所有的虛擬機一旦被部署后將不會再次被遷移,此時網絡中總能耗可以表示為
其中,xv(t)表示交換機v在時間片t內的流量負載.目標是將所有虛擬機分配到物理服務器上,并且為所有的數據流選擇合適的路徑使得上述目標函數值最小.

一旦D(t)確定下來,網絡總能耗最小化的問題就退化成最基本的網絡能耗優化問題.在此之前,考慮到網絡應用環境為數據中心網絡,假設該網絡按照目前數據中心應用最廣泛的FatTree來構建.因此,對于每個交換機v∈V,其承載的流量負載可以表示為
其中,xe為經過交換機v的總流量,ye為鏈路承載的總流量.因此,該網絡能耗最小化問題可以形式化為整數規劃問題.
該問題的求解也分為2個階段.首先,基于文中提出的3個針對虛擬機布置的原則,設計了有針對性的虛擬機布置方案,在網絡上生成了有利于流量工程優化的網絡流量分布.然后,分析了路由和節能之間的關系,并設計了可以獲得近似最優節能效果的網絡路由優化方案.最后利用模擬實驗對提出的方法的有效性進行了全面的驗證,并與其他常見的方法進行了比較.實驗結果表明:文中提出的優化框架能夠有效地提升網絡的能效.
本節主要總結了近年來針對數據中心網絡系統的能效優化研究,包含模型的構建以及對應的能效方案.現代數據中心已經成為各種新型網絡技術的應用主場,因此,進行數據中心網絡能效優化需要充分考慮到新型網絡拓撲特性、新型網絡模式特性、新型網絡應用特征等各方面的因素.
大數據和云計算的蓬勃發展促進了數據中心在全球范圍內的廣泛部署,與之同時帶來的能耗問題引起了學術界和工業界的廣泛關注.本文主要研究了基于資源和任務調度的數據中心節能機制和算法,重點對數據中心服務器系統與網絡系統2個能耗重點系統的能耗問題展開研究,首先分析2個系統的能耗模型,針對其共性與差異性分別總結對應的節能機制,在此基礎上結合目前相關領域最新的研究成果總結構建出2種系統的能耗模型,最后對模型的求解進行分析總結.
目前,數據中心能耗問題依舊是阻礙數據中心發展的巨大障礙,隨著世界范圍內能源問題的進一步惡化,數據中心的巨大能耗問題將變得越來越突出.近幾年學術界與工業界都在該領域進行了研究并取得了一定的成果,然而,還是存在很多問題和難題需要進一步的研究,具體總結為5點:
1) 缺乏針對數據中心多維資源的利用率、服務質量和能耗的綜合考慮.當前大部分研究集中通過資源調度來降低能耗或提高服務質量等方面,例如從節能架構的角度改造數據中心,通過關閉低負載設備、將負載合并到少數物理機器上來提高資源利用率等等.但是,在綜合考慮數據中心多維資源(計算、存儲、帶寬等)的利用率、保證服務質量和降低能耗方面的理論和技術的研究較缺乏;如何綜合考慮多維或多種資源的利用率和服務質量(包含用戶體驗)為系統建模是一個挑戰性的科學問題.
2) 缺乏針對多租戶數據中心資源協同、成本和能耗優化的理論與算法研究.多租戶數據中心具有租戶可以集中于自身業務而不必考慮信息基礎設施的管理和運作的優勢.但現在多租戶數據中心內的服務器由租戶控制,供應商難以干預,而整個數據中心難以協同運作,導致傳統數據中心的提高資源利用率和節能策略無法直接移植到多租戶數據中心.目前針對多租戶數據中心的研究較少,而針對多租戶數據中心資源利用率、能效成本優化的理論與技術研究尤為缺乏.
3) 缺乏跨域數據中心節點間資源調度和能效優化模型與算法的研究.處于不同地域的數據中心節點其運營成本不同、與客戶的物理距離不一樣,導致同一用戶的請求在不同的節點得到不同的服務質量;同時,不同節點處理同一個請求將花費不同的運營成本.因此,跨域數據中心面臨的最基本的問題是如何在多個不同地域分布的節點之間合理進行資源/任務的調度.目前已知該方面的研究缺乏數據中心節點間資源/任務調度、能效優化模型方面的研究,難以對提出的優化策略進行理論方面的分析與驗證,而且此類方法難以從跨不同域的整體范圍上得出優化的解決方法.
4) 缺乏跨域數據中心節點間新能源應用于負載調度的聯合優化研究.目前針對跨域數據中心節點間的多路能源的互補優化、兼顧新能源應用與負載調度、統一權衡節能與服務延遲等關鍵問題,缺乏模型和算法方面的基礎理論和技術;另外該方面的研究大多集中在解決依賴傳統能源的數據中心節能減排問題上,而缺乏對于多種新能源統一設計協調和調度的理論技術,例如尚未考慮到燃料電池這種有著截然不同的供電與成本特性的新興能源在數據中心環境下的應用.
5) 缺乏高效能的數據中心內/間全網互聯與傳輸機制.目前傳統TCP協議在當前數據中心應用中會造成性能瓶頸;云計算服務對網絡傳輸的使用特征使得傳統TCP 協議在低延遲高吞吐的數據中心網絡中存在嚴重的性能問題,如TCP incast、網絡流完成時間的長尾效應等.基于網絡即服務模型下,如何對數據中心網絡資源進行管理和優化(包括傳輸協議、數據的調度及路由等)以達到提高資源利用率和降低能耗的目的,是一個亟待解決的重要問題.