翟 暢 何 芳 趙彤洲 周 萍 李 慕
(1.武漢工程大學計算機科學與工程學院,湖北 武漢 430205;2.智能機器人湖北省重點實驗室,湖北 武漢 430205;3.湖北工業大學計算機學院,湖北 武漢 430064;4.中國科學院武漢物理與數學研究所,湖北 武漢 430071)
計算機CPU服務能耗指標的相關性分析
翟 暢1,2何 芳3,4,?趙彤洲1,2周 萍1,2李 慕1,2
(1.武漢工程大學計算機科學與工程學院,湖北 武漢 430205;2.智能機器人湖北省重點實驗室,湖北 武漢 430205;3.湖北工業大學計算機學院,湖北 武漢 430064;4.中國科學院武漢物理與數學研究所,湖北 武漢 430071)
由計算機的廣泛應用帶來的大量計算任務將導致能量消耗增高。計算機C PU承擔了主要計算任務,因此,分析C PU的服務能耗指標,準確找到影響能耗的重要因素能為面向綠色效能的服務選擇提供依據。本文利用能耗監測儀采集到的數據,構建了多元回歸模型及單變量和多變量相關性分析,并通過擬合優度進行評估,實驗表明,在利用馬氏距離剔除利群點后構建的多元回歸模型能很好地擬合整體樣本數據。
離群點;馬氏距離;多元回歸;擬合優度
基于互聯網的應用越來越普及,計算機的聯機事物分析及處理能力越來越強,因而處于網絡各節點上的計算機的各種能耗也隨計算任務增多而升高。在大數據分析中,往往需要分布式處理,并對數據中心的計算依賴程度更高,數據中心的能量消耗是非常重要的成本指標[1]。在涉及到大數據的分布式處理中,動態監視網絡各節點上的CPU能耗、顯卡能耗、硬盤能耗、內存能耗等,找出執行任務與各能耗之間的關系,根據任務及CPU狀態及時調整任務指派,對網絡節點進行全局優化,最大限度實現節能指標,具有十分重要的現實意義。2009年,谷歌測算了一次普通查詢的能耗約為0.0003kWh,若日均查詢次數為3億次,則一天消耗的功率為90000kWH[2]。因此,服務器能耗是與企業運行成本密切相關的,而CPU是計算機高耗能部件,其能量消耗也占據服務器總能耗的相當大比例,因此,在CPU諸多參數中找到高能耗指標是實現綠色計算的重要環節。
CPU的性能指標與其能耗密切相關。CPU性能越好,運算速度越快,能耗也越高。CPU性能計數器是處理器的主要活動指標,如表1所示。

表1 CPU性能計數器相關參數
由表1可見,CPU的性能計數器包含了CPU能耗、處理器時間比例、中斷時間、訪問物理盤時間比、訪問頁面數/秒、內存錯誤數/秒,網絡接包-發包率/秒以及網頁服務相應/秒等。上述指標反應了處理器的活動狀態,且與CPU能耗密切相關,本文將根據測量數據對各項指標進行性能分析,找出與能耗密切相關的因素。本文重點關注如下3個方面的問題:① 研究實測能耗Power與CPU性能計數器其余8個參數之間的關系;② 研究能耗性能計數器參數之間的關系;③ 研究對CPU能耗有重要影響的因素。
CPU能耗數據可以由能耗測量儀測量得到,但因為測量得到的數據會存在測量誤差,因此,在進行數據分析之前要對數據進行檢測,檢查測量數據之間是否存在離群點。
3.1 基于馬氏距離的數據異常檢測
馬氏距離用來度量兩個服從同一分布的隨機變量的差異程度,通過度量待測樣本與某一類的均值向量的差異程度判別樣本的歸屬[3]。其定義為:

3.2 構建多元回歸模型
由于CPU性能計數器包含諸多參數,因此,需要構建多元回歸模型[4]用以分析其參數間的關系。
多元回歸模型就是用樣本統計量β0,β1,β2,…,βp估計回歸方程中的參數時得到的方程,采用最小二乘法,其一般形式為:


3.3 多元回歸模型的統計檢驗
對于多元回歸模型,利用擬合優度檢驗來判定來自總體的數據是否與當前已知隨機變量分布一致,即回歸方程對觀測值的擬合程度[5]。度量擬合優度的統計量是判定系數,其取值范圍在[0,1]之間。

公式(4)中,SSR為殘差平方和,n-k-1為殘差平方和的自由度;SST為總離差平方和,n-1為總離差平方和自由度。當R2越接近1則擬合程度越好,而越接近0,則表明擬合方程對觀測值的擬合效果越差。
本文實驗數據來源于利用工具H8713功耗監測儀,通過串口通訊動態監測服務器耗能得到的。利用監測數據,擬求得公式(2)的各項擬合參數??紤]到CPU性能計數器中的Web Service Requests容易受到計算機系統影響較大,因此,本實驗暫未考慮該因素。
4.1 數據標準化處理
由于實驗采集的8個參數的量綱不同,為統一計算方便,我們將數據標準化處理[6]。設向量x0,x1,x2,…,xn為一隨機時間序列,均值為μ,方差為σ2,標準化后有本實驗中,我們將數據標準化到0-1之間。
4.2 異常值檢驗
利用馬氏距離檢驗數據中是否存在奇異值。受篇幅限制,本文中只選取前100個樣本計算出的馬氏距離,見表2。

表2 前100個樣本的馬氏距離
表2中看到大部分數據都>1,有少量數據<1,說明數據整體較好,異常值較少。這些異常值可以剔除。
4.3 單變量相關性分析
在分析多變量相關性之前,進行單變量相關性分析,用最簡單方法探索數據之間的關系。

表3 CPU性能計數器各參數與能耗的相關性分析
由表3結果可見,x1與Y的相關系數最大(0.9246),其次為x7。說明其中可能存在較強的線性相關性。以(x1,x7,Y)為研究對象找尋三者之間的關系。
圖1與圖2對比可見,旋轉后,散點圖接近一條直線分布。因此數據之間可能存在線性關系,需要進一步進行多元線性分析。

圖1 原始圖:100個采樣點(x1,x7,Y)的散點圖

圖2 旋轉后:100個采樣點(x1,x7,Y)的散點圖
4.4 多元線性回歸分析
在上述單變量相關性分析基礎上,利用公式(3)可以進一步分析多變量的回歸系數,其回歸系數和置信度區間如表4所示。

表4 回歸系數及置信度區間(α=5%)
其殘差杠桿如圖3所示。

圖3 殘差杠桿圖
由圖3可知,絕大部分數據的殘差都在0點附近,說明擬合效果較好,且絕大部分殘差都位于[-0.3,0.3]之間。其中,還有3個點的殘差離0點較遠,說明此3點是異常點(點的序號為9,65,95)。剔除異常值后,重新進行回歸得到表5的結果。

表5 取出異常值后的回歸系數及置信度區間(α=5%)

因此,剔除異常值后我們擬構建了如下多元一次回歸模型:相應地,剔除異常值后的殘差和對應的殘差置信度區間如表6所示。
本次實驗對影響CPU性能的7個分量進行了分析,由實驗結果可見影響CPU能耗的7個分量與能耗之間的關系是一個多元線性模型。剔除異常數據后,用多元線性回歸分析方法能得到較好的擬合方程式。進一步觀察回歸方程的系數可見,正相關參量按照x1>x3>x7>x5的權重分別從大到小對CPU能耗有影響,而負相關參量有|x6|>|x4|>|x2|關系存在。在上述關系中,x1的權重最大,因而對擬合的準確性影響最大。對得到的權重系數進行分析可以得到,影響CPU能耗較大的參數是第1個和第3個,即Processor Time(%)和Disk Time(%)。

表6 剔除異常值后的殘差和對應的殘差置信度區間
通過對CPU計數器能耗分析可以清楚地知道處理器及外設訪問是高耗能服務,因此,對于追求綠色能效的分布式計算系統而言,本實驗結果將能有效地指導如何將高能耗服務分配到處于閑置狀態的計算機上,可以合理利用分布式網絡服務任務,大大提高CPU利用率進而降低整個網絡的能耗。
[1]商云飛.數據中心網絡節能路由研究[D].北京:清華大學,2013.
[2]googleblog. blogspot. com/2009/01/powering- google- search.html.
[3]De Maesschalck,Roy;Jouan- Rimbaud,Delphine; and Massart,Désiré L. The Mahalanobis distance[J]. Chemometrics and IntelligentLaboratory Systems 50:1–18,2000.
[4]Rencher,Alvin C.;Christensen,William F.Methods of MultivariateAnalysis,Wiley Series in Probability and Statistics [M].709(3rd ed.),John Wiley & Sons,p.19,2012.
[5]劉明,李明莉.線性回歸模型統計檢驗方法體系構建[J].統計與決策,2009(2).
[6]于之虹,黃彥浩,魯廣明,等.基于時間序列關聯分析的穩定運行規則提取方法[J].中國電機工程學報,2015(03):519-526.
The CorrelationAnalysis for the Service Energy Consumption Index of CPU
Zhai Chang1,2He Fang3,4,?Zhao Tongzhou1,2Zhou Ping1,2Li Mu1,2
(1.School of Computer Science and Engineering,Wuhan Institute of Technology,Wuhan 430205,Hubei;2.Hubei Key Laboratory of Intelligent Robot,Wuhan 430205,Hubei;3.Hubei University of Technology,Wuhan 430640,Hubei;4.Wuhan Institute of Physics and Mathematics,ChineseAcademy of Sciences,Wuhan 430071,Hubei)
The widespread use of computers brings a large number of computational tasks,leading to the increasing energy consumption.CPU undertakes the main task of computing,so it is necessary to analyze the energy consumption index to search the important factors that have influence to energy consumption.It can provide the basis for the service selection of green efficiency.This paper uses the energy consumption monitor to collect the data,constructs multiple regression models and makes univariate and multivariate correlation analysis which uses the goodness of fit to evaluate the models.Experiments show that the multivariate model can well fit the whole sample data after excluding the outliers with Mahalanobis distance.
outlier;Mahalanobis distance;multivariate regression;Goodness of Fit
TP399
A
1008-6609(2016)12-0008-04
翟暢(1990-),男,湖北黃岡人,碩士,研究方向為數據分析、文本推薦算法研究。
*通訊作者:何芳(1977-),女,湖北黃石人,碩士,研究方向為計算機應用技術。
國家自然科學基金資助項目,項目編號:61103136。