基于Azure機器學習平臺的大學校園用電分析與預測

2018-05-23 01:45:14徐哲壯謝仁栩葛永樂

電氣技術 2018年5期

熊甜鄭松徐哲壯謝仁栩葛永樂

（福州大學電氣工程與自動化學院，福州 350108）

用電問題一直是電力企業面臨的難題，例如竊電問題不僅損害了供電企業的合法權益，擾亂了正常的供用電秩序，而且給安全用電帶來了威脅[1]。用電浪費現象普遍存在于工作和生活中，造成巨大能源損耗的同時，影響了我國經濟可持續發展的能力。因此，在滿足用戶正常的用電需求，創建節約友好型社會的背景下，如何利用大數據實現用電量的分析和預測具有重要意義。

近年來，國內外高校紛紛開始建立校園能耗監測平臺，用以監督校園用電情況，以此達到節能減排的目的[2]。另一方面，能耗監測平臺也為校園用電量的預測提供了數據支撐，而用電量預測正是智能電網中的需求響應和調度的重要環節[3-6]。

本文基于福州大學校園能耗監測平臺提供的歷史用電數據，通過機器學習方法[7-8]對于福州大學的用電情況進行分析和預測。本文基于Azure機器學習平臺[9-10]快速構建了用電數據的分析平臺，并根據評估數據和實驗計算結果，得出影響用電量的主要因素為最高最低氣溫以及工作日程安排。根據影響因素的分析結果，本文進一步提出了基于用電突變氣溫的分段式預測方法：將用電量數據根據用電當日最高氣溫進行分類，進而基于用電突變氣溫將用電量數據劃分為兩段分別進行訓練和預測。實際預測結果表明，基于用電突變氣溫的分段式預測方法能夠有效降低預測誤差，且其預測精度已經能夠滿足大多數應用的需求，能夠為學校相關部門以及電網配電部門提供有效的參考[11-12]。

下文分別從數據源、基于Azure機器學習平臺的數據分析方法、校園用電影響因素分析、校園用電預測等環節對于研究工作進行詳細描述。

1 用電數據說明

本文分析所用數據主要有以下兩個來源：

1）天氣數據。通過福建省福州市閩侯縣（福州大學校園所在地）氣象局采集 2016年 4月 1日至2017年3月31日時間段內最高溫度和最低溫度的數據。

2）歷史用電量數據。通過福州大學校園節能監管平臺（見圖 1）導出對校園內每棟樓的能耗統計數據。綜合考慮不同人群和樓宇的用電特點，本文選取了福州大學學生公寓2號樓（本科男生）、5號樓（本科女生）、36號樓（研究生）和西三教學樓的用電數據進行分析。時間跨度為2016年4月1日至2017年3月31日，用電量數據精度為每天。

圖1 福州大學校園節能監管平臺

本文在Azure ML機器學習平臺上分析4組數據，每組數據源為一個4×365的矩陣，其中列特征量分別是日期、日最高溫度、日最低溫度、日用電量4個變量。行特征量代表樣本點，表示當前日期下的最高溫、最低溫和用電量的特征值。

2 基于Azure機器學習平臺的數據分析

本文采用微軟 Azure機器學習平臺（microsoft azure machine learning studio, Azure ML）對用電數據進行分析。Azure ML是一種面向機器學習與大數據分析的云服務平臺[13]（Platform-as-a- Service,PaaS），能夠有效提升采用機器學習方法進行數據分析的效率。該平臺的優勢[14]主要有：能夠在單個實驗中一次性嘗試多種模型并比較結果，有助于找到最適合的解決方案。在同一個試驗中建立多算法模型，對預測結果進行對比分析，通過選擇合適的學習算法和海量數據的訓練，從而達到建立預測模型的目的。

基于Azure ML的數據分析流程如圖2所示，主要由導入數據、數預處理、定義特征、訓練模型和模型評價5個基本步驟組成。下文將結合本文所討論的用電量數據進行介紹。

圖2 基于Azure ML平臺的用電量預測流程圖

2.1 導入數據

在進入Azure ML平臺并選擇新建試驗后，可以采用兩種方式將數據導入到試驗中：①手動導入到試驗中；②通過Reader模塊在線與其他數據庫匹配讀取。福州大學校園節能監管平臺并未提供開放的數據接口，本文采用手動導入數據的方式，數據格式必須為CSV格式，通過實驗中的DATASET選項導入。

2.2 數據預處理

數據預處理主要分為刪除缺失值、異常值處理、數據離散化、歸一化處理等。在本文所獲取的用電量數據中，寒暑假與周末的用電量存在特殊性，同時部分歷史用電量存在缺失等問題，會給分析和預測造成影響。針對這個問題，本文采用了Azure ML的數據分割（Split Data）模塊，能夠根據設置參數自動對數據集的成分進行篩選，清除掉缺失值與異常值。

2.3 定義特征

導入平臺的數據集中，包含著各種特征量，如本文研究涉及的特征量有用電量、最低溫度、最高溫度等。Azure ML通過“select-columns”（選擇數據列）模塊篩選出預測模型的特征變量，并傳遞到下一步機器學習算法中進行訓練與評估。“selectcolumns”模塊可以直接對數據特征進行選擇，不需要在每次試驗結束后，對數據進行重新導入，能夠有效地提高工作效率。

2.4 應用機器學習算法

本文研究擬基于天氣數據和歷史用電量數據構建預測模型，Azure ML針對預測數據提供了大量回歸算法，本文在Azure ML中采用不同的回歸算法模塊對校園用電數據進行試驗，選取兩種效果最佳的算法進行對比分析，即最小二乘法的線性回歸（linear-regression）方法[15]，以及增強決策樹回歸（boosted decision tree regression）方法[16-18]，分別對數據進行處理。兩者在處理數據結果上的差異將在本文第4節進行討論。

數據分割（Split Data）模塊將篩選后的數據按照默認比值 0.75∶0.25拆分為單獨的訓練數據集和預測數據集，分別用于模型的訓練和測試。經模型訓練（Train Model）模塊擬合出的預測模型，將導入模型測試（Score Model）模塊中，進而輸入測試集數據用于評估模型的性能。

2.5 模型性能評估

Azure ML提供了模型評估（Evaluate Model）模塊，用于對預測模型進行性能評估，平臺自帶的評估指標包括：受試者工作特征（ROC）曲線、精度/召回曲線或提升曲線、混淆矩陣、曲線下面積（AUC）的累積值等。同時Azure ML還可以將模型測試（Score Model）模塊的測試結果導出，由外部程序進行分析和處理。

3 校園用電影響因素分析

本文首先以福州大學 36號研究生宿舍樓的用電數據集為分析對象，選取當日最高氣溫、最低氣溫的天氣數據作為影響用電量的主要影響因素。另一方面，根據大學的作息特性，將用電量數據劃分為：工作日、周末、寒暑假三類。進而在考慮不同天氣數據和不同用電量數據集的情況下，基于第 2節所述的操作步驟，在Azure ML平臺中采用增強決策樹回歸（boosted decision tree regression）算法分別建立預測模型，并對預測精度進行評估，得到的影響因素評估表見表1。

每棟樓的用電量各不相同，本文的性能分析采用均方根誤差（RMSE）和平均相對誤差（MRE）兩個指標同時對于預測結果進行分析，即

式（1）、式（2）中，xi表示歷史用電量值，表示用電量預測值，n表示測試集的數據個數。

由表1的結果可以看出，寒暑假的用電量與平時存在較大的差異，是否考慮寒暑假的用電量對于用電預測模型具有很大影響。若不考慮寒暑假的用電量，則可以使預測的均方根誤差降低約40%。類似地，周末與工作日的用電模式也存在一定差異。與綜合考慮周末和工作日的用電量數據得到的預測模型相比，只考慮工作日用電量的預測模型可以降低10%左右的均方根誤差。

表1 用電量影響因素分析表

另一方面，最高氣溫和最低氣溫對于用電量預測都存在影響。在只考慮工作日用電量的情況下，綜合考慮最高氣溫和最低氣溫的影響具有最高的預測精度。除了36號樓之外，對于其他宿舍樓進行了相同的分析，得到了類似的分析結論。由于篇幅限制，本文不再列出詳細數據。

根據上述分析結果，本文后續分析將只考慮工作日的用電量數據，并綜合考慮最高氣溫和最低氣溫的影響。本文后續部分將進一步探討如何提升用電量的預測精度。

4 用電突變氣溫分析

基于第3節分析的結果，本文將2號樓、5號樓、36號樓和西三教學樓的全年用電量數據，按照最高氣溫分組并取平均值，得到相同最高氣溫下的平均用電量，如圖3所示。

圖3 相同最高氣溫下的平均用電量

由圖3可以看到，每棟樓的用電量曲線存在一個明顯的拐點。這是因為低溫區與高溫區的用電量存在明顯的差異：在低溫區，用電設備是計算機、照明、熱水器等日常用電設備，用電量隨著氣溫變化的趨勢不明顯；而在高溫區，空調等降溫設備開始投入使用，同時用電量與氣溫存在顯著的相關性。

根據以上結果，本文提出采取分段預測的方法會得到更好的用電量預測效果。為了進行分段預測，本文首先給出用電突變氣溫的計算方法：基于歷史用電量數據計算出不同最高溫度下的用電量平均值T，隨后從低溫到高溫逐個根據以下公式計算Δ，即

式中，k表示當前最高氣溫值；nk定義為區間參數，可取為正整數。

給定突變參數閾值θ，若滿足Δ＜θ，則認定最高氣溫 k為用電突變氣溫。nk和θ 為自定義參數，其不同取值將影響用電突變氣溫選擇的結果。根據圖3平均用電量曲線圖式（3）將分析數據源的nk取1～5之間的整數，θ 取0～1之間的小數，在Azure ML平臺上對不同的用電數據源進行測試分析，得到nk=3，θ =0.6時，數據模型的預測預測效果最佳，根據式（3）分別計算出學生公寓2號樓、5號樓、36號樓和西三教學樓的用電數據突變氣溫見表2。

表2 用電量突變氣溫

從表2可以看出，用電主體與用電環境之間均存在差異性，使得每棟樓的用電量突變氣溫也不太一樣。福州大學 2號樓為男生宿舍樓，5號樓為女生宿舍樓，36號為研究生宿舍樓，其用電突變氣溫的差異符合常識中不同性別和年齡對于溫度感受的差異。

5 校園用電量預測

基于第4節的分析，本文提出基于用電量突變氣溫的分段預測方法，并對其預測精度進行分析。用電數據為福州大學2號樓、5號樓、36號樓、西三教學樓。在分段預測方法中，每棟樓的用電數據根據表2提供的用電突變氣溫劃分為“平穩段”和“上升段”兩個部分，分段樣本點見表 3，采用增強決策樹回歸算法對兩部分數據進行機器學習。在相同條件下，將分段預測結果與傳統的整段預測結果進行對比分析，結果見表4。

表3 分段樣本點

從表4可以看出，分段預測能夠有效降低用電量預測的均方根誤差與平均相對誤差。相比于整體預測，分段預測能夠降低13%～27%的均方根誤差，平均相對誤差也能夠控制在 10.8%以內。以上結果證明了分段預測方法的有效性。

本文中的數據分析主要采用的是增強決策樹回歸算法。為了證明該算法的有效性，本節將該算法與基于最小二乘法的線性回歸算法進行對比。在Azure ML平臺中分別采用這兩種算法基于福州大學2號樓、5號樓、36號樓、西三教學樓的用電量數據進行了分析和預測，其預測結果的對比見表5。

表5 增強決策樹回歸與線性回歸算法預測結果對比

由表5可知，增強決策樹回歸算法得到的預測模型相比于線性回歸算法得到的預測模型，其預測結果的均方根誤差要小 9.6%～21.7%，平均相對誤差也要減少 1.3%至 4.9%。因此證明了增強決策樹回歸算法具有更好的預測效果。

6 結論

本文基于用電數據和天氣數據，通過Azure機器學習平臺對于福州大學校園的用電情況進行了數據分析，總結出了影響用電量的兩大因素：氣溫與工作日程安排。根據分析結果，本文進一步提出了基于用電突變氣溫的分段式預測方法，并通過測試數據證明了該方法能夠有效降低用電量預測的誤差。數據分析結果證明，該方法的預測精度已經能夠滿足大多數應用的需求，能夠為學校相關部門以及電網配電部門提供有效的參考。

參考文獻

[1] 陳晶晶, 李紅嬌, 許智. 基于隨機森林的用電行為分析[J]. 上海電力學院學報, 2017(4): 331-336.

[2] 王仁祥, 王小曼. 終端用戶分布式新能源接入智能配電網技術研究[J]. 電氣技術, 2010, 11(8): 58-62.

[3] Stroombergen A, Tait A, Patterson K, et al. The relationship between New Zealand's climate, power,and the economy to 2025[J]. New Zealand Journal of Social Sciences, 2006, 13(1): 139-160.

[4] Wang Zhiyong, Cao Yijia. Mutual information and non-fixed ANNs for daily peak load forecasting[J].Power Sys-temsConference and Expoxision, 2006(5):1523-1528.

[5] 黃海新, 鄧麗, 張路. 基于需求響應的實時電價研究綜述[J]. 電氣技術, 2015, 16(11): 1-6.

[6] 曲朝陽, 張率, 劉洪濤. 基于用電影響因素回歸的小區用電預測模型[J]. 東北電力大學學報, 2015(01):73-77.

[7] 張棪, 曹健. 面向大數據分析的決策樹算法[J]. 計算機科學, 2016(S1): 374-379, 383.

[8] 王桂玲, 韓燕波, 張仲妹, 等. 基于云計算的流數據集成與服務[J]. 計算機學報, 2017(1): 107-125.

[9] 王永康. Azure云平臺對Twitter推文關鍵字實時大數據分析[J]. 電腦編程技巧與維護, 2015(12): 68-72.

[10] Xiao Laisheng, Wang Zhengxia. Cloud computing: A new business paradigmfor E-learning[C]//International Conference on Measuring Technology and Mechatronics Automation (ICMTMA 2011) 3rd, 2011:Shanghai, China.

[11] 王穎, 趙航宇, 趙洪山. 配電網自動化建設的現狀與若干建議[J]. 電工技術, 2015(11): 82-83.

[12] 何春光, 盧志明, 姜春瑩, 等. 移動式應急配變的研制[J]. 電工技術, 2016(2): 6-7.

[13] Brandon Butler. 2017年必須關注的10大云趨勢[J].計算機世界, 2017(4).

[14] 易植. Windows Azure 新服務, 讓機器學習觸手可及[J]. 英才, 2014(9).

[15] 韓陽, 呂由, 潘宇航, 等. SVM、BP神經網絡、線性回歸的比較研究[J]. 河北聯合大學學報(自然科學版), 2017, 39(2).

[16] Song Y, Wang H, He X. Adapting deep RankNet for personalized search[C]//ACM International Conference on Web Search and Data Mining, 2014: 83-92.

[17] 柯國霖. 梯度提升決策樹(GBDT)并行學習算法研究[D]. 廈門: 廈門大學, 2016.

[18] 王天華. 基于改進的 GBDT算法的乘客出行預測研究[D]. 大連: 大連理工大學, 2016.