張世元,王治國,董昊男,傅冠凱
(國網甘肅省電力公司,甘肅蘭州 730030)
電力數據隱藏著用戶用電的行為和習慣,利用電力數據進行數據挖掘和用戶類型研究,可以更好地理解用戶對個性化和差異化服務的需求。由此,服務的深度和廣度進一步擴大,為制定支持未來需求方響應的政策提供數據支持[1]。在傳統行業分類的基礎上,提出了基于聚類的用戶分類研究方法。雖然使用該方法能夠快速分析用電行為,但并未考慮用戶使用電力的不同,特別是3 種類型用戶的當前市場價值、潛在市場價值和區域貢獻價值,這種分類很大程度上是宏觀的,并不符合電力負荷精細化管理的能源戰略,因此,對不同類型的用戶采取不同營銷策略是具有必要性的[2]。因此,提出了一種基于數據驅動的用電行為分析模型。在此基礎上,建立了數據驅動的用電行為分析模型,提取了有價值的信息。
該方法結合K-means 算法和數據驅動技術,實現了電力消耗分類的并行處理。這種算法因其計算速度快而經常用于大規模數據聚類[3]。圖1 是用電分析結構框圖。

圖1 用電分析結構框圖
如圖1 所示,用電量信息采集主要完成對家庭用戶用電量數據的采集[4-6]。將采集到的數據輸入不同設備驅動模塊之中,通過執行多變量、存儲多維數據,其并行存儲、轉換功能可為用戶用電行為分析奠定基礎[7-8]。
基于數據驅動聚類算法步驟如下所示:
Step2:對上述數據集中的第i個樣本點ai,確定其與聚類中心βj的距離,并獲取樣本點ai所屬類別簇,計算公式如下所示:

式(1)中,i=1,…,n;j=1,…,m;
Step3:依據式(2)更新m個聚類中心,計算公式如下:

式(2)中,nj表示簇βj對象數量。
Step4:重復Step2 和Step3,直到函數收斂為止;
Step5:收斂評價依據如圖2 所示。

圖2 收斂評價依據
如圖2 所示,數據驅動收斂評估的基礎有3 個階段,即初始類別、層次合并和重新標記[9-10]。每一階段以
初始類別階段:Map/Reduce 模型將輸入數據集分成幾個數據子集,并為每個Map 函數賦值[11-13]。key 是相對于輸入數據文件開始點的當前示例的偏移。利用歐氏距離公式,分析當前樣本各維度的坐標值,對中心點進行距離計算,得到最接近樣本的聚類指數,并生成中間的設置{k1,v1},k1 是最接近集群指數,v1 是每個維坐標的當前采樣值[14]。此值對的數據類型與原始鍵-值對不同,需要將操作結果存儲在中間庫中。
層級合并階段迭代期間,為了降低通信開銷,Map 階段結束后,需要對已處理數據進行部分合并[15]。這一階段,Map/Reduce 模型重新排列中間鍵值集,從而生成新的二元組。在新集合中,所有相應鍵的值都相同,并且二元組的集合也會按照Reduce任務的相同數目分成片段。對每個Reduce 任務,輸入是二元組集合的片段[16]。利用層次分析法將處理樣本的數據合并為相應節點的坐標值和累積坐標值,將相應的值相加,除以樣本總數,獲得新的中心點坐標,輸出鍵-值對
選取合理的電力行為特征評價指標作為分類依據,考慮電力用戶負荷特征和長、短期時間序列特征,建立了電力用戶用電行為特征多維評價指標體系,包括:1)由年度最大負荷利用小時數和典型日平均負荷率所構成的負荷特征指數可用于衡量負荷密度和強度;2)以年為單位的月平均負荷構成的月用電量時間序列能夠反映出年時間尺度上負荷的用電行為特征,如季節不平衡特征;3)以典型日小時為單位的日用電量時間序列能夠反映負荷在日時間尺度上的行為特征,如峰谷效應等。基于此,所建立的模型如式(3)所示:
式(3)中,Vα表示月用電量時序向量,Vβ表示日內用電量時序向量,Vγ表示負荷特性向量。
基于滑動窗口的思想,根據電力消耗情況下總功率信號的變化,設計了一種基于滑動窗口的電力消耗檢測算法,包括兩個檢測過程。在此基礎上,通過連續地獲取輸入總電信號的滑動窗,計算滑動窗口及切換前后穩態功率差的變化情況,檢測其用電特性。
電流行為檢測算法包括兩類:第一類是判斷總功率信號是否突然改變,以及開關過程中起始點、結束點的位置;針對總功率變化信號,需先選擇一個滑動窗口作為標記功率點Pj功率序列S=[Pj-N…Pj…Pj+N],其中N表示功率點窗口側向長度。當滑動窗中含有負荷開關位置時,由于用電行為常常伴隨著功率突發變化的現象發生,所以窗口功率序列值的波動幅度較大,且不具有規律性。因此,計算功率序列方差Svar作為功率突發變化的幅度變化量。
非電器投切在正常使用情況下,其功率變化幅度與當前功率點有關,可將αSmean作為功率點突變閾值,將該閾值作為限值,以此避免誤檢現象發生。
設Smean為滑動窗口功率序列平均功率,依據用戶使用情況調整電器種類,保證分析結果更加精準。當窗口功率突變時,有Svar≥αSmean,用電行為檢測過程示意圖如圖3 所示。

圖3 用電行為檢測過程示意圖
使用滑動窗的冪次方差和均值,能夠判斷窗口是否發生了改變。利用連續滑動窗口求出冪次變異性的近似起點pstart和終點pend,如圖4 所示。

圖4 用電行為探測
同時考慮兩側窗口長度N,可得到較準確的始點=Pstart+N和終點=Pend+N。通過對開關過程中瞬態和穩態部分的定位,確定了用電行為起始點和終點的位置,為后續負荷特性的提取提供了依據。在檢測到功率突變時,可利用突變前后穩態功率的變化來判斷突變是開關動作還是穩態工作。在為負荷切換閾值留出一定余量的情況下,考慮功率變化對居民負荷正常運行的干擾,可規劃用電行為檢測過程,如圖5 所示。

圖5 用電行為檢測流程
由圖5 可實現數據驅動下用電行為的檢測。
原始資料可能存在某些缺失或偏離的異常值,需進行修正。如果數據量不超過20%的空值和一個“NAN”異常值,則使用相鄰負載數據的平均值填充。若存在連續的異常數據,則繼續搜索兩端,直到值不為空。由于不同的特征具有不同的維度,在用戶分類中直接使用原始數據會導致聚類效果差、收斂速度慢等問題,從而使原始特征數據標準化。標準化負載數據,避免對數據產生偏差,即:

式(4)中,s2(i) 表示原始數據標準化后的數據值,α表示均值,β表示標準差。
使用標準化負荷數據統計負荷特性參數,保證其在[0,1]范圍內,計算公式為:

預測負荷時,對溫度因素進行處理,提升分析結果的精準度和收斂速度。
分析早晚高峰型、日高峰型、多峰型下的用電量,結果如圖6 所示。
由圖6 可知,在早晚高峰型下,用電量在8~30 kW·h 范圍內波動;在日高峰型下用電量在2~25 kW·h 范圍內波動;在多峰型下用電量在3~28 kW·h 范圍內波動。

圖6 早晚高峰型、日高峰型、多峰型下用電量
以上述內容為基礎,分別采用基于聚類的用戶分類研究方法W1、數據驅動的用電行為分析模型W2 對3 種情況下用電量情況展開分析,結果如表1~表3 所示。

表1 早晚高峰情況下用電量分析

表2 日高峰情況下用電量分析

表3 多峰型情況下用電量分析
由表1 可知,使用基于聚類的用戶分類研究方法在3 種情況下,用電量均與實際用電量不符,尤其在日高峰型下,與實際情況相差最大,最大誤差為10 kW·h;使用數據驅動的用電行為分析模型在3 種情況下,用電量均與實際用電量一致。
針對傳統用戶問題分類方法主觀性強、結果混亂、準確性不足等缺點,建立了數據驅動的用戶消費行為分析模型,實現了對電力用戶問題分類分析的細化,并為識別電力相關因素和差異預測奠定了基礎。結合數據驅動和K-means 算法,提出了一種基于功率特征的電力消耗分類方法。實驗證明,該模型分析結果準確。
雖然使用該方法分析結果精準,但缺少用電環境參數分析,無法保證該方法在復雜環境下也具有良好分析效果。