廖榮文,劉 剛,肖 剛
(1. 上海電力大學自動化工程學院,上海市 200090;2. 上海交通大學航空航天學院,上海市 200240)
智能用電是智能電網的關鍵組成部分,能實現電網和用戶的靈活互動[1]。負荷分解作為其重要的組成部分,可以為電力用戶側和供給側政策的制定提供依據。通過了解每個家用電器的用電量,用戶側可以節省電費開支,供給側則能提供更多的相關服務[2]。如何在較低的成本下準確分辨負荷種類并計算電能消耗,一直是負荷分解領域關注的主要問題。
近年來,基于深度學習的負荷分解方法受到越來越多的關注。文獻[3-4]證明了設備中點元素的狀態與中點前后的聚合電能信息相關;文獻[5-7]通過同一時間點的聚合值估計特定時間點上設備的消耗,有時會對設備運行狀態產生誤判;文獻[8]提出一種一維卷積堆疊長短時記憶循環神經網絡(recurrent neural network,RNN)技術;文獻[9]采用的電力特征由于依賴高頻采樣,所以采集設備成本較高;文獻[10]基于電器的持續時間、使用時間和有功功率等非電力特征進行建模;文獻[11-12]提出非傳統特征與負荷分解目標值之間存在一定的相關性,但依賴于大量特征以及較多的數據。
針對以上問題,本文提出一種基于時間模糊化長短時記憶(time-fuzzified long short-term memory,TFLSTM)的非侵入式負荷分解方法,主要貢獻有以下3 點:①算法的輸入為有功功率,通過學習固定長度序列的映射關系來代替傳統樣本點的映射關系,并將數據集分割后進行單獨訓練,以此來提高算法準確率;②對總功率信號和設備功率信號進行建模,通過長短時記憶(long short-term memory,LSTM)建立狀態點之間的聯系,利用編碼過程和解碼過程去除非目標設備的信息,無須采集成本較高的高頻特征和大量非電力特征,輸入數據整體較為簡潔;③引入時間模糊策略,構建了一種與時間區域相關的模糊區域規則,結合用戶在不同時間區域的用電習慣實現負荷分解,以提高算法對于設備狀態判斷的準確率。
文獻[13]提出偽卡諾圖(pseudo Karnaugh mapping,PKMap)用于展示數據集中的不平衡類分布,本文引入PKMap,根據不同設備、不同時間區域的功率值給卡諾圖上色,使整個數據集實現可視化,來呈現較長時間內設備使用情況的分布。本文對文獻[14]房間2 的REFIT 數據集中不同時間區域的設備功率進行統計、映射和著色,并利用PKMap 排列加以呈現,從而展示不同設備的電能使用情況。每種電器單位小時內的工作狀態統計如附錄A 圖A1 所示,圖中右側的色度圖呈現了數據集采集期中可視化電功W的數量級。W的公式如下所示:

式中:I為數據集中單位小時內所有功率大于閾值功率(本文設為8 W)的采樣點個數;p(i)為第i個采樣點對應的有功功率;pˉon為功率均值;H為單位小時內所有采樣點個數;p(h)為第h個采樣點對應的有功功率;th為第h個采樣點對應的時刻。通過式(1)進行處理后,可以減小所有設備W的差異,有利于標注色度圖。
附錄A 圖A1 通過顏色深淺表示不同設備的運行時間狀況,當顏色為白色時表示設備在該單元對應的時間內均處于關閉狀態,其余的顏色越淺表示設備處于開啟狀態時間越長,顏色越深則表示設備處于關閉狀態時間越長。在較長的采樣時間下,大部分設備在不同時間區域的運行情況存在明顯差異,某些設備在一些時間區域內基本處于不工作狀態,而在另一些時間區域內則使用頻率很高。根據設備在不同時間區域內的使用差異,將原始數據集劃分為數據集A和數據集B。
本文統計并可視化了REFIT 數據集,所基于的數據為2013—2015 年的總表和單個設備傳感器測量的有功功率數據,其中包含季節、溫度、節假日與工作日等影響因素在內的所有數據。對于不同影響因素下所對應的數據,根據時間區域劃分數據集并分別用于訓練不同的網絡,由網絡分解出目標設備的功率信息,使得本文提出的算法在不同影響因素下,仍然可以保持較好的效果。同時,利用居民用電行為規律得到時間模糊策略,提高算法對于設備狀態判斷的準確率。
本文提出一種長短時記憶自編碼器(long shortterm memory auto-encoder,LSTMA)模型來解決負荷分解問題。首先,將輸入序列的部分數據基于概率置零,保留輸入序列和輸出序列的差異性以更好地訓練模型。經過處理后,輸入序列與輸出序列更加接近,提高了訓練得到的權重的魯棒性。
該方法通過學習固定長度輸入和輸出序列的映射關系,降低了算法誤判功率值,提高了算法精度。同時,當輸入信號有且僅有電表總功率信號且采樣頻率較低時,該網絡有助于提高模型的分解能力,在負荷分解任務中相較于其他方法往往具有較好的效果。LSTMA 主要網絡框架如圖1 所示。

圖1 LSTMA 模型結構Fig.1 Structure of LSTMA model
LSTM 網絡在RNN 結構的基礎上增加了記憶單元c、更新門μ、遺忘門f和輸出門o,因此對于第1層正向LSTM 網絡,公式如下所示:


式中:記憶單元c、更新門μ、遺忘門f和輸出門o對應的權重分別為Wc、Wμ、Wf、Wo,對應的偏置分別為bc、bμ、bf、bo;為記憶單元初始值;為時間步t記憶單元的狀態向量,其候選值為;為時間步t非記憶單元的狀態向量;x(t)為時間步t網絡的輸入向量;σ(·)表示sigmoid 函數變化;φ(·)表示tanh 函數變化;每個時間步更新門μ和遺忘門f共同決定是繼承上一個時間步記憶單元的狀態向量,還是更新為候選值。當輸出門o為0 時釋放記憶內容,當o不為0 時保留記憶內容。
第2 層反向LSTM 網絡從與第1 層網絡相反的方向訓練網絡參數,然后2 層網絡的狀態參數和組合為m(t),網絡層m經過加權映射進行數據的降維表示,得到隱藏層h,最后通過反向加權映射得到輸出層M,通過上述編碼過程和解碼過程去除非目標設備的信息[15]。

式中:We和be分別為編碼層的權重和偏置;Wd和bd分別為解碼層的權重和偏置。編碼后提取到的m中關鍵信息作為后續訓練網絡的輸入,完成從m到M的信息重構。
在負荷分解中,同一種家用電器在不同時間區域的使用頻率會有所不同[16],使得負荷分解和時刻呈現相關性。本文通過參考兩者之間的隱含關系,提高模型對設備狀態判定的準確率。
本文中論域U為24 h,即時刻點x∈[0,24)=U,fT為定義在U上的一個隸屬于集合T的隸屬度函數,集合T包括集合a和集合b,隸屬函數fT把U中的每一個元素都映射到[0,1]區間內,代表元素隸屬于T的程度,值越大表示隸屬程度越高。數據集中不同時間區域信息在生成模型過程中的重要程度是不清晰的,因此根據模糊理論對論域U的模糊映射如下:

式中:fa(·)為集合a的隸屬度函數,函數的均值和方差分別為σa和ca;fb(·)為集合b的隸屬度函數,函數的均值和方差分別為σb和cb。
式(12)在數據層面上描述了模糊現象,體現了時間區域屬性的不確定性,并通過隸屬度判定時間區域的重要性。本文選用高斯型隸屬度函數,隸屬規則曲線如附錄A 圖A2 所示。圖中隸屬度曲線交點的橫坐標即為劃分數據集的時間節點。時間區域模糊化將區域模糊性轉化為每個時刻對應的隸屬度值,而模糊區域規則用于進行負荷分解過程中模糊區域的劃分和不同時間區域信息重要性的判定。
目前,負荷分解算法基于的特征主要分為高頻特征和低頻特征,高頻特征主要包括電壓、電流和諧波信號,而低頻特征則主要包括有功功率、無功功率和功率因數。然而高頻特征往往依賴于高頻采樣,要求的數據采集設備成本較高,因此本文將有功功率作為輸入,探究低頻特征下的負荷分解方法。設p(tn)為在時間tn時所有家電測量的總功率。在離散時間取樣下,將p(tn)簡化表示為p(n)[17],即

式中:J為家用電器數量;j為各類家用電器的索引;pj(n)為設備j在采樣點n上的有功功率;e(n)為測量的附加噪聲。
非侵入式負荷分解的目標是從已知的p(n)中提取出未知的pj(n),而pj(n)的估算值p^j(n)與同一窗口下的總功率p(n)有關,因此可以訓練一個網絡來進行時間序列回歸,使其可以由p(n) 得到(n),即

式中:g(·)為在學習過程中的非線性函數;ej(n)為測量設備j的附加噪聲。
本文考慮到電力負荷與時間具有相關性,提出了基于TFLSTM 的非侵入式負荷分解方法。在式(15)的基礎上,建立基于時間模糊的負荷分解函數模型:

式中:yA(n)和yB(n)分別表示由數據集A和數據集B來訓練模型時所得到設備j的功率估計結果;fA(x)和fB(x)為在n對應的時間點x下的模糊參數。當分割點參數確定以后,fA(x)和fB(x)就分別對應于式(13)中的fa(·)和fb(·)。TFLSTM 負荷分解方法的基本結構框架如圖2 所示。

圖2 算法框架Fig.2 Framework of proposed algorithm
本文所提出的負荷分解模型可以根據總用電功耗數據,分解出特定的用電設備功耗數據。通過多個不同設備的網絡,即可得到多個設備的用電信息。該模型首先將原始數據集中的總用電功率序列按照時間區域分割重組,得到了2 個數據集;再根據種類不同的設備,分別將數據集裁剪成相應序列長度的集合,每小段序列經過LSTMA 網絡結構,得到相應的功率估計值序列;2 個數據集共得到2 組對應設備的功率估計值序列,然后由不同時間區域對應的隸屬規則,對2 組數據做進一步處理,最后輸出通過分解得到的用電功耗估計值。
本文選用公開的REFIT[14]數據集來評價提出的算法。該數據集收集了來自英國20 戶家庭2013—2015 年的總表和單個設備傳感器測量的有功功率數據,在此期間,居住者照常進行工作生活任務,以確保數據中保留居住者的用電行為習慣,數據采樣時間分辨率為6~8 s。保留REFIT 數據集中一周的用電數據作為測試集,其余數據用于訓練,測試過程中算法辨識未知負荷的時長為9 s 左右。選擇數據集中設備使用功率占比較高的幾種電器作為已知電器用于驗證算法,分別是:洗碗機(DW)、冰箱(FF)、水壺(K)、電視機(TV)、洗衣機(WM)。這5 種電器消耗了相當大比例的電能,而且分別代表了一系列不同電力特征的用電設備,如水壺等簡單的開/關狀態設備和洗衣機等復雜的多狀態設備。
本文提出的TFLSTM 算法在TensorFlow2.0深度學習框架下實現,在訓練深度學習模型時利用圖形處理器(GPU)加速,設置采樣間隔為1 min,并采用自適應矩估計(adaptive moment estimation,Adam)優化算法訓練模型。每次訓練迭代使用128 個樣本更新模型權重和系數,將輸入網絡中的數據歸一化到[0,1]范圍內,以提高深度學習的性能。文獻[3]觀察到不同設備的數據在訓練網絡時,洗衣機等設備訓練的網絡可以提取比其他設備更多的信息。本文所提出的模型通過訓練每個設備對應的網絡來對負荷進行分類,但在實際應用場景中很難做到對每個設備單獨進行網絡訓練,為解決成本較高的問題,選擇多狀態設備洗衣機作為基準設備,保留其負荷分解網絡訓練后得到的參數,而其他設備每次僅訓練最后一層一維卷積層的相關參數。
對于一個電器設備的完整運行過程而言,穩定的區域包括具有相同特性的數據[18]。TFLSTM 算法為每個網絡的輸入對應設置一個樣本跨度,該樣本跨度下的總功率序列會通過網絡得到同一時間區域下相應設備的消耗功率序列。表1 通過統計每個設備超過設定閾值功率的連續樣本個數來確定樣本跨度。

表1 樣本參數選擇Table 1 Sample parameter selection
本文采用平均絕對誤差(mean absolute error,MAE)、均方根誤差(root mean squared error,RMSE)、歸一化均方根誤差(normalized root mean squared error,NRMS)、功率分解準確率cpower、召回率R和電器啟動辨識準確率con作為算法的評價指標。計算公式分別如下:


式中:EM、ER、EN分別為MAE、RMSE、NRMS 值;TP為正樣本被預測為正樣本的采樣點總個數;FN為正樣本被預測為負樣本的采樣點總個數;TN為負樣本被預測為負樣本的采樣點總個數;FP為負樣本被預測為正樣本的采樣點總個數。
所選數據集中包含了時刻信息、不同時刻對應的房間總有功功率數據以及測量的9 種設備各自消耗的有功功率數據。以房間2 為例,由于數據集中相鄰時刻間隔的時間不等,所以本文在統計之前對數據進行了采樣,采樣時間為1 min,以保證每個時間區域內的采樣點數保持一致,并將一個采樣周期內設備所有功率值的均值作為每個采樣點對應的功率值。數據集根據提供的時間信息分為00:00—01:00、01:00—02:00、…、23:00—24:00 這24 個時間區域對應的子集,剔除房間2 數據集中首尾不完整的2 d 的數據,探究了數據集不同設備在不同時間區域的用電規律。從附錄A 圖A3 中可以看到,除了設備1 和設備7,大部分電器在不同時間區域的使用頻率存在較大差異。
根據統計的數據將時間分為06:00—18:00 和18:00—次日06:00 這2 個區域,2 個區域分別為用電設備使用的相對高頻段和相對低頻段,然后針對這2 個時間區域,評估訓練集時間區域對分解模型測試效果的影響。房間2 的原始數據集A按照上述時間區域分成2 個數據集,其中06:00—18:00 區域的數據集記為數據集B,18:00—次日06:00 區域的數據集記為數據集C,同時2 個數據集分為訓練集B1、訓練集C1、測試集B2和測試集C2,并且從原始數據集中分出一個測試集A2,以LSTM 算法[19]作為用于評估的負荷分解算法。由數據集B1和數據集C1訓練得到的2 個模型分別放在數據集A2、B2、C2上測試,計算3 種模型對應的ER用于評價,具體如附錄A 表A1 所示??梢钥闯?,對大部分設備而言,數據集B1訓練的模型在測試集B2的效果優于測試集A2,且在測試集C2上的效果最差;數據集C1訓練的模型在測試集C2的效果優于測試集A2,且在測試集B2上的效果最差,即當訓練集和測試集的時間區域相同時,算法可以達到更好的分解效果。
本文提出利用粒子群優化(particle swarm optimization,PSO)算法確定時間分割節點的時間模糊策略,引入PSO 算法對分割節點x1和x2進行尋優,根據式(12)和式(13)求解模糊策略參數ca和σ2a,然后在不同時間區域訓練得到的模型基礎上采用模糊策略,以結合家庭用電設備的使用習慣用于負荷分解。得到不同情況下的隸屬度函數后,將適應度函數值設置為EN,粒子群的數量設置為100,通過迭代篩選出最優粒子,作為最終確定的時間分割節點。附錄A 圖A4 展示了引入PSO 算法對分割節點x1和x2進行尋優后,5 種電器在網絡迭代過程中適應度值的變化。由圖可知,經過75 次迭代后,所有電器的適應度值均逐漸降低并收斂。
在LSTM 算法和LSTMA 算法的基礎上,分別加入模糊策略形成模糊長短時記憶(fuzzified long short-term memory,FLSTM)和TFLSTM 這2 種方法,表2 通過EM、ER、EN這3 種評價指標對比了4 種模型下5 種電器的非侵入式負荷監測(non-intrusive load monitoring,NILM)性能。 FLSTM 相比于LSTM,其對應的EM、ER、EN分別降低了0.44~12.46 W、4.73~56.48 W、0.04~0.17;TFLSTM 相比于LSTMA,其對應的EM、ER、EN分別降低了0.54~13.25 W、5.2~43.67 W、0.02~0.36。這些數據表明,加入模糊策略在一定程度上補償了設備使用高頻時間區域中算法對設備的分解功率,釋放了設備使用低頻時間區域中算法對設備的分解功率,對算法起到了一定的提升作用。

表2 加入模糊對模型的影響Table 2 Influence of adding fuzziness on the model
表 3 將 TFLSTM 算 法 與 組 合 優 化(combinatorial optimization,CO)算法[20]、因子隱馬爾可夫模型(factorial hidden Markov model,FHMM)算法[21]、文獻[22]中的算法進行對比。對比4 種算法下cpower、R和con指標的平均值,本文算法相較于其他算法分別高出4%~15%、0.07~0.19 和5%~13%。

表3 不同模型的評價指標對比Table 3 Comparison of evaluation indices for different models
TFLSTM 算法引入時間分割和模糊策略,將用戶的用電行為作為分解的依據之一,并改進了LSTM 算法模型,在一定程度上降低了算法對設備的誤判分解功率。
在負荷分解多種實際應用場景中,總表中采集的數據往往包含大量噪聲,為驗證TFLSTM 在復雜工況下是否依然能夠取得較好的辨識精度,本文在REFIT 數據集中加入不同分貝信噪比(signal-tonoise ratio,SNR)的高斯白噪聲,即

式中:RSN為信噪比;s(n)為采樣點n處的噪聲功率。
圖3 展示了不同算法下5 種設備cpower的平均值。當噪聲功率增大即信噪比降低時,算法準確率開始降低,而TFLSTM 算法和文獻[22]提出的算法均在信噪比為30 dB 左右時,準確率才開始降低,并且當信噪比相同時,TFLSTM 算法的準確率均高于其他算法,因此,TFLSTM 算法在復雜工況下依然保持了較好的負荷識別精度。

圖3 不同算法的魯棒性對比Fig.3 Comparison of robustness for different algorithms
本文提出了一種基于時間模糊化雙向LSTM的負荷分解深度學習模型,即TFLSTM 算法,可以自適應地根據設備前后的狀態確定當前狀態,適應設備特有的運行模式,同時通過改進的LSTM 網絡分解結構,對總功率和特定設備功率在連續若干個固定長度序列進行建模。訓練好的模型可以從家庭總用電數據中分解出特定電器的耗能情況,實驗證明TFLSTM 算法能有效降低設備估計功率值與真實值的誤差。此外,該方法中融入了時間模糊策略,將算法和用戶的用電行為相結合用于負荷分解,降低了模型分解的狀態誤判率。未來工作將進一步研究不同地區的時間模糊策略設計方案,以期提升模型的泛化性能。
附錄見本刊網絡版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網絡全文。