基于深度學(xué)習(xí)的電力數(shù)據(jù)分析研究

2023-07-14 18:06:48梁明源

宇航計(jì)測(cè)技術(shù) 2023年3期

柳薇,張波,梁明源

(國(guó)家電網(wǎng)有限公司客戶服務(wù)中心,天津 300300)

1 引言

隨著電力系統(tǒng)[1,2]一體化建設(shè),智能電網(wǎng)中狀態(tài)估計(jì)、故障定位、電壓無(wú)功控制、需求響應(yīng)等需求不斷增加。然而由于長(zhǎng)距離傳輸,電力供應(yīng)有限和供電設(shè)施建設(shè)限制等諸多因素,電力供需失衡已成為一個(gè)需要解決的重要問(wèn)題[3]。為此,可基于通信、計(jì)算機(jī)、網(wǎng)絡(luò)[4-6]等技術(shù),通過(guò)分析電力客戶數(shù)據(jù)信息,從而有效判斷用戶用電特征,這對(duì)精細(xì)化電力管理及電力服務(wù)質(zhì)量提升具有重要意義。

為了提高電力分析的性能,一個(gè)重要的問(wèn)題是基于電力數(shù)據(jù)確定哪些設(shè)備正在運(yùn)行。這需要從聚合的電力數(shù)據(jù)中對(duì)多個(gè)未知數(shù)量的電器進(jìn)行分類。目前,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,分類問(wèn)題已成果應(yīng)用于圖像、音視頻、信號(hào)等領(lǐng)域。此外,電力數(shù)據(jù)作為一種特殊的信號(hào)信息,其具備數(shù)據(jù)緯度高、干擾多、特征復(fù)雜等特點(diǎn),如果直接引入其他領(lǐng)域的深度學(xué)習(xí)模型,將導(dǎo)致模型性能與分類結(jié)果不可靠。為此,許多學(xué)者對(duì)電力數(shù)據(jù)分析領(lǐng)域深度學(xué)習(xí)模型進(jìn)行研究,并取得了豐碩成果。文獻(xiàn)[7]提出了一種基于深度學(xué)習(xí)的電力系統(tǒng)異常數(shù)據(jù)自動(dòng)捕獲方法,從而實(shí)現(xiàn)對(duì)異常傳輸電子量的精確化處理。文獻(xiàn)[8]提出了一種基于深度學(xué)習(xí)的電力調(diào)度數(shù)據(jù)自動(dòng)備份系統(tǒng),從而有效提高電力調(diào)度數(shù)據(jù)穩(wěn)定性。文獻(xiàn)[9]提出了一種基于深度學(xué)習(xí)的異常用電監(jiān)測(cè)方法。上述模型都在各自領(lǐng)域應(yīng)用深度學(xué)習(xí)模型處理電力數(shù)據(jù)。然而,目前很少有文章基于電力數(shù)據(jù)對(duì)電器進(jìn)行分類。此外,由于家用電力數(shù)據(jù)特征復(fù)雜,傳統(tǒng)方法很難學(xué)習(xí)到有效特征,導(dǎo)致檢測(cè)精度較低。

為改善上述問(wèn)題,引入信號(hào)領(lǐng)域特征提取方法,將電力數(shù)據(jù)轉(zhuǎn)化為頻譜圖、Mel 頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)和Mel頻譜圖,從而使得深度學(xué)習(xí)模型能夠充分學(xué)習(xí)有效特征。此外,提出了一種基于多層堆疊的LSTM 模型,并采用改進(jìn)的軟獨(dú)熱編碼提高學(xué)習(xí)效率及分類準(zhǔn)確率。

2 電力數(shù)據(jù)多層堆疊LSTM 模型

2.1 模型結(jié)構(gòu)

當(dāng)使用功率數(shù)據(jù)作為時(shí)間序列信息的原始數(shù)據(jù)時(shí),需要在模擬數(shù)據(jù)數(shù)字化過(guò)程中對(duì)功率數(shù)據(jù)進(jìn)行采樣。通過(guò)采樣過(guò)程,數(shù)據(jù)在每個(gè)采樣時(shí)間可轉(zhuǎn)換為一維數(shù)組。然而,一維數(shù)據(jù)通常非常復(fù)雜、不規(guī)則或難以發(fā)現(xiàn)有效特征。為了解決上述問(wèn)題,本研究首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,從而生成一組有效數(shù)據(jù)作為深度學(xué)習(xí)模型的輸入。為此,所提網(wǎng)絡(luò)模型引入音頻信號(hào)處理方法將電力時(shí)間序列數(shù)據(jù)轉(zhuǎn)換為二維形式的特征提取從而更好地表示數(shù)據(jù)特征,實(shí)現(xiàn)更高效和高性能的學(xué)習(xí)過(guò)程。此外,通過(guò)二維形式的特征提取,可以有效減少數(shù)據(jù)大小,從而在一定程度上加快學(xué)習(xí)速度。提出的電力數(shù)據(jù)分析模型結(jié)構(gòu)圖如圖1 所示。

圖1 電力數(shù)據(jù)分析模型結(jié)構(gòu)圖Fig.1 Structure diagram of power data analysis model

通過(guò)使用LSTM,可以有選擇地不使用來(lái)自過(guò)去的不必要信息,從而實(shí)現(xiàn)更高效的學(xué)習(xí)。然而,如果數(shù)據(jù)非常大或整個(gè)數(shù)據(jù)中包含大量重要信息,僅使用一層LSTM 將無(wú)法存儲(chǔ)數(shù)據(jù)的所有信息,同時(shí)可能會(huì)丟失重要信息。因此,提出了一種多層堆疊LSTM 網(wǎng)絡(luò)來(lái)有效地學(xué)習(xí)時(shí)間序列數(shù)據(jù)的特征。接下來(lái),對(duì)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中關(guān)鍵步驟進(jìn)行詳細(xì)介紹。

2.2 特征提取

將音頻信號(hào)處理中用于數(shù)據(jù)表征的技術(shù)應(yīng)用于電力數(shù)據(jù)的特征提取。電力數(shù)據(jù)是一種典型的頻率和時(shí)間共存的長(zhǎng)序列數(shù)據(jù),為此本研究使用三種特征提取技術(shù):即頻譜圖、MFCC 和Mel 頻譜圖,用于提取電力數(shù)據(jù)的特征,然后將其應(yīng)用于深度學(xué)習(xí)模型并提高分類任務(wù)的性能。

2.2.1 頻譜圖

頻譜圖[11]是一段時(shí)間內(nèi)不同頻率下信號(hào)幅值的二維表示。頻譜圖可描述特定時(shí)間內(nèi)每個(gè)頻率的信號(hào)功率以及信號(hào)隨時(shí)間變化情況。基于短時(shí)傅立葉變換[12](Short-Time Fourier Transform,STFT)的頻譜特征分析進(jìn)行特征提取。STFT 可以通過(guò)將長(zhǎng)時(shí)間信號(hào)劃分為等長(zhǎng)的較短段并在每個(gè)較短段中分別計(jì)算傅立葉變換來(lái)獲得短時(shí)傅立葉變換:

式中:w[n]——長(zhǎng)度為n的窗口函數(shù);N——窗口數(shù)量;x[n]——由n索引的離散時(shí)間數(shù)據(jù)。

最后,可以通過(guò)前一個(gè)STFT 生成的頻譜的線性表示或?qū)?shù)獲得頻譜圖,具體描述為:

2.2.2 MFCC 和Mel 譜圖

在Mel 頻率尺度上,通過(guò)三角形重疊窗口的Mel 濾波器組將頻譜轉(zhuǎn)換為Mel 頻譜。Mel 濾波器組是一個(gè)在正常頻率尺度上具有各種帶寬的臨界頻帶,通過(guò)在低頻段而不是高頻段放置大量濾波器來(lái)強(qiáng)調(diào)低頻范圍內(nèi)的信息。因此,該方式生成的Mel 頻譜圖更側(cè)重于降低維數(shù)的功率信號(hào)的低頻模式。

使用離散余弦變換(discrete cosine transform,DCT)[13]將Mel 頻譜的對(duì)數(shù)轉(zhuǎn)換回時(shí)間領(lǐng)域,從而獲得Mel 頻率倒譜系數(shù)。通過(guò)轉(zhuǎn)換Mel 頻譜的對(duì)數(shù),擴(kuò)展了低頻信息,并且由于DCT,MFCC 只有實(shí)部。具體過(guò)程表示為:

式中:sk——濾波器組的第k個(gè)濾波器的輸出功率;cn——通過(guò)DCT 獲得的具有N個(gè)參數(shù)的MFCC。

2.3 多層堆疊LSTM 網(wǎng)絡(luò)

2.3.1 網(wǎng)絡(luò)結(jié)構(gòu)

提出了一種多層堆疊LSTM 網(wǎng)絡(luò)捕獲模型,從而有效提高模型的分類和回歸能力,改善單層LSTM[9]將無(wú)法存儲(chǔ)數(shù)據(jù)的所有信息,同時(shí)可能會(huì)丟失重要信息的缺點(diǎn)。

多層堆疊LSTM 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,其包含多組前向和后向LSTM 隱含層單元。令電力數(shù)據(jù)特征向量序列為x=(x1,x2,…,xn),則前向和后向LSTM 從開(kāi)始到結(jié)束同時(shí)遍歷特征向量,前向神經(jīng)元隱含層輸出序列和后向神經(jīng)元隱含層輸出序列可描述為:

圖2 多層LSTM 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Structure diagram of multi-layer LSTM network

式中:n——特征序列中包含特征的個(gè)數(shù)。

進(jìn)一步,雙向LSTM 網(wǎng)絡(luò)隱含層的編碼輸出yt可以通過(guò)級(jí)聯(lián)正向和反向輸出求解為:

式中:W,b——與LSTM 相對(duì)應(yīng)的權(quán)重向量和偏置。

2.3.2 訓(xùn)練過(guò)程

通常情況下,分類任務(wù)中最常用的標(biāo)簽編碼方法為獨(dú)熱編碼[14]。獨(dú)熱編碼可以定義為將分類變量轉(zhuǎn)換為分布,從而更好地進(jìn)行預(yù)測(cè)。獨(dú)熱編碼公式為:

式中:c(k)——第k個(gè)類別的標(biāo)簽;K——的數(shù)量;Dk——第k個(gè)類別的編碼。

然而,考慮到電力數(shù)據(jù)緯度高、特征復(fù)雜,模型置信度和過(guò)度擬合會(huì)導(dǎo)致某些錯(cuò)誤序列的特征分?jǐn)?shù)過(guò)高,這可能會(huì)影響模型訓(xùn)練效果并容易陷入局部最優(yōu)。為此,本研究提出了一種改進(jìn)的軟獨(dú)熱編碼方法,從而防止峰值概率分布,提高模型的泛化能力。

在軟獨(dú)熱編碼中,不直接使用0 和1 將標(biāo)簽編碼為向量,而是使用隨機(jī)性值對(duì)標(biāo)簽編碼。對(duì)于真實(shí)分類,賦予其高概率;但對(duì)于其他分類,分配一個(gè)服從高斯分布的小隨機(jī)變量。這將使網(wǎng)絡(luò)嘗試擬合高斯分布并影響適應(yīng)性,從而增加了標(biāo)簽向量的多樣性。因此,軟軟獨(dú)熱編碼計(jì)算公式為:

式中:δ——超參數(shù)高概率值;μ——分布的平均值或期望值;σ——標(biāo)準(zhǔn)差;x——一個(gè)范圍內(nèi)的隨機(jī)值,用于計(jì)算服從高斯分布的隨機(jī)數(shù);K——類別個(gè)數(shù);ε1——服從高斯分布的隨機(jī)數(shù)。

最終,軟獨(dú)熱編碼下的損失函數(shù)計(jì)算為:

式中:ce——交叉熵函數(shù);p(t)——網(wǎng)絡(luò)為輸入計(jì)算的預(yù)測(cè)概率分布;q(t)——通過(guò)軟軟獨(dú)熱編碼在標(biāo)簽上編碼的向量;t——訓(xùn)練集中的時(shí)間步長(zhǎng);T——總步長(zhǎng);n——p(t)和q(t)分布的維數(shù)。

3 仿真與分析

3.1 數(shù)據(jù)集

為了驗(yàn)證所提模型的可行性和有效性,本節(jié)基于中國(guó)某電力公司提供的數(shù)據(jù)對(duì)所提模型進(jìn)行驗(yàn)證。數(shù)據(jù)收集時(shí)間為2014 年至2017 年,數(shù)據(jù)集記錄了家庭電器級(jí)的電力用電情況,采樣頻率為1/6 Hz,1 Hz和16 kHz。此外,為保證數(shù)據(jù)有效性,對(duì)記錄中數(shù)據(jù)進(jìn)行清洗,刪除部分空缺數(shù)據(jù)。最終數(shù)據(jù)集中共記錄了329 戶共計(jì)37 451 組用電數(shù)據(jù)。需注意,每戶都有不同種類和數(shù)量的電器的信息,且每戶電器的記錄時(shí)間也存在差異。為充分學(xué)習(xí)電力數(shù)據(jù)特征,實(shí)驗(yàn)時(shí)選取具有代表性的家用電器:臺(tái)式工作站、洗碗機(jī)、筆記本電腦、路由器、冰箱、調(diào)制解調(diào)器、洗衣機(jī)、顯示器、微波爐、服務(wù)器硬盤、揚(yáng)聲器。同時(shí),電力數(shù)據(jù)集部分用戶及其家用電器用電統(tǒng)計(jì)信息如表1 所示。

表1 電力數(shù)據(jù)集部分用戶及其家用電器用電統(tǒng)計(jì)信息表Tab.1 Statistical information on electricity consumption of some users and their household appliances in the power dataset

3.2 實(shí)驗(yàn)過(guò)程與環(huán)境設(shè)置

根據(jù)前述特征提取及網(wǎng)絡(luò)搭建過(guò)程,本節(jié)對(duì)實(shí)驗(yàn)步驟進(jìn)行簡(jiǎn)要描述。首先,將電力用戶數(shù)據(jù)通過(guò)采樣步長(zhǎng)為M(重疊L)的持續(xù)時(shí)間進(jìn)行時(shí)序分割。其次,如果分割數(shù)據(jù)中非零數(shù)據(jù)小于重疊時(shí)間L的1 %,則認(rèn)為該數(shù)據(jù)無(wú)標(biāo)簽。接著,根據(jù)本研究提出的軟熱編碼標(biāo)記數(shù)據(jù)集中的每個(gè)類。再次,隨機(jī)排序每個(gè)類別時(shí)序時(shí)間數(shù)據(jù)集。最后,將數(shù)據(jù)集按6 ∶4的比例分為訓(xùn)練集和測(cè)試集。

此外,為了增加數(shù)據(jù)量,實(shí)驗(yàn)時(shí)采用多尺度訓(xùn)練過(guò)程,即采樣步長(zhǎng)分別設(shè)置為原步長(zhǎng)的[0.5,0.75,1,1.25,1.5]倍。接著,重復(fù)上述采樣過(guò)程,從而完成多尺度采樣。多尺度采樣不僅可以增加數(shù)據(jù)量,而且可以更好的表征數(shù)據(jù)重要前后信息關(guān)系。最后,將生成的數(shù)據(jù)集帶入所提多層堆疊LSTM 網(wǎng)絡(luò),并基于軟獨(dú)熱編碼損失函數(shù)訓(xùn)練網(wǎng)絡(luò)參數(shù)。

仿真過(guò)程中環(huán)境設(shè)置如下:硬件環(huán)境為浪潮服務(wù)器,CPU 為Intel(R)Xeon(R)CPU E5 -2680 v3@2.5 Hz(12 核),GPU 為GeForce GTX TITAN X(2塊),RAM 為64 GB,操作系統(tǒng)為ubuntu18.04。軟件環(huán)境為使用python3.7 編譯主程序,多層堆疊LSTM 網(wǎng)絡(luò)基于pytorch 構(gòu)建。

仿真過(guò)程中參數(shù)設(shè)置如下:學(xué)習(xí)率為0.001,單個(gè)LSTM 隱含層個(gè)數(shù)為256,優(yōu)化器為Adam,共堆疊6 層LSTM 單元,數(shù)據(jù)批處理大小為30,迭代次數(shù)為30 000。

3.3 對(duì)比與分析

3.3.1 訓(xùn)練性能分析

本節(jié)對(duì)多層LSTM 模型應(yīng)用優(yōu)化策略:軟獨(dú)熱編碼及多尺度訓(xùn)練。同時(shí)對(duì)模型訓(xùn)練性能進(jìn)行評(píng)估。

不同策略下訓(xùn)練誤差對(duì)比結(jié)果如圖3 所示。可以看出所軟獨(dú)熱編碼及多尺度訓(xùn)練時(shí),訓(xùn)練曲線收斂速度更快(約80 代達(dá)到最優(yōu)),且更平滑(收斂后誤差為0.028)。實(shí)驗(yàn)結(jié)果驗(yàn)證了所提軟獨(dú)熱編碼及多尺度訓(xùn)練對(duì)加快訓(xùn)練效果具有一定效果。

圖3 不同策略下訓(xùn)練誤差對(duì)比結(jié)果圖Fig.3 Comparison results of training errors under different strategies

3.3.2 交叉對(duì)比分析

本節(jié)以準(zhǔn)確率、召回率和F 分?jǐn)?shù)為指標(biāo),對(duì)比了所提多層堆疊LSTM 模型與隨機(jī)森林(Random forest,RF)、支持向量機(jī)(Support vector machine,SVM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)、LSTM 等模型的性能,從而驗(yàn)證所提模型的優(yōu)勢(shì)。不同模型比較結(jié)果如表2 所示。可以看出,RNN 和LSTM 等深度學(xué)習(xí)模型較傳統(tǒng)模型(RF 和SVM)相比性能提升明顯,然而深度學(xué)習(xí)模型存在計(jì)算復(fù)雜,模型執(zhí)行時(shí)間長(zhǎng)等問(wèn)題。同時(shí),所提模型綜合性能最高,RF、SVM、RNN、LSTM、等模型召回率較低。分析原因,所提多層堆疊LSTM 網(wǎng)絡(luò)在對(duì)電力數(shù)據(jù)進(jìn)行分類時(shí)能夠充分學(xué)習(xí)電力特征,從而結(jié)合上下文信息進(jìn)行時(shí)空維度學(xué)習(xí),提高了分類的精度,最終分類準(zhǔn)確率達(dá)到89.85 %。此外,電力數(shù)據(jù)特征復(fù)雜,傳統(tǒng)模型無(wú)法有效搜索解空間,從而容易陷入局部最優(yōu),這將嚴(yán)重影響特征分類準(zhǔn)確率。

表2 不同模型比較結(jié)果表Tab.2 Comparison results of different models

4 結(jié)束語(yǔ)

建立了一種基于深度學(xué)習(xí)的電力數(shù)據(jù)分析模型。該模型參考音頻信號(hào)處理中多特征提取方法,并結(jié)合LSTM 模型實(shí)現(xiàn)了家庭級(jí)別電力信息的有效分類。該模型為電力系統(tǒng)智能化管理及特征分析提供了一定借鑒作用。未來(lái)可對(duì)最優(yōu)化模型參數(shù)的優(yōu)化配置和規(guī)模進(jìn)行研究,從而進(jìn)一步降低模型計(jì)算消耗。

另外,感謝國(guó)網(wǎng)客服中心2022 年“網(wǎng)上國(guó)網(wǎng)”App埋點(diǎn)綜合分析服務(wù)項(xiàng)目(編號(hào):SGKFYYOOZCJS2100039)的資助和支持!