基于GRU-MMD的電力數(shù)據(jù)挖掘方法

2021-11-12 00:27:56李毅靖吳元林

工業(yè)加熱 2021年10期

黃荷，陳杰，李毅靖，鄭鐘，吳元林

(1.國網(wǎng)福建省電力有限公司，福建福州 350001；2.國網(wǎng)信通億力科技有限責(zé)任公司，福建福州 350001)

在電力數(shù)據(jù)挖掘中，對電力系統(tǒng)的安全評估和電網(wǎng)的規(guī)劃及預(yù)測是最重要的研究方向[1]。精準(zhǔn)的負(fù)荷預(yù)測，可以為電力企業(yè)制定合理的發(fā)電計劃，降低電力損耗，提高電網(wǎng)的安全，對于電力用戶來說，精準(zhǔn)的負(fù)荷預(yù)測，能夠使用戶錯峰填谷，提高電能利用率，降低用電費(fèi)用[2-3]。

隨著智能電網(wǎng)和大數(shù)據(jù)技術(shù)的飛速發(fā)展，近年來，電力數(shù)據(jù)挖掘方法引起了人們的廣泛關(guān)注。文獻(xiàn)[4]提出電力數(shù)據(jù)使智慧城市的重要成分，并分別從用電行為，負(fù)荷需求流向，區(qū)域成熟度等方面分析了數(shù)據(jù)挖掘?qū)χ腔鄢鞘械木薮笞饔谩Ｎ墨I(xiàn)[5]針對電力數(shù)據(jù)挖掘?qū)﹄娋W(wǎng)規(guī)劃建設(shè)，安全評估，負(fù)荷預(yù)測，故障診斷等方向的作用，并對數(shù)據(jù)挖掘在智慧城市的發(fā)展上的推動作用進(jìn)行了分析。文獻(xiàn)[6]為了提高電力數(shù)據(jù)挖掘的準(zhǔn)確性，采用蟻群聚類優(yōu)化方法對粗糙數(shù)據(jù)特征進(jìn)行分類，剔除干擾信息，從而獲得準(zhǔn)確的電力數(shù)據(jù)檢測結(jié)果。文獻(xiàn)[7]提出了一種基于低秩的電力數(shù)據(jù)異常檢測方法，并應(yīng)用拉格朗日方法優(yōu)化目標(biāo)方程，能夠有效檢測出智能電網(wǎng)種的異常信息和有害信息。文獻(xiàn)[8]針對海洋電力數(shù)據(jù)挖掘問題，提出了一種基于節(jié)點(diǎn)動態(tài)性能值得處理方法，相比于傳統(tǒng)的MapReduce算法，具有更快的處理速度和更高的穩(wěn)定性。

針對電網(wǎng)大數(shù)據(jù)挖掘的方法越來越多，但是如何在具有不同特征的數(shù)據(jù)中挖掘出更高的知識，還未見有相關(guān)研究。本文針對數(shù)據(jù)特征不同的電力數(shù)據(jù)集，采用GRU-MMD方法建立準(zhǔn)確的數(shù)據(jù)分析模型，獲得期望輸出結(jié)果。

1 基于GRU的電力負(fù)荷挖掘

1.1 GRU數(shù)學(xué)模型

GRU (Gated Recurrent Unit,簡稱 GRU)是在長短期循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來的一種神經(jīng)網(wǎng)絡(luò)[9]。GRU的學(xué)習(xí)過程如圖1所示。

圖1 GRU單元結(jié)構(gòu)

如圖1所示，GRU的實(shí)現(xiàn)過程如式(1)～式(7)所示。

(1)

(2)

(3)

(4)

(5)

(6)

(7)

1.2 基于GRU的短期負(fù)荷預(yù)測

在采用GRU對電力用戶進(jìn)行短期負(fù)荷預(yù)測的時候，預(yù)測流程如圖2所示[10]。

圖2 基于GRU的短期負(fù)荷預(yù)測流程

將電力用戶每天的用電情況作為一個樣本P，每隔15 min采集一次電力負(fù)荷，每天96個數(shù)據(jù)。P的維度為96。P1是待負(fù)荷預(yù)測日7天前某天的用電情況。Dp，Wp，Tp指的是負(fù)荷預(yù)測當(dāng)天的日期，氣象和溫度情況。Pp指的是負(fù)荷預(yù)測值。

2 基于GRU-MMD的電力數(shù)據(jù)挖掘模型

2.1 遷移學(xué)習(xí)

對于傳統(tǒng)的機(jī)器學(xué)習(xí)來說，樣本的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)由同一個特征空間產(chǎn)生，當(dāng)樣本數(shù)據(jù)不是處于同一個特征空間的時候，就需要耗費(fèi)大量資源去采集合適的樣本數(shù)據(jù)。遷移學(xué)習(xí)為深度學(xué)習(xí)的深入發(fā)展提供了新思路，通過將先驗知識轉(zhuǎn)換到其他相關(guān)的任務(wù)上，以提高相關(guān)任務(wù)的處理效率和準(zhǔn)確性[11-12]。遷移學(xué)習(xí)包括領(lǐng)域(Domain)和任務(wù)(Task)。

領(lǐng)域是學(xué)習(xí)的主體。領(lǐng)域包括特征空間χ和邊緣分布概率P(X)，且X=(x1,x2,…,xn)∈χ。若領(lǐng)域不同，則特征空間或邊緣概率分布也不同。設(shè)領(lǐng)域D={χ,P(X)}，任務(wù)T={y,P(Y|X)}。y 指的是標(biāo)簽空間，P{Y|X}為條件概率，通常情況下P{Y|X}沒有具體形式。目標(biāo)函數(shù)的預(yù)測函數(shù)通過樣本數(shù)據(jù)對{xi,yi}得到。

遷移學(xué)習(xí)包括源領(lǐng)域Ds(Source domain)及目標(biāo)領(lǐng)域DT(Target domain)[13]。源領(lǐng)域包含的信息對模型預(yù)測具有重要價值，是遷移的對象[14]。目標(biāo)域指的是待解決問題。任務(wù)同樣包含源領(lǐng)域任務(wù)TS和目標(biāo)領(lǐng)域任務(wù)TT。遷移學(xué)習(xí)就是通過推理學(xué)習(xí)源領(lǐng)域的規(guī)則，得到目標(biāo)領(lǐng)域的輸出結(jié)果，解決目標(biāo)問題。表示過程為：源領(lǐng)域DS和TS，當(dāng)DS≠DT,TS≠TT，推理得到目標(biāo)域DS≠DT的預(yù)測輸出f(·)。

圖3為遷移學(xué)習(xí)的基本示例。當(dāng)遷移學(xué)習(xí)應(yīng)用在圖像識別的時候，源領(lǐng)域包含了大量的圖像，目標(biāo)領(lǐng)域只含有少量數(shù)據(jù)，則通過訓(xùn)練源領(lǐng)域的數(shù)據(jù)，獲取知識后，推理出目標(biāo)域的預(yù)測輸出[15]。在電力數(shù)據(jù)挖掘當(dāng)中，將待挖掘的電力區(qū)域作為目標(biāo)領(lǐng)域，將歷史數(shù)據(jù)或ita電網(wǎng)作為源領(lǐng)域。

圖3 遷移學(xué)習(xí)示例

2.2 最大均值差異算法

MMD(maximum mean discrepancy, 簡稱MMD)最初是用于判斷兩個樣本的分布是否一樣。在將MMD與遷移學(xué)習(xí)相結(jié)合的時候，MMD將源領(lǐng)域與目標(biāo)領(lǐng)域通過推理聯(lián)系在了一起。MMD在樣本空間確定函數(shù)f，獲取兩類樣本數(shù)據(jù)的平均值，計算兩類數(shù)據(jù)的均值差異。當(dāng)確定的f能夠使均值差異最大化的時候，則將差異值作為這兩類數(shù)據(jù)的MMD。MMD越小，則認(rèn)為兩類數(shù)據(jù)的分布相似度越高，相反，MMD越大，則表示兩類數(shù)據(jù)分布的相似度越小。綜上所述，MMD是用來衡量兩類數(shù)據(jù)分布的相似程度。MMD的實(shí)現(xiàn)過程如下所述。

設(shè)F為樣本空間連續(xù)函數(shù)，存在式(1)：

設(shè)X,Y分別為p和q中采集的樣本數(shù)據(jù)。X和Y的數(shù)據(jù)量分別為m，n。則MMD的經(jīng)驗估計表示為式(2)：

(2)

從式(2)可以看出，只有當(dāng)p，q分布相同時，MMD才等于0。當(dāng)處理的數(shù)據(jù)量較大的時候，對F進(jìn)行限定才能加快收斂。當(dāng)F為再生核希爾伯特空間的單位球時，能夠?qū)崿F(xiàn)MMD快速收斂。可再生核希爾伯特空間的特征，采用點(diǎn)積來描述f→f(x)的映射，可以表示為式(3)。

f(x)=〈f,φ(x)〉H

(3)

用up和uq替換Ep[φ(x)]和Eq[φ(x)]，可得式(4)。

‖up-uq‖H

(4)

對式(4)兩邊求平方，可得式(5)。

MMD2[F,p,q]=Ep〈φ(x),φ(x′)〉H+Ep〈φ(y),φ(y′)〉H-2Ep,q〈φ(x),φ(y)〉H

(5)

采用徑向基核函數(shù)代替內(nèi)積。

(6)

則MMD的求解公式可以轉(zhuǎn)換為式(7)。

(7)

從式(7)中可以看出，MMD通過距離來判斷樣本相似程度。

2.3 基于GRU-MMD的電力數(shù)據(jù)挖掘

在采用深度學(xué)習(xí)對電網(wǎng)進(jìn)行數(shù)據(jù)挖掘的時候，引入MMD方法后的實(shí)現(xiàn)過程如圖4所示。

圖4 基于深度學(xué)習(xí)和遷移學(xué)習(xí)的電力數(shù)據(jù)流程圖

在對源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理之后，取源領(lǐng)域的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。采用MMD方法求解源領(lǐng)域和目標(biāo)領(lǐng)域之間的差異值，并根據(jù)差異情況調(diào)整網(wǎng)絡(luò)的結(jié)構(gòu)，獲取新的結(jié)構(gòu)。當(dāng)MMD值小于設(shè)定閾值a時，表示源領(lǐng)域和目標(biāo)領(lǐng)域分布類似，則網(wǎng)絡(luò)的結(jié)構(gòu)不用調(diào)整。當(dāng)MMD的值處于設(shè)定閾值[a,b]之間的時候，則對網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行重新調(diào)整，以提高模型的知識學(xué)習(xí)能力。若MMD的值超過b，表示源領(lǐng)域與目標(biāo)領(lǐng)域的差異較大，不適合遷移學(xué)習(xí)。

2.4 負(fù)荷預(yù)測遷移學(xué)習(xí)模型

基于GRU的短期負(fù)荷預(yù)測遷移學(xué)習(xí)模型如圖5所示。如果源領(lǐng)域與目標(biāo)領(lǐng)域的MMD小于a的時候，采用左側(cè)網(wǎng)絡(luò)結(jié)構(gòu)獲得輸出。若源領(lǐng)域與目標(biāo)領(lǐng)域的MMD處于[a,b]之間，則采用圖5右側(cè)的經(jīng)過遷移學(xué)習(xí)后的網(wǎng)絡(luò)結(jié)構(gòu)求取輸出。采用此種結(jié)構(gòu)對線路跳閘故障進(jìn)行預(yù)測，降低了學(xué)習(xí)率，提高了預(yù)測精度。

圖5 短期負(fù)荷預(yù)測的遷移學(xué)習(xí)模型

3 實(shí)驗仿真

3.1 仿真設(shè)置

為了驗證本文所提的數(shù)據(jù)挖掘?qū)W習(xí)模型的準(zhǔn)確性，進(jìn)行了算例仿真。仿真用數(shù)據(jù)來自廣東省東莞市電力局，采集時間為2016—2018年。仿真用計算機(jī)為聯(lián)想，CPU cori i5 9400，內(nèi)存8G。仿真的GRU參數(shù)設(shè)置如表1所示。

表1 GRU網(wǎng)絡(luò)參數(shù)

本文將采用目標(biāo)領(lǐng)域數(shù)據(jù)訓(xùn)練得到的模型作為模型1。采用源領(lǐng)域數(shù)據(jù)訓(xùn)練的模型，然后采用目標(biāo)領(lǐng)域數(shù)據(jù)進(jìn)行微調(diào)的模型作為模型2。采用源領(lǐng)域數(shù)據(jù)訓(xùn)練得到的模型，再根據(jù)目標(biāo)領(lǐng)域數(shù)據(jù)對網(wǎng)絡(luò)的所有參數(shù)進(jìn)行調(diào)整的模型作為模型3。源領(lǐng)域和目標(biāo)領(lǐng)域的樣本分別為36 000和9 000。選用MAPE作為評價網(wǎng)絡(luò)模型準(zhǔn)確度的標(biāo)準(zhǔn)。

案例A:當(dāng)目標(biāo)域和源領(lǐng)域數(shù)據(jù)健全的情況下，建立三種預(yù)測模型的MAPE與MMD的預(yù)測關(guān)系曲線如圖6所示。

圖6 案例A的MMD與MAPE的關(guān)系曲線

案例B：當(dāng)目標(biāo)域數(shù)據(jù)不全的時候，建立三種預(yù)測模型的MAPE與MMD的預(yù)測關(guān)系曲線如圖7所示。

圖7 案例B的MMD與MAPE的關(guān)系曲線

由于線路共有36條線路，選取前33個作為源數(shù)據(jù)，剩余的作為目標(biāo)數(shù)據(jù)。含遷移學(xué)習(xí)以及不含遷移學(xué)習(xí)的MAPE結(jié)果如圖8所示。與其他現(xiàn)有的負(fù)荷預(yù)測方法對比結(jié)果如表2所示，其中BP1,LSTM1，GRU為未引入遷移學(xué)習(xí)的算法，BP2,LSTM2及本文所提方法為引入遷移學(xué)習(xí)的算法。

圖8 負(fù)荷預(yù)測MAPE結(jié)果對比

表2 各種算法MAPE對比結(jié)果 %

3.2 結(jié)果分析

從圖6可以看出，源領(lǐng)域和目標(biāo)領(lǐng)域的MMD影響著遷移學(xué)習(xí)的結(jié)果。當(dāng)MMD很小的時候，模型1高于模型2的預(yù)測精度。當(dāng)MMD較大的時候，模型2的預(yù)測精度高于模型1，此時模型2能夠有效遷移模型1的知識，通過引入新的層提高網(wǎng)絡(luò)的學(xué)習(xí)能力。

從圖7可以看出，MMD較小的時候，模型1具有更好的預(yù)測能力。隨著MMD的增大，會出現(xiàn)負(fù)遷移情況。當(dāng)MMD較小的時候，在網(wǎng)絡(luò)中引入新層會導(dǎo)致過擬合。當(dāng)MMD≤0.24，采用模型1進(jìn)行預(yù)測。當(dāng) MMD≥0.24，存在負(fù)遷移情況，需要更換源領(lǐng)域數(shù)據(jù)重新建立模型。

從圖8可以看出，經(jīng)過遷移學(xué)習(xí)之后，提升了負(fù)荷預(yù)測的準(zhǔn)確定，降低了訓(xùn)練耗時。相比于其他現(xiàn)有的負(fù)荷預(yù)測方法，本文所提的方法具有最高的預(yù)測精度，說明本文所提的方法更適用于電力數(shù)據(jù)挖掘。

4 總結(jié)

為了提高電力數(shù)據(jù)利用率和數(shù)據(jù)挖掘的效率，本文提出了GRU-MMD的電力數(shù)據(jù)挖掘方法。對采集的電力數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理，然后采用MMD方法分析源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)的差異，根據(jù)差異值決定是否調(diào)整GRU網(wǎng)絡(luò)模型。經(jīng)過仿真實(shí)驗分析，驗證了本文所提的方法能夠提高數(shù)據(jù)挖掘的精度，有益于電力大數(shù)據(jù)的準(zhǔn)確建模。