黃 荷,陳 杰,李毅靖,鄭 鐘,吳元林
(1.國網(wǎng)福建省電力有限公司,福建 福州 350001;2.國網(wǎng)信通億力科技有限責(zé)任公司,福建 福州 350001)
在電力數(shù)據(jù)挖掘中,對電力系統(tǒng)的安全評估和電網(wǎng)的規(guī)劃及預(yù)測是最重要的研究方向[1]。精準(zhǔn)的負(fù)荷預(yù)測,可以為電力企業(yè)制定合理的發(fā)電計劃,降低電力損耗,提高電網(wǎng)的安全,對于電力用戶來說,精準(zhǔn)的負(fù)荷預(yù)測,能夠使用戶錯峰填谷,提高電能利用率,降低用電費(fèi)用[2-3]。
隨著智能電網(wǎng)和大數(shù)據(jù)技術(shù)的飛速發(fā)展,近年來,電力數(shù)據(jù)挖掘方法引起了人們的廣泛關(guān)注。文獻(xiàn)[4]提出電力數(shù)據(jù)使智慧城市的重要成分,并分別從用電行為,負(fù)荷需求流向,區(qū)域成熟度等方面分析了數(shù)據(jù)挖掘?qū)χ腔鄢鞘械木薮笞饔谩N墨I(xiàn)[5]針對電力數(shù)據(jù)挖掘?qū)﹄娋W(wǎng)規(guī)劃建設(shè),安全評估,負(fù)荷預(yù)測,故障診斷等方向的作用,并對數(shù)據(jù)挖掘在智慧城市的發(fā)展上的推動作用進(jìn)行了分析。文獻(xiàn)[6]為了提高電力數(shù)據(jù)挖掘的準(zhǔn)確性,采用蟻群聚類優(yōu)化方法對粗糙數(shù)據(jù)特征進(jìn)行分類,剔除干擾信息,從而獲得準(zhǔn)確的電力數(shù)據(jù)檢測結(jié)果。文獻(xiàn)[7]提出了一種基于低秩的電力數(shù)據(jù)異常檢測方法,并應(yīng)用拉格朗日方法優(yōu)化目標(biāo)方程,能夠有效檢測出智能電網(wǎng)種的異常信息和有害信息。文獻(xiàn)[8]針對海洋電力數(shù)據(jù)挖掘問題,提出了一種基于節(jié)點(diǎn)動態(tài)性能值得處理方法,相比于傳統(tǒng)的MapReduce算法,具有更快的處理速度和更高的穩(wěn)定性。
針對電網(wǎng)大數(shù)據(jù)挖掘的方法越來越多,但是如何在具有不同特征的數(shù)據(jù)中挖掘出更高的知識,還未見有相關(guān)研究。本文針對數(shù)據(jù)特征不同的電力數(shù)據(jù)集,采用GRU-MMD方法建立準(zhǔn)確的數(shù)據(jù)分析模型,獲得期望輸出結(jié)果。
GRU (Gated Recurrent Unit,簡稱 GRU)是在長短期循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來的一種神經(jīng)網(wǎng)絡(luò)[9]。GRU的學(xué)習(xí)過程如圖1所示。

圖1 GRU單元結(jié)構(gòu)
如圖1所示,GRU的實(shí)現(xiàn)過程如式(1)~式(7)所示。
(1)
(2)
(3)
(4)
(5)
(6)
(7)

在采用GRU對電力用戶進(jìn)行短期負(fù)荷預(yù)測的時候,預(yù)測流程如圖2所示[10]。

圖2 基于GRU的短期負(fù)荷預(yù)測流程
將電力用戶每天的用電情況作為一個樣本P,每隔15 min采集一次電力負(fù)荷,每天96個數(shù)據(jù)。P的維度為96。P1是待負(fù)荷預(yù)測日7天前某天的用電情況。Dp,Wp,Tp指的是負(fù)荷預(yù)測當(dāng)天的日期,氣象和溫度情況。Pp指的是負(fù)荷預(yù)測值。
對于傳統(tǒng)的機(jī)器學(xué)習(xí)來說,樣本的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)由同一個特征空間產(chǎn)生,當(dāng)樣本數(shù)據(jù)不是處于同一個特征空間的時候,就需要耗費(fèi)大量資源去采集合適的樣本數(shù)據(jù)。遷移學(xué)習(xí)為深度學(xué)習(xí)的深入發(fā)展提供了新思路,通過將先驗知識轉(zhuǎn)換到其他相關(guān)的任務(wù)上,以提高相關(guān)任務(wù)的處理效率和準(zhǔn)確性[11-12]。遷移學(xué)習(xí)包括領(lǐng)域(Domain)和任務(wù)(Task)。
領(lǐng)域是學(xué)習(xí)的主體。領(lǐng)域包括特征空間χ和邊緣分布概率P(X),且X=(x1,x2,…,xn)∈χ。若領(lǐng)域不同,則特征空間或邊緣概率分布也不同。設(shè)領(lǐng)域D={χ,P(X)},任務(wù)T={y,P(Y|X)}。y 指的是標(biāo)簽空間,P{Y|X}為條件概率,通常情況下P{Y|X}沒有具體形式。目標(biāo)函數(shù)的預(yù)測函數(shù)通過樣本數(shù)據(jù)對{xi,yi}得到。
遷移學(xué)習(xí)包括源領(lǐng)域Ds(Source domain)及目標(biāo)領(lǐng)域DT(Target domain)[13]。源領(lǐng)域包含的信息對模型預(yù)測具有重要價值,是遷移的對象[14]。目標(biāo)域指的是待解決問題。任務(wù)同樣包含源領(lǐng)域任務(wù)TS和目標(biāo)領(lǐng)域任務(wù)TT。 遷移學(xué)習(xí)就是通過推理學(xué)習(xí)源領(lǐng)域的規(guī)則,得到目標(biāo)領(lǐng)域的輸出結(jié)果,解決目標(biāo)問題。表示過程為:源領(lǐng)域DS和TS,當(dāng)DS≠DT,TS≠TT,推理得到目標(biāo)域DS≠DT的預(yù)測輸出f(·)。
圖3為遷移學(xué)習(xí)的基本示例。當(dāng)遷移學(xué)習(xí)應(yīng)用在圖像識別的時候,源領(lǐng)域包含了大量的圖像,目標(biāo)領(lǐng)域只含有少量數(shù)據(jù),則通過訓(xùn)練源領(lǐng)域的數(shù)據(jù),獲取知識后,推理出目標(biāo)域的預(yù)測輸出[15]。在電力數(shù)據(jù)挖掘當(dāng)中,將待挖掘的電力區(qū)域作為目標(biāo)領(lǐng)域,將歷史數(shù)據(jù)或ita電網(wǎng)作為源領(lǐng)域。

圖3 遷移學(xué)習(xí)示例
MMD(maximum mean discrepancy, 簡稱MMD)最初是用于判斷兩個樣本的分布是否一樣。在將MMD與遷移學(xué)習(xí)相結(jié)合的時候,MMD將源領(lǐng)域與目標(biāo)領(lǐng)域通過推理聯(lián)系在了一起。MMD在樣本空間確定函數(shù)f,獲取兩類樣本數(shù)據(jù)的平均值,計算兩類數(shù)據(jù)的均值差異。當(dāng)確定的f能夠使均值差異最大化的時候,則將差異值作為這兩類數(shù)據(jù)的MMD。MMD越小,則認(rèn)為兩類數(shù)據(jù)的分布相似度越高,相反,MMD越大,則表示兩類數(shù)據(jù)分布的相似度越小。綜上所述,MMD是用來衡量兩類數(shù)據(jù)分布的相似程度。MMD的實(shí)現(xiàn)過程如下所述。
設(shè)F為樣本空間連續(xù)函數(shù),存在式(1):

設(shè)X,Y分別為p和q中采集的樣本數(shù)據(jù)。X和Y的數(shù)據(jù)量分別為m,n。則MMD的經(jīng)驗估計表示為式(2):
(2)
從式(2)可以看出,只有當(dāng)p,q分布相同時,MMD才等于0。當(dāng)處理的數(shù)據(jù)量較大的時候,對F進(jìn)行限定才能加快收斂。當(dāng)F為再生核希爾伯特空間的單位球時,能夠?qū)崿F(xiàn)MMD快速收斂。可再生核希爾伯特空間的特征,采用點(diǎn)積來描述f→f(x)的映射,可以表示為式(3)。
f(x)=〈f,φ(x)〉H
(3)
用up和uq替換Ep[φ(x)]和Eq[φ(x)],可得式(4)。
‖up-uq‖H
(4)
對式(4)兩邊求平方,可得式(5)。
MMD2[F,p,q]=Ep〈φ(x),φ(x′)〉H+Ep〈φ(y),φ(y′)〉H-2Ep,q〈φ(x),φ(y)〉H
(5)
采用徑向基核函數(shù)代替內(nèi)積。
(6)
則MMD的求解公式可以轉(zhuǎn)換為式(7)。

(7)
從式(7)中可以看出,MMD通過距離來判斷樣本相似程度。
在采用深度學(xué)習(xí)對電網(wǎng)進(jìn)行數(shù)據(jù)挖掘的時候,引入MMD方法后的實(shí)現(xiàn)過程如圖4所示。

圖4 基于深度學(xué)習(xí)和遷移學(xué)習(xí)的電力數(shù)據(jù)流程圖
在對源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理之后,取源領(lǐng)域的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。采用MMD方法求解源領(lǐng)域和目標(biāo)領(lǐng)域之間的差異值,并根據(jù)差異情況調(diào)整網(wǎng)絡(luò)的結(jié)構(gòu),獲取新的結(jié)構(gòu)。當(dāng)MMD值小于設(shè)定閾值a時,表示源領(lǐng)域和目標(biāo)領(lǐng)域分布類似,則網(wǎng)絡(luò)的結(jié)構(gòu)不用調(diào)整。當(dāng)MMD的值處于設(shè)定閾值[a,b]之間的時候,則對網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行重新調(diào)整,以提高模型的知識學(xué)習(xí)能力。若MMD的值超過b,表示源領(lǐng)域與目標(biāo)領(lǐng)域的差異較大,不適合遷移學(xué)習(xí)。
基于GRU的短期負(fù)荷預(yù)測遷移學(xué)習(xí)模型如圖5所示。如果源領(lǐng)域與目標(biāo)領(lǐng)域的MMD小于a的時候,采用左側(cè)網(wǎng)絡(luò)結(jié)構(gòu)獲得輸出。若源領(lǐng)域與目標(biāo)領(lǐng)域的MMD處于[a,b]之間,則采用圖5右側(cè)的經(jīng)過遷移學(xué)習(xí)后的網(wǎng)絡(luò)結(jié)構(gòu)求取輸出。采用此種結(jié)構(gòu)對線路跳閘故障進(jìn)行預(yù)測,降低了學(xué)習(xí)率,提高了預(yù)測精度。

圖5 短期負(fù)荷預(yù)測的遷移學(xué)習(xí)模型
為了驗證本文所提的數(shù)據(jù)挖掘?qū)W習(xí)模型的準(zhǔn)確性,進(jìn)行了算例仿真。仿真用數(shù)據(jù)來自廣東省東莞市電力局,采集時間為2016—2018年。仿真用計算機(jī)為聯(lián)想,CPU cori i5 9400,內(nèi)存8G。仿真的GRU參數(shù)設(shè)置如表1所示。

表1 GRU網(wǎng)絡(luò)參數(shù)
本文將采用目標(biāo)領(lǐng)域數(shù)據(jù)訓(xùn)練得到的模型作為模型1。采用源領(lǐng)域數(shù)據(jù)訓(xùn)練的模型,然后采用目標(biāo)領(lǐng)域數(shù)據(jù)進(jìn)行微調(diào)的模型作為模型2。采用源領(lǐng)域數(shù)據(jù)訓(xùn)練得到的模型,再根據(jù)目標(biāo)領(lǐng)域數(shù)據(jù)對網(wǎng)絡(luò)的所有參數(shù)進(jìn)行調(diào)整的模型作為模型3。源領(lǐng)域和目標(biāo)領(lǐng)域的樣本分別為36 000和9 000。選用MAPE作為評價網(wǎng)絡(luò)模型準(zhǔn)確度的標(biāo)準(zhǔn)。
案例A:當(dāng)目標(biāo)域和源領(lǐng)域數(shù)據(jù)健全的情況下,建立三種預(yù)測模型的MAPE與MMD的預(yù)測關(guān)系曲線如圖6所示。

圖6 案例A的MMD與MAPE的關(guān)系曲線
案例B:當(dāng)目標(biāo)域數(shù)據(jù)不全的時候,建立三種預(yù)測模型的MAPE與MMD的預(yù)測關(guān)系曲線如圖7所示。

圖7 案例B的MMD與MAPE的關(guān)系曲線
由于線路共有36條線路,選取前33個作為源數(shù)據(jù),剩余的作為目標(biāo)數(shù)據(jù)。含遷移學(xué)習(xí)以及不含遷移學(xué)習(xí)的MAPE結(jié)果如圖8所示。與其他現(xiàn)有的負(fù)荷預(yù)測方法對比結(jié)果如表2所示,其中BP1,LSTM1,GRU為未引入遷移學(xué)習(xí)的算法,BP2,LSTM2及本文所提方法為引入遷移學(xué)習(xí)的算法。

圖8 負(fù)荷預(yù)測MAPE結(jié)果對比

表2 各種算法MAPE對比結(jié)果 %
從圖6可以看出,源領(lǐng)域和目標(biāo)領(lǐng)域的MMD影響著遷移學(xué)習(xí)的結(jié)果。當(dāng)MMD很小的時候,模型1高于模型2的預(yù)測精度。當(dāng)MMD較大的時候,模型2的預(yù)測精度高于模型1,此時模型2能夠有效遷移模型1的知識,通過引入新的層提高網(wǎng)絡(luò)的學(xué)習(xí)能力。
從圖7可以看出,MMD較小的時候,模型1具有更好的預(yù)測能力。隨著MMD的增大,會出現(xiàn)負(fù)遷移情況。當(dāng)MMD較小的時候,在網(wǎng)絡(luò)中引入新層會導(dǎo)致過擬合。當(dāng)MMD≤0.24,采用模型1進(jìn)行預(yù)測。當(dāng) MMD≥0.24,存在負(fù)遷移情況,需要更換源領(lǐng)域數(shù)據(jù)重新建立模型。
從圖8可以看出,經(jīng)過遷移學(xué)習(xí)之后,提升了負(fù)荷預(yù)測的準(zhǔn)確定,降低了訓(xùn)練耗時。相比于其他現(xiàn)有的負(fù)荷預(yù)測方法,本文所提的方法具有最高的預(yù)測精度,說明本文所提的方法更適用于電力數(shù)據(jù)挖掘。
為了提高電力數(shù)據(jù)利用率和數(shù)據(jù)挖掘的效率,本文提出了GRU-MMD的電力數(shù)據(jù)挖掘方法。對采集的電力數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,然后采用MMD方法分析源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)的差異,根據(jù)差異值決定是否調(diào)整GRU網(wǎng)絡(luò)模型。經(jīng)過仿真實(shí)驗分析,驗證了本文所提的方法能夠提高數(shù)據(jù)挖掘的精度,有益于電力大數(shù)據(jù)的準(zhǔn)確建模。