潘建宏,張 帆,王 磊,張俊茹,郝保中
(1.國網(wǎng)吉林省電力有限公司,吉林長春 130000;2.國家電網(wǎng)有限公司大數(shù)據(jù)中心,北京 100052;3.國網(wǎng)遼源供電公司,吉林 遼源 136200;4.國網(wǎng)白城供電公司,吉林 白城 137000)
近年來,5G 與人工智能技術(shù)的迅速發(fā)展使能源行業(yè)數(shù)據(jù)呈現(xiàn)出指數(shù)級的增長;此外,冷-熱-電綜合能源系統(tǒng)的運行和管理模式越來越復(fù)雜,相關(guān)數(shù)據(jù)監(jiān)測傳感網(wǎng)絡(luò)的建設(shè)快速推進,使能源大數(shù)據(jù)呈現(xiàn)出類型多、數(shù)量多等典型特征[1-3]。雖然能源數(shù)據(jù)發(fā)展前景明朗,但也遇到數(shù)據(jù)質(zhì)量與多源異構(gòu)數(shù)據(jù)融合的挑戰(zhàn)[4-6]。而能源大數(shù)據(jù)的準(zhǔn)確識別取決于數(shù)據(jù)質(zhì)量,且能源數(shù)據(jù)的誤差會影響數(shù)據(jù)處理的精度,并造成數(shù)據(jù)判斷失誤[7]。多源異構(gòu)數(shù)據(jù)融合是處理能源大數(shù)據(jù)的關(guān)鍵,對融合不同種類的能源數(shù)據(jù)有促進作用,因此該文開展了基于多源異構(gòu)的能源數(shù)據(jù)處理技術(shù)研究。
能源大數(shù)據(jù)中90%以上均為實時測量的數(shù)據(jù),因此在辨識的過程中主要以測量數(shù)據(jù)為主,以判斷數(shù)據(jù)質(zhì)量的優(yōu)劣。通常而言,當(dāng)數(shù)據(jù)誤差大于5%時,判斷為不良數(shù)據(jù)[8-9]。文獻[10]通過分析數(shù)據(jù)之間的相關(guān)性,將相關(guān)性理論引入到能源大數(shù)據(jù)的不良數(shù)據(jù)識別中,并提出不良數(shù)據(jù)的相關(guān)性識別方法。文獻[11]提出無監(jiān)督學(xué)習(xí)的能源大數(shù)據(jù)識別算法,通過訓(xùn)練樣本數(shù)據(jù)確定模型參數(shù),但該方法對樣本數(shù)據(jù)依賴性強,且不利于工程化應(yīng)用。
針對上述問題,該文提出一種基于多源異構(gòu)的能源數(shù)據(jù)處理技術(shù),以SCADA 系統(tǒng)內(nèi)潮流數(shù)據(jù)作為樣本數(shù)據(jù),通過仿真分析驗證了所提方法的有效性。
基于不同的能源大數(shù)據(jù),能夠從不同的角度建立數(shù)據(jù)模型,但由于建模的標(biāo)準(zhǔn)并未完全統(tǒng)一,所以目前還存在有數(shù)據(jù)不規(guī)范的問題,而采用基于隨機森林模型建立能源大數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),能夠較好地解決多源異構(gòu)數(shù)據(jù)融合問題[12]。
能源數(shù)據(jù)感知是構(gòu)建能源異構(gòu)數(shù)據(jù)的基礎(chǔ),并且關(guān)系到數(shù)據(jù)識別的精度[13]。隨著近年來科學(xué)技術(shù)的不斷發(fā)展,大量能源傳感器被部署在數(shù)據(jù)能源終端,并通過網(wǎng)絡(luò)相連接,進而實現(xiàn)了不同形式的能源數(shù)據(jù)融合。通常能源數(shù)據(jù)傳感器的位置可用下式表示:

其中,位置信息通常用離散數(shù)值表示。而根據(jù)location 的位置信息,可獲得能源數(shù)據(jù)的行與列信息;attributes 為用于標(biāo)識數(shù)據(jù)的感知信息,采用“鍵-值”信息對表示一個或多個數(shù)據(jù)集合。為保證原始數(shù)據(jù)與目標(biāo)的關(guān)聯(lián)性,基于位置信息對原始數(shù)據(jù)進行網(wǎng)格化和歸一化處理,從而保證網(wǎng)絡(luò)內(nèi)數(shù)據(jù)的統(tǒng)一性:

式中,Di為數(shù)據(jù)傳感器處于地點i到網(wǎng)絡(luò)中心點(xc,yc)的距離,經(jīng)整合可得到:

通過對原始數(shù)據(jù)進行數(shù)據(jù)集合,生成數(shù)據(jù)訓(xùn)練集與測試集,從而驗證模型的準(zhǔn)確率及優(yōu)化模型的性能。
在給定的定義域D內(nèi),包含多源異構(gòu)數(shù)據(jù)集合S,其到目標(biāo)任務(wù)的推理模型可表示為:

式中,F(xiàn)(M) 為基于氣象數(shù)據(jù)M的特征抽取,time 為時間,GPS 為地理位置信息。那么,對于目標(biāo)任務(wù)g即可構(gòu)建訓(xùn)練樣本集D1:

若目標(biāo)任務(wù)g為未知時,訓(xùn)練樣本集則可用D2表示為:

樣本訓(xùn)練集D1可用傳統(tǒng)的機器學(xué)習(xí)技術(shù)處理,但對于未知目標(biāo)任務(wù)的訓(xùn)練樣本集D2卻無法使用,此外,樣本數(shù)量過少也會降低模型的精確度。需要注意的是,在多源異構(gòu)數(shù)據(jù)的融合過程中,不能使用固定數(shù)據(jù)模型進行訓(xùn)練。
基于隨機森林算法提出的能源大數(shù)據(jù)MCS-RF框架,實現(xiàn)了能源大數(shù)據(jù)的半監(jiān)督學(xué)習(xí),并通過采用增量學(xué)習(xí)與離線學(xué)習(xí)的思想,在在線訓(xùn)練實時圖像數(shù)據(jù)中用增量學(xué)習(xí)方法對模型剪枝進行更新,從而解決大數(shù)據(jù)的稀疏問題。
隨機森林為一組決策樹,假設(shè)第t棵樹為ft=f(x,θt):X→Y,其中θt為捕獲能源大數(shù)據(jù)的隨機向量,整個森林被表示為:F={f1,f2,···,fT},其中T為森林樹的數(shù)量,那么能源數(shù)據(jù)的評估概率可以定義為:

式中,ep(p|x)為第t棵樹的葉子概率密度,且森林樹的決策函數(shù)可表示為:

若ma(x,p)>0,則可得泛函誤差為:

式中,E為求取數(shù)學(xué)期望,也可以通過(x,p)得到整體分布。
由于能源大數(shù)據(jù)的某些信息無法標(biāo)注,使用半監(jiān)督學(xué)習(xí)算法的損失函數(shù)可表示為:

式中,Xl、Xu分別為標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù),h(·)為二分類器,λu(·)為對未標(biāo)記數(shù)據(jù)進行編碼的樣本數(shù)據(jù)。
在數(shù)據(jù)采集與處理的過程中,周圍環(huán)境的變化以及通信信號的不穩(wěn)定性,都會導(dǎo)致能源樣本數(shù)據(jù)采集出現(xiàn)一定的誤差,并影響數(shù)據(jù)的準(zhǔn)確度與數(shù)據(jù)分析結(jié)果,因此需要采取措施對噪聲數(shù)據(jù)進行修復(fù)[14-15]。目前,不良數(shù)據(jù)的辨識通常是基于能源數(shù)據(jù)的狀態(tài)估計,隨著數(shù)據(jù)量的增加、辨識次數(shù)變多以及運算量的增大[16],若能在數(shù)據(jù)收集階段引入不良數(shù)據(jù)的辨識技術(shù),將有利于對數(shù)據(jù)的進一步處理。能源系統(tǒng)狀態(tài)估計能夠在測量誤差的情況下配置系統(tǒng)的真實狀態(tài),為保證數(shù)據(jù)的高質(zhì)量提供基礎(chǔ),其測量方程z可表示為:

式中,h(x)為測量函數(shù),v為服從正態(tài)分布的測量誤差。因為測量誤差經(jīng)常發(fā)生變化,為方便計算,可以將目標(biāo)函數(shù)重新定義為:

式中,wi為測量誤差權(quán)重,通常取為測量方差的倒數(shù)。
應(yīng)用最優(yōu)化的思路,用加權(quán)最小二乘法表示誤差目標(biāo)函數(shù)為:

式中,R為方差矩陣,其維數(shù)為m、對角元素為。殘差搜索法是目前處理殘差應(yīng)用較為廣泛的一種方法,其工作流程如圖1 所示[17]。

圖1 殘差搜索法工作流程
能源數(shù)據(jù)具有數(shù)量大、種類多的特點,通常由不同的系統(tǒng)采集得到,而各個系統(tǒng)之間的數(shù)據(jù)無法交互,難以實現(xiàn)數(shù)據(jù)共享,不利于數(shù)據(jù)的統(tǒng)一管理。為了實現(xiàn)能源數(shù)據(jù)的多源融合,需要對數(shù)據(jù)進行清洗和去噪處理。而當(dāng)數(shù)據(jù)出現(xiàn)缺失時,將會導(dǎo)致整體數(shù)據(jù)挖掘不充分、應(yīng)用不全面,因此需要采用數(shù)據(jù)挖掘算法對數(shù)據(jù)進行聚類處理來實現(xiàn)融合。
聚類本質(zhì)上屬于無監(jiān)督范疇,對于不同類的能源數(shù)據(jù),需要采用不同的聚類算法。關(guān)聯(lián)規(guī)則是對不同事務(wù)之間的數(shù)據(jù)挖掘,目的是輔助決策者制定策略,最典型的關(guān)聯(lián)規(guī)則算法為Apriori 算法,其采用逐層生成測試策略,主要思路為先確定閾值,再找到頻繁屬性集X的非空子集Y,從而生成X與Y之間的關(guān)聯(lián)規(guī)則。Apriori 算法的基本流程如圖2 所示。

圖2 Apriori算法的基本流程
為了消除能源大數(shù)據(jù)中的冗余信息,需要將離散數(shù)據(jù)轉(zhuǎn)換為適用于關(guān)聯(lián)規(guī)則的數(shù)據(jù),其基本思路是將連續(xù)數(shù)據(jù)分為多個區(qū)間,為了減少數(shù)據(jù)存儲的片區(qū),并將原始樣本數(shù)據(jù)轉(zhuǎn)為離散數(shù)據(jù),該文應(yīng)用k-means 算法將大數(shù)據(jù)轉(zhuǎn)化為離散數(shù)據(jù)集,主要原理如下:
首先定義誤差平方和函數(shù),計算樣本xi與xj的歐式距離:

然后,進行平方和準(zhǔn)則計算:

式中,k為聚類個數(shù),C為聚類集合,mi為樣本均值。
緊接著定義樣本數(shù)據(jù)置信度,應(yīng)用關(guān)聯(lián)規(guī)則計算出現(xiàn)的支持度計數(shù),計算公式如下:

式中,|db(l,o)|=|(n-o)/l|為總的數(shù)據(jù)子集個數(shù)。若支持度不超過用戶設(shè)定值,則表示在該周期內(nèi)其為強關(guān)聯(lián)規(guī)則。周期性關(guān)聯(lián)規(guī)則挖掘流程如圖3所示。

圖3 周期性關(guān)聯(lián)規(guī)則挖掘流程
該文以SCADA 系統(tǒng)內(nèi)潮流數(shù)據(jù)作為樣本數(shù)據(jù),其測量值的標(biāo)準(zhǔn)差為0.02,相角標(biāo)準(zhǔn)差為0.005,仿真分析某市35 kV 線路的電力數(shù)據(jù),模擬分析4~6 月內(nèi)的潮流數(shù)據(jù)變化。實驗每隔1 min 采集一次SCADA 系統(tǒng)內(nèi)的潮流數(shù)據(jù),每天共1 440 個樣本數(shù)據(jù),其存儲格式如表1 所示。

表1 原始數(shù)據(jù)存儲單元
設(shè)置聚類個數(shù)k=8,經(jīng)過分析,雖然得到的3個月內(nèi)數(shù)據(jù)聚類結(jié)果各不相同,但也有部分相似之處。為了得到統(tǒng)一的數(shù)據(jù),首先采用聚類方法對數(shù)據(jù)結(jié)果進行處理,然后進行離散化處理,建立關(guān)聯(lián)規(guī)則數(shù)據(jù)庫,從而得到有功功率的離散等級,如表2 所示。

表2 能源數(shù)據(jù)P值離散等級結(jié)果
以天為單位設(shè)置樣本數(shù)據(jù)標(biāo)號,隨機選取其中72 個樣本數(shù)據(jù)為不良數(shù)據(jù),來驗證該文方法的可行性。對于不良數(shù)據(jù),分別選取4 個良好樣本數(shù)據(jù)分別為T4、P4、Q5、I2,對其進行辨識處理后生成不良數(shù)據(jù)集合。基于關(guān)聯(lián)規(guī)則匹配發(fā)現(xiàn)T4 時刻出現(xiàn)不良電流數(shù)據(jù),再通過測量殘差來搜索出全部數(shù)據(jù)的測量值,從而證實了T4 采樣時刻的電流數(shù)據(jù)為不良數(shù)據(jù)。對于多個數(shù)據(jù)而言,可以分別設(shè)置兩個不良數(shù)據(jù)點,再按照該文所述方法即可得到辨識結(jié)果,如表3 所示。

表3 多個不良數(shù)據(jù)辨識結(jié)果
若基于傳統(tǒng)的殘差算法進行識別、排序和測量,需要計算到不再出現(xiàn)閾值外的數(shù)據(jù)為止。當(dāng)存在多個不良數(shù)據(jù)時,兩種方法所需辨識次數(shù)的對比如表4所示。從表中能夠看出,該文所提方法的識別次數(shù)較少,且綜合性能更優(yōu)。

表4 辨識次數(shù)對比
應(yīng)用大數(shù)據(jù)處理技術(shù)對多源異構(gòu)的能源數(shù)據(jù)進行分析和處理,是當(dāng)今綜合能源系統(tǒng)的發(fā)展趨勢。在此背景下,該文將關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法應(yīng)用于能源系統(tǒng)中。采用隨機森林完成了數(shù)據(jù)融合,基于增量學(xué)習(xí)與離線學(xué)習(xí)的思想搭建了能源大數(shù)據(jù)的MCS-RF 框架,通過將離散數(shù)據(jù)轉(zhuǎn)為適用于關(guān)聯(lián)規(guī)則的數(shù)據(jù),提高了不良數(shù)據(jù)的識別及能源數(shù)據(jù)狀態(tài)估計的準(zhǔn)確性。但在處理離散數(shù)據(jù)時使用了k-means聚類方法,所以計算結(jié)果容易受到主觀因素的影響。為此,在下一步研究工作中將考慮應(yīng)用HAC 層次凝聚式聚類法來處理離散數(shù)據(jù)。