黃新宇,高 嵩,邱 剛,譚 笑,陳 杰
(國(guó)網(wǎng)江蘇省電力有限公司電力科學(xué)研究院,江蘇南京 211100)
當(dāng)前,新型電力系統(tǒng)是能源行業(yè)發(fā)展的主要方向。而未來(lái)電網(wǎng)的運(yùn)行與互聯(lián)網(wǎng)密切相關(guān)[1],其運(yùn)行所產(chǎn)生的數(shù)據(jù)具有量大、維度多及實(shí)時(shí)性強(qiáng)等特點(diǎn)。大規(guī)模智能電網(wǎng)工程和設(shè)備需海量的數(shù)據(jù)上傳、存儲(chǔ)與處理等操作。這類數(shù)據(jù)由智能電表、各種傳感器和攝像機(jī)等采集得到[2],且數(shù)據(jù)中蘊(yùn)含大量對(duì)電網(wǎng)運(yùn)行有益的信息,并可基于所獲得的歷史數(shù)據(jù)對(duì)電網(wǎng)的運(yùn)行加以指導(dǎo)[3]。同時(shí),其還能通過(guò)將實(shí)時(shí)采集的數(shù)據(jù)與歷史模型進(jìn)行比較來(lái)獲得電網(wǎng)設(shè)備當(dāng)前的工作狀態(tài),以便安排檢修與維護(hù)。因此,開展電網(wǎng)數(shù)據(jù)的分析和處理對(duì)未來(lái)電網(wǎng)的效率及安全、穩(wěn)定運(yùn)行具有重要意義[4]。
由于電網(wǎng)運(yùn)行的數(shù)據(jù)源與數(shù)據(jù)均具備多樣性,故對(duì)電網(wǎng)運(yùn)行數(shù)據(jù)進(jìn)行處理和分析較為困難[5-6]。傳統(tǒng)基于數(shù)據(jù)庫(kù)的處理系統(tǒng)無(wú)法滿足其迅速響應(yīng)并進(jìn)行快速動(dòng)態(tài)分析的需求,從而也難以得出及時(shí)、準(zhǔn)確的分析結(jié)論。因此在云計(jì)算與云存儲(chǔ)的基礎(chǔ)上,能對(duì)海量電網(wǎng)運(yùn)行數(shù)據(jù)進(jìn)行高效處理的方法也備受關(guān)注[7-8]。
綜上所述,文中提出了一種新型電網(wǎng)數(shù)據(jù)處理模式。其基于智能電網(wǎng)大數(shù)據(jù)挖掘策略,首先建立了數(shù)據(jù)的多維模型并制定了響應(yīng)的集成處理策略;其次基于數(shù)據(jù)分區(qū)結(jié)構(gòu),將數(shù)據(jù)轉(zhuǎn)換為具有特定特征標(biāo)識(shí)的數(shù)據(jù)塊,且用于設(shè)計(jì)數(shù)據(jù)集成算法并構(gòu)造相應(yīng)的數(shù)學(xué)模型;同時(shí),由于MapReduce 算法中Map任務(wù)數(shù)并不依賴于節(jié)點(diǎn)的數(shù)量,而是取決于輸入塊的數(shù)量,故每個(gè)塊均被分配給一個(gè)單獨(dú)的Map 任務(wù),再通過(guò)并行計(jì)算來(lái)實(shí)現(xiàn)平行處理;最終,提出了基于MapReduce 的并行優(yōu)化算法。將該云計(jì)算模型建立在Hadoop 平臺(tái)之上,驗(yàn)證了所提方法的有效性。
MapReduce[9-10]的整體架構(gòu)包含輸入、分塊與輸出三個(gè)部分。作為一種并行計(jì)算、運(yùn)行的軟件架構(gòu)平臺(tái),其提供了強(qiáng)大的計(jì)算能力,并能夠在較短時(shí)間內(nèi)完成任務(wù)的分解與處理,且自動(dòng)計(jì)算及分配任務(wù)。該算法將數(shù)據(jù)的分布存儲(chǔ)、通信及容錯(cuò)處理等并行計(jì)算集成至一個(gè)平臺(tái)中,并將復(fù)雜的信息通過(guò)分塊概念加以處理,大幅降低了海量數(shù)據(jù)對(duì)硬件的要求,進(jìn)而提升了運(yùn)算效率。MapReduce 并行計(jì)算的結(jié)構(gòu)如圖1 所示。

圖1 并行計(jì)算結(jié)構(gòu)
考慮到智能電網(wǎng)數(shù)據(jù)云計(jì)算的特點(diǎn)和數(shù)據(jù)存儲(chǔ)需求,云計(jì)算任務(wù)需具備數(shù)據(jù)識(shí)別與并行化處理的功能。通過(guò)該計(jì)算策略,能夠避免數(shù)據(jù)處理時(shí)間過(guò)長(zhǎng)的問(wèn)題,進(jìn)而有效提高工作效率。同時(shí),算法的并行優(yōu)化是通過(guò)重構(gòu)Map 及Reduce 函數(shù)實(shí)現(xiàn)的。而MapReduce 程序采用框架進(jìn)行數(shù)據(jù)識(shí)別,在對(duì)數(shù)據(jù)進(jìn)行分塊操作后,利用并行化的處理模式可快速建立數(shù)據(jù)處理的結(jié)果,并予以相應(yīng)的標(biāo)識(shí)。具體操作步驟如下:
1)將文件M 分解成數(shù)據(jù)塊,并將其存儲(chǔ)在云計(jì)算的分布式文件系統(tǒng)(Hadoop Distribute File System,HDFS)中,以作為計(jì)算的輸入帶入Map 函數(shù)。
2)通過(guò)Map 函數(shù)對(duì)數(shù)據(jù)塊進(jìn)行分段輸出,且存儲(chǔ)在HBase 數(shù)據(jù)庫(kù)中。
3)Map 函數(shù)的輸出即為Reduce 函數(shù)的輸入,然后可得到哈希值(Hash)及數(shù)據(jù)標(biāo)識(shí),再將運(yùn)算結(jié)果存儲(chǔ)在HBase 數(shù)據(jù)庫(kù)中。
當(dāng)任務(wù)開始時(shí),文中建立的電網(wǎng)多維數(shù)據(jù)并行處理模型需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和分區(qū)操作,并共享相應(yīng)數(shù)量的數(shù)據(jù)且映射進(jìn)程,從而實(shí)現(xiàn)處理與結(jié)果識(shí)別。
并行處理是一種將數(shù)據(jù)進(jìn)行分塊,再實(shí)現(xiàn)快速處理的方法[11],但其并不能保證數(shù)據(jù)在最初上傳至云端時(shí)的準(zhǔn)確性與集成度。所以智能電網(wǎng)的海量數(shù)據(jù)通常還需要進(jìn)行第三方檢測(cè),以確定數(shù)據(jù)的集成度是否滿足要求。
因此,有必要制定合理的云計(jì)算數(shù)據(jù)集成度驗(yàn)證策略。而數(shù)據(jù)完整性測(cè)試則是對(duì)數(shù)據(jù)質(zhì)量的嚴(yán)格把控,該次采用挑戰(zhàn)結(jié)合響應(yīng)的路線加以檢驗(yàn)。數(shù)據(jù)完整性的驗(yàn)證策略如圖2 所示。

圖2 數(shù)據(jù)完整性的驗(yàn)證策略
完整性測(cè)試過(guò)程如下:
步驟1:將本地?cái)?shù)據(jù)采集系統(tǒng)(SCADA)[12]中的電網(wǎng)運(yùn)行數(shù)據(jù)分別上傳至云服務(wù)本地服務(wù)器與第三方集成度檢測(cè)服務(wù)器中;
步驟2:對(duì)第三方檢測(cè)服務(wù)器進(jìn)行初始化、數(shù)據(jù)集成度驗(yàn)證以及挑戰(zhàn)和響應(yīng)的反饋等操作,從而使所有數(shù)據(jù)均符合集成度要求;
步驟3:將云服務(wù)本地服務(wù)器中的數(shù)據(jù)上傳至云存儲(chǔ)服務(wù)器終端。
此次所需要處理的數(shù)據(jù)為如下多維、多量綱的矩陣:
在某一時(shí)刻,設(shè)備從傳感器傳到終端的值N為:
式中,Wp為風(fēng)電場(chǎng)的數(shù)據(jù)矩陣,其中元素Wpj為第p時(shí)刻的第j維數(shù)據(jù)。
當(dāng)數(shù)據(jù)拆分之后,基于每個(gè)數(shù)據(jù)被分配的空間來(lái)讀取數(shù)據(jù)。并將中間結(jié)果寫入本地存儲(chǔ)空間,再通過(guò)遠(yuǎn)程操作實(shí)現(xiàn)信息的挖掘和存儲(chǔ)。具體技術(shù)路線如圖3 所示。

圖3 數(shù)據(jù)分區(qū)與重組
基于Hadoop 平臺(tái),文中建立了針對(duì)智能電網(wǎng)多維數(shù)據(jù)的并行化處理模型。在數(shù)據(jù)采集初期,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理與分區(qū)操作。之后,模型將根據(jù)各個(gè)節(jié)點(diǎn)的負(fù)載性能制定不同的分塊并行化計(jì)算策略,進(jìn)而完成映射進(jìn)程,最后進(jìn)行計(jì)算。基于MapReduce 的云計(jì)算流程如圖4 所示。

圖4 云計(jì)算流程
為驗(yàn)證數(shù)據(jù)的集成性,對(duì)挑戰(zhàn)/響應(yīng)階段及其他階段的運(yùn)行時(shí)間進(jìn)行了測(cè)試。數(shù)據(jù)塊與分區(qū)將在數(shù)據(jù)識(shí)別階段獲得,用于驗(yàn)證數(shù)據(jù)的集成策略。數(shù)據(jù)預(yù)處理進(jìn)程的持續(xù)時(shí)間較長(zhǎng),約為18 ms。此外,由于第三方提出的驗(yàn)證挑戰(zhàn)主要基于約40%的定量抽樣比例,故其計(jì)算時(shí)間也隨著數(shù)據(jù)量的增加而延長(zhǎng)。最終,驗(yàn)證過(guò)程所花費(fèi)的時(shí)間曲線如圖5 所示。從圖中可看出,云計(jì)算對(duì)智能電網(wǎng)運(yùn)行數(shù)據(jù)進(jìn)行了各項(xiàng)處理,集成中的計(jì)算時(shí)間隨著數(shù)據(jù)塊的增多而上升,但增長(zhǎng)幅度較小。由于響應(yīng)過(guò)程的操作時(shí)間由數(shù)據(jù)塊及數(shù)據(jù)分區(qū)的總和決定,分區(qū)的數(shù)量則隨數(shù)據(jù)大小的變化而改變,因此該步驟的操作時(shí)間也略有增加。而驗(yàn)證過(guò)程的運(yùn)行時(shí)間穩(wěn)定且較短,約為62 ms。綜上所述,提出的數(shù)據(jù)集成方法能夠使數(shù)據(jù)在最大程度上實(shí)現(xiàn)集成,避免了海量數(shù)據(jù)所造成的響應(yīng)過(guò)慢問(wèn)題。同時(shí),也驗(yàn)證了該算法在數(shù)據(jù)集成度測(cè)試方面的有效性。

圖5 數(shù)據(jù)集成度測(cè)試結(jié)果曲線
電網(wǎng)運(yùn)行數(shù)據(jù)類型多樣,包括調(diào)度、運(yùn)行、功率、電壓、故障和溫度監(jiān)測(cè)等。而隨著新型電力系統(tǒng)的提出,以新能源為主體的未來(lái)能源系統(tǒng)將獲得更大的發(fā)展空間與潛力[13-14]。其中,風(fēng)電的隨機(jī)性、波動(dòng)性為電網(wǎng)運(yùn)行帶來(lái)了一定的風(fēng)險(xiǎn)。且其功率波動(dòng)數(shù)據(jù)量大、相似度偏低,故進(jìn)行數(shù)據(jù)處理的難度也相對(duì)較大。此次擬針對(duì)某風(fēng)電場(chǎng)的實(shí)際運(yùn)行數(shù)據(jù),進(jìn)行基于MapReduce 的并行化處理,并驗(yàn)證其在風(fēng)電場(chǎng)出力預(yù)測(cè)任務(wù)中的表現(xiàn)。具體應(yīng)處理的數(shù)據(jù)如圖6所示。

圖6 原始數(shù)據(jù)集
該次分析所需收集的數(shù)據(jù)包括風(fēng)電場(chǎng)歷史運(yùn)行數(shù)據(jù)集、風(fēng)速集、發(fā)電量集與其他運(yùn)行相關(guān)數(shù)據(jù)。通過(guò)基于前文所述的并行化算法進(jìn)行數(shù)據(jù)預(yù)處理、數(shù)據(jù)訓(xùn)練和建立模型等操作,最終對(duì)風(fēng)電出力進(jìn)行了短期預(yù)測(cè),同時(shí)還與其他算法在運(yùn)算時(shí)間、預(yù)測(cè)準(zhǔn)確率兩個(gè)方面進(jìn)行對(duì)比。
計(jì)算結(jié)果如圖7 所示,通過(guò)觀察BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)[15]、主成分分析(Principal Component Analysis,PCA)[16]及文中MapReduce 算法的預(yù)測(cè)準(zhǔn)確率對(duì)比結(jié)果可看出,在相同數(shù)據(jù)輸入的前提下,該方法實(shí)現(xiàn)了更高的準(zhǔn)確度與更少的運(yùn)行時(shí)間。原因在于,數(shù)據(jù)并行化能夠?qū)?shù)據(jù)進(jìn)行模塊化處理,并最大化提升處理效率,且其還可將具有一定相關(guān)性的數(shù)據(jù)集同時(shí)進(jìn)行處理,再根據(jù)數(shù)據(jù)規(guī)律選取并行化的計(jì)算、訓(xùn)練模式,進(jìn)而充分利用數(shù)據(jù)云計(jì)算的優(yōu)勢(shì),消除海量電網(wǎng)運(yùn)行數(shù)據(jù)中的冗余影響,使其能充分挖掘數(shù)據(jù)中所蘊(yùn)含的信息[17-19]。

圖7 預(yù)測(cè)準(zhǔn)確度對(duì)比
圖7 中,該算法能夠?qū)崟r(shí)、準(zhǔn)確地跟蹤實(shí)際值的變化。而BP 神經(jīng)網(wǎng)絡(luò)與PCA 均具有相對(duì)較大的誤差,故無(wú)法實(shí)現(xiàn)準(zhǔn)確地波動(dòng)預(yù)測(cè)。原因是這兩種算法均無(wú)法挖掘出冗余數(shù)據(jù)內(nèi)部的信息,因此難以將全部信息應(yīng)用于功率預(yù)測(cè)。圖8 為不同算法計(jì)算所需時(shí)間對(duì)比。

圖8 不同算法的處理時(shí)間對(duì)比
由圖8 可知,在數(shù)據(jù)預(yù)處理、分塊處理與訓(xùn)練階段,該算法均具有較高的效率,且僅需約30 min 便可完成各階段的操作,遠(yuǎn)小于BP 神經(jīng)網(wǎng)絡(luò)算法與主成分分析法的時(shí)間。同時(shí),文中的數(shù)據(jù)集成策略的計(jì)算速度不會(huì)隨著數(shù)據(jù)量的增大而急劇增加,由此,驗(yàn)證了該算法在效率上的優(yōu)勢(shì)。
文中提出了一種基于MapReduce 的并行化電網(wǎng)運(yùn)行數(shù)據(jù)處理方法。其針對(duì)實(shí)時(shí)采集的電網(wǎng)運(yùn)行數(shù)據(jù),利用MapReduce 的并行化處理方法,首先進(jìn)行數(shù)據(jù)預(yù)處理,再結(jié)合分塊并行計(jì)算的思想,將云計(jì)算應(yīng)用于海量數(shù)據(jù)的處理過(guò)程。算例分析結(jié)果證明了,所提算法能夠高效地實(shí)現(xiàn)數(shù)據(jù)處理及信息挖掘,且在硬件設(shè)備性能滿足要求的情況下基本不受數(shù)據(jù)量的影響,因此可保持穩(wěn)定、高效的數(shù)據(jù)處理性能。
最后基于某地風(fēng)電場(chǎng)的功率波動(dòng)數(shù)據(jù),分析了海量出力規(guī)律,訓(xùn)練得到風(fēng)電出力預(yù)測(cè)模型。結(jié)果顯示,該模型能夠較好的跟蹤風(fēng)力的實(shí)際變化,且實(shí)現(xiàn)精準(zhǔn)的功率預(yù)測(cè),進(jìn)而為電網(wǎng)的智能、精準(zhǔn)運(yùn)行優(yōu)化奠定了基礎(chǔ)。