吳麗賢, 林鈺杰, 陳灝生, 張遠(yuǎn)雄, 陳磊
(1.廣東電網(wǎng)有限責(zé)任公司 佛山供電局, 廣東 佛山 528000; 2.廣東卓維網(wǎng)絡(luò)有限公司, 廣東 佛山 528000)
隨著我國電網(wǎng)智能化的升級和改造,電網(wǎng)的規(guī)模在不斷的擴(kuò)大,輸變電網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)也不斷的增多[1]。因此,對數(shù)據(jù)的處理技術(shù)要求也越來越高,如何高效地解決電力設(shè)備和機(jī)器運(yùn)行過程中出現(xiàn)的問題,提高設(shè)備的使用效率和降低電力機(jī)器設(shè)備的運(yùn)維成本,這些問題是電力企業(yè)智能化升級改造的重點內(nèi)容[2]。傳統(tǒng)的數(shù)據(jù)存儲模式是靜止的、定量的,適用于數(shù)據(jù)體量比較小的實時存儲和處理。傳統(tǒng)的數(shù)據(jù)實時流處理技術(shù)是將數(shù)據(jù)存儲到數(shù)據(jù)庫中,需要對設(shè)備的運(yùn)行狀況進(jìn)行判斷時,從數(shù)據(jù)庫中提取相應(yīng)的數(shù)據(jù)進(jìn)行處理[3];這種數(shù)據(jù)處理模式可以較好地反應(yīng)出電力設(shè)備運(yùn)行的狀況,但是不能夠?qū)崟r地對電力設(shè)備的狀況進(jìn)行了解。
為了更好地解決大數(shù)據(jù)和智能電網(wǎng)環(huán)境下,電網(wǎng)設(shè)備的實時運(yùn)行狀況,研發(fā)出了基于大量機(jī)器和大數(shù)據(jù)的數(shù)據(jù)實時流處理技術(shù)[4]。該技術(shù)可以對電力設(shè)備上傳的監(jiān)測數(shù)據(jù)進(jìn)行實時的處理、分析,并對電力設(shè)備的運(yùn)行狀況進(jìn)行預(yù)判。在數(shù)據(jù)分析的基礎(chǔ)上,可以實時監(jiān)測電力設(shè)備和機(jī)器的狀況,提高運(yùn)維人員的工作效率和電力設(shè)備的使用效率,實現(xiàn)智能電網(wǎng)環(huán)境下電力設(shè)備的精細(xì)化管理[5]。
本文在電網(wǎng)海量機(jī)器數(shù)據(jù)處理技術(shù)的基礎(chǔ)上,進(jìn)一步研究電網(wǎng)設(shè)備監(jiān)測數(shù)據(jù)的流處理技術(shù),提升數(shù)據(jù)處理性能,提高電網(wǎng)的運(yùn)維效率,保障電網(wǎng)的安全運(yùn)行。本文研究的海量機(jī)器數(shù)據(jù)實時流處理技術(shù)對提高電網(wǎng)設(shè)備的檢修水平和智能化程度有著重要的意義,為保障智能電網(wǎng)的安全運(yùn)行提供了技術(shù)基礎(chǔ)。
數(shù)據(jù)流處理技術(shù)的對象是智能電網(wǎng)中設(shè)備的運(yùn)行監(jiān)測數(shù)據(jù),數(shù)據(jù)流是將時間參數(shù)融入進(jìn)數(shù)據(jù)的一種描述方法,數(shù)據(jù)流有更強(qiáng)的時間特性。數(shù)據(jù)流可以在一定的時間段內(nèi),傳輸大量的信息[5]。本文總結(jié)了數(shù)據(jù)流的主要特點如下所述。
(1)海量性。數(shù)據(jù)流是隨時間參數(shù)變化的因變量,其包含數(shù)據(jù)的量隨著時間增長而不斷增長。
(2)高速性。由于數(shù)據(jù)是隨時間不斷累積的,電力設(shè)備的監(jiān)測數(shù)據(jù)可以精確到秒乃至更高,因此數(shù)據(jù)的傳輸速度也非常高。
(3)實時性。可以把數(shù)據(jù)流看作是關(guān)于時間的函數(shù),因此每一個時刻對應(yīng)一個或多個數(shù)據(jù),這些數(shù)據(jù)隨著時間的變化不斷更新,具有實時的特性。
(4)多維性。由于電網(wǎng)設(shè)備和機(jī)器的監(jiān)測內(nèi)容不止一項,因此在某一時刻可以產(chǎn)生多個數(shù)據(jù),這些數(shù)據(jù)分別從不同的角度對該機(jī)器進(jìn)行描述。所以,電網(wǎng)設(shè)備和機(jī)器產(chǎn)生的數(shù)據(jù)流具有多維的特點[6]。
數(shù)據(jù)流與傳統(tǒng)的數(shù)據(jù)有很大的差異,主要體現(xiàn)如下。
(1)數(shù)據(jù)流的數(shù)據(jù)體量比較大。傳統(tǒng)的數(shù)據(jù)量通常是有限的,變化量比較少,數(shù)據(jù)流中的數(shù)據(jù)是隨著時間不斷的累積的,所以數(shù)據(jù)流的體量比較大。
(2)數(shù)據(jù)讀取方式不同。由于傳統(tǒng)的機(jī)器監(jiān)測數(shù)據(jù)是先儲存在存儲介質(zhì)中的,所以傳統(tǒng)的數(shù)據(jù)在進(jìn)行計算等操作時需要多次讀取才可以[7]。
(3)處理結(jié)果不同。傳統(tǒng)的數(shù)據(jù)比較固定、變化量比較少,因此傳統(tǒng)的數(shù)據(jù)處理結(jié)果比較固定,數(shù)據(jù)流變化比較大,因此其處理結(jié)果不唯一。
(4)數(shù)據(jù)更新速度不同。傳統(tǒng)的數(shù)據(jù)比較固定,更新速度比較慢,數(shù)據(jù)流中的數(shù)據(jù)隨著時間不斷的發(fā)生著變化,不斷的進(jìn)行更新。
目前,已經(jīng)研發(fā)出一些數(shù)據(jù)流處理相關(guān)的技術(shù),本文根據(jù)數(shù)據(jù)流處理技術(shù)的相應(yīng)范圍,將數(shù)據(jù)流處理技術(shù)劃分為以下幾種[8]。
(1)數(shù)據(jù)流模型處理技術(shù)。該數(shù)據(jù)處理模型可以處理某一段時間內(nèi)相應(yīng)的數(shù)據(jù),但是隨著時間長度的增加,數(shù)據(jù)處理的數(shù)量也增加。本技術(shù)適用于算法占用空間比較小的數(shù)據(jù)處理,因此大規(guī)模數(shù)據(jù)環(huán)境下不適用。
(2)滑動窗口模型處理技術(shù)。該處理技術(shù)在處理數(shù)據(jù)時沒有明顯的界定范圍,該技術(shù)可以通過滑動窗口更新數(shù)據(jù)。因此,該技術(shù)可以實時地對變化的數(shù)據(jù)進(jìn)行相應(yīng)的處理。
(3)數(shù)據(jù)流概要處理技術(shù)。本文在研究現(xiàn)有的數(shù)據(jù)流處理技術(shù)的基礎(chǔ)上,提出了選用數(shù)據(jù)流概要生成算法的處理技術(shù)。目前,數(shù)據(jù)流概要生成算法已經(jīng)有一些處理技術(shù),該技術(shù)主要針對數(shù)據(jù)流的某些特征進(jìn)行處理[9]。常用的數(shù)據(jù)流概要生成算法主要有哈希算法、直方圖算法、抽樣算法等。
目前,數(shù)據(jù)流概要生成常用的方法主要有抽樣方法、直圖方法、哈希方法和小波方法[10]。其關(guān)系結(jié)構(gòu)如圖1所示。

圖1 模型概要處理技術(shù)模型方法及關(guān)系示意圖
模型概要處理技術(shù)是基于抽樣算法技術(shù)發(fā)展起來的,該模型的關(guān)鍵是樣本抽樣過程中每個樣本被抽中的概率是相同的。直方圖方法是將數(shù)據(jù)流分化成不同的類別,該方法的特點是比較直觀地對數(shù)據(jù)進(jìn)行劃分[11]。小波方法利用數(shù)字信號處理數(shù)據(jù)流的技術(shù),處理過程中將數(shù)據(jù)流轉(zhuǎn)換成小波系數(shù)進(jìn)行處理,該技術(shù)可以對多維數(shù)據(jù)進(jìn)行降維處理,因此較快速地處理多維數(shù)據(jù)。
(1)算法設(shè)計的基本原則
本文首先對電網(wǎng)設(shè)備監(jiān)測數(shù)據(jù)進(jìn)行了分析,并總結(jié)了電網(wǎng)設(shè)備數(shù)據(jù)流概要模型處理算法的基本要求:數(shù)據(jù)抽樣時應(yīng)該能夠滿足抽樣的公平性;算法應(yīng)該具有一定的穩(wěn)定性;抽樣的時空分布應(yīng)該分布均勻[12]。
(2)算法基本框架設(shè)計
本文在流數(shù)據(jù)概要處理的一般技術(shù)和算法設(shè)計基本原則的基礎(chǔ)上,根據(jù)電網(wǎng)設(shè)備運(yùn)行監(jiān)測數(shù)據(jù)和特性進(jìn)行抽樣提取,將關(guān)鍵數(shù)據(jù)應(yīng)用于后續(xù)的分析和預(yù)測[13]。本文初步設(shè)計的算法運(yùn)行流程如圖2所示。

圖2 算法運(yùn)行流程示意圖
本文提出數(shù)據(jù)流概要處理模型算法結(jié)合了UBCS滑動窗口數(shù)據(jù)流模型的相關(guān)技術(shù),可以通過截取時間段的數(shù)據(jù)流進(jìn)行處理,在電網(wǎng)設(shè)備檢測數(shù)據(jù)處理應(yīng)用中有更高的價值[14]。本文設(shè)計的算法的具體執(zhí)行過程如下。
(1) 選定數(shù)據(jù)流單元的索引,并以其對應(yīng)的實際元素進(jìn)行存儲并檢測異常數(shù)值。
(2) 若窗口內(nèi)的數(shù)據(jù)量超過窗口大小時,刷新數(shù)據(jù)、釋放相應(yīng)的內(nèi)存。
(3) 若存在多余的窗口時,則隨機(jī)釋放一個窗口。
(4) 重復(fù)上述步驟,選出數(shù)據(jù)流概要處理模型。
本文設(shè)計的數(shù)據(jù)流處理計算模型,在流數(shù)據(jù)概要處理技術(shù)的基礎(chǔ)上,提出了將智能挖掘技術(shù)應(yīng)用到電網(wǎng)數(shù)據(jù)流處理中的概念[15]。數(shù)據(jù)挖掘技術(shù)可以快速地從海量數(shù)據(jù)中尋找到需要的數(shù)據(jù)進(jìn)行分析,有助于數(shù)據(jù)流實時處理技術(shù)的實現(xiàn)。
本文針對數(shù)據(jù)流與傳統(tǒng)數(shù)據(jù)差異的基礎(chǔ)上,對數(shù)據(jù)流的操作過程中重點考慮了以下幾點[16]。
(1) 時效性
數(shù)據(jù)流是隨時間不斷變化的,在數(shù)據(jù)流處理時也應(yīng)考慮該特性,即數(shù)據(jù)處理的時效性。
(2) 穩(wěn)定性
與傳統(tǒng)的數(shù)據(jù)不同,流數(shù)據(jù)是處于實時變化過程中的,因此數(shù)據(jù)的處理也會實時的發(fā)生變化。穩(wěn)定性是流數(shù)據(jù)處理模型應(yīng)該重點考慮的內(nèi)容,本文設(shè)計的模型采取了相應(yīng)的措施保證數(shù)據(jù)處理的穩(wěn)定性,其流數(shù)據(jù)的處理邏輯如圖3所示。

圖3 流數(shù)據(jù)處理邏輯關(guān)系示意圖
該流數(shù)據(jù)處理邏輯可以針對隨著時間不斷變化的數(shù)據(jù)進(jìn)行更新,并且不斷更新數(shù)據(jù)概要模型。被更新的數(shù)據(jù)則會進(jìn)行緩存并進(jìn)行高級処理(數(shù)據(jù)的分類、聚類及結(jié)果的預(yù)測等操作)。
在大數(shù)據(jù)處理的需求不斷提高的今天,數(shù)據(jù)挖掘技術(shù)已經(jīng)得到了突飛猛進(jìn)的發(fā)展。數(shù)據(jù)流的聚類算法是在傳統(tǒng)的聚類算法基礎(chǔ)上發(fā)展而來的,主要對數(shù)據(jù)流中的數(shù)據(jù)進(jìn)行聚類分析。常用的數(shù)據(jù)流聚類處理算法主要包括lslream算法、Cluream算法及高維數(shù)據(jù)流聚類算法等。
本文設(shè)計的數(shù)據(jù)流挖掘算法的框架及步驟如下所示。
(1) 選取合適大小的滑動窗口及概要數(shù)據(jù)提取頻率。通過設(shè)置合理的滑動窗口與概要模型提取頻率,選取合理的處理算法。
(2) 對滑動窗口內(nèi)的數(shù)據(jù)進(jìn)行概要構(gòu)建,同時概要模型要能夠?qū)崟r増量更新。
(3) 選揮合理的聚類與分類算法,對概要模型進(jìn)行處理。
本文設(shè)計的數(shù)據(jù)流挖掘處理流程如圖4所示。

圖4 數(shù)據(jù)流挖掘處理框架設(shè)計
本文在收集的100組變壓器運(yùn)行監(jiān)測數(shù)據(jù)的基礎(chǔ)上,對流數(shù)據(jù)處理模型進(jìn)行了測試。本次測試的數(shù)據(jù)包含了變壓器常見的故障:電力設(shè)備低能放電、低中溫?zé)峁收稀⒏吣芊烹姟⒏邷毓收霞罢5葞追N情況。
模型通過CLUSTER對數(shù)據(jù)集進(jìn)行驗證對比,并分析此兩類方法對數(shù)據(jù)分類的時間效率、分類準(zhǔn)確率、有效數(shù)據(jù)刪除比率等方面進(jìn)行比較。先后通過設(shè)定滑動窗口尺寸(30),將數(shù)據(jù)流分類設(shè)定為3類,誤差參數(shù)為0.3,在線聚類層設(shè)定聚類值為14。通過一系列運(yùn)算,得出了模型的運(yùn)算結(jié)果。
結(jié)果顯示,本文設(shè)計的數(shù)據(jù)流處理模型準(zhǔn)確率比傳統(tǒng)算法提高10%,實時處理能力比傳統(tǒng)算法的運(yùn)行能力提高43%。
隨著電網(wǎng)的智能化升級改造,電力系統(tǒng)產(chǎn)生大量的設(shè)備監(jiān)測數(shù)據(jù),傳統(tǒng)的電力設(shè)備數(shù)據(jù)處理技術(shù)已經(jīng)不能滿足現(xiàn)階段的需要。能夠?qū)崟r計算、處理海量數(shù)據(jù)的技術(shù)亟需研發(fā)和升級,通過本文關(guān)于流數(shù)據(jù)的研究,可以得出以下結(jié)論。
(1)本文對智能電網(wǎng)設(shè)備產(chǎn)生的流數(shù)據(jù)的一般特點進(jìn)行了深入的分析,例如海量性、實時性等特點;流數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)不同,其數(shù)據(jù)流的數(shù)據(jù)體量比較大、數(shù)據(jù)讀取方式不同、處理結(jié)果不同、數(shù)據(jù)更新速度不同。
(2)本文在數(shù)據(jù)流概要處理模型算法的基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘技術(shù),提出了數(shù)據(jù)流處理模型。該模型可以更加快速的、實時地對數(shù)據(jù)進(jìn)行處理,對電網(wǎng)智能化升級改造和精細(xì)化管理有十分重要的意義。