基于海量機(jī)器數(shù)據(jù)的實時流處理技術(shù)研究

2021-12-09 06:37:48吳麗賢林鈺杰陳灝生張遠(yuǎn)雄陳磊

微型電腦應(yīng)用 2021年11期

吳麗賢, 林鈺杰, 陳灝生, 張遠(yuǎn)雄, 陳磊

(1.廣東電網(wǎng)有限責(zé)任公司佛山供電局, 廣東佛山 528000; 2.廣東卓維網(wǎng)絡(luò)有限公司, 廣東佛山 528000)

0 引言

隨著我國電網(wǎng)智能化的升級和改造，電網(wǎng)的規(guī)模在不斷的擴(kuò)大，輸變電網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)也不斷的增多[1]。因此，對數(shù)據(jù)的處理技術(shù)要求也越來越高，如何高效地解決電力設(shè)備和機(jī)器運(yùn)行過程中出現(xiàn)的問題，提高設(shè)備的使用效率和降低電力機(jī)器設(shè)備的運(yùn)維成本，這些問題是電力企業(yè)智能化升級改造的重點內(nèi)容[2]。傳統(tǒng)的數(shù)據(jù)存儲模式是靜止的、定量的，適用于數(shù)據(jù)體量比較小的實時存儲和處理。傳統(tǒng)的數(shù)據(jù)實時流處理技術(shù)是將數(shù)據(jù)存儲到數(shù)據(jù)庫中，需要對設(shè)備的運(yùn)行狀況進(jìn)行判斷時，從數(shù)據(jù)庫中提取相應(yīng)的數(shù)據(jù)進(jìn)行處理[3]；這種數(shù)據(jù)處理模式可以較好地反應(yīng)出電力設(shè)備運(yùn)行的狀況，但是不能夠?qū)崟r地對電力設(shè)備的狀況進(jìn)行了解。

為了更好地解決大數(shù)據(jù)和智能電網(wǎng)環(huán)境下，電網(wǎng)設(shè)備的實時運(yùn)行狀況，研發(fā)出了基于大量機(jī)器和大數(shù)據(jù)的數(shù)據(jù)實時流處理技術(shù)[4]。該技術(shù)可以對電力設(shè)備上傳的監(jiān)測數(shù)據(jù)進(jìn)行實時的處理、分析，并對電力設(shè)備的運(yùn)行狀況進(jìn)行預(yù)判。在數(shù)據(jù)分析的基礎(chǔ)上，可以實時監(jiān)測電力設(shè)備和機(jī)器的狀況，提高運(yùn)維人員的工作效率和電力設(shè)備的使用效率，實現(xiàn)智能電網(wǎng)環(huán)境下電力設(shè)備的精細(xì)化管理[5]。

本文在電網(wǎng)海量機(jī)器數(shù)據(jù)處理技術(shù)的基礎(chǔ)上，進(jìn)一步研究電網(wǎng)設(shè)備監(jiān)測數(shù)據(jù)的流處理技術(shù),提升數(shù)據(jù)處理性能，提高電網(wǎng)的運(yùn)維效率，保障電網(wǎng)的安全運(yùn)行。本文研究的海量機(jī)器數(shù)據(jù)實時流處理技術(shù)對提高電網(wǎng)設(shè)備的檢修水平和智能化程度有著重要的意義，為保障智能電網(wǎng)的安全運(yùn)行提供了技術(shù)基礎(chǔ)。

1 數(shù)據(jù)流特點及處理技術(shù)

1.1 數(shù)據(jù)流特點

數(shù)據(jù)流處理技術(shù)的對象是智能電網(wǎng)中設(shè)備的運(yùn)行監(jiān)測數(shù)據(jù)，數(shù)據(jù)流是將時間參數(shù)融入進(jìn)數(shù)據(jù)的一種描述方法，數(shù)據(jù)流有更強(qiáng)的時間特性。數(shù)據(jù)流可以在一定的時間段內(nèi)，傳輸大量的信息[5]。本文總結(jié)了數(shù)據(jù)流的主要特點如下所述。

(1)海量性。數(shù)據(jù)流是隨時間參數(shù)變化的因變量，其包含數(shù)據(jù)的量隨著時間增長而不斷增長。

(2)高速性。由于數(shù)據(jù)是隨時間不斷累積的，電力設(shè)備的監(jiān)測數(shù)據(jù)可以精確到秒乃至更高，因此數(shù)據(jù)的傳輸速度也非常高。

(3)實時性。可以把數(shù)據(jù)流看作是關(guān)于時間的函數(shù)，因此每一個時刻對應(yīng)一個或多個數(shù)據(jù)，這些數(shù)據(jù)隨著時間的變化不斷更新，具有實時的特性。

(4)多維性。由于電網(wǎng)設(shè)備和機(jī)器的監(jiān)測內(nèi)容不止一項，因此在某一時刻可以產(chǎn)生多個數(shù)據(jù)，這些數(shù)據(jù)分別從不同的角度對該機(jī)器進(jìn)行描述。所以，電網(wǎng)設(shè)備和機(jī)器產(chǎn)生的數(shù)據(jù)流具有多維的特點[6]。

1.2 數(shù)據(jù)流與傳統(tǒng)數(shù)據(jù)的區(qū)別

數(shù)據(jù)流與傳統(tǒng)的數(shù)據(jù)有很大的差異，主要體現(xiàn)如下。

(1)數(shù)據(jù)流的數(shù)據(jù)體量比較大。傳統(tǒng)的數(shù)據(jù)量通常是有限的，變化量比較少，數(shù)據(jù)流中的數(shù)據(jù)是隨著時間不斷的累積的，所以數(shù)據(jù)流的體量比較大。

(2)數(shù)據(jù)讀取方式不同。由于傳統(tǒng)的機(jī)器監(jiān)測數(shù)據(jù)是先儲存在存儲介質(zhì)中的，所以傳統(tǒng)的數(shù)據(jù)在進(jìn)行計算等操作時需要多次讀取才可以[7]。

(3)處理結(jié)果不同。傳統(tǒng)的數(shù)據(jù)比較固定、變化量比較少，因此傳統(tǒng)的數(shù)據(jù)處理結(jié)果比較固定,數(shù)據(jù)流變化比較大，因此其處理結(jié)果不唯一。

(4)數(shù)據(jù)更新速度不同。傳統(tǒng)的數(shù)據(jù)比較固定，更新速度比較慢，數(shù)據(jù)流中的數(shù)據(jù)隨著時間不斷的發(fā)生著變化，不斷的進(jìn)行更新。

1.3 數(shù)據(jù)流處理技術(shù)

目前，已經(jīng)研發(fā)出一些數(shù)據(jù)流處理相關(guān)的技術(shù)，本文根據(jù)數(shù)據(jù)流處理技術(shù)的相應(yīng)范圍，將數(shù)據(jù)流處理技術(shù)劃分為以下幾種[8]。

(1)數(shù)據(jù)流模型處理技術(shù)。該數(shù)據(jù)處理模型可以處理某一段時間內(nèi)相應(yīng)的數(shù)據(jù)，但是隨著時間長度的增加，數(shù)據(jù)處理的數(shù)量也增加。本技術(shù)適用于算法占用空間比較小的數(shù)據(jù)處理，因此大規(guī)模數(shù)據(jù)環(huán)境下不適用。

(2)滑動窗口模型處理技術(shù)。該處理技術(shù)在處理數(shù)據(jù)時沒有明顯的界定范圍，該技術(shù)可以通過滑動窗口更新數(shù)據(jù)。因此，該技術(shù)可以實時地對變化的數(shù)據(jù)進(jìn)行相應(yīng)的處理。

(3)數(shù)據(jù)流概要處理技術(shù)。本文在研究現(xiàn)有的數(shù)據(jù)流處理技術(shù)的基礎(chǔ)上，提出了選用數(shù)據(jù)流概要生成算法的處理技術(shù)。目前，數(shù)據(jù)流概要生成算法已經(jīng)有一些處理技術(shù)，該技術(shù)主要針對數(shù)據(jù)流的某些特征進(jìn)行處理[9]。常用的數(shù)據(jù)流概要生成算法主要有哈希算法、直方圖算法、抽樣算法等。

2 數(shù)據(jù)流概要處理技術(shù)設(shè)計

2.1 數(shù)據(jù)流概要處理技術(shù)模型構(gòu)建

目前，數(shù)據(jù)流概要生成常用的方法主要有抽樣方法、直圖方法、哈希方法和小波方法[10]。其關(guān)系結(jié)構(gòu)如圖1所示。

圖1 模型概要處理技術(shù)模型方法及關(guān)系示意圖

模型概要處理技術(shù)是基于抽樣算法技術(shù)發(fā)展起來的，該模型的關(guān)鍵是樣本抽樣過程中每個樣本被抽中的概率是相同的。直方圖方法是將數(shù)據(jù)流分化成不同的類別，該方法的特點是比較直觀地對數(shù)據(jù)進(jìn)行劃分[11]。小波方法利用數(shù)字信號處理數(shù)據(jù)流的技術(shù)，處理過程中將數(shù)據(jù)流轉(zhuǎn)換成小波系數(shù)進(jìn)行處理，該技術(shù)可以對多維數(shù)據(jù)進(jìn)行降維處理，因此較快速地處理多維數(shù)據(jù)。

2.2 數(shù)據(jù)流概要模型算法設(shè)計

(1)算法設(shè)計的基本原則

本文首先對電網(wǎng)設(shè)備監(jiān)測數(shù)據(jù)進(jìn)行了分析，并總結(jié)了電網(wǎng)設(shè)備數(shù)據(jù)流概要模型處理算法的基本要求：數(shù)據(jù)抽樣時應(yīng)該能夠滿足抽樣的公平性；算法應(yīng)該具有一定的穩(wěn)定性；抽樣的時空分布應(yīng)該分布均勻[12]。

(2)算法基本框架設(shè)計

本文在流數(shù)據(jù)概要處理的一般技術(shù)和算法設(shè)計基本原則的基礎(chǔ)上，根據(jù)電網(wǎng)設(shè)備運(yùn)行監(jiān)測數(shù)據(jù)和特性進(jìn)行抽樣提取，將關(guān)鍵數(shù)據(jù)應(yīng)用于后續(xù)的分析和預(yù)測[13]。本文初步設(shè)計的算法運(yùn)行流程如圖2所示。

圖2 算法運(yùn)行流程示意圖

本文提出數(shù)據(jù)流概要處理模型算法結(jié)合了UBCS滑動窗口數(shù)據(jù)流模型的相關(guān)技術(shù)，可以通過截取時間段的數(shù)據(jù)流進(jìn)行處理，在電網(wǎng)設(shè)備檢測數(shù)據(jù)處理應(yīng)用中有更高的價值[14]。本文設(shè)計的算法的具體執(zhí)行過程如下。

(1) 選定數(shù)據(jù)流單元的索引，并以其對應(yīng)的實際元素進(jìn)行存儲并檢測異常數(shù)值。

(2) 若窗口內(nèi)的數(shù)據(jù)量超過窗口大小時，刷新數(shù)據(jù)、釋放相應(yīng)的內(nèi)存。

(3) 若存在多余的窗口時，則隨機(jī)釋放一個窗口。

(4) 重復(fù)上述步驟，選出數(shù)據(jù)流概要處理模型。

3 數(shù)據(jù)流處理模型設(shè)計

本文設(shè)計的數(shù)據(jù)流處理計算模型，在流數(shù)據(jù)概要處理技術(shù)的基礎(chǔ)上，提出了將智能挖掘技術(shù)應(yīng)用到電網(wǎng)數(shù)據(jù)流處理中的概念[15]。數(shù)據(jù)挖掘技術(shù)可以快速地從海量數(shù)據(jù)中尋找到需要的數(shù)據(jù)進(jìn)行分析，有助于數(shù)據(jù)流實時處理技術(shù)的實現(xiàn)。

3.1 數(shù)據(jù)流風(fēng)險識別

本文針對數(shù)據(jù)流與傳統(tǒng)數(shù)據(jù)差異的基礎(chǔ)上，對數(shù)據(jù)流的操作過程中重點考慮了以下幾點[16]。

(1) 時效性

數(shù)據(jù)流是隨時間不斷變化的，在數(shù)據(jù)流處理時也應(yīng)考慮該特性，即數(shù)據(jù)處理的時效性。

(2) 穩(wěn)定性

與傳統(tǒng)的數(shù)據(jù)不同，流數(shù)據(jù)是處于實時變化過程中的，因此數(shù)據(jù)的處理也會實時的發(fā)生變化。穩(wěn)定性是流數(shù)據(jù)處理模型應(yīng)該重點考慮的內(nèi)容，本文設(shè)計的模型采取了相應(yīng)的措施保證數(shù)據(jù)處理的穩(wěn)定性，其流數(shù)據(jù)的處理邏輯如圖3所示。

圖3 流數(shù)據(jù)處理邏輯關(guān)系示意圖

該流數(shù)據(jù)處理邏輯可以針對隨著時間不斷變化的數(shù)據(jù)進(jìn)行更新，并且不斷更新數(shù)據(jù)概要模型。被更新的數(shù)據(jù)則會進(jìn)行緩存并進(jìn)行高級処理(數(shù)據(jù)的分類、聚類及結(jié)果的預(yù)測等操作)。

3.2 數(shù)據(jù)流挖掘算法框架設(shè)計

在大數(shù)據(jù)處理的需求不斷提高的今天，數(shù)據(jù)挖掘技術(shù)已經(jīng)得到了突飛猛進(jìn)的發(fā)展。數(shù)據(jù)流的聚類算法是在傳統(tǒng)的聚類算法基礎(chǔ)上發(fā)展而來的，主要對數(shù)據(jù)流中的數(shù)據(jù)進(jìn)行聚類分析。常用的數(shù)據(jù)流聚類處理算法主要包括lslream算法、Cluream算法及高維數(shù)據(jù)流聚類算法等。

本文設(shè)計的數(shù)據(jù)流挖掘算法的框架及步驟如下所示。

(1) 選取合適大小的滑動窗口及概要數(shù)據(jù)提取頻率。通過設(shè)置合理的滑動窗口與概要模型提取頻率，選取合理的處理算法。

(2) 對滑動窗口內(nèi)的數(shù)據(jù)進(jìn)行概要構(gòu)建，同時概要模型要能夠?qū)崟r増量更新。

(3) 選揮合理的聚類與分類算法，對概要模型進(jìn)行處理。

本文設(shè)計的數(shù)據(jù)流挖掘處理流程如圖4所示。

圖4 數(shù)據(jù)流挖掘處理框架設(shè)計

4 模型測試與應(yīng)用

本文在收集的100組變壓器運(yùn)行監(jiān)測數(shù)據(jù)的基礎(chǔ)上，對流數(shù)據(jù)處理模型進(jìn)行了測試。本次測試的數(shù)據(jù)包含了變壓器常見的故障：電力設(shè)備低能放電、低中溫?zé)峁收稀⒏吣芊烹姟⒏邷毓收霞罢５葞追N情況。

模型通過CLUSTER對數(shù)據(jù)集進(jìn)行驗證對比，并分析此兩類方法對數(shù)據(jù)分類的時間效率、分類準(zhǔn)確率、有效數(shù)據(jù)刪除比率等方面進(jìn)行比較。先后通過設(shè)定滑動窗口尺寸(30)，將數(shù)據(jù)流分類設(shè)定為3類，誤差參數(shù)為0.3，在線聚類層設(shè)定聚類值為14。通過一系列運(yùn)算，得出了模型的運(yùn)算結(jié)果。

結(jié)果顯示，本文設(shè)計的數(shù)據(jù)流處理模型準(zhǔn)確率比傳統(tǒng)算法提高10%，實時處理能力比傳統(tǒng)算法的運(yùn)行能力提高43%。

5 總結(jié)

隨著電網(wǎng)的智能化升級改造，電力系統(tǒng)產(chǎn)生大量的設(shè)備監(jiān)測數(shù)據(jù)，傳統(tǒng)的電力設(shè)備數(shù)據(jù)處理技術(shù)已經(jīng)不能滿足現(xiàn)階段的需要。能夠?qū)崟r計算、處理海量數(shù)據(jù)的技術(shù)亟需研發(fā)和升級，通過本文關(guān)于流數(shù)據(jù)的研究，可以得出以下結(jié)論。

(1)本文對智能電網(wǎng)設(shè)備產(chǎn)生的流數(shù)據(jù)的一般特點進(jìn)行了深入的分析，例如海量性、實時性等特點；流數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)不同，其數(shù)據(jù)流的數(shù)據(jù)體量比較大、數(shù)據(jù)讀取方式不同、處理結(jié)果不同、數(shù)據(jù)更新速度不同。

(2)本文在數(shù)據(jù)流概要處理模型算法的基礎(chǔ)上，結(jié)合數(shù)據(jù)挖掘技術(shù)，提出了數(shù)據(jù)流處理模型。該模型可以更加快速的、實時地對數(shù)據(jù)進(jìn)行處理，對電網(wǎng)智能化升級改造和精細(xì)化管理有十分重要的意義。