李立生, 劉 洋*, 盧文華, 張世棟, 張林利
(1.國網(wǎng)山東省電力公司電力科學(xué)研究院, 濟南 250002; 2.國網(wǎng)電力科學(xué)研究院武漢南瑞有限責(zé)任公司, 武漢 430000; 3.南京南瑞集團, 南京 210000)
在電力系統(tǒng)向智能電網(wǎng)及能源互聯(lián)網(wǎng)發(fā)展的過程中,海量的運行數(shù)據(jù)一方面促進(jìn)電網(wǎng)的再發(fā)展,另一方面也帶來了數(shù)據(jù)利用處理難題。據(jù)調(diào)查,某省配電自動化后臺故障告警頁面一天可刷出(20~30)萬條故障告警信息,包含大量的重復(fù)、擾動、錯誤等故障數(shù)據(jù)。錄波型故障指示器主要應(yīng)用于當(dāng)下配電網(wǎng)故障數(shù)據(jù)記錄與故障診斷,當(dāng)電網(wǎng)中元件發(fā)生故障或線路發(fā)生故障后,與該故障線路或元件相近的線路也會啟動錄波故障指示器,是造成更多重復(fù)數(shù)據(jù)的原因;運行老化和調(diào)試錯誤的故障指示器會造成干擾、抖動故障數(shù)據(jù)及錯誤故障數(shù)據(jù)混入正常故障數(shù)據(jù)中,加大了數(shù)據(jù)的復(fù)雜度和準(zhǔn)確度,也是造成配電自動化后臺告警窗口數(shù)據(jù)刷新頻繁數(shù)據(jù)量大的主要原因。如此復(fù)雜和繁多的故障數(shù)據(jù),運維人員短時間內(nèi)無法準(zhǔn)確定位實際的故障發(fā)生與故障類型,數(shù)據(jù)利用效率低下致使運維人員工作效率低下,如此便可能導(dǎo)致真實故障的惡化與擴散[1-2],嚴(yán)重情況下會導(dǎo)致電氣設(shè)備損壞,大面積長時間停電,造成巨大的經(jīng)濟損失。因此對海量故障數(shù)據(jù)的處理和應(yīng)用無疑是個亟需解決的技術(shù)問題。
針對海量故障數(shù)據(jù)智能清洗以獲得關(guān)鍵故障數(shù)據(jù),中外學(xué)者已開展大量研究[3-5]。其中在輸電設(shè)備狀態(tài)故障數(shù)據(jù)清洗方面有諸多研究與應(yīng)用,文獻(xiàn)[6-9]要研究電網(wǎng)輸變電設(shè)備的運行狀態(tài)監(jiān)測數(shù)據(jù)清洗,集中于對狀態(tài)數(shù)據(jù)中的噪聲點、缺失數(shù)據(jù)進(jìn)行清洗處理以及異常數(shù)據(jù)識別與修復(fù),最終獲取運行設(shè)備的關(guān)鍵狀態(tài)故障數(shù)據(jù)。但文中清洗過程中對數(shù)據(jù)個體的完整性造成了一定的破壞,因此很難保證清洗效果。文獻(xiàn)[10]針對電網(wǎng)中過電壓故障數(shù)據(jù)運用神經(jīng)網(wǎng)絡(luò)特征提取并進(jìn)行分類研究,最終識別出正確的過電壓數(shù)據(jù)并對錯誤數(shù)據(jù)進(jìn)行剔除,但文中只應(yīng)用到三相中的一相數(shù)據(jù),數(shù)據(jù)不能完整的反映故障特性,因此清洗效果還需驗證。文獻(xiàn)[1, 2, 11]對故障告警信息總體文本進(jìn)行數(shù)據(jù)挖掘,匹配關(guān)鍵詞以達(dá)到對故障數(shù)據(jù)的清洗篩選,但忽略了海量數(shù)據(jù)清洗的實質(zhì),沒有從數(shù)據(jù)本身出發(fā)分析故障數(shù)據(jù)特征,清洗準(zhǔn)確度有待驗證。以上研究在故障數(shù)據(jù)清洗方面或未有效利用故障數(shù)據(jù)本身或未有效地進(jìn)行故障數(shù)據(jù)清洗提取。
針對以上問題,結(jié)合神經(jīng)網(wǎng)絡(luò)及深度學(xué)習(xí)提出一種基于稀疏自編碼(sparse auto-encoder, SAE)的故障數(shù)據(jù)聚類清洗方法,其原理是首先對獲取的海量數(shù)據(jù)進(jìn)行特征學(xué)習(xí),提取數(shù)據(jù)中主要二維特征,其次利用聚類方法對數(shù)據(jù)進(jìn)行預(yù)處理剔除干擾、抖動、錯誤故障數(shù)據(jù),最終再次利用聚類方法對預(yù)處理故障數(shù)據(jù)進(jìn)行聚類清洗,以實現(xiàn)對故障數(shù)據(jù)完全清洗與暫態(tài)故障數(shù)據(jù)庫的清潔效果,便于運維人員對關(guān)鍵故障信息的定位與發(fā)現(xiàn),提高運維人員工作效率。
SAE的模型建立啟發(fā)于哺乳動物視覺系統(tǒng)簡單細(xì)胞感受野。其每一維被看作是一種特征,同基于稠密向量的分布式表示相比稀疏編碼具有更小的計算量和更好的可解釋性等優(yōu)點[12-13]。在文獻(xiàn)[14-15]中稀疏自編碼已被證實完全可以應(yīng)用于電氣量故障波形數(shù)據(jù)的特征獲取。單層稀疏自編碼由輸入層、隱含層、輸出層組成,其模型如圖1所示,其中由輸入層與隱含層構(gòu)成“編碼器”能夠把高維數(shù)據(jù)降維表達(dá)至低維數(shù)據(jù),由隱含層和輸出層構(gòu)成“解碼器”能夠?qū)⒔稻S后的低維數(shù)據(jù)復(fù)原回原來的高維輸入數(shù)據(jù)。

圖1 單層自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of single-layer auto-encoder neural network
對于此單層稀疏自編碼網(wǎng)絡(luò),用(W,b)和(W′,b′)表示編碼層和解碼層的權(quán)重和偏置,則編碼過程為
a(1)=f(WX+b)
(1)
解碼過程為
y=f[W′a(1)+b′]
(2)
式中:f為隱含層單元的激活函數(shù),即

(3)
對于一個k層的稀疏自編碼其稀疏懲罰項為


(4)
通過喂入數(shù)據(jù)使J(W,b)最小化,調(diào)節(jié)網(wǎng)絡(luò)中各個參數(shù)可以從隱含層獲得輸入數(shù)據(jù)的低維特征。
主成分分析(principal component analysis, PCA)是常用于數(shù)據(jù)預(yù)處理和圖像處理的一種數(shù)據(jù)降維方法,能有效從高維數(shù)據(jù)中提取到低維的數(shù)據(jù)特征并去除數(shù)據(jù)中噪聲和減少特征之間的相關(guān)性[16]。其定義為:在d維向量空間{tn}(n∈{1,2,…,n})中搜尋q個正交主向量wj(j∈{1,2,…,q}),獲得{tn}在wj子空間上的最大方差值[17],其主要目標(biāo)是在高維數(shù)據(jù)中提取低維的線性無關(guān)主成分特征,圖2為二維數(shù)據(jù)投影到一維空間中,在方差最大的方向選取其投影才能保留更多的原始數(shù)據(jù)特征信息。

圖2 主成分分析Fig.2 Principal component analysis
密度峰快速搜尋聚類(clustering by fast search and find of density peaks, CFSFDP)是一種基于數(shù)據(jù)分布密度為依據(jù)進(jìn)行分類的算法,處理故障數(shù)據(jù)能夠自動的獲取聚類簇數(shù)和聚類非球面形狀數(shù)據(jù)簇,算法速度更快實現(xiàn)更為簡單[18-19]。CFSFDP算法基于假設(shè)條件:對于數(shù)據(jù)集,聚類中心被一些較低局部密度的數(shù)據(jù)點所包圍且較低的局部密度點與其他較高的局部密度點有較大的距離[20-21]。


(5)
式(5)中:dc為大于0的人為設(shè)定截止距離,通常通過所有數(shù)據(jù)點的ρi升序排列,設(shè)置相鄰點平均百分?jǐn)?shù)來間接控制其大小。如當(dāng)有M個數(shù)據(jù)點時,設(shè)置不同的P值可得截止距離為第M×P/100個數(shù)據(jù)點的值。
xi與比其局部密度更高的數(shù)據(jù)組的距離為

(6)
在聚類過程中對應(yīng)局部密度ρi較大,δi較大的數(shù)據(jù)組為各類簇中心,其余的數(shù)據(jù)組根據(jù)自身的ρi,xi歸類于各個類簇中心所表示的類簇,再或者由于dc的設(shè)置原因,造成其余數(shù)組在各類簇中存在交疊點,存在的交疊點則不為類簇的核元素[22]。
暫態(tài)錄波故障數(shù)據(jù)清洗方法邏輯結(jié)構(gòu)圖如圖3所示。整個系統(tǒng)主要由3部分組成。

圖3 故障數(shù)據(jù)清洗方法Fig.3 Failure data cleaning method
第一部分,故障特征提取,針對海量故障錄波數(shù)據(jù)用稀疏自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,之后再使用PCA對稀疏特征進(jìn)行降維提取,從而實現(xiàn)錄波故障數(shù)據(jù)的特征二維表達(dá)。需要注意的是導(dǎo)入網(wǎng)絡(luò)的故障數(shù)據(jù)應(yīng)包括干擾、抖動、錯誤、高頻次擾動等故障數(shù)據(jù)波形,用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的參數(shù)以達(dá)到對故障數(shù)據(jù)特征有效的獲取[23]。
第二部分,故障數(shù)據(jù)預(yù)處理,對于第一部分提取的二維特征進(jìn)行CFSFDP分析,找出數(shù)據(jù)點ρi非常小且遠(yuǎn)離其他主類簇的離散數(shù)據(jù),由于這些離散數(shù)據(jù)點有很大可能是單頻次異常干擾、抖動或者是錯誤故障數(shù)據(jù),在混入真實故障數(shù)據(jù)后影響清洗效果,故需要對此類數(shù)據(jù)在進(jìn)行完全聚類清洗之前進(jìn)行異常數(shù)據(jù)預(yù)處理。
第三部分,故障數(shù)據(jù)清洗,在第二部的基礎(chǔ)上再次使用CFSFDP對預(yù)處理數(shù)據(jù)進(jìn)行聚類分析,對于各個類簇實施類簇中心數(shù)據(jù)識別,確定各類屬性。如果聚類中心所表達(dá)的故障類型是高頻次擾動、錯誤等無效故障數(shù)據(jù),則立即進(jìn)行隔離清洗。對其余正確故障波形數(shù)據(jù)進(jìn)行類簇中心代表數(shù)據(jù)提取作為推送數(shù)據(jù),以達(dá)到對重復(fù)數(shù)據(jù)的剔除。繼而完成整個清洗過程,提高了海量數(shù)據(jù)中故障數(shù)據(jù)及故障屬性的識別率,提高了獲取主要、準(zhǔn)確告警信息的效率。
本文模型訓(xùn)練驗證所用數(shù)據(jù)為山東省各市縣2019年部分錄波故障數(shù)據(jù),其中包含了大量的接地故障數(shù)據(jù)和一定量的干擾、抖動、無效數(shù)據(jù)。經(jīng)過篩選,取得1 500條故障數(shù)據(jù),其中包括320條干擾、抖動、錯誤故障數(shù)據(jù)如圖4所示,部分真實故障數(shù)據(jù)如圖5所示。
其中每一組訓(xùn)練數(shù)據(jù)由故障點A、B、C三相電壓組成,獲取故障時刻三條線路電壓同時變化特征。在電網(wǎng)運行過程中不同類型的故障數(shù)據(jù)統(tǒng)一涌來,真實故障數(shù)據(jù)與錯誤無效故障數(shù)據(jù)魚目混雜,故有必要對此故障數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。
故障波形數(shù)據(jù)由故障時刻三相電壓拼接組成,由于故障指示器記錄故障時刻前4后8個周期波形,且往往在故障點左右3個周期便可有效反映故障特征,故取每一相電壓波形故障點時刻前1.5周期和故障點后1.5個周期,共256個數(shù)據(jù),即每組數(shù)據(jù)為3×256維矩陣。經(jīng)過稀疏自編碼降維壓縮后映射為2維數(shù)據(jù),以用于實現(xiàn)后文聚類清洗。圖6為網(wǎng)絡(luò)設(shè)置為一個3層稀疏自編碼器進(jìn)行特征降維后的數(shù)據(jù)可視化,其中輸入層神經(jīng)元為768維,隱含層設(shè)置為2維,輸出為768維。喂入數(shù)據(jù)進(jìn)行訓(xùn)練,調(diào)節(jié)參數(shù),提取隱含層數(shù)據(jù)為故障2維特征表達(dá)。
圖7所示為在三層稀疏自編碼神經(jīng)網(wǎng)絡(luò)降維的基礎(chǔ)上加上PCA特征降維,即設(shè)置輸入層為768維,隱含層50維,PCA獲取50維數(shù)據(jù)后再降至2維主成分?jǐn)?shù)據(jù)。比較圖6、圖7有明顯發(fā)現(xiàn),稀疏自編碼直接降至2維后錯誤、無效波形數(shù)據(jù)與真實故障數(shù)據(jù)分離不明顯,離散程度較低,而加入PCA降維后的2維特征數(shù)據(jù)中錯誤、無效波形數(shù)據(jù)與真實故障數(shù)據(jù)分離較為明顯,離散度較高。

x、y為提取的第一、二特征量圖7 2維PCA特征提取Fig.7 2-D PCA feature extraction
造成圖6與圖7的差別在于把故障數(shù)據(jù)由768維直接降至2維會導(dǎo)致波形的特征信息損失較大,特征差別提取不明顯故可視化效果較差。而圖7首先把768維數(shù)據(jù)降至50維保留了更多的關(guān)鍵信息,而后用PCA在50維數(shù)據(jù)進(jìn)行降維提取主成分能更好地保留數(shù)據(jù)特征,實現(xiàn)關(guān)鍵信息可視化。由此可見加入PCA的網(wǎng)絡(luò)對特征提取的效果更佳。
針對稀疏自編碼和PCA對特征的降維提取后,利用CFSFDP進(jìn)行對特征值進(jìn)行數(shù)據(jù)預(yù)清洗,由于CFSFDP中截斷距離的設(shè)置對聚類效果有很大影響,當(dāng)截斷距離dc設(shè)置為P=1時,計算各特征對應(yīng)的ρi和δi,對ρi和δi和進(jìn)行可視化如圖8所示,當(dāng)ρi<0.2時有部分特征數(shù)據(jù)有較高的δi,即此類特征點為離散數(shù)據(jù)點,為錯誤、擾動的可能較極大,故應(yīng)給予剔除隔離,實現(xiàn)對故障數(shù)據(jù)的初步預(yù)清洗。

圖8 數(shù)據(jù)點ρi、δi分布Fig.8 The ρi,δi distribution of the data point
對預(yù)清洗后的數(shù)據(jù)進(jìn)行CFSFDP再次聚類效果如圖9(a),如表1中P=1時所示為圖9(a)對應(yīng)的核元素聚類描述,其中可見類簇1和類簇3存在交疊點,這是由于相關(guān)參數(shù)dc的設(shè)置對聚類效果的影響,獲取各類簇中心代表點可知類簇2中心為錯誤無效特征,故由于類簇相似性可知類簇2為錯誤無效故障波形。應(yīng)給予類簇2隔離實現(xiàn)聚類清洗的效果。
當(dāng)設(shè)置截斷距離dc設(shè)置為P=0.5時,減小截斷距離后重新聚類,類簇1和類簇3的交疊點消失,得到新的各類簇如圖9(b)所示,表1中P=0.5時為圖9(b)聚類結(jié)果表述。同樣類簇2為錯誤無效波形數(shù)據(jù)需要進(jìn)行隔離清洗。

表1 CFSFDP聚類結(jié)果
其中可以通過計算正確清洗率和錯誤清洗率來衡量模型聚類效果,通過計算當(dāng)截斷距離dc設(shè)置為P=1和P=0.5時聚類效果如表2所示。

表2 CFSFDP聚類清洗結(jié)果統(tǒng)計表
即通過調(diào)節(jié)截斷距離,可以更好地獲取聚類模型,當(dāng)截斷距離dc設(shè)置為P=1時,模型正確清洗高達(dá)92.50%但其錯誤清洗率也較高,損失了一部分正確波形。當(dāng)截斷距離dc設(shè)置為P=0.5時,可知模型正確波形損失較少即錯誤清洗率較低為0.93%,但錯誤識別率降低了約5%。

x、y為提取的第一、二特征量圖9 聚類結(jié)果示圖Fig.9 Clustering results
顯然通過調(diào)節(jié)截斷距離可以使模型達(dá)到更好的聚類效果,故有必要研究截斷距離對聚類效果的影響,當(dāng)截斷距離dc設(shè)置從P=0.1到P=3.2變化過程,各類簇聚類效果如圖10所示。

圖10 P對聚類結(jié)果的影響Fig.10 Influence of P on clustering results
根據(jù)dc對聚類結(jié)果的影響可知當(dāng)dc設(shè)置較大時將造成各類簇間出現(xiàn)交疊點,從而影響聚類效果。根據(jù)本文研究設(shè)置截止距離相鄰點平均百分?jǐn)?shù)P=0.4至P=1之間最為合適,可以得到較高的正確清洗率即可以有效地去除故障數(shù)據(jù)中的錯誤故障數(shù)據(jù)。以保證暫態(tài)故障數(shù)據(jù)庫的清潔。
目前針對暫態(tài)故障數(shù)據(jù)清洗方法有基于故障數(shù)據(jù)告警文本清洗方法[1]或基于波形文件規(guī)范邏輯的暫態(tài)故障數(shù)據(jù)[24]清洗方法。就基于波形文件規(guī)范邏輯清洗方法,在其清洗實驗中驗證正確清洗率雖然也在90%以上,但實驗條件苛刻無法驗證實測電網(wǎng)數(shù)據(jù)清洗效果以及對重復(fù)故障數(shù)據(jù)無法給予剔除。對本文中320條錯誤、干擾實測故障波形采用上述邏輯方法進(jìn)行清洗測試。按照其方法分四步對數(shù)據(jù)文件進(jìn)行合格波形篩選,第一步為判定每個文件夾下是否有成對的cfg與dat文件;第二步為判定是否每相波形數(shù)據(jù)采樣周期數(shù)不小于12個,周期采樣點不小于80個;第三步判定每相電流有效值是否均小于設(shè)定閾值;第四步判定波形突變點是否在錄波起始點前一周期內(nèi)。如果滿足以上4個條件則判定為合格波形。根據(jù)現(xiàn)場實測數(shù)據(jù)電流普遍較大設(shè)置測試電流閾值范圍為2~16 A,計算并累計每步清洗后剔除的波形數(shù)據(jù)量,最終確定320條錯誤數(shù)據(jù)是否全部剔除。圖11為每層邏輯清洗剔除的波形數(shù)據(jù)量。

圖11 邏輯清洗波形剔除量圖Fig.11 Logical cleaning waveform elimination Figure
當(dāng)電流閾值設(shè)置為較小時即2 A,第三步剔除波形數(shù)量為172條,總剔除量為236條,總未成功剔除量為74條,計算其正確清洗率約為74%,實測數(shù)據(jù)清洗效果較差。且隨著電流閾值設(shè)置增大時,總波形剔除量減小,邏輯清洗效果加劇變差。因此本文不失為一種更高效暫態(tài)故障數(shù)據(jù)清洗方法,切實從故障數(shù)據(jù)本身質(zhì)量特征出發(fā),故障清洗準(zhǔn)確度、可信度更高。
通過從電網(wǎng)總體故障數(shù)據(jù)中利用稀疏自編碼和PCA降維進(jìn)行特征學(xué)習(xí),然后利用CFSFDP對二維特征進(jìn)行聚類,實現(xiàn)對故障數(shù)據(jù)的高效聚類清洗。適當(dāng)?shù)恼{(diào)節(jié)網(wǎng)絡(luò)參數(shù),在正確清洗率達(dá)到87.18%,錯誤清洗率低于1%的情況下,對故障數(shù)據(jù)進(jìn)行聚類清洗和代表數(shù)據(jù)點提取推送,能有效地從海量的故障數(shù)據(jù)中提取出真實準(zhǔn)確的故障信息,剔除錯誤、無效的干擾數(shù)據(jù),為智能告警提供優(yōu)質(zhì)的故障信息,同時從根本上解決了配電告警平臺頻繁刷屏的問題。