基于深度學習的智能錄波器配置數據自動化映射方法

2022-09-08 07:53:20李鐵成任江波劉清泉耿少博王志華周達明

電測與儀表 2022年9期

李鐵成，任江波，劉清泉，耿少博，王志華，周達明

(1.國網河北省電力有限公司電力科學研究院，石家莊 050021； 2.國網河北省電力有限公司，石家莊 050021； 3.武漢凱默電氣有限公司，武漢 430023)

0 引言

智能錄波器集暫態錄波、網絡報文記錄、二次設備在線監視與診斷、保信子站功能于一體，是智能變電站運行維護的重要裝置?；贗EC 61850規約構造的全站配置描述文件(Substation Configuration Description，SCD)是智能錄波器實現監測智能二次設備(Intelligent Electronic Device，IED)運行信息功能的關鍵錄入文件，投運時，錄波器將采集信息分為三大信息組進行分類監控，包括壓板信息組、告警信息組與狀態監測信息組。各信息組中包含子信息組，例如硬壓板信息組、SV接收壓板信息組與功能壓板信息組等，將SCD文件中各IED數據輸出接口的配置信息準確映射至錄波器不同信息組，是保證投運錄波器實時精準監測IED不同類運行信息的基礎性步驟。目前IED輸出接口地址配置數據集的映射方法，是依據SCD文件中對輸出接口的文本描述，人工將對應的數據集分類映射至各信息組中，因此，接口描述文本的分類準確性直接決定了數據集的映射精度。在高電壓大規模變電站中，設備繁多，人工分類工作量驟增，例如某500 kV變電站SCD文件中智能二次設備多達300個，各設備數據輸出接口的描述文本有上萬條之多，配置時間長達一個月。而數據集自動化映射的問題在于描述文本存在差異，已有規范針對不同IED的描述文本進行半結構化約束，但仍存在語義規律辨析困難的問題。為滿足自動化映射系統的高精度需求，強化其對半結構化文本的語義分析能力，需對大量IED配置數據集的描述文本進行深度挖掘，據此構造分類映射單元。

文本分類步驟包括分詞操作、數值化表征、典型特征值提取與分類預測四步，分詞操作通常依托萬級詞匯量構建的詞庫，利用工具包進行詞組劃分；傳統數值化表征通常依靠相關算法在數值空間中映射文本詞組[1-2]；傳統特征提取方法依靠特征值函數篩選特征值[3-5]；傳統分類模型包括決策樹[6-7]、貝葉斯分類器[8-9]、支持向量機[10-11]等，然而傳統數值化表征手段存在語義鴻溝與維度爆炸兩大難題；傳統特征提取方法對典型特征甄別能力差；傳統分類模型局限性強，文本關聯關系處理較為粗略[12]。

卷積神經網絡(Convolutional Neural Network，CNN)是深度學習框架中集特征提取與分類預測為一體的典型結構，其可利用多個卷積核對輸入矩陣分區域采集特征值，在網絡頂層輸出象征關鍵語義的特征矢量并進行分類。將CNN用于光伏陣列污染報警，有效增強了巡檢工作的準確性，提高了光伏陣列清洗效率工作量,文獻[13-15]將CNN引入絕緣子與變壓器故障診斷，模型對故障的判定誤差小，應用潛力廣。總而言之，卷積神經網絡在特征提取及分類預測方面性能優異，可滿足電力文本深度挖掘的需求[16-17]。

文章提出一種基于動態卷積神經網絡DCNN(Dynamic Convolutional Neural Network)的智能錄波器配置信息自動化映射方法，首先解析SCD文件，獲取待映射接口地址配置數據及對應的描述文本，隨后引入基于BP神經網絡構造的文本表征模型word 2vec，并輸出能反映詞組關聯關系的詞向量，隨后輸入DCNN進行分類處理，并改變關鍵參數設置對照實驗，求解特征識別與泛化能力最優的模型結構；依據描述文本分類結果自動化映射地址配置數據。

1 智能錄波器配置數據預處理

智能錄波器配置數據預處理包括從SCD文件中解析IED地址信息配置數據，實現IED輸出接口地址的配置數據集與其描述文本的匹配，以及描述文本的表征預處理[18]。

1.1 智能錄波器配置數據解析

智能錄波器配置數據即為IED數據輸出端口地址配置數據，通過解析SCD文件獲取，SCD文件采用可擴展標記語言XML創建，包括標簽、子標簽及標簽屬性，具體解析示意圖如圖1所示。

圖1 智能錄波器配置數據解析示意圖

圖1中實線箭頭所指即為標簽，虛線箭頭所指即為標簽屬性。各IED標簽下均有四級子標簽LDvice(邏輯設備)、五級子標簽LN0(邏輯節點零)，以及包含IED數據輸出接口描述文本的索引信息的七級子標簽FCDA(功能約束數據屬性)，通過結合FCDA相關屬性內容與可獲取描述單個輸出接口地址的配置數據，如圖1長虛線框內所示。同時FCDA屬性還可作為在五級子標簽LN(邏輯節點)中檢索六級子標簽DOI(對象實例)desc值的依據，而該值即為此數據輸出接口的描述文本。xml.etree.Element Tree模塊是Python中常用xml文件解析工具，通過遍歷檢索可獲取所有IED輸出接口地址配置數據及其描述文本，將兩者一一匹配，從而保證地址映射結果與文本分類結果相同。

1.2 配置數據描述文本的表征

1.2.1 配置數據描述文本特征

與普通文本相比，IED配置數據描述文本通常涉及電力專有名詞，例如“遠方修改定值軟壓板”、“遠方操作硬壓板”等，分詞階段易出現誤分詞現象，導致語言模型對詞向量的誤聚類，因此文章在分類包中引入自定義專有名詞提高詞向量表達準確性。同時，文本常出現中英文混合現象，如“PT切換刀閘位置無效”，描述呈現半結構化特點，文字表達存在部分差異，例如“鏈路3GOOSE接收A網斷鏈”、“過程層A網GOCB1號GOOSE接收中斷”，利用專家系統進行自動化映射時難以把控推理規則的拓展規律與完備性，造成規則庫的規則冗余或丟失，以致誤分類，文章模型在文本表征階段綜合考慮了上述特點，有效保證了文本表征向量的準確性。

1.2.2 基于word 2vec的描述文本表征模型

與普通文本相比，IED配置數據描述文本通常涉及電力專有名詞，例如“遠方修改定值軟壓板”、“遠方操作硬壓板”等，分詞階段易出現誤分詞現象，導致語言模型對詞向量的誤聚類，因此文章在分類包中引入自定義專有名詞提高詞向量表達準確性。同時，文本常出現中英文混合，如“PT切換刀閘位置無效”，描述呈現半結構化特點，文字表達存在部分差異，例如“鏈路3GOOSE接收A網斷鏈”、“過程層A網GOCB1號GOOSE接收中斷”，利用專家系統進行自動化映射時難以把控推理規則的拓展規律與完備性，造成規則庫的規則冗余或丟失，以致誤分類，文章模型在文本表征階段綜合考慮了上述特點，有效保證了文本表征向量的準確性。

基于BP神經網絡構造的word 2vec[19-20](包括CBOW與Skip-Gram兩種形式)文本表征模型可以有效降低詞向量的維度與稀疏度，提高向量對原文語義關系的映射能力，該模型設置局部文本分析窗口，假設窗口內上下文詞向量已知，將中心詞出現概率最大化作為訓練目標求解模型，以實現各詞語在語義空間的映射，并獲取降維后的稠密靜態詞向量，示意圖如圖2所示。

圖2 語言模型word 2vec示意圖

文章模型采取word 2vec中CBOW模型進行文本向量化表征，并采用負采樣技術針對權重更新過程進行優化,具體計算過程如下：

設分詞處理后詞庫容量為V，映射層神經元數目為N，W1為上下文詞向量矩陣，W2為中心詞向量矩陣，每個詞的詞向量等于其上下文詞向量與中心詞向量的平均值。

假設wi為某中心詞周圍C個上下文詞語中的一個，將其BOW表征向量作為模型輸入，此時映射層輸出矢量h即為wi的上下文詞向量，而當wi作為帶求解向量的中心詞時，wj視為上下文詞時，輸出層輸入值ui由wi的中心詞向量及其附近詞的上下文詞向量相乘所得，上述變量表達式如下所示：

(1)

(2)

(3)

(4)

(5)

上述模型從映射層到輸出層的計算過程包括求解所有詞出現概率并查找概率最大值，計算量繁雜且耗時長，為提高模型更新效率，文章引入負采樣技術，設正樣本為待求詞向量的一個上下文向量wi，負樣本依概率選擇5個非上下文向量向量wj，使權重矩陣單次更新元素值銳減至原數目的5%，從而大大減少計算量。選擇概率如式(6)所示：

(6)

式中f(wj)為wj出現頻次。

損失函數如式(7)所示:

(7)

式中Wneg為非待求詞集合；σ為Sigmoid函數。

2 智能錄波器配置數據自動化映射

2.1 基于動態卷積神經網絡的數據映射模型

卷積神經網絡CNN(Convolution Neural Network)是計算機圖像處理領域局部特征挖掘能力最強大的深度學習網絡框架。在文本分類領域，當文本表示為詞向量時，可將向量值類比為圖像灰度值，詞向量矩陣處理為一維灰度圖像，輸入CNN進行局部語義特征分析、文本關鍵向量值遴選與分類預測。傳統文本分類CNN包括卷積層、池化層與全連接分類層，其中池化層通常采取最大池化法針對特征向量進行降維處理，但輸出向量僅用單個關鍵特征值描述輸入向量，忽略了向量省略值與關鍵值的關聯關系，語義概括能力較弱。鑒于此，文章引入動態卷積神經網絡DCNN(Dynamic Convolution Neural Network)作為文本分類器[21-22]，采取動態K-max池化層進行特征值降維處理，依據各文本句長依序提取不等數目的關鍵值，以保留文本詞序信息與詞語間的相對位置；此外，DCNN所用寬卷積層不僅能有效獲取文本局部特征值，其對邊緣信息的捕捉也更為全面。DCNN結構共包含寬卷積層、K-max池化層與動態K-max池化層、折疊層以及全連接分類預測層四種網絡層，結構圖如圖3所示。

圖3 DCNN結構圖

寬卷積層采用1×m維寬卷積核針對不同維度詞向量序列進行卷積處理，m為卷積尺寸，設卷積核某維權重值為w，詞向量單個向量單元為x，該單元經卷積處理后輸出結果為o，模型偏置統一設為b，計算過程如下：

o=f(w·x+b)=max(0,w·x+b)

(8)

與常用窄卷積核不同，寬卷積核處理向量時，向量邊緣通常進行補零操作以保留邊緣語義信息，對比示意圖如圖4所示。

K-max池化層與動態K-max池化層用于篩選關鍵特征值，其中前者依次選取單維特征向量序列中特征值最大的K個值作為下一層的輸入，選取值最大限度地保留了特征向量序列的典型語義信息及其次序信息。當特征值階數增高時，固定數目最大池化處理易導致語義信息擇取冗余，為保證池化層取值數目針對輸入文本句長實現自適應調整，動態K-max池化層將K設為文本句長與網絡深度的函數，如式(9)所示。

(9)

式中n表示輸入句長，l表示當前卷積層數，L表示卷積層數之和，Ktop表示頂層池化操作的K值。

折疊層將輸入矩陣的相鄰兩維向量值拼接求和，在此之前的計算過程僅針對文本向量的每一維進行卷積操作，不同維之間相互獨立，向量輸入折疊層可實現相鄰維關聯關系的映射，同時文本向量維度可減少一半，最終向量輸入全連接層實現文本分類預測。

DCNN分類預測結果將導入匹配了描述文本與描述輸出接口地址的配置數據集的字典中，為IED配置數據集錄入智能錄波器配置文件做準備。

2.2 自動化映射結果的錄入

智能錄波器配置文件同樣基于xml語言編寫，各IED標簽內包含由三大信息組及其子信息組構造的標簽集，標簽集中又包含IED輸出接口地址描述的空白子標簽。文章利用Python的ElementTree模塊，在配置數據錄入前讀取描述文本的分類結果，根據分類結果遍歷IED各信息組找尋目標類別，在地址描述的空白標簽內自動錄入描述文本相對應的配置數據，完成數據集的自動化映射。運行過程中，錄波器可通過解析其配置文件各信息組所含地址描述標簽完成對IED輸出接口的智能尋址，從而精準監測IED運行信息。

3 算例分析

3.1 算例數據與計算參數簡況

為驗證DCNN模型在IED配置數據描述文本的語義學習與自動化分類方面具有良好的效果，文章選取邢臺110 kV延白變電站、石家莊220 kV秋山變電站與石家莊500 kV桂山變電站共3 000條分類文本作為分析樣本。樣本數據集描述文本及歸類標注完整。文章將樣本隨機均分為5份，選擇4份作為訓練集，1份作為測試集，利用訓練集訓練模型，利用測試集衡量模型性能。文章挑選壓板信息組中的功能壓板信息組；告警信息組中的光字牌可視化告警信息組；狀態監測信息組中的在線監測信息組三大典型子類別作為IED配置數據分類算例的目錄，部分文本樣本如表1所示。

表1 部分樣本舉例

文章模型采用Python語言編程，并利用某團隊設計的gensim模塊進行詞向量構造，利用某公司推出的 Tensorflow工具包搭建DCNN分類器，文章使用的計算機CPU為Intel Core i7-8565U，主頻1.8 GHz，運行內存8 G，固態硬盤容量256 GB。模型中各超參數如表2所示。

表2 模型參數設置

分類任務中，當待分類條目為2時，常用分類評估指標包括召回率R，精確率P以及其加權調和平均值F1，其表達式如下:

(10)

(11)

(12)

表達式中參數如表3所示。

表3 評測指標關聯關系

當分類條目為n時，逐次將各類與其他類視作兩類條目，分別求解n次精確率與召回率，并進行加權求和，據此計算宏評估綜合指標Marco-F1(MF1)以衡量模型性能，上述計算過程如式(13)～式(15)所示。下文將選取測試集MF1作為評估模型分類性能的指標值。

(13)

(14)

(15)

3.2 算例計算與分析參數簡況

3.2.1 word 2vec詞向量聚類性能分析

主成分分析法是種將高維數據進行降維可視化處理的常用聚類算法[23]，在文本分類領域可用于直觀反映詞組間的關聯關系。word 2vec處理所得詞向量具有良好的聚類效果，文章將樣本文本經word 2vec處理后，選取中心詞組‘重合閘’、‘高壓側’與‘過程層’及各自5個語義關聯度最緊密的詞組利用主成分分析法針對上述詞向量進行二維聚類展示，結果如圖5所示，坐標為高維數據特征向量空間中占比最大的一對正交向量方向。

圖5 word 2vec聚類分析圖

由圖5可知，語義銜接緊密的單詞，在聚類空間中空間距離小，例如‘閉鎖’與‘重合閘’等；語義銜接不夠緊密的詞，空間距離較大，例如‘光功率’與‘靈敏角’等。圖6是中心詞與其他詞關聯緊密度雷達圖，其中，緊密度以詞組在圖5中的無量綱幾何距離衡量，由于圖中幾何距離最大值為13.641 74，因此雷達圖中兩詞坐標(xi,yi)與(xj,yj)的緊密度μij計算方式如式(16)，表示為各詞所在刻度值上的坐標點，由圖6可見，在二維聚類圖中與中心詞相隔較近的詞，其與中心詞坐標的關聯緊密度較高。以三組中心詞為核心的部分描述樣本如表4所示,其中“/”表示分詞處理后不同詞組的區分處。

表4 中心詞相關分詞樣本舉例

圖6 word 2vec聚類點雷達分析圖

(16)

3.2.2 DCNN分類性能評估與優化

基于上述超參數構造的DCNN模型文本分類訓練集與測試集的損失函數loss值與宏評估綜合指標MF1對比圖如圖7所示。隨著迭代次數增加，訓練集與測試集loss與MF1逐漸收斂，最終訓練集MF1為98.44%，loss為17.43%并趨于穩定；測試集MF1為90.50%，loss為26.33%并趨于穩定。

圖7 DCNN模型性能綜合分析圖

DCNN分類器中影響文本分類的關鍵參數包括卷積核尺寸值與全連接層dropout保留比例值，卷積核尺寸值直接決定提取文本的關鍵語義特征值的維度大小，單次考慮的關鍵詞越多，卷積核尺寸越大，文章結合樣本長度與文本卷積網絡常用尺寸值設置了3組不同尺寸值的實驗組；而全連接層的dropout處理對卷積核提取所得特征值的保留比例直接影響模型泛化能力，文章改變dropout保留比例同樣設置三組對照實驗，其中0.1表示保留值較少，可能造成關鍵語義遺失，0.9接近完全保留，模型泛化性能差，存在對局部特征的過度依賴。上述模型及其在測試集上的loss與MF1變化值的柱狀圖如圖8所示，圖8中各實驗組以5次迭代為間隔均勻獲取十組指標值。由圖8可知，dropout層保留比例過高與過低一定程度上均造成模型收斂性能較弱，迭代步數在30次之上并接近最大值45次的過程中，loss與MF1值仍存在較大波動；由圖8最大迭代次數的實驗組loss與MF1值對比柱狀圖可知，當卷積核尺寸為4，dropout保留比例為0.5時模型性能最優, 此時測試集MF1為95.65%，loss為15.72%。各實驗組對數據集的分類耗時均低于1分鐘，大大降低了分類映射的工作量。

圖8 DCNN對照組實驗結果對比

為體現文章自動化映射模型的優越性能，文章選取四種典型的傳統分類模型與兩類淺層神經網絡分類器進行對照，利用訓練集訓練模型，評估標準為測試集MF1。四類傳統模型包括支持向量機(SVM)，k最近鄰算法(kNN)，CART決策樹與樸素貝葉斯(NaiveBayes)，文本向量化表征模型采用傳統表征模型詞庫索引BOW模型；淺層神經網絡包括BPNN與CNN，文本向量化表征模型采用word 2vec模型。實驗結果如表5所示，可見，基于word 2vec與DCNN構造的分類模型精度明顯高于其他模型，分類處理能力優異。

表5 其他分類模型性能對比

4 結束語

文章考慮到在依據IED數據輸出接口的描述文本將接口地址配置數據映射至智能錄波器配置文件時，由于數據繁雜，描述文本呈現半結構化，專業名詞較多導致人工映射工作量大，自動化映射誤差較高的問題。提出了基于動態卷積神經網絡的配置數據自映射方法，在獲取數據集描述文本后，首先采用基于BP神經網絡構造的文本表征模型word 2vec，對描述文本經BOW模型所求的獨熱矢量矩陣進行降維與語義關系映射處理，有效解決了文本數值化表征過程存在的矢量維度災難與語義鴻溝問題。隨后采取動態卷積神經網絡DCNN作為分類器，多層次抽象化篩選局部語義特征值，高效辨識并提取關鍵語義用于分類，大大提升了測試集文本分類精確度，分類耗時遠低于人工配置工作時間，分類映射宏評估綜合指標MF1可達95%以上，明顯優于傳統分類模型與淺層神經網絡分類器，有效提高了配置數據自動化映射精度。