王 磊,于 洋,麥 立,張傳海,王 今
(1.國網安徽省電力有限公司電力調度控制中心,安徽合肥 230022;2.國網合肥供電公司,安徽合肥 230022;3.國網宿州供電公司,安徽 宿州 234000)
隨著電網規模持續擴大,電網結構變得日益復雜。由于新設備的不斷投產及原有設備的更新換代,電網設備啟動調試也愈加頻繁,且啟動類型眾多,例如新變電站啟動、新建線路、主變/母線擴建以及流變、壓變與保護裝置更換等[1-4]。因此,電網一次設備啟動方案的編寫工作也越來越多。目前,220 kV 及以上輸變電一次設備啟動方案的編寫始終依靠運行人員手工編寫的方式。由于方案復雜且條目較多,編寫過程中極易產生難以察覺的錯誤,同時在工作票的批復流程中,反復退回修改也降低了工作效率,因此將一次設備啟動過程模型化、規則化及數字化,進而實現該設備啟動方案的數字化編制與結構化存儲,成為了優化啟動與防誤的必要措施。
為實現一次設備啟動過程的數字化,需基于主網220 kV 及以上電壓等級的一次設備模型信息,并結合一次方式啟動操作步驟,生成一次設備啟動規則庫及相關方案模板庫。因此,文中對一次設備實體關系的抽取方法進行了研究。在抽取完成后,能夠以結構化數據的形式將一次方式啟動信息存儲到系統中,從而為啟動方案編制及輸出提供結構化數據支撐。
實體的全稱是命名實體,指的是現實世界中客觀存在的單詞或短語[5-8]。例如“**變將220 kV 母聯2700 開關由冷備用轉熱備用”操作指令中的“母聯2700 開關”即為一個實體。而關系表征則是話語對象間的關聯。
實體與關系均為自然語言處理中的關鍵技術。通過實體識別,可提取操作指令中的電氣設備名稱信息;而關系抽取能同時處理兩個或兩個以上的實體,從而獲取文本的深層次信息。換言之,實體識別是關系抽取的基礎[9-12]。
在自然語言處理中,實體識別被歸類為序列標注任務。對于規模為n的樣本集,則有:
其中,X為樣本,T為標簽集合,則樣本實例dl,k可表示為:
實體識別任務可抽象為通過樣本集D來獲得模型f(x):
而根據關系抽取與實體識別定義間的關系,可將關系抽取問題抽象為與實體識別類似的數學模型。故對于任務集D有:
式中,E1、E2為實體集,R為關系集,S為由多個語句組成的文本集。此時,樣本集實例di,m,k,j可以表示為:
關系抽取任務同樣能抽象為樣本集D上的模型f(e1,e2,s):
循環神經網絡(Recurrent Neural Network,RNN)是一種基于順序處理思想的深度學習(Deep Learning,DL)算法[13-16],其被廣泛應用于自然語言處理(Natural Language Processing,NLP)領域。在RNN中,基本的信息處理單元為循環神經元。該網絡單元的基本結構,如圖1 所示。

圖1 循環神經網絡單元基本結構
由圖1 可以看出,循環神經元由t-1、t、t+1 三個時刻的三層網絡構成。記x為單元的輸入,S為狀態,則有:
式(7)和圖1 中,U、W、V均為權重矩陣,f(·)為非線性函數。傳統的循環網在處理短時依賴的文本信息時,可基于較短的間隔信息提升處理效率。但在處理長時依賴的信息時,則會出現梯度消失現象。因此文中引入了一種長短時記憶單元,其結構如圖2 所示。

圖2 長短時記憶單元基本結構
長短時記憶單元C的狀態由上一層輸入數據ht-1和該層輸入數據xt共同決定。
在圖2 所示的單元中,引入了輸入門、遺忘門與輸出門。記W為傳遞權重,b為偏置項。其中,遺忘門決定了輸入單元被遺忘的信息,則狀態傳遞方程ft為:
式中,ft的值在0~1 之間,σ是傳遞函數。遺忘門的信號傳遞至輸入門后,由輸入門決定信息能否被存儲在單元中,其狀態傳遞方程it為:
輸出門為信號傳遞的最后一個階段,狀態傳遞方程ot可表示為:
輸出門能決定單元狀態ct輸入到單元輸出值中ht的大小:
結合電力一次設備編制方案的實際使用場景,抽取實體關系時還需考慮上下文的信息。因此,將圖2 中的記憶單元組成了如圖3 所示的雙向長短時記憶網絡(Bi-LSTM)。

圖3 雙向長短時記憶網絡結構
圖3 中,xi與yi分別為輸入、輸出序列,si為單元狀態控制量,Ai和則為正向及反向單元。該網絡在處理信息時,會從正、反兩個方向進行抽取。其中,正向傳播過程為:
而反向傳播過程則為:
式中,→代表正向網絡,←代表反向網絡。完整的網絡輸入由正、反兩個方向的網絡拼接而成:
為評估算法的性能,設計了實體的識別驗證與關系抽取兩個實驗。
考慮到進行中文關系抽取的驗證數據集較為稀缺,文中對基于某供電公司近五年來編制的220 kV變電站啟動方案中共421 235 條操作指令進行人工抽取,并逐個標記其中的操作動作、電氣模型等數據,從而得到了BIOES 模型信息。該模型的具體釋義如表1 所示。

表1 BIOES模型信息釋義表
所建立的電力一次設備實體關系數據集如表2所示。

表2 數據集信息
實驗過程中,選擇準確率P、召回率R及F值來作為模型評價指標。指標的定義方法如下:
式中,correct、wrong 和miss 分別是測試集中正確、錯誤及未被識別的實體個數。
為了評估算法的性能,文中使用表3 所示的軟硬件環境進行仿真。表4 則給出了仿真過程中使用的網絡結構與相關訓練參數。

表3 算法仿真軟硬件環境

表4 RNN網絡結構與參數
文中基于表2 的數據集,采用交叉驗證的方式進行模型的訓練與測試。為了更優地比較模型性能,采用了普通的RNN 網絡、基于長短期記憶的RNN 網絡和該文算法進行對比。在實體識別實驗中,模型的相關計算指標如表5-6 所示。

表5 一次電氣模型的實體識別結果

表6 操作指令的實體識別結果
表5-6 分別給出了數據集中兩個主要實體“一次電氣模型”與“操作指令”的相關計算指標。可以看出,該文算法在進行兩種實體識別時,F值分別達到了96.68%和94.15%。對比來看,該文算法對于一次電氣模型的整體識別率較高,而對操作指令的識別率略低。以長短期RNN 網絡為例,模型在操作指令識別時的F值為85.15%,較識別一次電氣模型時下降了7.61%。這是由于一次電氣模型的長度、結構化程度較操作指令而言更為固定和規整。對比各算法可以看出,該文算法在對這兩種實體關系進行識別時,F值僅下降了2.53%。由此說明,該文算法在進行復雜實體抽取時更具優勢,且更適用于文中使用場景。圖4 給出了不同算法在進行關系抽取時的對比結果。
由圖4 可知,隨著迭代過程的進行,該文算法與長短期記憶RNN 的識別效果均在不斷改善,而傳統RNN 網絡的改善效果則并不明顯。在進行關系抽取時,文中算法的F值可達到95.21%,效果優于長短期記憶RNN,而傳統RNN 網絡的效果最差。
文中設計了電力一次設備的實體關系抽取算法。仿真結果表明,該算法充分考慮了電力系統應用場景的復雜性,且與現有方法相比,其在實體識別及關系抽取的精度上均有顯著提升。因此所提算法可大幅提升電力一次模型庫的構建效率,并提高一次啟動方案的編寫速率以及一次方式的防誤水平等,進而實現一次設備啟動過程的模型化、規則化與數字化。