王立建,祝文瀾,宣弈,曹張潔
(國網浙江杭州供電公司,浙江 杭州 315600)
隨著電網規模不斷擴大,電網故障復雜性增強且容易伴有衍生故障,對電力調度快速故障處置提出了更高的要求,目前存在以下兩方面問題。復雜故障判別精準性不高。電力調控員在電網運行監控過程中通過主站SCADA 系統實時上送的大量告警信息來進行判斷,信息量大、關聯衍生信號的疊加以及核心告警信息的丟失,無疑加大了故障判斷的難度。以某變母差保護導致副母失電為例,10 s 內上送告警信息達到218 條,且丟失了最重要的失靈保護動作信號,監控員短時內無法判斷為母差保護動作,影響后續故障處置。故障原因無法快速甄別。變電站發生故障后,純粹依靠調度、檢修人員的經驗,難以從故錄波形分析出具體原因。比如220 kV 線路事故跳閘,引起事故的原因可能是雷擊、鳥害、覆冰、外力破壞等。若為雷擊,則可對故障線路進行一次試送;若為外力破壞,則不能對故障線路進行試送,否則存在人身傷亡風險。
為解決上述問題,本文提出了一種圖文融合的電網故障綜合研判方法[1-4]。針對告警信息,采用文本機器學習,與歷史案例庫進行向量化比對,實現故障類別精準判斷;針對故障錄波系統,采用波形機器學習,獲得雷擊、鳥害等歷史樣本庫庫,通過特征值對比快速識別故障原因。
圖1 是電網故障診斷的總體流程框圖。通過電網典型歷史故障案例文本、波形文件進行機器學習、規則挖掘,獲得所需詞典庫。D5000 實時告警信息通過數據接口處理成文本格式,在圖文融合故障診斷系統中與告警文本庫向量化對比,實現故障類別精準判別。四方故障錄波系統通過數據接口提取特征值,在圖文融合故障診斷系統中與波形特征庫比對,實現故障原因快速識別。最終實現全路徑告警溯源。

圖1 圖文融合故障診斷總體架構
數據來源于智能電網調度控制系統(D5000),其告警信息數據類型為短文本,由告警時間、所屬變電站、告警內容、狀態信息組成,其告警內容為非結構化中文短文本。首先進行數據預處理。考慮原始數據的多維性,通過pandas函數進行數據清洗,去掉變電站、線路名稱等標簽,實現多維數據降維至一維。
本文故障對象以220 kV線路事故跳閘為例,故障類別可歸納為5類,分別是線路第一套保護動作、線路三相不一致跳閘、線路失靈保護、對側開關遠跳保護動作、母差保護動作引起。表1 表示母差保護動作引起線路事故跳閘的典型案例庫。

表1 母差保護引起線路跳閘的故障樣本案例
圖2是文本機器學習流程圖,如圖2所示。

圖2 文本機器學習流程圖
在數據預處理完的基礎上,利用結巴分詞詞典推導出分詞結果,利用詞頻統計篩選出詞頻較高的詞語,并構建樣本告警文本詞庫。
對歷史故障樣本模板進行分詞預處理,利用詞袋模型doc2bow 轉換為稀疏向量,稀疏向量進行進一步處理,得到新語料庫。
通過支持向量機進行文本分類,增加類別關鍵字的權重,使得文本向量化之后的結果更好的反應文本信息,充分考慮詞語在文本中的級別。
新語料庫經過TF-IDF 算法處理后得到TF-IDF值,通過token2id得到特征數。
基于TF-IDF的稀疏矩陣對故障文本進行相似度比對,建立索引,推算結果。
TF-IDF 算法(詞頻-逆文檔頻次算法)是一種統計方法,可以高效準確的提取關鍵詞的特性,從而評估一個詞在一個文檔集中的重要程度。從算法名稱可以看出,TF-IDF算法由TF和IDF算法兩部分組成。TF算法是統計一個詞在一篇文檔中出現的頻次,即一個詞在一篇文檔中出現的次數越多,則其對文檔的表達能力就越強。IDF 算法統計一個詞在文檔集的多少文檔中出現,即如果一個詞在越少的文檔中出現,則其對文檔的區分能力就越強。
通過TF-IDF算法對詞頻統計計算的高頻詞來建立TF-IDF模型,然后進行向量化處理,生成稀疏矩陣進行相似度比對。
所需數據來源為II 區四方故障錄波系統的波形文件,離線導出已標定原因的260 組故障錄波器波形數據,包含故障線路三相電壓電流(包括零序)8個維度的時域波形,作為原始樣本數據。

圖3 波形機器學習流程圖
故錄波形學習流程圖如圖3 所示,將故障錄波轉為便于處理的格式文件;利用小波分析將時域的故障波形處理為頻域細節,結合信息熵算法得到波形的頻域特征;提取每個頻段的小波能量熵、能量均值以及能量方差,用作判別模型的識別特征,使用onehot 編碼技術加入時間特征,如季節、月份;通過SVM建立機器學習模型,在統計樣本量較少的情況下,尋求結構化風險最小來提高學習機泛化能力,實現經驗風險和置信范圍的最小化;對訓練集之外的波形進行故障預測。
信息熵理論對于一個不確定性系統,若用一個取有限值的隨機變量X表示其狀態特征,取值xj的概率pj=p{X=xj},j=1,2,…,L,且X的結果信息用Ij=log(1/pj)表示,則X的信息熵如式3.4所示。

當pj=0 時,pjlog(pj)=0。小波熵H是在一定的狀態下定位系統的一種信息測度。它是對序列未知程度的一種度量,可以用來估計隨機信號的復雜性。本文將每個波形三相電流、電壓的五層頻域范圍的能量方差、均值、熵作為特征,總共90維度的向量作為數據預處理結果。圖4 表示故障相電流在125~250 Hz 時小波細節系數的能量熵分布特征圖,5種故障原因的能量熵分布具有明顯差異。

圖4 不同故障原因的小波熵分布
國網浙江電力云平臺數據挖掘開發環境Kube-Flow平臺,集成了整套Jupyter開發環境,本文通過該平臺Python語言編制程序進行結果驗證。

圖5 核心信號丟失時文本比對結果
站端信號全上送。從D5000 系統提取潮江4430線事故跳閘前后30 s 內的所有告警信息,基于TDIDF 算法獲得該故障文本與文本庫“母差保護動作引起”相似度結果為0.9209。
站端核心信號未上送。在故障文本中刪除一條核心信號,如220 kV第二套母線保護差動動作,再次運行程序發現相似度為0.8409,驗證了該算法在站端核心信號丟失時的可行性。
表2 表示基于小波熵特征值提取算法推算各類故障原因的準確率。本文以2019年4月26日220 kV甘露變電站甘群1237線鳥害引起故障的原始波形為例,如圖6 所示,包含故障三相電壓電流及零序波形。通過波形識別算法推算故障原因為鳥害引起,如圖7所示,以混淆矩陣表示。

表2 基于波形機器學習的故障原因識別準確率

圖6 鳥害故障錄波波形

圖7 混淆矩陣結果
電網運行數據資源是電力行業的潛在核心資產和創新創效源泉,遵循“價值驅動、迭代推進”兩大原則,定位于數據服務業務,用數據驅動業務。本文研究了一種圖文融合的電網故障綜合研判方法,深度融合多專業系統數據,主動感知電網運行數據,實現從調度端到設備端的全路徑故障智能診斷,為調控員快速故障處置提供強大的支撐,提升智慧調度的人工智能化水準。