基于多智能體強化學習的分布式停電檢修管控系統設計

2021-12-07 07:45:20齊蓬勃

電子設計工程 2021年23期

關鍵詞：故障診斷智能故障

齊蓬勃，李凡，高雯

（國網固原供電公司，寧夏固原 756000）

電力系統需要兼顧發電、輸電、變電、配電與用電等實施平衡的問題，這要求電力部門對電網內部的所有設備狀態非常了解。我國的電網規模龐大，設備衰老與缺陷問題嚴重。而傳統的電網停電檢修管控系統較為粗曠，存在停電時間長、計劃完成率低的問題。

當前電網故障智能診斷的研究方向主要是設計新的故障診斷模型，提高工程應用中的適應性和容錯性，以及通過完善信息來源提高模型的診斷精準性。但電網故障診斷技術在工程應用中，仍存在一些問題：

1）診斷算法的適應性能力弱。由于現有處理技術中的信息采集方法不夠完善，造成了信息具有較強的單一性。所以當操作方式發生改變或面對多種因素造成的復雜故障時，故障診斷算法的正確性就會急劇下降。

2）故障信息的獲取與分析不完善。傳統技術方案在檢測到電源故障時，會將信息自動上傳到控制中心而不進行任何處理，這可能導致控制中心服務器超負荷、數據包丟失或框架變形。

3）模型的容錯性難以滿足需求。例如，當一個或多個保護繼電器（PR）和斷路器（CB）不能正常工作時，故障判斷模型未能正確判斷出故障元素的數量和類型，模型需要妥善處理錯誤數據維持整體綜合性能。

因此文中設計了一種基于多智能體強化學習的電網故障診斷模型，電網可以通過互聯網將眾多位于不同地理位置的計算機組成一臺超級計算機，從而解決難以診斷的電力系統故障。

1 基于多智能體的系統構建

停電檢修管理系統本質上是不穩定的，用數學可表達為環境生成函數f隨時間的變化[1]。為了簡化問題，文中基于近期觀察的行為對環境生成函數f的結果進行建模。在每個時間步長t，有XH=(X1,…,Xt)。考慮到歷史數據觀測，嘗試預測未知的Xt+1[2]。

優化求解漂移問題，有以下兩種方案：

1）被動的解決方案，基于近期觀察的樣本持續更新模型[3]。

2）有效的解決方案，一旦模式改變，檢測機制發現模型的預期行為發生了意外變化，就會觸發新模型的生成[4]。

第二種方案能自適應地調整數據模型，對于實際模型有更優的預測能力。因此基于第二種方案建立多智能體強化學習的停電檢修管控系統[5]，如圖1所示。

圖1 MARL算法架構

MARL 體系結構包含3 個關鍵模塊：

1）預測模塊[6]，該模塊考慮了最近的有效歷史值和其他可能影響環境的關鍵變量，以對未來行為進行估計[7]。

2）模式改變檢測與匹配模塊[8]，用于檢測預測模塊未能提供對環境未來狀態的合理估計的時間。這將觸發一個新模型，該模型將以數據庫中的最新觀測結果為基礎[9]。

3）基于強化學習的多智能體系統，其采用先前的數據作為輸入以改善其在動態環境中的性能[10]。

從預測模塊和模式改變檢測與匹配模塊中可以估算出環境未來的預期行為[11]。多智能體系統用于評估未來的行為，并依靠當前約束以最佳方式實現其目標。

在智能電網環境中，該模型可以為檢修機構對未來需求提供良好的估算[12]。在該場景下，多智能體系統是檢修機構，可以評估未來需求并嘗試達到合理的供電需求，以達到合理的期望。同時多智能體系統追求將檢修成本降至最低，根據實際經驗可知，檢修成本與實時定價機制中的電力需求成正比[13]。MARL 優化決策過程如圖2 所示[14]。

圖2 MARL優化決策過程

通過遵循強化學習方案將Q-Learning 與WLearning相結合，分別開發每個智能體，具體步驟如下：

①需要設計每個智能體的單一目標問題，要確保達到所需的收益，需要在優化結算時對智能體進行獎勵。這可能會導致模型出現貪婪行為，解決方案如下：調整智能體在每個時間周期的行為直到可接受為止[15]。

②避免在高需求時期對不重要的智能體進行檢修，將問題轉變為一個多目標問題。系統優化的第二個目標是懲罰智能體的不當行為，若智能體決定在需求量高時被維修，則對智能體模型輸入懲罰[16]，這可以通過采用預測組件提供的有關環境的未來狀態信息來實現。

本質上，預測組件通過額外的目標為智能體提供了一種賞罰機制。但這只是一個估計，不能保證任何確定性。若估計優，則智能體優化決策的結果較好；若估算結果不正確，則智能體優化決策的性能欠佳。通過實驗可發現，良好的估計值比未估計值的優化結果好。

2 檢修系統模塊化軟件設計

諸如Petri 網絡和專家系統等檢修系統均具有相同的前提，既獲取了電網的拓撲結構，又可通過警報確定故障范圍。因此該文使用相似的拓撲結構來設計模塊化的檢修系統軟件架構，軟件拓撲流程如圖3所示。

圖3 軟件拓撲流程圖

在第一部分中，RDF 策略編輯器將CIM-RDF 數據文件制成RDF 文件；軟件在第二部分中使用CIMRDF 數據集成SVG 圖形；軟件在第三部分通過LINQ to XML 查詢對電網的接線圖進行格式化的元素，最終將該數據以矩陣形式進行儲存。

此次選擇的電網表格集成方式為網格計算法，網格計算法可視為最終還原模型與資源模型之間的中間件。具體實現方式如圖4 所示。

圖4 模型實現方式

此次選取網格計算技術的主流方法即基于OGSA 的Globus Toolkit 工具包，此次的網格系統利用Globus Toolkit 的優勢來構建特定的中間件基礎架構。在網格計算的基礎上，使用多種故障診斷方法判斷故障要素。此次建立的軟件服務結構與常用的故障診斷方法如圖5 所示。

圖5 軟件服務結構與常用的故障診斷方法關系圖

網絡內部的每個變電站均提供準確的資源信息，因此所有的拓撲結構均較為準確。若變電站的部分結構發生更改，則整個拓撲將按時進行轉換，診斷系統可以在最短時間內接收到相關信息。

在該文中，并行計算是軟件服務的核心。不同的應用軟件通過引擎驅動程序壓縮到程序市場中，使用引擎驅動程序索引所有應用程序軟件以實現尋找合適的解決方案。該軟件通常包括MPICH2、LAPACK 等。

基于如下原因，選用消息傳遞接口（MPI）標準的MPICH2 驅動引擎：

1）MPICH2 提供多種MPI 實現，以有效支持不同的計算和通信平臺，包括商業軟件群、快速傳輸網絡和定制高端計算系統。

2）MPICH2 引擎使用擴展度高的模塊化設計，在MPI 中進行前沿研究。文中使用的LAPACK 軟件包是用于數字線性代數的軟件庫，其提供了求解線性方程組和進行線性最小二乘法運算的計算工具。奇異值分解的計算也支持相關矩陣分解的計算，可以在經過調整的BLAS 架構中高精度、高速率運行。

由于現代計算機可以并行執行多個線程，因此對于眾多計算機系統上的整體程序性能，此方法尤為有效。計算池庫可以高效地分配異步任務，并可自定義動態的管理池，從而輕松將其集成到軟件中。

該軟件模型中，計算機集群是實現硬件集成的主要方法，其主要區別是緊密耦合各個節點。在設計系統中，考慮到可能存在網絡中特定計算機需要在特定節點之間高頻通信，因此針對特定計算機設計一個專用的同質節點共享網絡。諸如MPI（消息傳遞接口）或PVM（并行虛擬機）之類的中間件，允許將計算群集程序移植到各種群集中。

3 實驗驗證

使用訓練集大小為300 的電力數據庫，對該停電檢修管控軟件進行驗證。該模型實際上代表著一個規則庫，該規則庫由64 個規則組成（3 個輸入變量分為4 個模糊子集）。假定所有模糊集（高斯激活函數）具有相同的擴展功能。從有功功率變壓器和負載電流數據中提取的模糊模型最初由64 條規則組成，其中包含64 個線性參數（權重）和12 個非線性參數（模糊集的中心）。在省略這些規則后，模型的大小減小到27 條規則。

通過實驗可以發現，若未假定電力變壓器出現故障，則多次實驗可發現系統模型的w1測試平均值等于38.713。而一個小的故障（與標稱參數值的偏差）足以生成w1測試的輸出，系統檢測輸出超過故障閾值的數倍，如圖6 所示。

圖6 故障x2 測試

就故障檢測而言，數值結果表明，故障隔離的靈敏度方法在區分電力變壓器參數集中所有39 個參數的故障參數方面較為有效。從圖7 中可以看出，上述故障檢測的成功率達到了99%以上。

圖7 故障檢測成功率實驗

通過使用最大-最小故障隔離方法進行故障部件分離測試，以檢測電力變壓器模型的線性參數w1和非線性參數的變化。相關的結果在圖8 中進行了描述，可以看出使用最大-最小故障隔離方法尋找變壓器模型中的故障參數成功率也較高。

圖8 最大-最小故障隔離法實驗

該次在故障診斷方法的開發和測試中已考慮了測量噪聲。在無故障的情況下，電力變壓器的輸出及其無故障模型的輸出應僅與電力系統的傳感器測量有關。輸出差（殘差）的序列遵循以0 為中心的高斯分布，而其加權平方遵循χ2分布。在電力系統參數變化的情況下，對殘差信號的平均值和針對修改后的殘差信號將向非零值偏移。這種偏移是由于變壓器的結構（參數）變化，而不是存在測量噪聲。

值得注意的是，該次系統使用的故障診斷方法（局部統計方法）適用于檢測早期故障，即小的參數變化和電力變壓器組件與其標稱值的最小偏差。這是因為該次檢測方法基于似然比的泰勒級數展開，該似然比是從被監視系統中獲得的測量序列來計算的。在大多數實際系統中，變化是逐步漂移而不是直線漂移。這意味著其會緩慢前進，直至達到不可逆轉的損壞程度。因此該系統能夠檢測到較小的參數變化（初期故障），可以在故障仍可管理或可逆的階段作出控制動作，挽救系統。

4 結束語

文中使用多智能體強化學習技術，建立了一套分布式的停電檢修管控系統。通過使用標準的電力系統模型，建立了智能的故障分離方法，可以在早期發現有關電力變壓器故障的跡象，并在出現關鍵情況之前采取維修措施。所提出的故障檢測方法可應用于電網的更關鍵部件的狀態監視，且可幫助維持電力傳輸與分配系統的可靠運行。