基于多智能體強化學習算法的微電網優化研究

2016-11-29 13:54:32戴幸澤

制造業自動化 2016年2期

關鍵詞：智能評價

李健，戴幸澤

（東北電力大學自動化工程學院，吉林 132012）

基于多智能體強化學習算法的微電網優化研究

李健，戴幸澤

（東北電力大學自動化工程學院，吉林 132012）

新型分布式可再生能源的發電技術具有綠色、經濟、靈活等特點，微電網為其系統化應用提供了可靠的技術支撐。為了實現微電網對經濟環保性的更高要求，就要整合不同類型的微型電源的優勢。因此，微網中微型電源的優化調度、綜合經濟效益是亟需解決的重要問題。多智能體系統在微電網中的應用同樣具有重大的意義。微網中每一個微型電源均可以看成是一個智能體。基于此首先提出一種基于層次分析法與模糊綜合評價聯合方法的微型電源綜合性能指標評價方法，用來評價分析微型電源的綜合性能；并采用多智能體強化學習算法實現了微型電源的優化調度問題，即在滿足微網供需平衡的條件下，使各微型電源的綜合性能達到最優。

微電網；微型電源優化調度；微型電源綜合性能指標；強化學習算法

0　引言

相比傳統的火力集中式發電系統，新型可再生分布式能源發電技術具有能源利用率高、環境污染少和安裝較為靈活等優勢，同時有效的節省了運行費用，有非常可觀的經濟性。微電網是由各種微型電源、負荷、儲能裝置以及控制設備協調運行的有機系統，微電網為分布式新能源及可再生能源的規模化應用提供了有效的技術途徑[1]。隨著微電網技術的日益發展，其優化運行問題成為關注的焦點。微電網的優化運行旨在通過調度微網中的分布式微型電源，在滿足供需平衡的前提下，減少污染物排放，優化運行費用，降低發電成本。文獻[2]從利潤角度出發，以電力公司的利潤最大化作為優化目標；文獻[3～5]從多目標角度出發，即考慮了運行成本又考慮了污染物排放治理成本，以兩者之和的最小值作為優化目標；文獻[6]提出了成本最小的機組組合模型，綜合考慮了環境因素、能源效率和售電價格等因素對微網經濟效益的影響。

智能體是一種能夠在環境中自主的感知信息，通過決策推理生成相應的規劃，最后作用于環境的計算實體或者功能單元[7]。微電網中的各種分布式微型電源均可看成是一個獨立的智能體結構，從而可以構成一個多智能體的能量管理系統。因此利用多智能體的學習與協調合作能力，引入多智能體強化學習算法，可對微網中各微型電源的能量管理進行研究并應用。

本文設計了微電網的四層智能體結構，分為基層、服務層、保護層和管理層。簡述了各層智能體的定義，重點研究基層中微電源Agent的優化調度問題。考慮微型電源的綜合效益，提出一種基于層次分析法與模糊綜合評價聯合方法的微型電源綜合性能指標評價方法。針對微型電源的各項性能指標，首先采用AHP方法確定其權重，然后通過FCE方法建立綜合評價矩陣，進行模糊綜合評價，根據模糊數學的最大隸屬度原則，評價分析微型電源的綜合性能。此外，本文將Q學習算法引入到多智能體的學習機構中，根據所提出的AHP與FCE聯合方法，共同解決微電網中微型電源的優化調度問題，在滿足供需平衡的基礎上，獲得最優性能的各微型電源組合。

1　微電網的多智能體系統

微電網是一個分布式系統，各種不同的微電源的特性決定了其控制方式不能用統一的策略來進行控制。因此，將多智能體系統引入其中非常必要。利用系統的模塊化思想將整個微電網系統劃分成多個子系統，即劃分成多層智能體結構。智能體由感知模塊、信息處理模塊、通訊模塊、執行模塊、任務表和知識庫組成。感知模塊的功能是感知環境信息；信息處理模塊的功能是分析環境信息；通訊模塊負責和外界進行交互；執行模塊對外界環境產生一個反饋信息并執行某個動作；知識庫用來存儲知識；任務表用來記錄任務量。這種結構使得微網中每一個智能體都能采用最有效的方法解決特定的問題，不必強迫使用某一種統一的方法而讓步于整個系統，從而達到分布式控制的目的。

本文設計了微電網的四層智能體結構，如圖1所示。

圖1　微電網的四層智能體結構

所設計的多智能體結構分為基層、服務層、保護層和管理層。基層智能體包括直接的分布式電源的控制、儲能元件的控制和可中斷負荷的控制。在基層智能體中，每一個智能體都分別控制著一個單元，例如光伏發電組，小型風機組，可中斷負荷等。每一個智能體都能具備這樣的功能：1）電力元件的啟停控制；2）各個電源的信息存儲；3）與其他智能體的交互能力。服務層智能體的主要功能是為基層智能體提供必要的環境信息。包括微型電源運行所處的環境信息，比如實時風速、光照強度和任務的需求信息等。保護層智能體的功能是保證整個微電網的安全運行，它主要是由一些電力電子器件構成，實時監控、協調并能夠控制微電網的斷路器開關。管理層智能體處在控制的最高層地位。它可以控制實現微電網與主網的連接或斷開，從而實現微電網并網運行和孤島運行兩種運行模式。

本文針對基層智能體中微型電源的優化組合問題展開研究。在滿足供需平衡的條件下，使經濟性、環保性及其技術性達到最優，同時擁有較低的平均電價，充分發揮微型電源的優勢。

2　基于AHP與FCE聯合方法的微型電源綜合性能指標評價方法

微電網系統存在多種微型電源，相比傳統的火力發電各自具有不同的優勢，為了整合不同種類微型電源的優勢，本文提出一種微型電源綜合性能指標評價方法，從經濟效益，環境效益，技術效益三個方面進行評價，從而得出最終的評價結果。

首先，根據層次分析（AHP）法建立層次結構模型，AHP方法是一種定性分析與定量分析相結合的多目標決策分析方法[8]。微型電源綜合性能指標評價可分為兩層，即為一級指標和二級指標，具體層次結構如表1所示。

其次，采用AHP方法進行權重計算。因此先要確立各指標判斷矩陣，依據所劃分結構層次，共有四個判斷矩陣：一級指標判斷矩陣，即總評價判斷矩陣J，三個二級指標判斷矩陣，即經濟指標判斷矩陣JA，環境指標判斷矩陣JB和技術指標判斷矩陣JC。在各判斷矩陣中，矩陣元素Jij表示第i個指標相比于第j個指標的重要程度。

表1　微型電源綜合性能指標評價體系

一級判斷矩陣表征各一級指標的重要程度，可記為：

經過一致性檢驗，求得矩陣最大特征值對應的特征向量，即為一級指標的權重向量W。

經濟指標判斷矩陣JA表征A1，A2，A3的重要程度，可記為：

經過一致性檢驗，求得矩陣最大特征值對應的特征向量，即為經濟指標的權重向量ω1。

環境指標判斷矩陣JB表征B1，B2，B3的重要程度，可記為：

經過一致性檢驗，求得矩陣最大特征值對應的特征向量，即為環境指標的權重向量ω2。

技術指標判斷矩陣JC表征C1，C2的重要程度，可記為：

經過一致性檢驗，求得矩陣最大特征值對應的特征向量，即為技術指標的權重向量ω3。

表2　RI取值表

最終，根據AHP方法得到了各指標的權重向量。

再次，根據模糊綜合評價（FCE）方法確定微型電源綜合性能指標。模糊綜合評價表由相應指標的隸屬度函數得出，模糊評判矩陣R如表3所示。

表3　模糊綜合評判矩陣

減少NOx收益　E21　E22　E23減少CO2收益　E31　E32　E33減少CO收益　E41　E42　E43減少灰收益　E51　E52　E53技術指標T　供電可靠性　T11　T12　T13電能質量　T21　T22　T23環境指標E

根據文獻[9]提供的部分數據，微型電源的平均運行成本曲線如圖2所示，制定其隸屬度函數如圖3所示。

圖2　微型電源平均運行成本曲線

圖3　運行成本評價隸屬度函數

微型電源的平均維護成本曲線如圖4所示，制定其隸屬度函數如圖5所示。

圖4　微型電源的平均維護成本曲線

圖5　平均維護成本評價隸屬度函數

風機與光伏的平均節能收益曲線如圖6所示，其對應的隸屬度函數如圖7所示。

圖6　WT與PV平均節能收益曲線

圖7　WT與PV平均節能收益評價隸屬度函數

微型燃氣輪機的平均節能收益曲線如圖8所示，其對應的隸屬度函數如圖9所示。

圖8　MT平均節能收益曲線

圖9　MT平均節能收益評價隸屬度函數

分布式發電與傳統火電廢氣排放情況如表4所示，我們可以分別得到各分布式電源的污染物平均治理收益曲線。PV與WT的平均治理收益如圖10所示，其對應的評價隸屬度函數如圖11所示。

表4　分布式發電與火電污染物排放情況（g/kwh）

圖10　WT與PV的污染物平均治理收益曲線

圖11　WT與PV污染物收益評價隸屬度函數

由表4可以看出微型燃氣輪機發電所排放的氮化物與一氧化碳相比傳統的火力發電要更多。其污染物平均治理收益曲線如圖12所示。

圖12　MT污染物平均治理收益曲線

對應的，其廢氣污染物平均收益評價隸屬度函數如圖13所示。

圖13　MT污染物均收益評價隸屬度函數

微型電源對微網供電可靠性的影響因素主要體現在其切換到孤島運行失敗的概率Pm及其重啟所需時間Ti。微電網的供電可靠性可以用式(1)表達：

式中V為供電可靠性指標，RIEAR為供電中斷損失率，κ為停電頻率，T為供電切斷時間。

當Pm與Ti乘積即影響因子δ較小時，微網有較好的供電可靠性。而Pm與Ti隨著微源額定輸出功率的增加，分別呈現下降和上升的趨勢。在0～50kW這個區間內，δ約在19kW時取得最小值，此時對應的對微網的供電可靠性影響最好。影響因子曲線如圖14所示，對應的，其供電可靠性評價隸屬度函數如圖15所示。

圖14　影響因子曲線

圖15　供電可靠性評價隸屬度函數

微型電源容量的不同，對微電網孤網電壓水平具有不同的影響，從而影響其電能質量。在由光伏、風機和微型燃氣輪機這三種微型電源組成的微電網中，微型燃氣輪機存在最優容量[10]。隨著其容量的增加，其電壓水平呈現先上升后下降的趨勢。而風機與光伏隨著容量的增加，其母線電壓下降百分比呈現下降的趨勢，其孤網電壓水平得到提高，電能質量增加。風機與光伏的電能質量評價隸屬度函數如圖16所示，微型燃氣輪機的電能質量評價隸屬度函數如圖17所示。

圖16　WT與PV電能質量評價隸屬度函數

圖17　MT電能質量評價隸屬度函數

微型電源平均運行成本、微型電源平均維護成本、微型電源平均節能收益三個二級指標評價值可根據式(2)得出：

式中B1為經濟指標單因素評價值，ω1為該指標的權重向量，M為經濟指標模糊評判矩陣。

微型電源減少的SO2，NOx、CO2、CO以及灰的治理成本收益五個二級指標評價值可根據式(3)得出：

式中B2為環境指標單因素評價值，ω2為該指標的權重向量，E為環境指標模糊評判矩陣。

微型電源對微網的供電可靠性及電能質量兩個二級指標評價值可根據式(4)得出：

式中B3為技術指標單因素評價值，ω3為該指標的權重向量，T為技術指標模糊評判矩陣。

這里，模糊合成算子均取為普通矩陣乘機算子。由此得出該微型電源綜合性能指標如式(5)所示。

最后，根據最大隸屬度原則，可以得出該微型電源綜合性能指標及其隸屬度μ。

綜上所述，本文首先運用AHP方法確定各項指標的權重，其次將FCE方法運用到微型電源的綜合性能指標評價，最后基于最大隸屬度原則得出最終的綜合評價結果。綜合評價結果是對該微型電源的經濟性，環保性和其技術性的綜合評價。

3　多智能體的強化學習算法

3.1強化學習算法在調度管理中的應用

強化學習又稱為再勵學習[11]。其核心問題在于：具有感知信息的自治Agent，如何根據其學習過程選擇最優動作，使之達到其最終目的。采用強化學習算法求解大規模的優化和調度問題具有廣闊的應用前景。本文采用強化學習算法在考慮了各微型電源的綜合效益，使其綜合收益最大化，實現了微電網中微型電源的優化組合。

3.2強化學習的基本原理

強化學習過程由學習情節和學習步驟構成，其中情節是指從初始狀態到最終狀態的步驟序列，步驟是指一個確定的狀態以及該狀態下的動作執行和報酬獲得。根據當前環境給予的反饋信號，自主執行某一動作，通過不斷的試錯學習達到自我完善的目的，考慮未來時刻的收益，從而去構造控制函數，使得所求長期函數值最大，可以廣泛應用在自動控制及Multi-Agent系統中。

強化學習問題可用MDP建模。其可定義為一個四元組＜S,A,R,T＞。其中，S為系統所有可能的狀態所組成的非空集，也稱為系統的狀態空間，它可以是有限的、可列的或任意非空集；A為動作集合；R為即時獎賞函數，它的意義在于對執行動作的優劣作一種評價，R通常是一個標量；T為狀態轉移概率。其值函數通常定義為未來即時獎賞值通過折扣系數γ作用后的總和，如式(6)和(7)所示，通常0＜γ＜1。通過調節γ，可以控制學習系統對它自己行動的短期和長期結果考慮的程度。在極端情況，當γ=0時系統是短視的，它只考慮行動的當前結果。當γ接近1時，未來的回報在采取最優行動時變得更為重要。

強化學習的目的就是確定一個最優行為策略π*，獲得最大的值函數如式(8)所示，從而選擇系統最優的動作。

3.3Q學習算法

摘要：高校教育資源體系生態化構建戰略主要是按照生態化管理的要求，保證高校教育資源體系能夠以社會生態的和諧發展為根本目的，促進生態能源資源體系的科學構建。其與傳統的高校教育資源體系的構建有著本質上的不同，注重生態化的高校教育資源開發，通過科學、系統、合理的分析，實現高校教育資源的開發、整合以及利用，從而以保護生態環境、生態資源的再生性為根本目的，構建生態化高校教育資源體系。

Q學習算法是一種典型的強化學習算法。Q學習算法不是去學習每個狀態的值函數V，而是通過狀態動作對的映射去估計行動的價值函數Q(s,a)，從而求解具有不完整信息的馬爾科夫行動問題。Q函數的定義為：從狀態s開始執行動作a，所獲得的最大折算累計回報，即Q的值為在狀態s執行動作a的立即獎賞加上未來折算后的最優策略的值，如式(9)所示。學習Q函數對應于學習最優策略，這可通過迭代逼近的方法完成。

Q學習的優勢在于當前狀態和動作的Q值在單個的數值中概括所有需要的信息，以確定在狀態s下選擇動作a時在將來會獲得的折算累積回報。其可直接根據Agent的實際經歷的狀態來學習，不需要知道狀態轉移函數，與環境模型無關。不必考察當前狀態下的所有后續狀態，簡化了決策過程。

Q學習算法具體流程如下:

1）確定強化學習的過程，定義學習情節，學習步驟及獎賞函數；

2）初始化每個Agent的狀態集S及其Q值，設置折扣系數γ；

3）在感知模塊中，Agent i感知當前環境下的狀態s∈S；

4）在信息處理模塊與執行模塊中，Agent i將根據當前環境狀態s，知識庫中存儲的其他Agent的執行情況，設定的學習情節及步驟，選擇當前最優動作；

6）將以上數據帶入Q函數定義式，然后將得到的

由式(7)和式(9)可以將式(8)改寫成Q(s,a)的形式：結果Q值存入知識庫中，以表格的形式存儲；

7）根據任務表判斷學習過程是否結束，若結束則停止學習，若否則返回第3）步繼續學習，直至學習過程結束。

4　算例分析

本文以微電網混合發電系統進行研究，采用多智能體的Q學習算法，結合所提出的微型電源綜合性能指標評價方法，對微型電源優化組合的學習過程進行分析。

該系統有發電機組10個，由4臺微型風力發電機，3組光伏發電系統，和3組微型燃氣輪機發電系統構成，總容量共235kW，系統參數如表5所示。

圖18　微電網結構示意圖

表5　系統參數

MDP決策過程定義：狀態集S為當前所需任務量；動作集A為各微型電源是否選擇加入發電行列；立即獎賞函數定義為：其中p為平均電價，μ即為該微型電源綜合性能隸屬于該指標的隸屬度，

首先對各微型電源的綜合性能指標進行評價，得到其綜合性能及其隸屬度μ。根據AHP方法確定各指標權重，具體矩陣信息定義如下：

1）一級指標判斷矩陣

相比傳統火力發電，微電網最大的優勢就在于其各種微型電源具有良好的清潔性和經濟性。其一級指標判斷矩陣可設定為：

計算得出，權重向量：

一致性檢驗：CI=0.0006，RI=0.58，一致性比率這表明其一級指標判斷矩陣有非常滿意的一致性，由此計算出來的結果是非常可靠的。

2）經濟指標判斷矩陣

計算得出，權重向量：

3）環境指標判斷矩陣

根據電力行業的污染物罰款等級，如表6所示，我們可以確立環境指標判斷矩陣。

表6　電力行業主要污染物罰款等級（$/kg）

通過兩兩比較，設定比值分隔點為：1,2,5,10,15,20,50, 100,200及以上，從而確定九個影響程度，最終得到環境指標判斷矩陣：

計算得出，權重向量：

技術指標判斷矩陣：

計算得出，權重向量：

一致性檢驗：因為判斷矩陣為二階矩陣，所以一定滿足一致性，由此計算出來的結果一定可靠。

由式(2)得到該微型電源經濟指標的各二級指標評價值；式(3)得到該微型電源環境指標的各二級指標評價值；式(4)得到該微型電源技術指標的各二級指標評價值。最后，由式(5)并根據最大隸屬度原則得到該微型電源的綜合性能評價結果及其隸屬度μ。系統微型電源綜合性能評價結果如表7所示。

表7　微型電源綜合性能評價結果

以一次由負荷Agent請求140kW任務為例，根據Q學習算法，我們可以得到在滿足供需平衡的條件下，平均電價最低，綜合性能最高的微型電源組合。

學習過程：從系統請求任務開始，S記為140，各智能體開始進行Q值運算。在狀態發生改變后，選擇Q值最大的微電源Agent，將結果存在知識庫中。直到S=0，即滿足供需平衡關系為止，學習結束。仿真Q值運算結果如圖11所示。

圖19　Q值計算結果

5　結論

微電網中多種微型電源互補的分布式發電技術是一種經濟合理的供電方式。因此在微網中引入Multi-Agent技術具有重要意義。本文基于AHP與FCE聯合方法的微型電源綜合性能指標評價方法，綜合考慮了微型電源的經濟性，環保性及技術性，得出微型電源的綜合性能，并結合多智能體強化學習算法實現了微型電源的優化組合問題。為微網中微型電源的優化組合、綜合經濟效益問題提供了較好的思路和技術手段。

[1] 王成山,李鵬.分布式發電、微網與智能配電網的發展與挑戰[J].電力系統自動化, 2010,43(2):10-14.

[2] N.M. MuhamadRazali, A.H. Hashim.A Profit-based Optimal Generation Scheduling of a Microgrid[A].The 4th International Power Engineering and Optimization Conference[C]. Selangor,2010: 232-237.

[3] A.F. Mohamed,N.H. Koivo. Microgrid Online Management andBalancing Using Multiobjective Optimization[A].Power Tech. Lausanne: IEEE[C].2007:639-644.

[4] A.F. Mohamed,N.H.Koivo.System Modelling and Online OptimalManagement of Microgrid using Multiobjective optimization[A].International Conference on Clean Electrical Power[C].2007:148-153.

[5] S. Conti,S,A.Rizzo.Optimal Control to Minimize Operating Costs and Emissionsof MV Autonomous Micro-grids with RenewableEnergySources[A].InternationalConference on Clean Electrical Power[C].2009:634-639.

[6] A.D. Hawkes,M.A. Leach. Modelling High Level System Design and Unit Commitment for a Micro-grid [J].Applied Energy,2008: 1-13.

[7] 高臘梅,吳捷,曾君,李敏.基于Multi-Agent協作強化學習的分布式發電系統的研究[J].能源研究與利用,2009(1):26-29.

[8] D.Q. Hung, N.Mithulananthan,R.Bansal. Analytical Expressionsfor DG Allocation in Primary Distribution Networks[J].IEEE Transactions on Energy Conversion. 2010,25(3):814-820.

[9] 徐青山.分布式發電及微電網技術[M].北京:人民郵電出版社,2011.

[10] 時珊珊,魯宗相,閔勇,王陽.微電源特性分析及其對微電網負荷電壓的影響[J].電力系統自動化,2010,34(17):68-71.

[11] 張汝波,顧國昌,劉照德,王醒策.強化學習理論、算法及應用[J].控制理論與應用,2000,17(5):637-642.

Optimization of micro-grid based on multi-agent reinforcement learning algorithm

LI Jian, DAI Xing-ze

TP273

1009-0134(2016)02-0080-08

2015-10-13

國家自然科學基金（61403075；61503071）

李健（1982 -），女，遼寧人，副教授，博士，研究方向為微電網故障檢測。

基于多智能體強化學習算法的微電網優化研究

0 引言

1 微電網的多智能體系統

2 基于AHP與FCE聯合方法的微型電源綜合性能指標評價方法

3 多智能體的強化學習算法

4 算例分析

5 結論

0　引言

1　微電網的多智能體系統

2　基于AHP與FCE聯合方法的微型電源綜合性能指標評價方法

3　多智能體的強化學習算法

4　算例分析

5　結論