唐 昊 劉 暢 楊 明 湯必強 許 丹 呂 凱
近年來,由于能源危機和生存環境的不斷惡化,各國政府紛紛出臺政策鼓勵和推進新能源發展.隨著光伏(Photovoltaic,PV)、風電等新能源的大規模應用,配電網的分布式特性愈發明顯,電網調峰形勢愈加嚴峻[1],傳統配電網逐漸演變成為可對分布式發電、柔性負荷和儲能三者進行主動控制的主動配電系統[2?3].如何有效利用需求響應資源以及對新能源、儲能、柔性負荷等分布式調峰資源進行協調優化控制,提高新能源利用率,緩解電網調峰壓力,保持配電系統運行的經濟性,增強電力系統的可靠性和可控性,是主動配電系統研究的重要發展趨勢[4?5].
國內外學者通過不同的建模與求解方法對各類主動配電系統的運行、管理、優化等問題展開了大量研究.文獻[6]在考慮分布式能源特性的基礎上建立了主動配電系統優化調度模型,并提出了基于智能單粒子優化算法的求解方法,實現完整調度周期內主動配電系統優化調度策略求解.文獻[7]建立了分布式電源和儲能系統的多目標協調規劃模型,并采用了改進的生物地理學優化算法對主動配電系統多目標調度問題進行求解,但以上文獻均未考慮到柔性負荷對調度問題的影響.文獻[8]建立了考慮分布式能源和柔性負荷的主動配電系統調度規劃模型,并提出了一種免疫二叉螢火蟲算法來求解多目標優化問題的最優策略,但沒有考慮儲能裝置和柔性負荷的協調調度作用.文獻[9]提出一種新的多周期柔性負荷與儲能系統協調調度模型,并通過改進的粒子群算法對主動配電系統經濟調度問題進行求解.上述文獻均是在預測數據的基礎上對主動配電系統的運行優化問題進行研究,并未考慮到系統中新能源出力和各類負荷變化過程的隨機動態特性對系統運行效率的影響.但新能源出力及各類負荷需求的不確定性是普遍存在且不可避免的,當實際值與日前預測值相差較大時,若以預測數據為基礎確定相應的優化控制策略,將難以保證主動配電系統的長期經濟運行.
另外,隨著新能源滲透率的日益增加以及用電環節的不斷智能化,主動配電系統源荷雙側的不確定性不斷加大,電力系統調度也不斷向智能化發展,傳統的基于模型的靜態優化算法變得越發不適用[10?11].在智能電網背景下,利用人工智能技術為電力系統動態調度問題提供智能化解決方案是當前調度計劃研究的重點[12?13].
目前,主動配電系統的優化研究主要針對居民用戶和商業用戶,對工業用戶的研究較少,且較少考慮需求側調峰問題[14].為此,儲能系統和柔性負荷作為需求側調峰資源參與電力調度問題越發值得關注.文獻[15]提出了一種儲能系統削峰填谷的變參數功率差控制方法,實現在滿足商業園區運行經濟性的同時降低自身負荷峰谷差的目標.文獻[16]構建了供需側聯合隨機調度模型,并通過仿真驗證了柔性負荷的調峰效益.文獻[17]論證了對工業園區內的柔性負荷進行控制能夠降低用電高峰期用戶集中用電給電網帶來的調峰壓力,提高大電網運行的安全性和穩定性.
因此,在上述研究基礎上,本文研究了工業園區主動配電系統實時響應大電網系統下發電隨機調峰需求的優化調度問題.首先,本文根據VRB 儲能裝置的充放電特性建立其數學模型,并采用三段式安全充放電控制策略求解模型;然后,本文考慮了多類型柔性負荷,并針對各類柔性負荷特性分別進行了建模處理;最后,考慮到當前電力系統調度問題一般為離散時段決策,并且各個決策時刻間具有時序相關性,將考慮電網調峰隨機需求和源荷雙側隨機性的工業園區主動配電系統內多類型柔性負荷與儲能裝置協同動態調度問題建成離散時間馬爾科夫決策過程(Discrete time Markov decision process,DTMDP)模型,并采用學習優化方法對該動態調度優化問題進行策略求解.
在系統實際運行過程中,可根據觀測狀態及最優策略選擇最優的控制行動,實時制定出各類型柔性負荷調整計劃和儲能裝置充放電計劃,從而在發、供、用電平衡協調基礎上緩解電網調峰壓力并實現系統安全經濟運行的目標.
本文研究的是由工業園區調度中心、屋頂光伏、VRB 儲能系統以及多類型用戶負荷等組成的工業園區主動配電系統.其中,園區調度中心作為協調電網調控中心與工業用戶的中間機構,可實現系統內整個負荷群的宏觀整體協調響應以及微觀靈活分散自治[18],進而可以調控需求側配電系統內各類調峰資源以滿足大電網實時調峰需求,同時實現系統的供需平衡以及經濟運行,系統結構如圖1 所示.

圖1 工業園區主動配電系統結構模型Fig.1 Structure model of active distribution system in industrial park
主動配電系統在任意時刻t都需要滿足實時供需平衡,即:


表1 部分變量符號Table 1 Partial variable symbols
本文將該系統中總負荷按需求管理模式分為剛性負荷和柔性負荷[1],其中工業園區內剛性負荷屬于不可調節的用電需求,應優先被滿足;園區內柔性負荷屬于可控負荷,常被用于參與系統緊急調峰的需求響應[19].現將柔性負荷按響應特性分為可削減負荷、可轉移負荷和可平移負荷三種類型.其中,可削減負荷指可根據需要對用電量進行部分或全部削減的負荷;可轉移負荷在一個調度周期內總用電量不變,但各時段用電量可靈活調節;可平移負荷受生產流程約束,其用電曲線只能在不同時段間平移[18].各類負荷需求可表示為:

本文園區調度中心采取基于合同的直接負荷控制策略,考慮的柔性負荷只限于與園區調度中心簽訂合同服從其調度指令的負荷.在調度周期內,調度中心對負荷具有直接調控權,可直接控制各類柔性負荷在時序上重新調度,并在調度結束后根據負荷調整量給予一定補償[20].
由于環境和用戶行為的隨機特性,新能源出力與各類負荷實際需求變化既具有一定統計特征,同時也具有隨機不確定性[21?22].本文涉及到的隨機變量分別為PV 出力、各類負荷需求和電網調峰需求.
1.2.1 建立PV 出力模型
在系統實際運行過程中,可以根據氣象數據預測得到次日的PV 出力預測曲線.設根據預測得到的t時刻PV 出力為,由于預測準確性有限,在t時刻實際PV 出力可視為預測值與隨機不確定部分的疊加,表達式為:

本文將PV 出力隨機不確定部分的最大范圍離散為?Npv ~Npv共 2Npv+1 個等級,并將該不確定量隨時間的變化過程用連續時間馬爾科夫過程近似描述[23?24].即假設狀態等級的逗留時間服從參數為的指數分布,在各時刻下的轉移概率服從以自身狀態為中心的離散高斯分布.在t時刻PV實際出力可近似描述為:

1.2.2 建立各類負荷需求模型
在系統實際運行過程中,可以通過對環境以及用戶歷史用電行為預測得到t時刻各類負荷需求功率.但由于各類負荷用電隨機性大,影響預測的準確性,在t時刻各類負荷實際需求功率與預測值存在偏差(其中由于可平移負荷一般為固定流程生產線,故本文不考慮其隨機性),則t時刻剛性負荷、可削減負荷及可轉移負荷實際需求功率可分別表示為:

類似地,各類負荷需求隨機不確定部分隨時間的變化過程也可看作高斯—馬爾科夫過程[25?27],將各類負荷隨機不確定部分的最大范圍區間分別離散為相應的狀態等級?Nrl~Nrl、?Ncu~Ncu、?Nsh~Nsh,則在t時刻相應狀態等級下的各類負荷實際需求功率可分別描述如下:

1.2.3 建立電網調峰需求模型
電網日負荷峰谷差嚴重影響著電力系統穩定性和發電效率,峰谷差越大,發電效率越低.調度日內,電網實時下發相應調峰指令以期減小日負荷峰谷差,從而提高電力系統運行穩定性、實現節能減排.為此,本文通過對系統內VRB 儲能裝置和多類型柔性負荷等需求側調峰資源進行協調控制以滿足電網調峰需求,緩解電網實時調峰壓力.
由于受環境氣候以及用戶行為等諸多隨機因素影響,電網實際下發給工業園區的調峰指令存在著相應的隨機不確定部分,任意時刻t電網實際調峰需求可表示為:

類似地,將電網調峰需求隨機不確定部分隨時間的變化過程建模為連續馬爾科夫過程,并將隨機不確定部分的最大范圍離散為?Npeak ~Npeak共2Npeak+1個等級,則在t時刻相應狀態等級下的電網實際調峰需求可描述為:

其中,?Ppe表示t時刻電網調峰指令不確定部分離散化后的最小單位功率,狀態等級···0,1,···,Npeak}.
VRB 的電氣模型有很多種,為了充分反映其充放電過程中的端電壓、端電流以及SOC 等的動態變化特性,本文采用的VRB 等效電路如圖2 所示[28?29].

圖2 VRB 等效電路圖Fig.2 Equivalent circuit model of VRB
圖中,Ud和Vs分別為VRB 外部端電壓和內核電壓,Id和Ip分別為充放電電流和泵損電流,R1和R2為等效內阻,Rf和Ce分別為寄生損耗和電極電容.
根據VRB 等效電路圖,可得到其非線性數學模型如下:

在系統實際運行中,需盡量將VRB 儲能裝置的SOC 控制在0.2~0.8 之間以保證VRB 工作于安全區內,防止出現過充過放現象,提高電池充放電效率.本文以VRB 的端電壓和SOC 作為安全充放電切換控制的約束條件,采用先恒流再恒壓最后涓流充放電的三階段式控制策略求解所建立的VRB 非線性數學模型.其中,三段式安全充放電控制策略的給定值可分別表示如下:

在VRB 儲能裝置的三段式充電過程中,端電壓Ud、端電流Id及SOC 隨時間的變化特性如圖3所示.

圖3 采用三段式充放電策略時VRB 的充電曲線Fig.3 Charging curve using strategy three-phase of VRB
在一個周期內,VRB 儲能裝置約束如下[30]:
1)充放電功率約束:

2)端電壓約束:

3)荷電狀態(剩余容量)約束:

4)儲能裝置始末荷電狀態一致約束:

為制定各類柔性負荷調整計劃和儲能系統充放電計劃,所求調度優化策略需考慮到任意決策時刻所有可能出現的源荷出力隨機情況.為此,本文將系統決策過程建立為相應的DTMDP 模型,該調度優化模型包括狀態、行動、轉移代價及優化目標函數.
將一天時間等分為K+1 個決策周期,采用等周期決策方式,決策時刻為tk,其中k ∈{0,1,···,K},?tk表示決策周期k的持續時間.


系統行動包括當前狀態下VRB 儲能裝置的充放電動作avrb∈Dvrb={?1,0,1},可削減負荷削減動作acu∈Dcu={0,1,···,Nacu},可轉移負荷轉移動作ash∈Dsh={?Nash,···,0,1,···,Nash}以及可平移負荷平移動作ahs∈Dhs={0,1,···,Nahs}.系統行動向量為a=(avrb,acu,ash,ahs)∈D,系統行動集為D=Dvrb×Dcu×Dsh×Dhs.
定義系統策略π為狀態空間–行動集的映射,即對于任意狀態sk,均可根據策略 π選擇行動ask=π(sk)用以控制系統運行.
本文的優化目標是在考慮系統功率平衡、儲能裝置等各類約束情況下,通過學習優化的方法制定多類型柔性負荷調整計劃和儲能系統充放電計劃,以緩解電網調峰壓力并降低系統日運行代價.
假設當前時間到達決策時刻tk,通過觀測可知系統處于當前狀態sk,在該狀態下選擇行動,經過一個決策周期后,系統狀態轉移到下一決策周期的狀態sk+1,并產生轉移代價ck,由此得到一個狀態轉移過程為 〈sk,ask,sk+1,ck〉.其中,在決策周期k內系統運行過程中產生的各類代價可分別表示如下:

在決策周期k內通過執行行動ak狀態轉移過程中產生的運行代價ck可表示為:

主動配電系統調度呈一定周期性,應使每個調度周期末VRB 儲能裝置剩余容量等級與調度周期起始時刻一致并達到期望的容量等級,故將末狀態代價設置為如下所示的差值函數cvrb(sK+1):

定義系統在策略π下以初始狀態為s0的有限時段內優化性能準則為Vπ(s0),可表示如下:

其中,ck取決于狀態sk及根據策略π選取的動作ask.系統的優化目標為在策略集 ? 中找到一個最優策略π?,使得在該策略下系統平均日運行代價最低,即π?=arg minπ∈?V π(s0).
針對考慮源荷雙側隨機性的工業園區主動配電系統的動態調度問題,本文采用強化學習方法對該問題進行策略求解.其中,Q 學習算法是一種模型無關的基于強化學習的隨機動態規劃方法,適用于求解隨機環境下的最優控制策略[31].為此,本文采用基于模擬退火的有限時段Q 學習算法對所建調度優化模型進行策略求解,具體求解過程如下:
步驟1.初始化Q值表,樣本軌道總數L,單條樣本軌道決策周期數K+1,學習率αl,學習率更新系數ηα,模擬退火溫度Ttemp及模擬退火系數ηtemp,并令當前樣本軌道數l=0;
步驟2.k=0,并隨機初始化系統狀態sk;
步驟3.根據Q值表和貪婪策略,選取在當前狀態sk下對VRB 儲能裝置和各類柔性負荷的貪婪行動agreedy=arg minask∈D Q(sk,ask),同時隨機選取有效行動arand.若 步驟4.執行當前所選行動ask,根據所建系統模型觀察下一決策周期對應的系統狀態sk+1,并計算在決策周期k內通過執行行動ask狀態轉移過程中產生的代價ck,根據式(28)更新Q值表,同時更新策略,即通過不斷更新各狀態-行動對對應的Q值和選取各狀態下最小的Q值對應的儲能裝置充放電方案和各類柔性負荷調整方案作為該狀態下新的行動,達到更新策略的目的.并令k:=k+1,返回步驟3; 步驟5.執行當前狀態sK所選行動asK,并計算在決策周期K內通過執行行動asK狀態轉移過程中產生的代價cK及末狀態代價cvrb(sK+1),并根據式(29)更新Q 值表,同時更新策略,并令l:=l+1,αl:=ηα ?αl; 步驟6.若l 在本文算例中,根據某市各類負荷、PV 相關數據特征[21,32],擬合典型的工業園區主動配電系統內PV 出力、總負荷需求以及各類柔性負荷需求等隨機因素的相應統計預測曲線如圖4、圖5 所示.其中,柔性負荷占園區內總體負荷需求的比例為16%,可削減、可轉移、可平移3 類柔性負荷的比例分別為10 %、4.8 %、1.2 %.全天負荷整體平穩,但在早、中、晚各有一個低谷,且早晚低谷相對更低,呈現明顯的日峰夜谷特點.在PV 發電裝置附近配備有容量為3 MWh 的VRB 儲能裝置,單個VRB 儲能單元相關參數如表2 所示[33].設置本文動態調度問題的決策周期為24 個時段,每個時段的持續時間為1 h. 圖4 工業園區內PV 出力與總負荷需求預測曲線Fig.4 Prediction curves of PV and loads demand in industrial parks 圖5 工業園區內各類柔性負荷典型日曲線Fig.5 Prediction curves of multi-type flexible loads in industrial parks 表2 VRB 模型參數設置表Table 2 Parameters of VRB 本文參照江蘇省工業用戶峰谷分時電價標準設定工業園區主動配電系統內各時段的具體電價,其中,高峰時段8:00—12:00 和17:00—21:00,電價為0.9947 元/kWh;低谷時段0:00—8:00,電價為0.2989 元/kWh;剩余時段的平電價為0.5968 元/kWh[34]. 根據第2.1 節可知,本文考慮到的系統狀態變量和控制變量種類較多,仿真算例中所選取的狀態?行動對個數更是多達7 558 272,由此形成的策略空間龐大,難以通過傳統數值求解方法進行求解,因此本文采用學習優化方法對該動態調度問題進行策略求解. 1)學習優化過程分析 本文以一天24 小時為調度周期,充分利用各類柔性負荷和儲能裝置等可調度資源對工業園區主動配電系統進行調度協調控制,并采用基于模擬退火Q 的學習算法對該系統的動態調度優化問題進行求解.在學習過程中,通過Q 值更新公式不斷更新Q 值表,得到Q 學習優化策略.設一條樣本軌道為系統一日內運行過程,每經過20 000 條樣本軌道,對所得策略進行一次評估,并設置策略評估過程中評估樣本軌道數為3 000,對評估樣本軌道結果取均值以估算系統日運行代價,圖6 分別給出了傳統Q 學習、雙Q 學習、模擬退火Q 學習以及模擬退火雙Q 學習的日平均代價學習優化曲線,各學習優化方法的收斂時間分別為54 820 s、14 803 s、44 508 s和11 154 s.從圖6 中可以看出各優化算法下系統日運行代價均隨著學習步數的增加而逐漸下降,并最終趨于收斂,其中,雙Q 學習收斂速度較Q 學習快很多,這是因為雙Q 學習是雙重學習,可避免最大值帶來的偏差影響,收斂更快,但Q 學習較雙Q的優化效果更勝一籌;同時模擬退火Q 學習算法可利用模擬退火思想解決探索和利用的平衡問題,進而可提高收斂速度和算法性能,相較于傳統Q 學習的收斂速度更快.在實際應用中,可綜合考慮時間和效果進行相應優化算法的選取和實驗. 圖6 不同學習優化算法下的系統總學習優化過程曲線Fig.6 The optimal curve of the system under different learning optimization algorithm 圖7 給出了基于模擬退火的Q 學習過程的策略性能曲線,學習曲線為每一條樣本軌道所記錄的日運行代價的平均值,填充區間為這3 000 條樣本軌道所得數據在各點處的標準差區間,填充區域面積越小,則表明不同樣本軌道得出的結果越接近,學習穩定性越好.由學習曲線可以看出系統日運行代價均隨著學習步數的增加而逐漸下降,并趨于收斂,系統日運行平均代價較學習優化前降低28.7%,顯著提高了系統運行效益;同時學習過程中不同樣本軌道得到的數據波動并不大且隨著學習步數的增加在不斷減小直至趨于較小的穩定值.綜上所述,本文采用的基于模擬退火法的Q 學習算法所求得的策略可以穩定、有效的適用于工業園區型主動配電系統的優化研究. 圖7 系統學習優化過程的策略性能曲線Fig.7 The strategic performance curve of the system learning optimization process 圖8 給出了電網調峰需求未完成度的學習曲線,經過學習優化,調峰需求未完成度逐漸降低并最終穩定在11.1% 左右;圖9 為學習優化過后,各時段內電網調峰需求完成情況,明顯可以看出在用電高峰時段實際調峰量完全滿足其調峰需求,在用電低谷時段實際調峰量也基本完成了電網調峰需求.例如在5~7 時段,系統實際調峰量較電網調峰需求量相差較大,主要是因為從凌晨至今,大電網調峰需求均趨向于填谷,系統內儲能裝置SOC 已臨近極值,故這段時間調峰效果稍差. 圖8 調峰學習優化曲線Fig.8 The optimal curve of peak operation 圖9 各時段電網調峰指令完成情況示意圖Fig.9 The completion of peak adjustment instruction 圖10 給出的是在隨機初始SOC 情況下末狀態代價的優化曲線,從圖10 可以看出,通過學習優化,末狀態代價可收斂在0 左右,即末狀態儲能剩余容量等級可達到期望值;圖11 給出在不同初始荷電狀態情況下,所得優化策略在一條樣本軌道運行中系統內儲能裝置SOC 的變化情況.可以看出在不同初始荷電狀態下,所得優化策略均可將荷電狀態在夜間降至較低水平,且趨向于在低電價時段選取充電或閑置,而在用電高峰時段趨向于放電或閑置,以獲取因電價差值產生的收益,緩解大電網的調峰壓力,進而提高工業園區主動配電系統運行的經濟性并提升需求側調峰效果. 圖10 末代價學習優化曲線Fig.10 The optimal curve of final cost 圖11 不同初始荷電狀態下各時段SOC 變化情況Fig.11 Changing process of SOC under different initial values 圖12 為學習優化前后需求側負荷曲線,由圖12可以看出,與原負荷曲線相比,學習優化策略對工業園區主動配電系統有一定的調峰效果,學習優化前后系統總負荷特征如表3 所示.由表3 可知,學習優化前系統負荷峰谷差為2 689 kW,通過學習優化對系統內多類型柔性負荷選取控制行動,使峰谷差減少為2 535 kW,系統峰谷差降低5.7 %.上述結果說明通過學習優化不但可以滿足電網調峰需求,而且可以在一定程度上降低系統自身峰谷差,有利于主動配電系統安全經濟運行. 圖12 學習優化前后系統負荷曲線Fig.12 The curves of load before and after learning optimization in the system 表3 學習優化前后系統總負荷特征Table 3 The characteristic of load before and after learning optimization in the system 圖13 為學習優化后系統內3 類典型柔性負荷在調度日內各時段下的實際調整量,可以看出可削減負荷的削減量在負荷用電高峰期明顯高于用電低谷期,可轉移負荷趨向于將自身負荷用電從用電高峰轉移到用電低谷,可平移負荷由于自身特性和限制只會小范圍向后平移.通過對各類柔性負荷的動態調整可在一定程度上減緩電網調峰壓力,并在一定程度上實現峰電谷用. 圖13 學習優化后各時段典型柔性負荷調整量Fig.13 Adjustment of multi-type flexible loads after optimization 2)不同調度模式下的優化結果對比分析 在相同配置情況下,將VRB 儲能裝置與柔性負荷協同優化調度模式記為模式1;將僅考慮VRB儲能裝置的優化調度模式記為模式2;將僅考慮柔性負荷的優化調度模式記為模式3;將既不考慮VRB 儲能裝置也不考慮柔性負荷的優化調度模式記為模式4.4 種模式對應于系統不同的物理結構,其策略維度也不同,故分別對應不同的策略,分別記為策略1,2,3,4.現分別將其他模式對應的優化效果與模式1 進行比較,在各優化調度模式下主動配電系統運行過程中產生的日運行代價和調峰完成情況對比如圖14 所示,各項代價指標的具體數值如表4 所示. 圖14 不同調度模式下的調峰效果比較圖Fig.14 Comparison effect of peak operation under different dispatching modes 表4 不同調度模式下的相關指標Table 4 Related indexes under different dispatching modes 由表4 數據可以看出各模式下系統優化效果由好到差分別為:模式1、模式3、模式2、模式4.由圖14 可以看出,模式1 下的電網調峰需求完成度明顯優于其他3 種模式,且模式1 下的系統日平均運行代價最低:模式2 的調峰完成度較差,主要是因為在模式2 下電網調峰需求由VRB 儲能裝置充放電來完成,然而各時刻下充放電功率與儲能裝置實際容量有關,無法動態調節,在一定程度上受到很大限制,而模式1 和模式3 中電網調峰需求可通過調節各類典型柔性負荷來完成,可動態調節,更有利于大電網調峰任務的完成.上述結論充分說明了本文引入VRB 儲能裝置與多類型柔性負荷進行協同優化調度的有效性. 由圖15 可以看出,模式1 與模式2 的策略相比,負荷需求有明顯差異,在負荷用電高峰時段模式1 的負荷需求明顯低于模式2,而在負荷用電低谷時段模式1 的負荷用電需求又高于模式2,說明了策略1 通過在不同時段對各類型柔性負荷選取不同行動,即用電高峰選取削負荷行動,并將部分可轉移、可平移負荷由高峰用電移至低谷,在一定程度上實現了削峰填谷,發揮了柔性負荷的調峰作用. 圖15 不同調度模式下負荷優化結果比較圖Fig.15 Comparison diagram of load optimal results under different dispatching modes 以模式1 選取的VRB 儲能裝置容量配置為基準,分別求解不同儲能裝置容量配置下對應的優化調度方案,經優化得到不同容量占比下系統運行過程中的各項代價比較情況如圖16 所示.由圖16 可知,隨著儲能裝置容量的增加,系統日運行總代價緩慢降低,并且未完成電網調峰需求產生的調峰代價以及柔性負荷的補償代價逐漸減小,儲能裝置充放電過程產生的損耗也逐漸增加,說明了在允許范圍內適當增加儲能裝置的容量配置可以提高電網調峰需求完成度和降低系統日運行代價. 圖16 不同儲能容量占比下的各項代價比較圖Fig.16 Comparison of costs under different proportion of energy storage capacity 以模式1 設置的各類柔性負荷占比為基準,分別求解不同柔性負荷占比下的優化調度方案,所得系統運行過程中產生的各項代價指標的變化趨勢如圖17 所示.由圖17 可明顯看出,隨著柔性負荷的占比增加,系統運行過程中因調節各類柔性負荷需補償的代價逐漸增加,而因未完成電網調峰需求產生的調峰代價先是逐漸降低直至柔性負荷占比為所設基準值的90%左右,此時若繼續增加柔性負荷占比調峰代價則呈上升趨勢,并且系統總體運行代價趨勢與調峰代價趨勢基本一致. 圖17 不同柔性負荷占比下的各項代價比較圖Fig.17 Comparison of costs under different proportion of flexible load 根據光伏及負荷統計預測曲線,在模式1 結構下,將源荷雙側隨機因素作為系統狀態和不作為系統狀態的兩種優化求解方式分別記為方案1 和方案2.將方案2 與方案1 所得的優化策略在隨機環境下進行評估比較,結果如表5 和圖18 所示. 從圖18 可以看出總體上各時段內方案1 的優化策略對應的電網調峰需求未完成量要小于方案2,且方案1 在用電高峰時段下的調峰未完成量均趨于0,故方案1 的調峰效果明顯好于方案2.由表5可知方案1 下的系統日運行代價相比于方案2 更低,且其調峰完成度也高于方案2.以上現象均說明了本文采用的將源荷雙側隨機因素作狀態的方案1與不將隨機因素作狀態的方案2 相比,其所得優化策略能夠更加經濟地適用于實際的隨機環境,并可進一步提高電網調峰需求完成度. 表5 不同方案下的相關指標Table 5 Related indexes under different projects 圖18 不同方案下的調峰需求未完成量比較圖Fig.18 Unfinished amount of peak operation demand under different projects 3)學習優化策略分析 在所得優化策略下對一條樣本軌道進行學習,可以觀測得到該條仿真樣本軌道中各時段PV 發電功率、各類負荷需求、電網調峰需求和電池荷電狀態等實際狀態值,以及相應狀態下采取的最優控制行動如圖19 所示,表6 記錄了調度日內該樣本典型狀態和行動. 圖19 優化策略下各時段行動選取情況Fig.19 Choice of action pairs under optimal policy 由圖19 和表6 可知,VRB 儲能裝置在低電價時更趨向于選取充電動作來儲存電量以備即將到來的負荷用電高峰,在高電價時則傾向于選取放電動作,利用存儲的電能為負荷供電,以降低在用電高峰購電代價以及負荷高峰期的用電需求,獲取“低價儲電,高價賣電”的經濟收益,這種低儲高放方式不但可以賺取電價差的利潤而且可以緩解電網調峰壓力;可削減負荷在用電高峰期傾向于大幅度的削減負荷用電,在用電低谷期則不削減負荷用電;可轉移負荷傾向于將負荷從高峰用電轉移到低谷用電;可平移負荷向后平移2 個時段,使時間跨度由3:00—15:00 變為5:00—17:00,避免了夜間工作為工人帶來的不便利.例如,在4 時低負荷、低電價的情況選擇儲能裝置的動作為充電,可削減負荷的動作為不削減,可轉移負荷的動作為轉入,可平移負荷的動作是向后平移. 表6 優化策略下部分狀態行動Table 6 Partial state-action pairs under optimal policy 針對模式1,2,3 所得相應的調度優化策略1,2,3,可得到各策略在同一樣本軌道下各時段的調峰完成情況如圖20 所示,可以看出模式1 下該樣本的調峰未完成量明顯小于模式2、3,且其在負荷高峰期的調峰未完成量均為0,完全滿足電網在用電高峰期的調峰需求.表7 給出了各優化策略在該樣本軌道下產生的各項代價指標,根據表中數據分析可知模式1 下的日運行費用也明顯小于其他模式,說明了在單條樣本下,考慮多類型柔性負荷與儲能裝置協同調度所得策略的優化效果更好,進一步證明了本文優化方法的有效性. 表7 優化策略下不同模式的相關指標Table 7 Related indexes under different modes in optimal policy 圖20 優化策略下不同模式的調峰需求未完成量比較圖Fig.20 Unfinished amount of peak operation demand under different modes in optimal policy 本文研究的是考慮電網調峰需求的工業園區主動配電系統內動態經濟調度優化問題,并在此基礎上考慮了源荷雙側不確定因素,將工業園區主動配電系統調度問題建立為馬爾科夫決策過程模型,采用模擬退火Q 學習算法對該動態問題進行策略求解.仿真結果表明,考慮多類型柔性負荷和儲能系統協同調度相比于傳統單一模式可顯著降低電網調峰需求未完成度以及提高系統運行效益,并且學習優化所得控制策略能夠在考慮源荷隨機情況下降低系統的運行成本,降低自身峰谷差,可在很大程度上滿足電網調峰需求,有利于主動配電系統經濟運行和提高電力系統運行穩定性. 由于本文考慮的系統狀態和行動種類多,若后續考慮將系統狀態和行動連續化以獲取更加精確的模型和更高精度的控制效果,可能會導致維數災問題,探索解決該類問題的方法十分值得進一步研究;同時,由于系統故障或人為行為等因素帶來的系統物理結構的動態變化,考慮系統結構動態切換場景下的策略優化問題也是值得深入研究的一個方向;此外,隨著新能源滲透率和柔性負荷規模的日益增大,考慮在源荷互動、多方參與的復雜電力市場交易環境下系統內各部分利益間的博弈問題以及多類型市場機制對系統調度優化的影響也是有意義的研究方向.

3 算例分析
3.1 算例描述



3.2 仿真結果分析




















4 結論