明威宇,李 妍,程時杰,龍 禹,徐 菁,王少榮
(強電磁工程與新技術國家重點實驗室,華中科技大學,湖北省武漢市 430074)
隨著中國電力市場化改革的快速推進[1],用戶可選擇需求響應(consumer choice resource,CCR)基于自身意愿主動參與到電力市場各項業務中[2-3]。通過對CCR 的調度,可以將負荷側資源配合電網運行加以充分利用,從而減少網損[4]、提升設備使用壽命[5]、改善用戶的用電體驗[6],在滿足網側精益化管理的同時實現用戶側降費提質的需求。但CCR 受用戶主觀意愿和負荷動態物理特性等多因素影響[7-8],其優化調度需要考慮多目標綜合優化和系統運行的安全約束,協同眾多變量優化求解,其優化問題為具有復雜動態約束的混合整數非線性規劃模型,在配電網隨機運行方式下求解時,存在場景組合激增的問題,求解的復雜度隨求解時段數成指數增長,難以找到最優解[9-10]。
隨著近年來數據驅動的機器學習方法的發展[11-12],深度強化學習(deep reinforcement learning,DRL)在多個領域的序貫決策優化問題中得到了廣泛應用[13-15]。已有不少學者利用DRL 將電力系統隨機優化決策問題映射至馬爾可夫決策過程(Markov decision process,MDP)模型,以自學習方式予以求解。文獻[16]對DRL 應用于需求響應業務的可行性與方法進行了探討,提出了基于DRL 的需求響應業務開展架構。文獻[17-18]關注到需求響應業務側負荷的聯合競價及定價問題,利用基于DRL 的深度確定性策略梯度方法[18],基于MDP 對負荷的聯合競價及定價問題進行建模,建立動態競價響應函數,通過自學習歷史數據優化終端用戶用電行為。……