俞 虹,唐誠旋,蔣群群,陳玨伊,張 秀
(1.中國南方電網有限責任公司貴陽供電局,貴州貴陽 550002;2.中國南方電網有限責任公司貴陽金陽供電局,貴州貴陽 550081;3.中國南方電網有限責任公司貴陽開陽供電局,貴州開陽 550300)
電力系統斷電后快速恢復至關重要,合理的電力應急電源調度是災后電力系統快速恢復的重要環節[1-2]。目前常應用的電力系統應急物資調度算法主要有基于節點綜合權值的電力應急物資調度算法[3]和基于改進飛蛾撲火算法求解多需求點的應急物資調度算法[4]。然而傳統調度算法常因動態電力信息的影響而存在調度時間不精準的問題。針對這一問題,該研究提出并設計了基于強化學習的電力系統應急物資調度算法。在特定策略下,通過與外部環境的交互作用,完成電力系統應急物資調度。
在電力系統應急物資調度應用中,采用強化學習算法,需要解決行為選擇和行為價值函數存儲與推廣問題。為了保證強化學習在實際調度中更加具有針對性,需確定基本調度要素:電力系統狀態集合、行為集合、報酬函數、平均性能指標和行為值函數。
電力系統狀態集合s:主要是指電力系統中緊急情況下的運行信息,如緊急工況的位置、調度時間、系統狀態選擇等,系統以每離散時刻的狀態信息為決策依據[5]。
行為集合a:包括電網應急物資調度行為序列,用于實現電力系統緊急調集物資調度[6]。
報酬函數r()s,a:對于電力系統中緊急供電問題,需通過該函數配合強化學習框架,保證計算所得報酬為負值,能夠有效保證電力系統應急物資調度費用最小[7-9]。每觀測到一個系統狀態,就根據這個狀態計算一個報酬函數。
平均性能指標ρπ:平均性能指標中的質量指數是指策略計劃下各階段無限時間內平均回復數:

對于系統緊急補給問題,其意義在于系統在無限時間內,最大化了系統報酬函數r()s,a,該函數用負值表示,即電力系統應急電源的運行費用最低[10]。
行為值函數R(s,a):該函數在學習中所用的行為值函數為Rπ()s,a,其在狀態s選擇a學習行為,并保持為π 的平均調整值,其計算公式為:

在強化學習算法中,不需要具體模型,而是通過迭代方法求得R(s,a)[11-12]。根據迭代規則,行為值函數在每一時刻都要迭代,迭代過程如式(3)所示:

依據該公式,可確定行為值函數所能滿足的具體條件:

依據式(4)迭代處理平均性能指標,得到迭代公式如式(5)所示:

式(5)中,α、β為學習率。
在強化學習調度算法模型支持下,電網大面積停電后,對應急物資進行調度是電網恢復的重要任務之一??茖W合理的調度方案能保證電力系統迅速恢復負荷,減少因故障造成的損失。
應急物資在應急恢復初期往往供應不足,為此,從物料和時間角度出發,建立以物料滿足度和時間滿足度為目標函數的多目標優化調度模型。材料滿足度是指緊急情況下獲得材料數量與需要量之比[13-15],以此為基礎,構建電力系統應急物資調度模型,如圖1所示。同時,算法假定如下:

圖1 電力系統應急物資調度模型
1)這些信息是可靠的,即已知各節點的材料供應和材料需求。
2)將調度節點劃分為3 個層次:供給點、調度點和應急點。其中,調度點起到轉運的作用,可實現對供給點與應急點之間物資供應情況的查詢。
3)假定供應地點的物資供應不能完全滿足緊急情況的需要[16]。
電力系統應急物資調度模型目標函數需從物資滿意度和時間滿意度兩個角度展開分析。
物資滿意度Z1為:

式(6)中,I表示電力系統應急供應點數量;L表示應急供應中轉點數量;J表示應急點數量。時間滿意度Z2為:

式中,fj(?)的函數表達式為:

式(7)、(8)中,ωj表示應急點j處的重要性權值;Nj表示應急點j處所需物資量;fj(?)表示應急點j處時間滿意度函數;tij表示從應急點i到應急點j所耗費時間;xij表示從應急點i到應急點j全部供應物資量;ai表示供應點i儲存物資量;θj表示應急點j對運輸時間緊急程度,θj越小,表示應急點j對物資需求越緊急;Lj、Uj分別表示應急點j對物資運輸時間滿意度的下限及上限值,為已知量。
為了提高物料輸送速度,必須從以下兩個方面進行決策:第一,選擇合適物料存放地點;第二,在每一個物料存放地點對物料數量進行分配,在處理多個物料的分配時,必須考慮到物料數量的多樣性。每個倉庫在獲得物料滿足度和時間滿足度后,都必須按照最優路徑進行物料分配。物聯網技術將在這一過程中發揮其作用,極大地提高物料調配效率。設定材料分配計劃,通過分配中心將通信系統中的分配指令發給各設備管理中心。該中心涉及到的管理內容包含要部署的物料類型、數量和目的地。管理中心要保證每一個物料倉庫都能接收到指令,智能倉儲系統能自動找到相應物料在倉庫中的位置,迅速地取出需要的物料,安排好運輸車輛。
將跟蹤設備安裝到所有運輸車上,部署中心可以實時獲取運輸車位置信息。如此,既保證了材料安全性,又能采取一定措施加速材料運輸,如聯系運輸部門聯動、安排材料運輸綠色通道等;或者根據交通管理部門提供的交通信息,選擇一條更順暢的路線。運輸車到達指定地點后,將任務完成信息發送到調度中心。任務完成后,由調度中心確認部署結束,物資調度流程如圖2 所示。

圖2 物資調度流程
在調度過程中,物聯網技術應用主要體現在兩個環節上。該系統首先利用RFID 技術,在物料倉庫出庫過程中,快速查找物料位置信息;與此同時,各種自動化機器人在智能倉儲系統中能精確到達物料位置并裝載車輛,與傳統人工查找、人工運送物料方式相比,物聯網在節省人力的同時大大提高了效率。而且在物資運輸過程中,調度中心通過對運輸車安裝無線傳輸網和跟蹤設備,實時獲取運輸車準確位置,從而向社會傳遞信息。通過部門間聯動,可以加速材料運輸,確保運輸過程中材料安全。除上述兩點外,物聯網通信系統還能為整個部署過程提供通信服務,保證信息實時、準確,并能為整個應急過程提供通信保障。
為驗證基于強化學習的電力系統應急物資調度算法的實際應用性能,設計如下仿真實驗。
由于地理位置特殊,廣東省經常發生臺風災害。臺風"彩虹"橫掃湛江并向珠江三角洲傳播,對廣東省電力系統造成嚴重影響。假定電網節點與地理上的應急點重合。以粵西地區某地方電網為例,對SF6 型系統電力應急的補給調度任務展開研究。圖3 為電力應急電源的拓撲結構和部分參數。

圖3 電力應急物資調度拓撲及部分參數
假設在0~10 之間的整數表示節點之間的傳輸時間,其值越大,表明節點之間的距離越遠,所需的時間越多。節點間物資調度的子網時間值如表1 所示。

表1 電力應急物資調度期望時間(min)
在此基礎上,分別使用傳統的基于節點綜合權值的電力系統應急物資調度算法、基于改進飛蛾撲火算法的電力應急物資調度算法和基于強化學習的電力系統應急物資調度算法對物資展開調度,以調度時間為測試指標,對比不同算法的應用性能,結果分別如表2~4 所示。

表2 節點綜合權值算法調度時間(min)

表3 改進飛蛾撲火算法調度時間(min)
通過上述結果可知,兩種傳統的調度算法的調度時間與期望時間均有所出入,而基于強化學習調度算法的調度時間與期望時間一致,說明了該方法的有效性。
該研究建立了電力應急物資調度模型,通過該模型將物資調度問題轉化為目標優化問題,確定滿足物資需求與時間需求的關系函數,從而設計出滿足應急物資需求的調度算法。然而因實驗環境有限,還存在許多不能深入研究的問題。在接下來的研究中,將考慮進一步優化材料分配制度,如分配路徑的阻塞和解除阻塞等意外情況的處理等問題,進一步提高物資分配效率。

表4 強化學習算法調度時間(min)