高文忠, 張毅
(上海海事大學商船學院,上海 201306)
在全球范圍內,建筑物能耗約占一次能源總能耗的40%,其中60%與熱舒適度有關[1]。當前,農業機械化水平越來越高,隨之而來的環境污染、能源匱乏等問題日益嚴重。農業設施的主要能源消耗為供能能耗,因此,能源穩定性和能耗成本是農業設施升級面臨的主要壓力。減少供能能耗可以有效降低農業中的能源消耗,減少環境污染。冷熱電三聯供(combined cold, hot and power,CCHP)系統可以充分利用一次能源,實現冷、熱、電分級利用[2],綜合能源利用率可達80%。它的發展和應用將有效提高能源效率及經濟效益[3],是實現能源可持續發展的重要途徑[4]。通過CCHP系統為農業設施供能將有效降低供能能耗。然而,在使用CCHP時,建筑的外部天氣環境、內部負荷動態變化、各機組之間耦合等為CCHP的協調運行帶來了很多不確定性[5],致使CCHP系統運行策略很難適應這些變化,導致用戶舒適度和供能經濟性難以達到預期設計。因此,通過優化控制來實現CCHP供能與負荷需求之間的高效匹配、最大限度地挖掘CCHP系統的固有優勢是當前CCHP系統的研究重點。
傳統CCHP系統的運行優化多采用啟發式算法,如遺傳算法[6]、粒子群算法[7-8]、混合整數線性規劃[9]等。雖然傳統的優化算法在CCHP穩定工況時有著一定的優化能力,但當工況環境發生變化時,只能重新對新環境訓練以給出優化策略,無法做出實時反應,這導致其在實際系統運用中,需要較高的時間成本。此外,針對CCHP系統的優化目標主要以多目標優化為主[10-13],而對于商業建筑,更關注運行成本[14-16]。需要特別指出的是,需量電費也是影響系統運行費用的關鍵因素之一。需量電費不同于電費,它是累計用電量的計算方式,通過整個計費周期內電網用電功率的峰值計算。這就導致了CCHP系統運行方案不僅會影響當前優化日,還會對連續多日優化產生影響,顯著增加了系統運行優化的難度[17-18]。
針對這種情況,深度強化學習(deep reinforcement learning,DRL)提供了一種新的思路和方法,它是通過對環境和策略的學習,獲得策略對于環境的價值,可以根據環境的變化實時改變策略,適合用于CCHP系統的運行優化。目前,針對能源系統的DRL算法應用已經有一些開創性的探索,如利用deep Q-network(DQN)算法、double DQN算法[19]、dueling double DQN算法[20]等進行離散動作的優化控制。此外,針對連續動作空間算法的應用,Du等[21]對比了DQN與deep deterministic policy gradient(DDPG)在多區域暖通空調連續控制下的熱舒適度和能耗成本,表明經過良好訓練的DDPG在該問題上有泛化性和適應性,實際應用性強;董雷等[22]和Zhang等[23]分別將Multi-Agent DDPG應用于電力、天然氣、淡水子系統中可再生能源驅動的多能源樞紐系統和電熱聯合系統的優化運行;藺偉山等[24]和阮應君等[25]分別將proximal policy optimization(PPO)和distributed proximal policy optimization(DPPO)應用于分布式能源系統與綜合能源系統的運行優化,其結果優于DQN和DDPG算法。
由于需量電費是通過周期內電網峰值用電功率的計價方式,導致給優化運行帶來了較多限制,提高了CCHP系統優化控制的復雜性。因此,本研究以投入使用的大型CCHP系統為研究對象,使用雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient, TD3)算法,來實現CCHP系統夏季供能優化控制,以期在考慮需量電費的情況下達到最小化運行成本的目標,驗證TD3代理在CCHP系統優化運行上的有效性和泛化性,以期為農業設施供能提供一種優化運行策略的方法,從而降低供能成本、提高系統經濟性。
研究對象為上海市世博B片區某公共建筑群供能的大型CCHP系統。它由內燃機(internal combustion engine, ICE)、雙效溴化鋰吸收式制冷機組(lithium bromide absorption chiller, AC)、離心式電制冷機組(centrifugal electric refrigeration chillers, EC)、鍋爐(boiler)和蓄能罐(thermal energy tank, TET)及配套輔助設施(auxiliary units,AU)共同組成。其能量流如圖1所示。

圖1 CCHP系統能量流圖Fig. 1 Energy flow for the CCHP system
該系統夏季運行的主要功能是為滿足區域性寫字樓群的冷負荷需求,ICE產生的電力提供給系統本身,而非外部建筑,所以整個系統采取以熱定電的運行模式,即優先滿足冷負荷,再平衡系統電力消耗和電網供電。電網供電包括購電和賣電2種形式:當系統內部電量不足時,從電網購電;當系統內部電量富余時,上網出售。
1.2.1 能量約束 電力約束包括電制冷和其他電消耗設備的電力需求,由ICE和電網供給。
式中,EC,t為系統總耗電功率(kW);EEC,i,t為EC耗電功率(kW);nEC為EC機組數量;EAC,t為輔助機組耗電功率(kW);EICE,i,t為ICE發電功率(kW);nICE為ICE機組數量;EGrid,t大于0時為從電網購電功率,小于0時為向電網賣電功率(kW)。
熱量約束:在供冷模式下,冷負荷由AC、EC和TET供給。
式中,QCCHP,CL,t為CCHP系統供冷功率(kW);QTET,t為TET在t時刻蓄入釋放的冷功率(kW);QEC,i,t為EC制冷功率(kW);QAC,CL,i,t為AC制冷功率(kW);nEC為AC機組數量;QCL,t為冷負荷(kW)。
1.2.2 內燃機 ICE發電效率ηICE,i,t隨其運行部分負荷率pICE,i,t變化如式(3)所示。
式中,a0、a1、a2、a3是經驗系數。
ICE實際發電功率EICE,i,t的計算公式如下。
式中,EICE,max為ICE額定發電功率(kW)。
ICE的天然氣消耗量SICE,i,t(m3)計算公式如下。
式中,LNG為天然氣低燃燒值(kWh·m-3)。
1.2.3 雙效溴化鋰制冷機組 ICE產生的高溫煙氣在AC中換熱,為樓宇夏季供冷。當ICE的負荷率發生變化時,ICE排出煙氣中的能量也發生變化,導致AC可利用的煙氣量發生變化。因此,AC制冷功率QAC,CL,i,t的計算公式如下。
式中,COPAC,CL為AC制冷工況下的制冷系數(coefficient of performance,COP)。
1.2.4 離心式電制冷機組 EC消耗電能為外部建筑供冷。EC的COP與電制冷部分負荷率之間的關系如式(7)所示。
式中,COPEC,i,t為EC的COP;pEC,i,t為EC的部分負荷率;b0、b1、b2、b3是經驗系數。
EC的制冷功率和耗電功率的計算如式(8)、(9)所示。
式中,QEC,max為EC額定制冷功率(kW)。
1.2.5 蓄能罐 TET在供冷工況下將存儲的冷量按照系統需要釋放。由于TET的蓄冷泵出力限制,故TET有每小時出力限制,如式(10)所示;TET容量限制如式(11)所示;TET下一時刻的蓄冷量QTET,CL,t+1(kWh)如式(12)所示。
式中,QTET,max為TET每小時最大蓄冷或釋冷功率(kW);QTET,CL,t為TET內蓄冷量(kWh);QTET,CL,max為TET最大蓄冷量(kWh)。
CCHP系統夏季優化的目標是:在滿足冷負荷的情況下,制定最低考慮需量電費的運行成本的運行方案。
實時運行費用Ct(元)由電網電力費用和天然氣成本組成。電網電力費用根據EGrid,t分為購電和售電2部分,其中,購電時采用階梯電價cGrid,buy,t(元·kWh-1);賣電時為固定價格cGrid,sell(元·kWh-1)。天然氣成本根據天然氣消耗量SICE,i,t計算得到,天然氣單價cNG(元·m-3)為固定值。實時運行成本Ct如公式(13)所示。
需量電費是每月結算的電費,它是為了限制每月峰值用電功率的計價方式,根據用戶當月每小時平均電網用電功率峰值,即最大需量,計算得到。為了便于后續優化中多日運行費用的計算,每日根據該優化周期內的最大需量計算當日需量電費。電功率最大需量(kW)和需量電費(元)的計算如式(14)(15)所示。
式中,cDC為需量電價(元·kW-1);dmonth為該月天數。
因此,考慮需量電費的目標函數Ctotal如式(16)所示。
1.4.1 CCHP系統控制優化映射到馬爾卡夫決策過程 馬爾卡夫決策過程是一種針對下一個狀態僅與當前狀態有關、與之前狀態無關的系統決策過程,通常被描述為一個五元組(S,A,P,R,γ)。其中,S是狀態空間;A是動作空間;S×A×S′→P是狀態轉移矩陣;S×A→R是獎勵函數;γ為折扣因子[25]。針對該CCHP系統的要素定義如下。
① 狀態空間。狀態空間是智能體獲取的環境信息。選取歸一化后的冷負荷、時刻、TET蓄冷量和最大需量作為狀態空間S,如式(17)所示。
式中,QCL,max為設計最大冷負荷(kW);EDC,max為系統設計最大需量(kW)。
② 動作空間。動作空間是智能體在狀態s下能選擇的動作。動作為EC和ICE的部分負荷率。因此動作空間如式(18)所示。
③ 獎勵函數。當智能體根據狀態空間選擇動作空間后,環境會給予獎勵,也會對不符合約束和表現不良好的動作空間給予懲罰。智能體為了獲得最大化獎勵會逐漸約束動作空間。獎勵函數分為局部獎勵函數和全局獎勵函數。其中,局部獎勵函數是對每個時刻的運行情況進行評價;全局獎勵函數是對優化周期優化完成后,對整個優化周期的運行狀況進行評估。由于不同時間的冷負荷變化較大,為了對不同負荷給予相近的獎勵,采取單位制冷量的運行成本作為獎勵函數的評價指標。局部獎勵函數Rt和全局獎勵函數RF如式(19)和式(20)所示。
式中,rP為違反供冷約束時的懲罰;Qmin為在沒有實際供冷情況下設置的假定供冷量;rF為當前運行周期完成時的獎勵。
當CCHP系統狀態st確定時,動作at的優劣程度可以使用動作值函數Q(s,a),即Q值來評估。
式中,Eπ(·)為策略π下的獎勵期望。
CCHP系統優化調度的目的是找到最優策略π*,如式(22)所示。
1.4.2 TD3算法 CCHP系統在連續控制問題上,由于TET冷量受前一時間點TET冷量和機組運行情況的影響、冷負荷受到室外天氣因素和內部負荷動態變化等因素影響,故馬爾卡夫決策過程中獲得準確的轉移概率較為困難。在無法獲得準確狀態轉移概率的情況下,基于模型的算法無法解決此類問題。DRL不需要事先了解環境或轉移概率,可以通過不斷與環境交互逐漸改進策略。為此,本研究采用DRL方法解決CCHP控制問題,具體采用TD3算法。
TD3算法是一種連續空間中的DRL算法,可用于優化馬爾卡夫決策過程。TD3是由DDPG改進得到。DDPG可以很好地工作,但存在高估價值的問題,因此,TD3可通過引入3種方式解決DDPG的問題:①使用2套Critic網絡評估動作的Q值,并采用其中較小的值來計算目標Q值,以解決Critic網絡對Q值過估計的問題;②使用延遲更新策略,即Critic網絡更新一定次數后再對Actor網絡進行更新,即Actor網絡的更新頻率低于Critic網絡,使Actor網絡訓練更穩定;③在更新過程中計算動作Q值時,對actor目標網絡輸出的動作添加噪音,讓更新時的動作產生一定波動,以達到對動作波動的學習,從而增加算法穩定性。
TD3算法使用3個神經網絡,包括1個Actor網絡(?)和2個Critic網絡(θ1,θ2),且每個網絡均有各自的目標網絡π?′和分別為目標動作和目標Q值。
①Critic網絡更新。Critic網絡的更新如式(23)~(25)所示。
式中,a′為在狀態s′下的動作;ε為添加的噪聲;N為批量大小;y為目標Q值。
②Actor網絡更新。Actor網絡的更新如式(26)所示。
③ 目標網絡更新。目標網絡的軟更新如式(27)(28)所示。
式中,τ為軟更新系數。
研究的大型CCHP系統總供能面積為65.7萬m2,設計最大每小時供冷量為56.8 MW,系統最大每小時耗電量為1.2 MW。該系統歷史運行數據來自數據庫實時記錄,包括負荷情況、機組出力、TET蓄冷量、購電量、天然氣消耗量等參數。該數據庫運行時的運行策略稱為歷史運行策略。系統的機組、參數、經濟性參數分別如表1和表2所示。

表1 機組參數Table 1 Parameters of units

表2 經濟性參數Table 2 Economic parameters
TD3代理中的Actor和Critic網絡詳細參數如表3所示。為了減少各機組之間的頻繁啟停,將DRL給出的方案按EC和ICE的部分負荷率分別排序后作為實際運行策略。

表3 DRL的DNN結構Table 3 DNN structure of DRL
DRL的控制間隔設置為60 min。在訓練階段,采取24 h作為1個訓練集,連續控制優化5 d。模型訓練時,初始時刻蓄能罐的蓄冷量為0 MWh,最大需量為0 kW,連續優化中后續天數的初始參數為前1 d運行后TET中的剩余蓄冷量和最大需量。訓練完成后將其應用于不同的負荷下進行測試,由該時刻數據庫中TET的蓄冷量和最大需量作為初始值,進行連續5 d優化控制。
選取2020年7月27—31日數據進行控制優化。根據歷史數據庫中記錄的數據,初始時刻采取蓄能罐蓄冷量40 MWh,最大需量0 kW。TD3代理給出的不考慮需量電費和考慮需量電費的運行策略和歷史運行策略的運行成本和負荷供給狀況如表4所示。歷史運行策略的運行成本為415 417.9元;TD3代理給出的不考慮需量電費和考慮需量電費運行策略的運行成本分別為265 680.0和242 892.0 元。

表4 不同運行策略結果Table 4 Results for different strategies
不同運行策略下的電功率和機組出力圖如圖2所示。歷史運行策略下,在電價低谷期對TET進行蓄能,冷負荷高峰期根據負荷大小控制EC運行數量;由于沒有ICE輔助供電,EC運行時直接電網購電量明顯較高,因此需量電費也較高;溢出冷量主要來自于蓄冷階段的過量供冷,引發了額外運行成本。因此,歷史運行策略的經濟性較差。不考慮需量電費的TD3代理給出的運行策略下,在供冷階段中,根據冷負荷大小開啟EC和AC,在電價高峰期通過ICE供給整個CCHP系統,通過降低用電成本方式來減少總體運行成本;在電價低峰期且TET蓄冷量過少時,會通過EC對TET進行蓄冷,電力購入費用主要來自于該時段;這表明TD3代理掌握了由時間帶來的電價變化,從而降低了運行成本,其實時運行成本相較于歷史運行策略降低了34.1%。考慮需量電費的TD3代理給出的運行策略下,在電價低峰期、且TET蓄冷量過少時沒有單獨開啟EC蓄冷,顯著降低了單獨運行EC引起的最大需量,所以需量電費很少;相較于歷史運行策略,考慮需量電費的TD3代理給出的運行策略的需量電費降低了92.6%,總運行成本降低了41.5%;與不考慮需量電費的TD3代理相比較,考慮需量電費的TD3代理給出的運行策略的實時運行成本增加0.35%,但降低了85.5%最大需量,總運行成本降低了8.6%。由此表明,TD3代理可以充分實現需量電費的優化目標,優化過程平衡了需量電費和實時運行成本。

圖2 不同運行策略下的電功率和機組出力圖Fig. 2 Electrical power and units outputs under different operating strategies
將訓練好的考慮需量電費的TD3代理應用到不同特征的冷負荷中,以驗證TD3代理對于不同特征負荷的泛化性。于2021年7月26日至8月27日連續5周冷負荷,將其中連續5個工作日作為1組測試周數據(圖3)。相較于訓練負荷數據,該測試負荷每日供冷時間更長,且不同測試周之間,峰值冷負荷有較大幅度變化。優化結果(表5)表明,TD3代理結果相較于歷史運行策略有著明顯的成本優勢,首先,所有測試周期均無溢出冷量,從而沒有因過度供冷而導致的費用;其次,最大需量都保持在較低水平,且均低于歷史運行策略,從而需量電費較低。因此,經過良好訓練的考慮需量電費的TD3代理,可以給出滿足負荷的低運行成本方案,具有良好的泛化性。

表5 不同特征負荷的優化結果Table 5 Results for different characteristic loads

圖3 多周冷負荷Fig. 3 Multi-weekly cooling load
在農業節能改革的當下,大力發展低碳農業是必然趨勢。作為農業設施主要能耗的供能能耗,減少供能能耗能有效減少碳排放。由CCHP系統為農業設施供能,可以同時供給電能和冷、熱能,有效降低農業能耗。為了解決考慮需量電費CCHP系統夏季控制優化的問題,本研究提出了一種基于TD3算法的優化運行方案。該方案以考慮需量電費的運行成本為優化目標,實現了對CCHP系統各機組負荷率的調度優化,有利于為農業供能設施提供良好的運行策略,減少供能成本,達到降低運行成本、提高經濟性的目的。本研究結果表明,在滿足負荷的前提下,不考慮需量電費的TD3代理給出的運行策略的實時運行成本較歷史運行策略降低了34.1%;考慮需量電費的TD3代理平衡了實時運行成本和需量電費,其總運行成本較不考慮需量電費的TD3代理降低了8.6%。對不同特征負荷的實驗表明,經過訓練的TD3代理對冷負荷特征變化有一定的適應性,具有泛化性;相較于歷史運行策略,運行成本和最大需量更低。