(西安建筑科技大學 信息與控制工程學院,西安 710055)
近年來,隨著我國城市規模的快速發展和城鎮化率的提高,北方城市市政集中供暖建筑面積不斷增加,隨之而來的是建筑供暖能耗的快速增長。當前,建筑供暖末端的調節閥多為手動調節閥,且大多處于“全開”和“全關”的運行狀態,這種“全開”和“全關”的控制方式一方面給用戶帶來不良的熱舒適體驗,另一方面也造成建筑供暖能量的大量浪費。因此,建筑供暖節能存在巨大潛力,而如何實現供暖末端的高效調控,既是改善供暖室內環境熱舒適性、降低建筑能耗的關鍵,也是集中供暖系統節能亟待解決的問題。
針對集中供暖系統與供暖末端的調控問題,國內外學者開展了大量研究,如I.H.Yang[1]等人研究了人工神經網絡(ANN)在供暖系統中的應用,針對溫控系統的時間滯后問題,采用ANN來估算供暖系統的啟動時間以加快系統響應,提高用戶的熱舒適性;L.Z.Li[2]等人采用6種不同的混合控制策略對鍋爐系統的燃油燃燒速率、熱水流量和熱水溫度進行控制,取得了近17%的節能效果;徐寶萍[3]等綜述及評價了國內外末端控制相關研究情況,提出了突破單一用戶室溫控制、兼顧供暖系統水力工況及回水溫度變化的系統優化控制思路;王嬌[4]等采用模糊控制理論,設計了根據各參數隸屬度函數及參數調節規則的自校正模糊控制器;李琦[5]等在分析集中供熱系統運行機理的基礎上,建立熱源總熱量生產優化問題的數學描述,利用雙啟發式動態規劃(DHP)算法和質量并調的控制策略求解,獲得熱源供水流量和供水溫度的優化設定值;刁成玉琢[6]等采用實驗研究方法對比分析了風機盤管、頂板輻射、側墻輻射、地板輻射4種不同供暖末端時的室內溫濕度、空氣流速和壁面溫度等數據,獲得了4種供暖末端的熱舒適性結論。上述研究取得了許多積極成果,對本文研究的開展具有較好的借鑒意義。
比例-積分-微分(PID)控制以其結構簡單,魯棒性好和工作可靠性高的特點而在控制領域得到了廣泛應用,但傳統PID 的參數一旦確定就無法在線調整,難以滿足時變系統的控制要求,如何高效地調整和優化PID的控制參數成了人們競相研究的問題。近年來興起的強化學習為PID參數自適應調整提供了新的思路和方法,并取得了較好的應用效果[7-10]。本文在分析現有研究成果的基礎上,以PID控制算法為基礎,針對集中供暖末端控制系統存在大滯后、強耦合的特點,引入強化學習算法,提出一種基于Q學習的PID參數在線優化的供暖末端流量控制算法,旨在利用Q學習算法對PID 參數進行整定與尋優,從而獲得更優的控制參數,并在仿真實驗中驗證該方法的有效性和節能效果。
典型的PID控制器原理如圖1所示。

圖1 PID控制系統原理圖
典型的PID控制系統由控制器、被控對象和反饋回路組成。PID控制器根據設定值和實際輸出值之間的偏差,對偏差進行同比例放大(或縮小)、積分以及微分后,通過線性組合構成控制量,進而對被控對象進行控制,其控制規律如下:
(1)
式中,e(t)=r(t)-y(t)為控制量;Kp為比例系數;KI為積分時間常數;KD為微分時間常數[11]。
由傳熱學理論可知,供熱末端—采暖房間的熱平衡方程可表示為:
Q=Q得-Q失
(2)
式中,Q得為采暖房間總得熱量,即散熱器散熱量;Q失為采暖房間總失熱量,主要包括房間維護結構傳熱耗熱量Q1和門窗縫隙滲入的室外空氣吸熱量Q2;Q為采暖房間的最終熱量,且有:

(3)
式中,Ck為采暖房間空氣的熱容,Ck=c1·ρ1·V,ρ1為室內溫度下的空氣密度,其取值一般通過查詢《傳熱學附表》可得。
散熱器釋放熱量為:
Q得=Gcp(tg-th)
(4)
式中,tg為散熱器進口熱水溫度(℃);th為散熱器出水口熱水溫度(℃);G為散熱器進水流量(m3/s);cp為熱水比熱。
室內外通過圍護結構傳遞的熱量為:
(5)
式中,tn為用戶室內當前溫度(℃);tw為戶外溫度,S為圍護結構的傳熱面積(m2),k1為圍護結構(外墻)的平均傳熱系數(W/m2·℃),L為墻體厚度m。
室內外空氣對流換熱量為:
Q2=λ·ν·ρ2·c2(tn-tw)
(6)
式中,λ為單位換算系數,1 KJ/h=0.278 W;v為門、窗縫隙滲入室內的總空氣量(m3/h),v=M×H×β;其中:M為每米門、窗縫隙滲入室內的總空氣量(m3/h·m),H為門、窗縫隙的計算長度(m),β為修正系數,根據《供熱工程》附錄查閱可知西安地區滲透量的修正系數為0.7。ρ2為冷空氣的定壓密度,c2為冷空氣的定壓比熱。將式(3)~(6)代入式(2)可得:
ρ2·c2(tn-tw)
(7)
式(7)即為供暖房間的熱平衡數學模型。由式(7)可知,當供暖房間面積、圍護結構參數等確定后,散熱器入口流量決定室溫變化率,由于室溫設定值為人為設置,則通過控制流量大小控制房間溫度變化。
強化學習算法(RL算法)是機器學習的一個重要分支,其區別于深度學習中的有監督學習和無監督學習,通過試錯與環境交互獲得策略的改進,進行自學習和在線學習[12]。其受到大腦學習本質的啟發,只通過智能體與環境交互而不知道系統模型的基礎,模擬動物學習行為過程中大腦的學習過程,通過智能體(即實際運用中的傳感器)與環境條件相互作用獲得先前數據,獨立自主進行動作選擇,生成控制策略,不斷循環,使智能體具有自主學習能力。強化學習過程如圖2所示,智能體(Agent)不斷與環境(environment)進行信息交互。智能體Agent感知環境當前狀態St∈S,根據初始策略施加一個動作at∈a給環境Environment,環境在該動作的作用后,更新狀態為St+1∈S,同時根據獎懲計劃提供一個獎勵或懲罰以更新策略,然后智能體Agent再次感知環境新狀態St+1∈S選擇新的動作at+1∈a,直到到達終端狀態ST∈S。智能體Agent的目標就是獲得最大化獎勵的概率下得到一個最優控制策略。

圖2 RL中智能體-環境交互的圖示
強化學習是一種基于馬爾可夫決策過程的無模型增量式動態規劃,其屬性為:t時刻狀態信息足夠以供智能體Agent進行決策生成t+1時刻動作,從而決定進行決策t+1時刻狀態[13]。假定環境的所有可能狀態是一個有限狀態的離散馬爾可夫過程,強化學習系統對每一步動作的選取為單步進行,環境在接受動作后便發生狀態轉移,并得到評價函數,其中狀態轉移的概率為:
(8)
策略π下給定狀態下的狀態值函數定義為:
(9)
其中:γ∈(0,1]是權衡下一步回報率的折扣因子,Eπ表示策略π下的期望值。因為在動態規劃中至少得保證有一個策略π*,并有:
Vπ*(st)=max{r(π(st))+γ∑P[st,at,st+1]Vπ*(st)
(10)
類似的,在策略p下的狀態s中采取動作a的動作值函數Qπ可以定義為:
Qπ(s,a)?Eπ[Gt│St=s,At=a]=
(11)
在所有動作值函數中,最佳動作值函數定義為:
Qπ*(s,a)?maxπQπ(s,a)
(12)
式中,π*為最優策略,當策略為π*時,動作函數值Qπ(s,a)最大。在最佳動作值函數最大時的π*為最優策略,根據生成的最優策略π*,確定最優PID增益(Kp(t),Ki(t),Kd(t))進行室溫控制。
Q學習算法是一種基于時間差分方法的無模型控制算法,是RL領域最重要的進步之一[14]。Q學習使用狀態-動作值函數Q(St,At)來查找最優策略π*,動作值函數Q(St,At)的定義如下:
Q(St,At)=Q(St,At)+α[Rt+1+
γmaxaQ(St+1,a)-Q(St,At)
(13)
式中,α∈(0,1]是學習率。Q學習算法的偽代碼如算法1所示。
算法1:Q學習算法
Step1:初始化任意Q(s,a),?a∈A,?s∈S;
Step2:循環所有epsode;
重復
Step3: 更新狀態St;
重復
Step4: 執行動作At,觀察St+1和Rt+1;
Step5: 根據式(13)更新Q值;
Step6:St←St+1;
Step7: 直到St達到最終狀態ST;
Step8: 直到episode 結束。
基于Q學習的供熱末端自適應PID控制系統結構如圖3所示,包含PID控制器和學習Q表兩個部分。PID 控制器實現供熱流量的調節,控制器參數Kp,Ki,Kd通過在線學習的Q表進行自適應調整。

圖3 基于Q學習PID的供熱末端系統控制器結構
室溫設定值tnref作為輸入,將室溫tn(t)與設定值的偏差作為控制量,進行PID控制。便于數據采樣,將室溫tn(t)和進水口流量G(t)離散化得到n1(t)和n2(t)作為狀態,進行Q學習,生成3個Q表,每個Q表分別與PID控制器的比例增益Kp、微分增益Ki和積分增益Kd相對應,當給定當前狀態時,每個學習的Q表生成PID控制器增益的最佳值。
本文中基于Q學習PID的關健是對PID增益參數Q表的訓練,通過Q表將不同環境狀態映射到不同的PID的增益上。為加快Q表學習過程,采用了適應模型參數的啟發方式——Delta-Bar-Delta[15]自適應學習率方法。訓練出當前狀態下最優的PID增益后,根據式(2)~(7)計算出控制量u(t),在控制量作用后再觀察新狀態下的流量和室溫,比較前后時刻狀態獲得獎勵Rp,并繼續進行訓練學習,不斷通過觀察狀態訓練Q表,得出每個狀態下的PID增益以控制閥門開度改變環境狀態。故結合Q學習PID控制算法的偽代碼如算法2所示。
算法2:結合Q學習的PID控制算法
Step1:初始化任意Qi(s,a)=0,?a∈A,?s∈S,i=1,2,3…6;
Step2: 更新學習率a1和a2;
Step3: 更新ε-greedy策略的ε;
Step4: 當episode Step5:t=0; Step7: ε衰變,(當episode>0.6×maxepisode,ε=0); Step8: fort=1;t≤maxtime,t++; Step9: 將St離散化,獲得:n1(t),n2(t); Step10: fori=1;i≤3,i++ Step11: 根據n1(t),n2(t)選擇動作Ai,遵循ε-greedy政策; end Step12: 根據式(2)~式(7),獲得完整的輸出u(t); Step13: 觀察新狀態St+1(tn(t+1),G(t+1)); Step14: 獲得Q1(s,a),Q2(s,a)和Q3(s,a)的獎勵Rp; Step15: 將St+1離散化, 獲得:n1(t+1),n2(t+1); Step16: 更新Q1(s,a),Q2(s,a)和Q3(s,a)的學習率α1; Step17: 用Rp和α1更新Q1(s,a),Q2(s,a)和Q3(s,a); Step18:St←St+1; End End 3.4.1 離散化 為加快訓練速度,對于效果相同的情況可為同一控制參數進行調節,故將每個連續變量被分成幾個區間,同一區間內的值被視為一個相同的狀態。使用相同的規則設置存儲區間定義為: (14) 其中:[x]=max{n∈Z|n≤x};n表示離散變量;xcon表示連續變量;Xmin和Xmax分別是xcon的下限和上限;N表示每個變量被分成的區間數,在這種情況下N=10。區間的數量取決于模擬性能。 本文需將室內溫度tn和閥門開度K通過式(14)區間劃分進行離散化處理,離散化設定的值如表1所示。 表1 系統離散化約束 3.4.2 ε-greedy方法 為保證獎勵最大化,采用當前Q值最大的動作,因為在ε-greedy策略中,ε的值越大,表示采用隨機的一個動作的概率越大。故當給定當前狀態時,三個Q表都根據ε-greedy方法生成動作,此方法被定義為: (15) 式中,ξ∈[0,1]是一個正態分布的隨機數。 (16) 其中:eps是當前episode,而maxepisode是episode的最大值。 3.4.3 獎勵策略 獎勵策略根據應用實際情況而定。本文根據室內供熱末端系統將獎勵函數分為3種情況:調控后室溫趨于設定溫度,室溫遠離設定溫度,室溫無變化。 1)調控后室溫趨于設定溫度。根據at得到的增益調控所得室溫tn(t)與設定值T設的差值小于t-1時刻室溫tn(t-1)與T設的差值,即說明此次調控有效,給予其調控所達效果的獎勵值,即為前后時刻室溫變化值。 2)調控后室溫遠離設定溫度。根據at得到的增益調控所得室溫tn(t)與設定值T設的差值大于t-1時刻室溫tn(t-1)與T設的差值,即說明此次調控為干擾調控,獎勵負值。 3)調控后室溫無變化。根據at得到的增益調控所得室溫tn(t)與設定值T設的差值等于t-1時刻室溫tn(t-1)與T設的差值,即說明此次調控無效,即不獎勵不懲罰。 所以獎勵計劃如下: r(t)= (17) 3.4.4 自適應學習率 為了提高收斂效率,采用Delta-Bar-Delta[15]自適應學習率算法。算法定義為: (18) 當學習速率變得太大時,學習速率的增加改變符號并降低學習速率。另一方面,如果學習速率太小,則學習速率在先前趨勢中保持變化并加速收斂。所以本文通過將當前TD誤差與先前步驟中的累積TD誤差進行比較來更新學習速率,即時間步驟t+1中的學習速率為: αt+1=αt+Δαt (19) 實驗環境為西安地區高3 m,寬7 m,長10 m的供暖房間,故采暖房間體積為V=210 m3,窗戶為1 800 mm×1 500 mm單層金屬窗,其墻體主要為鋼筋混凝土制造,墻體厚度為L=0.2 m,查閱《供熱工程》附錄可知,鋼筋混凝土圍護結構(外墻)的平均傳熱系數為k1=1.74 W/m2,西安地區空氣滲透量修正系數β=0.7。根據我國《采暖通風與空氣調節設計規范》查閱,設定溫度設置為18℃,西安城區冬季未供暖下平均室溫為5℃,即實驗中初始室溫為5℃。仿真實驗中各參數變量的取值如表2所示。 將表2實驗環境數據代入式(7),可得到: (20) 整理得到: (21) 將式(21)拉氏變化可得: (253.4112s+889.0607)Tn(s)=125.478G(s)+1778.1214 (22) 表2 實驗環境參數取值 由于本文僅考慮熱水流量控制對室溫調節的影響,即當實驗環境確定時,即房間結構參數、室外溫度和室內初始溫度確定時,供暖房間的熱平衡數學模型如式(22)所示。 本文在Simulink中搭建室內熱平衡模型,在Matlab中利用傳統PID和基于Q學習的改進PID算法對模擬實驗環境下的供熱末端控制系統式(22)進行仿真。分別比較了其輸出量室溫和控制量閥門開度的變化,也比較了控制過程中熱水總流量,并且從系統的性能指標上進行了對比。 對比圖4可以看出,調節過程中基于Q學習PID控制的室溫變化明顯比傳統PID控制策略超調量更小,所以其在熱量利用率會相對更高;其振蕩次數更少,人體對室溫的舒適度更好。不過基于Q學習改進PID控制策略使室溫達到穩態的時間較長,其主要原因是基于Q學習實現PID參數在線調節的過程中數據計算量大。 圖4 室溫變化仿真結果 在開度調節方面,對比圖5可以看出基于Q學習改進PID控制策略下的閥門開度變化更加平緩,其調節過程中所需要的供熱流量為G總=626.1836 m3,而傳統PID控制策下閥門調節后,整個控制過程所需的供熱流量為G總=934.421 m3,基于Q學習的自適應PID控制系統節約了32.99%的供熱量。從閥門損耗角度而言,對閥門的損耗會更小,閥門使命壽命也會得到增長。 圖5 開度變化仿真結果 為了更精確分析兩種控制策略的控制效果,結合室溫變化仿真結果做了控制性能指標分析。 表3 控制性能指標分析 根據控制性能指標分析可知基于Q學習改進PID的控制策略穩態時間在9.75 min,傳統PID控制策略穩態時間在6.78 min,考慮實際情況下,15 min內達到設定溫度可以滿足供熱用戶的需求。 由于室內供暖過程中突變環境較為復雜頻繁,如當室溫達到設定值后,由于外來人員的突然闖入或開窗使得外來冷空氣滲入導致室內溫度驟降等。為得知基于Q學習PID控制策略在環境突變下的控制效果,本文在t=800 s時,室內溫度發生突變驟降為14℃后,比較基于Q學習PID控制策略和傳統PID控制策略的控制效果,仿真結果如圖6所示。 圖6 環境突變下室溫變化仿真結果 針對集中供熱末端流量調節的PID控制參數優化與節能問題,首先依據傳熱學理論分析和推導了散熱器、圍護結構和室內外空氣對流換熱的熱動態過程和傳熱過程,建立了供熱房間的熱平衡數學模型,在此基礎上,以優化PID參數和供熱末端節能為目標,提出了基于Q學習在線優化PID參數的供熱末端流量控制算法,設計了自適應PID控制器,實現了PID參數的在線整定。最后通過仿真實驗驗證了所設計PID控制器的調控性能并與傳統PID控制結果進行了對比,仿真實驗結果表明,所提方法能夠實現室內溫度和調節閥開度的平緩調控,且能節省約33%的供熱量。當發生突變后,基于Q學習PID控制策略的振蕩也優于傳統PID,初始溫度-設定溫度-發生突變-設定溫度整個過程,基于Q學習的自適應PID控制系統能耗減少了30.02%。在保證室內環境的熱舒適性的基礎上對降低建筑供熱能耗具有重要的意義。

4 仿真實驗
4.1 仿真環境



4.2 實驗結果分析





5 結束語