999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向建筑節能的強化學習自適應控制方法

2017-11-28 09:51:24胡齡爻陳建平傅啟明胡文倪慶文
中成藥 2017年11期
關鍵詞:設置動作實驗

胡齡爻 ,陳建平 ,傅啟明 ,4,胡文 ,倪慶文

1.蘇州科技大學 電子與信息工程學院,江蘇 蘇州 215009 2.江蘇省建筑智慧節能重點實驗室,江蘇 蘇州 215009 3.蘇州市移動網絡技術與應用重點實驗室,江蘇 蘇州 215009 4.吉林大學 符號計算與知識工程教育部重點實驗室,長春 130012

一種面向建筑節能的強化學習自適應控制方法

胡齡爻1,2,3,陳建平1,2,3,傅啟明1,2,3,4,胡文1,2,3,倪慶文1,2,3

1.蘇州科技大學 電子與信息工程學院,江蘇 蘇州 215009 2.江蘇省建筑智慧節能重點實驗室,江蘇 蘇州 215009 3.蘇州市移動網絡技術與應用重點實驗室,江蘇 蘇州 215009 4.吉林大學 符號計算與知識工程教育部重點實驗室,長春 130012

針對建筑節能領域中傳統控制方法對于建筑物相關設備控制存在收斂速度慢、不穩定等問題,結合強化學習中經典的Q學習方法,提出一種強化學習自適應控制方法——RLAC。該方法通過對建筑物內能耗交換機制進行建模,結合Q學習方法,求解最優值函數,進一步得出最優控制策略,確保在不降低建筑物人體舒適度的情況下,達到建筑節能的目的。將所提出的RLAC與On/Off以及Fuzzy-PD方法用于模擬建筑物能耗問題進行對比實驗,實驗結果表明,RLAC具有較快的收斂速度以及較好的收斂精度。

強化學習;馬爾科夫決策過程;Q學習;建筑節能;自適應控制

1 引言

縱觀近幾十年建筑領域的發展,建筑結構設計與設備管理方面,特別是涉及到生態控制和能源消耗的領域上,都有很顯著的進步和變化。一個明顯的轉折點是在20世紀70年代石油危機爆發之后,提出封閉的建筑物以最小化建筑物的能源消耗這一概念,但是這導致室內空氣質量直線下降和全世界范圍的健康問題。這就直接造成了研究確保人類舒適度的前提下,同時聯系光照、溫濕度和空氣質量等其他因素的研究趨勢。

在現有的能耗研究中,建筑物能耗占世界范圍內總基礎能耗的45%,這是在總能源消耗中占比例最高的一項。全球范圍的建筑能耗,包括民用住宅和商業建筑,在發達國家每年的增長速率已達到20%~40%。然而在一項調查中,商業建筑物的年均耗能大約是70~300 kWh/m2,這個數據是民用住宅的10到20倍。人口的增長、建筑服務壓力的提升和舒適標準的提高都增大了建筑物的能源消耗,這些預示著未來仍然會持續能源需求的增長趨勢。正是因為上述原因,建筑節能已然成為當今所有國家和國際水平在能源政策上重視的首要目標。建筑物的能源消耗問題已經得到越來越多的關注,畢竟建筑物是與人類生活工作息息相關的,也是現代化發展中必不可少的一個環節。

控制器是實現建筑節能必不可少的重要組成部分。神經網絡、模糊系統、預測控制和它們之間的組合是現有在建筑領域的主流控制器研發的方向[1-4]。Dounis等人提出一種Fuzzy-PD方法的控制器,用模糊的比例微分方法來控制建筑領域內的相關設備[2]。然而在智能控制算法上應用廣泛的是強化學習和深度學習[5],有許多學者將強化學習的方法應用在能耗預測或控制領域上[6-11]。其中較為典型的是Dalamagkidis等人于2007年提出的一種線性強化學習控制器——LRLC(Linear Reinforcement Learning Controller)[6],主要是用基于強化學習的時間差分方法(Temporal-Difference,TD)的算法,進行能耗監測和策略決策。LRLC與傳統的On/Off控制器和Fuzzy-PD控制器相比較,在監測能耗和控制穩定性上有更好的表現,但是由于其算法要求有足夠的探索過程,在真實的建筑物中,抽出一個很小的時間讓控制器去選擇隨機的動作是不可能實現的。因為即使選擇的動作是接近最優動作的,這也會導致用戶不滿度或者整體能源消耗臨時增加。在實際中出現的問題有:在冬天(或夏天)的時候控制器會允許開冷氣(或暖氣)。在此之后,Dalamagkidis等人還提出了一種基于RLS-TD(recursive least-squares algorithm)遞歸最小二乘算法的強化學習控制器[12],其實驗結果表明與之前的方法比較有進一步的提升。

由于傳統的方法如Fuzzy-PD[13-14],控制建筑領域內的相關設備,有收斂速度慢和穩定性差的缺點,于是提出一種強化學習自適應控制方法RLAC(Reinforcement Learning Adaptive Control)。RLAC采用Q學習算法對空調系統和通風系統等建筑內設備進行控制,通過狀態s得到r值進而得到Q值,從Q值中得到的策略選擇動作a,采取動作之后更新s,一直重復更新至終止時間步。RLAC與LRLC的差異在于:LRLC是需要確切模型的,而RLAC是不需要模型的,在與環境的交互中可最終收斂到最優策略。進行幾組對比實驗結果表明,RLAC方法具有有效的節能性;RLAC在不同初始狀態設置下均能達到良好的收斂速度和精度;與Fuzzy-PD方法和On/Off方法相比較,有更快的收斂速度,收斂之后更加穩定。

2 相關理論

一個強化學習任務可以被建模為馬爾可夫決策過程(Markov Decision Process,MDP),其中環境的狀態只取決于當前狀態和選擇的動作,因此可以利用現有的信息去預測未來的狀態和該狀態的期望回報。此時獎賞值函數只取決于當前狀態和動作,與其他歷史狀態和動作無關。MDP一般可以表示為一個四元組(S,A,T,R),其中S表示所有環境狀態s構成的狀態空間,狀態s可由多個變量構成;A表示學習器(Agent)所能執行的所有動作a構成的集合;T:S×A×S→[ ]0,1為環境狀態遷移概率函數,T(s,a,s′)表示Agent在狀態s中執行動作a后環境遷移到新狀態s′的概率;R:S×A×S→?為獎賞函數,R(s,a,s′)表示Agent在環境狀態s中執行動作a且環境遷移到狀態s′所能得到的立即獎賞,一般也用r表示。

策略(policy)定義了強化學習Agent的行為方式,簡單地說,策略就是從環境感知的狀態到可采用動作的一個映射。策略分為確定策略和隨機策略,確定策略是從狀態到動作的映射;隨機策略是從狀態動作對到概率的映射。因此,強化學習的目標是學習一個最優策略,該最優策略能夠獲得最大的期望累積獎賞,通常也被稱為回報,如式(1)所示:

其中γ是一個0≤γ≤1的參數,被稱為折扣率。γ越小,就表示Agent越關心長期獎賞。值函數是關于回報的期望,因此,強化學習問題也可以轉換為求解最優值函數的問題。值函數分為動作值函數Q(s,a)和狀態值函數V(s),其中狀態值函數V(s)用來表示狀態的好壞,動作值函數Q(s,a)用于表示動作狀態對的好壞。Q(s,a)與V(s)的更新公式如式(3)和式(4),其中 α在強化學習中被稱為學習率,其取值范圍是(0,1]。

很多強化學習問題是一個沒有終止狀態的問題,因此,回報值也會趨于無窮大。為了解決這個問題,強化學習中給出折扣回報的定義,公式如下:

強化學習方法可基本分為三類,每一種都有其適用范圍和優缺點,按照是否需要模型分為需要模型的動態規劃方法(Dynamic Programming,DP),以及不需要模型的蒙特卡羅方法(Monte-Carlo,MC)和時間差分方法(Temporal-Difference,TD)。MC和TD的區別在于MC需要走完一個情節到終止狀態再估計值函數,而TD則不需要完整的情節樣本。本文用的是時間差分的學習方法中的Q學習算法,是一種異策略(off-policy)的TD控制算法。在不依賴策略的情況下,Q學習學到的動作值函數Q會直接逼近最優動作值函數。Q學習的Q值更新公式為[15]:

3 強化學習自適應控制方法

3.1 算法框架建模

RLAC采用Q學習算法,狀態s是二氧化碳濃度、室內溫度和設置溫度的矩陣表示,動作a是空調系統動作、開窗動作和通風系統動作的排列組合,達到室內溫度穩定在設定溫度、通風并減少能耗的效果。

3.1.1 環境建模

對于Agent而言,外部環境是一個封閉性房間,需要的參數是房間內的溫度Tt(單位是攝氏度),室內CO2濃度ρt(單位為10-6)以及設置溫度setT(單位是℃),這三個參數構成了RLAC中的狀態s。根據實際情況,設置室內溫度Tt的范圍為[0,40],ρt的范圍為[200,1 000],實際情況的溫度和CO2濃度一定是處于這個范圍內的。CO2濃度的作用是:當CO2濃度低至300×10-6時給一個接近于0的值;當該濃度高于850×10-6時給一個接近于1的值。這里設置的300×10-6是室外CO2濃度能達到的最低水平,而850×10-6則是室內人體感覺舒適的最高水平。在開啟空調系統的同時,采取通風系統和開窗動作,會一定程度上減弱空調系統的作用,本文模型設定減弱參數為0.2。模型中CO2濃度與開窗動作和通風系統有關,影響因子比例設為1∶2。

3.1.2 算法框架設計

RLAC中全部動作建模為64×3的矩陣,action_num=64,其橫向量是一個三維的向量,表示一個動作。動作向量第一位kongtiao_fig表示空調系統動作:1表示取暖小風,2表示制冷小風,3表示取暖大風,4表示制冷大風;第二位windows_fig表示開窗狀態:0為關閉,1為微張,2為半張,3為全開;最后一位tongfeng_fig表示通風系統動作:0是關閉,1是小檔,2是中檔,3是大檔。

RLAC中狀態s=[Tt,ρt,setT]由房間內的溫度Tt,室內二氧化碳濃度ρt,以及空調設置溫度setT幾個參數構成,其計算公式如式(7)~(9)所示。狀態中附加的一個參數是實時能耗Et,其中T0是室內初始溫度,Emax是一個片段的空調系統、電動開窗系統和通風系統的最大總能耗值,這個值通常是由經驗獲得,可以從空調與通風系統設備的操作特性和它的近期操作設置中得到。T_penalty是室內溫度參數;indoor_air_quality_penalty是室內空氣質量參數;E_penalty是能耗參數。

獎賞被建模為在區間[-1,0]中可取任何值的變量,這個變量是作為一個懲罰值,也就是說在能源消耗非常高或者二氧化碳濃度很高時,這個變量值很小(接近于-1),反之這個變量值將很大(接近于0),其計算如式(6)所示。w1、w2、w3分別是其權重參數,室內溫度穩定在設置溫度是首要目的,同樣也要考慮CO2濃度和能耗因素,經過多次實驗效果對比,RLAC模型中參數的設置為:w1=0.7,w2=0.25,w3=0.05。這樣能保證最終r值在在區間[-1,0]內,并且整個系統保持良好的性能表現。

RLAC中狀態轉移公式如式(10)~(13)所示,其中T_changerate表示溫度變化速率,與采取動作是大風還是小風有關,其公式如式(12)所示。

r值作為模型最終評價標準,是室內溫度參數、室內空氣質量參數與能耗參數的加權值,設置r為一個負值,如公式(6)所示,當三個相關參數越小時,r的值就越大,模型需要的就是盡可能大的r值。也就是說,當室內溫度越接近設置溫度,室內CO2濃度越低,能耗值越低時,模型獲得的r值就越大,這也就是控制器要達到的最終目的——在不影響人的舒適度的條件下達到節能的目的。

3.2 控制算法

(9)直到s是終止狀態。

算法1主要借鑒Q學習的主要思想,在狀態s下采取動作a之后更新r值,利用Q中得到的策略選擇a并采取動作,之后進一步更新r和s。每一個時間步都采取動作并更新狀態和r值來改變策略,最終收斂于最優策略。

RLAC方法的具體算法,見算法1:

算法1 RLAC

(1)初始化r=0,a為64×3的矩陣。

(2)重復(對于每個片段)。

(3)初始化 s0(T0,ρ0,setT)。

(4)重復(對片段的每個時間步)。

(5)根據r的值選擇一個動作a,并采取這個動作。

(6)根據公式(10)~(13)進行狀態轉移 s←s'。

(7)根據公式(6)~(9)更新 r值。

(8)根據公式(5)更新Q 值。

4 實驗結果與分析

為了驗證RLAC模型的有效性,將仿真實驗在Pytho2.7環境中進行,采用的編輯器為Sublime Text3。下列實驗均設置每個情節最大步數為5 000步,一共160個情節共800 000步。

4.1 RLAC的仿真步驟

RLAC的仿真步驟如下:

步驟1 建立狀態變遷模型(如式(10)~(13)、獎懲反饋模型(如式(6)~(9)和評價行為值函數 Q(st,at)(如式(5))。

步驟2初始化評價行為值函數Q(st,at)、學習率α,折扣率γ,其中,s表示狀態因素,a表示行為因素,γ是一個0≤γ≤1的參數,狀態因素是由室內溫度Tt、室內二氧化碳濃度ρt、實時能耗Et和空調設置溫度setT構成,行為因素是由空調系統行為、電動開窗系統行為和通風系統行為構成。

步驟3運行片段,每個片段包括N個單位時間步,令時刻t=0,初始化初始狀態因素s0,也就是確定0時刻的T0、ρ0、E0=0和 setT 。

步驟3.1每個單位時間步的運行包括:對當前狀態因素st,根據貪心選擇策略h(st)計算確定出當前狀態因素st在時刻t的行為因素at,a∈h(st)。

采取這個行為因素at,根據建立的狀態變遷模型計算狀態因素的變遷,狀態因素變遷到下一狀態因素st+1。

根據建立的獎懲反饋模型計算得出在狀態因素st和行為因素at下的獎懲rt。

更新(如式(5))當前評價行為值函數Q(st,at)。

更新學習率α,t=t+1。

步驟4進行判斷,具體為:

若st+1對應的狀態不符合狀態結束條件,則返回到步驟3.1,進行下一單位時間步的運行。

若st+1對應的狀態符合狀態結束條件,則監測所有狀態因素下的評價行為值函數是否滿足預定的精度要求,若有評價行為值函數不滿足精度要求,則返回到步驟3進行新的片段的運行,若評價行為值函數都滿足精度要求,則結束循環。

步驟4中,若st+1對應的狀態不符合狀態結束條件是指:若st+1對應的單位時間步的步數小于循環設置的最大步數N;若st+1對應的狀態符合狀態結束條件是指:若st+1對應的單位時間步的步數等于循環設置的最大步數N。當然,狀態結束條件也可以設置為其他的狀態因素結束條件。

4.2 RLAC的仿真實驗結果

(1)關于模型的節能性的對比實驗

如表1所示,實驗1.1,1.2為一組,初始狀態都是s0=[8,850,30],其獎賞函數r的權重參數不同,實驗1.1設置為 w=[0.7,0.25,0.05],實驗1.2設置為 w=[0.7,0.3,0],其區別在于實驗1.1的獎賞函數中考慮了能耗參數,而實驗1.2的獎賞函數中未考慮能耗參數。實驗1.3,1.4為一組,初始狀態都是s0=[30,770,20],這兩個實驗區別也是在獎賞函數的權重參數設置上,與上一組實驗設置相同。實驗結果表明,是否考慮能耗參數并未影響實驗的收斂速度和收斂效果,只在總能耗值和平均能耗上產生差異。如表1所示,雖然在實驗收斂前,實驗1.1比實驗1.2的平均能耗分別高出430左右,但在實驗數據收斂之后,其平均能耗比實驗1.2的數據低了1 000左右,從長遠節能的方面考慮,考慮節能因素的實驗1.1比較未考慮節能因素的實驗1.2更符合節能的目的。實驗1.3與實驗1.4的實驗數據更能說明這一點,實驗1.3在收斂前后的平均能耗比實驗1.4分別低了2 000和4 300左右,表明考慮節能因素在內的獎賞函數使整個系統更節能。

表1 實驗1中四組子實驗各參數表

接下來的所有實驗均考慮能耗參數,即獎賞函數權重值w=[0.7,0.25,0.05]。

(2)關于RLAC方法收斂性能的對比實驗

實驗2.1的初始狀態為s0=[30,770,26],實驗2.2的初始狀態為s0=[16,770,26],實驗2.3的初始狀態為s0=[30,850,20],實驗2.4的初始狀態為s0=[8,850,30]。實驗數據如圖1至圖4所示。

圖1 實驗2收斂后CO2濃度變化

圖2 實驗2收斂之后溫度變化圖

圖1 是實驗2四組子實驗收斂之后CO2濃度的變化圖,由圖可知RLAC方法與實驗2.1在1 400步左右達到最低濃度300×10-6,并保持良好的穩定性;而實驗2.2、實驗2.3和實驗2.4則在1 200、1 600和1 400步左右達到一樣的效果。相比較而言,Fuzzy-PD方法表現不如RLAC方法,在四組實驗中分別在1 400、1 500、2 000和2 200步左右達到最低400×10-6左右。實驗表明,RLAC能在更短時間步內達到更好的通風效果,以保證良好的室內空氣質量。

圖2是實驗2中四組子實驗收斂之后室內溫度的變化圖,由圖可知兩種方法均可達到設置溫度并保持穩定,其差別在于收斂速度不同:RLAC在四組子實驗中分別在1 600、2 600、1 600和2 200步左右達到收斂;而Fuzzy-PD方法則需要2 600、3 500、2 400和2 800步。實驗表明,RLAC方法比較Fuzzy-PD方法能在更短的時間步內達到設置溫度,并保持良好的穩定性,保證室內良好舒適的熱環境。

圖3是實驗2在實驗過程中的總回報收斂圖,如圖所示實驗2.1每個情節總回報在前20個情節內RLAC回報處在震蕩非常大的階段,振幅一度超過6 000,但在20~80個情節內振幅保持在4 000以內,此時的震蕩幅度還是比較大;400 000步即80個情節左右收斂在-2 000左右,振幅不超過1 000。實驗2.2、實驗2.3和實驗2.4的總回報則分別在100、108和122個情節收斂到-4 500、-5 000和-13 000左右。

圖4是實驗2在160個情節內的每個情節所需收斂步數圖,如圖所示:實驗2.1在實驗剛剛開始幾個情節并未收斂,所以顯示的收斂步數是最大值5 000步;在60個情節之前收斂步數很不穩定,震蕩幅度很大,這個時間段RLAC處于學習階段;而在60~80個情節內,系統達到有微振幅的階段,此時系統在調整策略;最終在80個情節之后基本收斂在1 400步左右,系統達到穩定最優策略。實驗2.2、實驗2.3和實驗2.4則分別在100、100和120個情節之后達到1 500步左右并保持穩定。

圖3 實驗2總回報收斂圖

圖4 實驗2收斂步數圖

(3)關于RLAC方法對建筑物內相關設備控制性能的實驗

本實驗主要是將RLAC方法與Fuzzy-PD方法和On/Off方法進行對比實驗。

圖5是設置初始狀態為s0=[30,850,26]的情況下,總回報與情節數的收斂情況,該圖數據為20次實驗數據取平均得到。實驗中設置一共有160個情節,每個情節是5 000步,總步數為800 000步。

圖5 實驗3總回報收斂圖

由圖5可看出,RLAC模型在實驗開始階段表現很不穩定,每個情節的總回報值上下波動超過了±2 000,平均到每一步的獎賞波動超過±0.4,這是因為這個階段是Agent剛開始學習的階段,采取試錯的方法在探索與利用之間找到平衡。經過約30個情節訓練與學習,RLAC模型的總回報值波動值縮小到±500左右,平均到每一步的獎賞波動幅度約為±0.1;最后模型經過60個情節之后基本收斂,每個情節的總回報值上下波動不超過±70,平均到每一步的獎賞上下波動不超過±0.014,基本可以確定模型收斂。可以從圖中看到,RLAC模型Agent的學習速率是很快的,基本在300 000步(60個情節)就能收斂,總的實驗時間為0∶34∶57,收斂時間約為0∶13∶00。

圖6是RLAC在每一個情節內達到收斂所需步數,由圖中可看出:實驗設置每個情節為5 000步,剛開始實驗模型不能在5 000步內收斂;0~50個情節內收斂步數一直在2 500~4 400步的范圍里震蕩,這個階段是Agent的學習階段;50個情節之后收斂步數有個明顯下降的趨勢,直到60個情節基本穩定收斂在1 400步,說明在60個情節之后Agent找到了最優策略,使得系統在之后的每個情節內都能在14 00步左右達到穩定。

圖6 實驗3每個情節的收斂步數

圖7 是在每個情節總回報值基本收斂之后,隨機取出其中一個情節,在5 000步內室內溫度T的變化情況,每200步采樣一次。由圖可知,0~1 400步階段,RLAC模型Agent在探索學習階段,溫度變化很不穩定。但在1 400步之后本文模型基本穩定,室內溫度T保持在設置溫度26℃左右。由此可得出結論,RLAC模型Agent可滿足空調系統維持室內溫度等于設置溫度的要求。Fuzzy-PD方法在2 000步左右才收斂到設置溫度26℃,On/Off方法則需要在2 600步之后才能收斂。由圖7可得出,RLAC采用強化學習方法比傳統Fuzzy-PD方法和On/Off方法效果更好,在更少的步數內就能收斂達到穩定。

圖7 實驗3情節收斂后室內溫度變化圖

圖8 是在每個情節總回報值基本收斂之后,隨機取出其中一個情節,每200步采樣一次,在5 000步內室內CO2濃度的變化情況。由圖可知,0~1 200步階段,RLAC模型Agent在探索學習階段,CO2濃度沒有達到要求的低于450×10-6。但在1 200步之后本文模型基本穩定,室內CO2濃度保持在與室外CO2濃度380×10-6左右。而Fuzzy-PD方法在1 800步之后才到達穩定值400,;On/Off方法要經過2 400步的學習才達到收斂,收斂于485左右。由圖8可知RLAC模型可以滿足室內通風的效果,比另外兩個方法在更少的步數內收斂,并且CO2濃度穩定值最低,通風效果最好。

圖8 實驗3情節收斂后CO2濃度變化圖

5 結束語

針對傳統控制方法對于建筑物通風與空調系統控制存在收斂速度慢、不穩定等問題,提出一個基于強化學習的動態自適應控制模型RLAC,RLAC采用Q學習算法,對真實房屋空調系統與通風系統進行模型構造,并將節能因素考慮在內。RLAC輸入為CO2濃度、室內溫度和設置溫度三個狀態的矩陣表示,輸出是空調系統動作、開窗動作和通風系統動作的排列組合,目的是在保證達到設置溫度和CO2濃度的基礎上達到節能的效果。實驗中設置一共有160個情節,每個情節是5 000步,通過160個情節的實驗,并將RLAC數據與Fuzzy-PD方法和On/Off方法的實驗數據進行對比實驗。實驗結果表明:(1)RLAC方法具有有效的節能性;(2)RLAC在不同設置參數下均能達到良好的收斂性和穩定性;(3)強化學習的算法思想用于建筑物空調與通風系統的控制領域,對比Fuzzy-PD和On/Off兩種方法RLAC有更好的收斂性和魯棒性。

[1]Dounis A I,Santamouris M J,Lefas C C,et al.Thermal comfort degradation by a visual comfort fuzzy reasoning machineunder natural ventilation[J].Journal of Applied Energy,1994,48(2):115-130.

[2]Dounis A I,Santamouris M J,Lefas C C,et al.Design of a fuzzyset environmentcomfort system[J].Energy and Buildings,1995,22(1):81-87.

[3]Dounis A I,Bruant M,Guarracino G,et al.Indoor air quality control by a fuzzy reasoning machine in naturallyventilated buildings[J].Journal of Applied Energy,1996,54(1):11-28.

[4]Clarke J A,Cockroft J,Conner S,et al.Simulation-assisted control in building energy management systems[J].Energy and Buildings,2002,34(9):933-940.

[5]Mnih V,Kavukcuoglu K,Silver D,et al.Playing atari with deep reinforcement learning[C]//NIPS Deep Learning Workshop,2013.

[6]Dalamagkidis K,Kolokotsa D,Kalaitzakis K,et al.Reinforcement learning for energy conservation and comfort in buildings[J].Building and Environment,2007,42(7):2686-2698.

[7]Mocanu E,Nguyen P H,King W L,et al.Unsupervised energy prediction in a smart grid context using reinforcement cross-building transfer learning[J].Energy and Buildings,2016,116:646-655.

[8]Shaikh P H,Nor N B M,Nallagownden P,et al.A review on optimized control systems for building energy and comfort management of smart sustainable buildings[J].Renewable and Sustainable Energy Reviews,2014,34:409-429.

[9]Whiffen T R,Naylor S,Hill J,et al.A concept review of power line communication in building energy management systems for the small to medium sized nondomestic built environment[J].Renewable and Sustainable Energy Reviews,2016,64:618-633.

[10]Hazyuk I,Ghiaus C,Penhouet D.Model predictive control of thermal comfort as a benchmark for controller performance[J].Automation in Construction,2014,43:98-109.

[11]Yang L,Nagy Z,Goffin P,et al.Reinforcement learning for optimal control of low exergy buildings[J].Applied Energy,2015,156:577-586.

[12]Dalamagkidis K,Kolokotsa D.Reinforcement learning for building environment control[M].[S.l.]:INTECH Open Access Publisher,2008:283-294.

[13]Egilegor B,Uribe J P,Arregi G,et al.A fuzzy control adapted by a neural network to maintain a dwelling within thermal comfort[C]//Proceedings of Building Simulation,1997,97:87-94.

[14]Ulpiani G,Borgognoni M,Romagnoli A,et al.Comparing the performance of on/off,PID and fuzzy controllers applied to the heating system of an energy-efficient building[J].Energy and Buildings,2016,116:1-17.

[15]Sutton R S,Barto A G.Reinforcement learning:An introduction[M].Cambridge:MIT Press,1998.

HU Lingyao1,2,3,CHEN Jianping1,2,3,FU Qiming1,2,3,4,HU Wen1,2,3,NI Qingwen1,2,3

1.College of Electronics and Information Engineering,Suzhou University of Science and Technology,Suzhou,Jiangsu 215009,China 2.Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency,Suzhou,Jiangsu 215009,China 3.Suzhou Key Laboratory of Mobile Network Technology and Application,Suzhou,Jiangsu 215009,China 4.Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University,Changchun 130012,China

Building energy efficiency oriented reinforcement learning adaptive control method.Computer Engineering and Applications,2017,53(21):239-246.

With respect to the problem of slow convergence and instability for the traditional methods,in the field of building energy efficiency,this paper proposes a new reinforcement learning adaptive control method,RLAC by combining Q-learning.The proposed method models the exchange mechanism of the building energy consumption,and tries to find the better control policy by solving the optimal value function.Furthermore,RLAC can decrease the energy consumption without losing the performance of good comfort of the building occupants.Compared with the On/Off and Fuzzy-PD,the proposed RLAC has a better convergence performance in speed and accuracy.

reinforcement learning;Markov Decision Process(MDP);Q-learning;building energy efficiency;adaptive control

A

TP181

10.3778/j.issn.1002-8331.1702-0217

國家自然科學基金(No.61502329,No.61602334,No.61672371);住房與城鄉建設部科學技術項目(No.2015-K1-047);江蘇省自然科學基金(No.BK20140283);蘇州市體育局體育科研局管課題(No.TY2015-301);蘇州市科技計劃項目(No.SYG201255,No.SZS201304)。

胡齡爻(1994—),女,碩士,主要研究領域為強化學習、建筑節能;陳建平(1963—),男,教授,碩士生導師,主要研究領域為建筑節能、智能信息處理;傅啟明(1985—),男,講師,中國計算機學會會員,主要研究領域為強化學習、模式識別、建筑節能,E-mail:fqm_1@126.com;胡文(1992—),女,碩士,主要研究領域為強化學習、建筑節能;倪慶文(1993—),女,碩士,主要研究領域為建筑節能。

2017-02-22

2017-05-03

1002-8331(2017)21-0239-08

猜你喜歡
設置動作實驗
記一次有趣的實驗
中隊崗位該如何設置
少先隊活動(2021年4期)2021-07-23 01:46:22
做個怪怪長實驗
動作描寫要具體
畫動作
動作描寫不可少
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
本刊欄目設置說明
中俄臨床醫學專業課程設置的比較與思考
主站蜘蛛池模板: 免费一级无码在线网站| 色天堂无毒不卡| 亚洲日本www| 2022精品国偷自产免费观看| 欧美成在线视频| www.精品国产| 宅男噜噜噜66国产在线观看| 久久99国产综合精品女同| 亚洲人成人伊人成综合网无码| 99一级毛片| 亚洲永久精品ww47国产| 国产成人精品视频一区视频二区| 日韩精品无码一级毛片免费| 91午夜福利在线观看| 91国内视频在线观看| 在线无码私拍| 四虎成人免费毛片| 欧美专区日韩专区| 狠狠色香婷婷久久亚洲精品| 91视频99| 99久久精彩视频| 国产欧美精品午夜在线播放| 欧美19综合中文字幕| 久久美女精品| 91精品啪在线观看国产60岁 | 成人伊人色一区二区三区| 国产一区二区三区免费观看| 亚洲国产欧洲精品路线久久| 亚洲精品日产精品乱码不卡| 亚洲精品高清视频| 欧美综合一区二区三区| 亚国产欧美在线人成| 国产主播一区二区三区| 日本免费高清一区| 欧美日韩中文国产va另类| 欧美自慰一级看片免费| 亚洲日韩每日更新| 久久婷婷国产综合尤物精品| 欧美在线一级片| 天天综合网色| 一区二区影院| 熟妇丰满人妻| 91精选国产大片| 青青草一区二区免费精品| 丁香六月激情婷婷| 国产视频你懂得| 国产免费羞羞视频| 日韩在线视频网站| 久久香蕉国产线| 久久情精品国产品免费| 久久精品国产91久久综合麻豆自制| 在线无码av一区二区三区| 国产精品无码作爱| 国模在线视频一区二区三区| 成人看片欧美一区二区| 国产成人免费观看在线视频| 东京热一区二区三区无码视频| 国产日产欧美精品| 久久99这里精品8国产| 欧洲熟妇精品视频| 国产精品99一区不卡| 一本色道久久88综合日韩精品| 欧美色亚洲| 丝袜无码一区二区三区| 欧洲亚洲一区| 亚洲免费人成影院| 97超碰精品成人国产| 丁香五月激情图片| 五月激情婷婷综合| 免费毛片全部不收费的| 四虎国产永久在线观看| 国产成人综合久久精品下载| 网友自拍视频精品区| 99久久精品免费看国产电影| 福利在线免费视频| 在线免费观看a视频| 黄色网页在线播放| 欧美精品亚洲精品日韩专区va| 国产国拍精品视频免费看| 四虎影视库国产精品一区| 欧美激情福利| 国产成人免费视频精品一区二区|