張 欣, 薄迎春
(中國石油大學 信息與控制工程學院, 山東 青島 266580)
因為在降低數據傳輸次數和計算量的同時還能保證具有較好的控制性能,因此,事件驅動控制近年來一直是控制領域的研究熱點。與傳統的采樣方法不同,事件驅動提供了一個只在狀態采樣點更新的非周期策略。只有當事件觸發條件不被滿足時,對系統狀態進行采樣, 更新系統的控制率。在2次更新之間采用零階保持器保證控制器的輸出。
目前,已有許多文獻利用事件驅動控制方案解決不同的控制問題[1-5]。文獻[3]研究了線性系統的周期事件驅動控制。文獻[4]將事件驅動控制擴展到了離散非線性系統中。Tallaprogada等在文獻[5]中給出了事件驅動方法在非線性跟蹤問題上的控制方案。為了在事件驅動控制機制下研究系統的最優控制問題, 近期很多學者開始將自適應動態規劃(adaptive dynamic programming, ADP)方法引入到事件驅動控制方案中。ADP作為解決非線性系統最優控制問題的有效方法得到了廣泛關注[6-9]。文獻[10]求解了連續非線性系統的事件驅動自適應最優控制。S.Jagannathan等[11]研究了不確定連續非線性系統的事件驅動控制方法。王鼎等在文獻[12]中針對連續系統的H∞控制問題, 提出了基于混合數據和事件驅動的控制方案。文獻[13]研究了離散非線性系統的自適應事件驅動控制方法。
為了降低數據傳輸次數、計算量和神經網絡權值的訓練量,針對離散非線性系統的最優控制問題, 提出了一種基于單網絡值迭代算法的事件驅動控制方案。充分發揮了ADP算法、事件驅動控制和神經網絡各自的優勢。與典型的ADP算法相比, 舍棄了用3個神經網絡分別構建模型網、控制網和評價網的架構。只利用一個神經網絡來構建評價網, 繼而省略了模型網和控制網的神經網絡權值訓練量。并且引入事件驅動控制機制來有效地降低控制策略的計算次數以及系統狀態和控制器之間的數據傳輸。
考慮如下的離散非線性系統:
xk+1=f(xk)+g(xk)u(xk)
(1)
相應的性能指標函數為普通二次型形式:
(2)

將性能指標函數(2)展開, 可得

(3)
根據Bellman最優性原理[14],最優值函數V*(xk)是時變的, 并且滿足離散HJB方程:
(4)
最優控制策略u*(xk)應該保證HJB方程一階導數為零, 可求得
‖ek‖≤eT,k∈[ki,ki+1)
其中:ek=xki-xk為事件驅動誤差;eT為事件驅動閾值。僅當‖ek‖>eT時, 觸發條件不被滿足,事件驅動狀態誤差被重置為零,同時更新控制策略μ(xki)?u(xki),并且通過零階保持器保證在k∈[ki,ki+1]時間段內系統的控制策略不變,直到下一次事件觸發。因此, 系統狀態方程(1)重寫為
xk+1=f(xk)+g(xk)μ(ek+xk),k∈[ki,ki+1)
(5)
最優狀態反饋控制策略應該表示為
(6)
假設1 存在正數L, 滿足[13]
‖xk+1‖≤L‖ek‖+L‖xk‖
由于ek+1=xki-xk+1,k∈[ki,ki+1),根據假設1,可得
因此,定義事件驅動閾值為
其中常數α∈(0,1]為事件驅動閾值適應率,主要用來調節采樣頻率。
定理1 對于離散非線性系統(5),相應的性能指標函數為(2),當采用公式(6)中的事件驅動最優控制策略時,則閉環系統(5)是漸近穩定的。
證明 選取Lyapunov函數為
該Lyapunov函數的一階差分方程為ΔV=V(xk+1)-V(xk)。
情況1 事件沒有觸發,?k∈[ki,ki+1)
對于任意xk≠0,有ΔV<0,即Lyapunov函數的一階差分方程是負定的。
情況2 事件被觸發,?k=ki+1
對于任意xki+1≠0,有ΔV<0。綜合情況1和情況2可得,Lyapunov函數的一階差分方程是負定的,根據Lyapunov理論可得,閉環系統(5)是漸近穩定的。證明完畢。
事件驅動機制將整個控制過程分為了若干部分,控制輸入僅在采樣時刻更新,其他時刻保持不變,因此當k∈[ki,ki+1)時,控制策略為
其中V*(x)需要通過求解離散HJB方程(4)來獲得。而對于離散非線性系統來說,HJB方程(4)的解析解很難直接求解。因此本文將采用單網絡值迭代的ADP算法來求解HJB方程,進而獲得事件驅動近似最優控制策略。
單網絡值迭代算法僅利用一個神經網絡來構建評價網,省略了典型ADP算法中的執行網。如果系統動態已知,那么模型網也可以省略。典型ADP算法中執行網的輸出可以直接通過公式(6)計算獲得,系統狀態可以通過方程(5)計算得出。
采用一個三層神經網絡來構建評價網

(7)

典型ADP值迭代算法是通過在序列Vj(xk)和序列uj(xk)之間反復迭代獲得最優值函數和最優控制策略。在單網絡值迭代算法中,序列Vj(xk)為評價網輸出

其中:j代表迭代次數;k表示時間步,xk表示k時刻系統的狀態;uj(xk)表示k時刻第j次迭代的控制策略;Vj(xk)表示k時刻第j次迭代的值函數。當迭代次數j→∞時,序列Vj(xk)收斂到離散HJB方程(4)的解,即V∞(xk)=V*(xk),序列uj(xk)收斂到最優的控制策略,即u∞(xk)=u*(xk)[15]。
定義評價網的訓練誤差為

其中Δεc(k)=εc(k+1)-εck。
接下來,證明評價網權值估計誤差的收斂性。在證明開始之前,給出下列假設條件。
假設2 1) 評價網激活函數有界,φcm≤‖φc(·)‖≤φcM;
2) Δεc(k)具有上界,滿足‖Δεc(k)‖≤εcM。
定理2 評價網的權值更新規則為式(8)和式(9),如果下列不等式滿足
證明 選取Lyapunov函數為
根據柯西不等式和公式(10),Lyapunov函數的一階差分為
(13)

基于上述事件驅動機制和單網絡值迭代算法,可以獲得離散非線性系統的近似最優控制策略為
(14)
該單網絡值迭代事件驅動控制方案具體的執行步驟如下:

步驟2 令j=0,V0(xk)=0,計算u0(xk);
步驟3j=j+1;

步驟5 如果‖Vj+1(xk)-Vj(xk)‖<ξ或者j>jmax,跳轉步驟6,否則跳轉步驟3;
步驟6 令i=0,k=0;
步驟7 計算事件觸發誤差ek和閾值eT;
步驟8 判斷‖ek‖是否大于eT, 如果大于執行步驟9, 如果小于等于跳轉步驟10;
步驟9 令i=i+1,xki=xk,ek=0,由公式(14)計算事件驅動最優控制策略u*(k);
步驟10 由公式(5)計算系統狀態xk+1;
步驟11 如果‖xk+1‖≤或者i>imax,跳轉步驟12,否則跳轉步驟7;
步驟12 算法結束。
評價網訓練了1 500次,前500次中加入了持續激勵。圖2為事件驅動誤差的范數‖ek‖和閾值eT軌跡。圖3展示了本文所提事件驅動ADP算法(ET-ADP)與典型ADP算法系統狀態的對比情況。圖4為近似最優控制輸入軌跡。
仿真結果表明,本文所提的ET-ADP算法需要經過619步達到ò=10-5的穩態精度,但事件觸發次數僅為81次,與傳統的ADP算法相比,大大地降低了數據傳輸、控制輸入的計算和神經網絡的訓練量,同時保持了良好的控制效果。

圖1 評價網絡權值收斂軌跡

圖2 事件驅動誤差和閾值軌跡Fig.2 Trajectories of the ET error and threshold

圖3 系統狀態軌跡Fig.3 Trajectories of the system states

圖4 控制輸入軌跡Fig.4 Trajectories of the control input
本文研究了離散非線性系統的近似最優控制問題。結合ADP算法、事件驅動控制和神經網絡思想,提出了一種基于單網絡值迭代算法的事件驅動控制方案。首先,定義了新型的事件驅動閾值;然后,采用單網絡值迭代算法,僅利用一個神經網絡來構建評價網,利用Lyapunov理論證明了閉環系統的穩定性和評價網權值的收斂性;最后,將該方法應用到非線性系統的控制仿真實驗中。結果表明所提方法有效,并成功地降低了數據傳輸次數、計算量以及神經網絡權值的訓練量。