王建宏, 朱永紅, 肖 絢, 唐得志
(1.景德鎮陶瓷學院機電學院,江西景德鎮 333403; 2.南京航空航天大學自動化學院,南京 210016)
傳統的最優控制包含有限時域和無限時域,通常反饋控制系統應該運行于充分長的時間周期中,如電力系統和化學過程。在這些實時過程中,不能采用有限時域最優控制而應使用無限時域最優控制。為此基于最優控制理論,提出了一種新穎的控制策略——滾動時域控制(RHC)。RHC的理論思路為[1]:假設在當前時刻可獲得一個最優控制序列,可能是在一個有限固定時域中的閉環形式或開環形式。在整個固定時域的最優控制系列中,僅取序列中的第一個元素作為當前時刻的控制率。當狀態空間形式中的狀態可獲得時,RHC通常利用狀態反饋控制來表示。然而系統的全狀態信息并不能獲得,因為對所有狀態的觀測或估計是不可能的,同時也是非常耗費精力和物力的。
在系統辨識和控制器設計過程中經常對一目標函數進行最優化運算得到未知參數估計值,其優化的計算過程較多地采用牛頓法、擬牛頓法、高斯法和共軛梯度法[2]。根據具體的模型結構及優化函數表達式,可對上述方法進行改進,以使得優化算法較快地收斂到全局最優值。
滾動時域控制在每一采樣離散時刻,用系統的當前狀態作為初始條件,在線求解一個有限時域開環最優控制問題,得到最優控制序列[3]。并在該時刻,僅取最優控制序列過程中的第一個控制信號實際作用到系統中。在下一采樣時刻,重復以上過程,此過稱隨著時間的推進反復滾動進行。對于含狀態約束以及輸入約束等限制條件的系統,滾動時域控制是一種有效的控制方法。滾動時域預測控制的基本原理可概括為以下3點:預測模型、滾動優化和反饋校正。這3點的組合是預測控制區別于其他控制方法的基本特征,同時也是預測控制在實際工程應用中取得成功的技術關鍵。其通用的結構如圖1所示,其中,M為輸入的控制過程。

圖1 滾動時域預測控制的基本結構Fig.1 The basic structure of RHC
預測模型的功能是根據對象的歷史信息和未來輸入來預測其未來輸出的,因此狀態方程、傳遞函數這類傳統的模型都可以作為預測模型[4]。對于線性穩定對象,甚至階躍響應、脈沖響應這類非參數模型,也可直接作為預測模型使用。此外,非線性系統、分布參數系統的模型,只要具備上述功能,也可在對這類系統進行預測控制時作為預測模型使用。
預測模型具有顯示系統未來動態行為的功能,對于不同的控制策略可用預測模型計算出不同的輸出預測軌跡,從而作為選擇最優控制策略使系統某個性能指標優化的基礎。
預測控制是一種基于優化的控制算法,它是通過某一性能指標的最優來確定未來的控制作用[5]。這一性能指標涉及到系統未來的行為,例如,通常可取對象輸出在未來的采樣點上跟蹤某一期望軌跡的方差為最小;但也可取更廣泛的形式,例如要求控制能量為最小而保持輸出在某一給定范圍內等。性能指標中涉及到的系統未來的行為,是根據預測模型由未來的控制策略決定的。
需要強調的是,預測控制中的優化與傳統意義下的離散最優控制有很大的差別,這主要表現在預測控制中的優化通常是一種有限時段的滾動優化。在每一采樣時刻,優化性能指標只涉及到從該時刻起到未來有限的時間內,而到下一采樣時刻,這一優化時段向前推移一個時刻點。因此,預測控制不是用一個對全局相同的優化性能指標,而是在每一時刻有一個相對該時刻的優化性能指標。不同時刻優化性能指標的相對形式是相同的,但其絕對形式是不同的。因此在預測控制中,優化不是一次離線進行的,而是反復在線進行的,這就是滾動優化的含義,也是預測控制區別于傳統最優控制的根本點。滾動優化過程如圖2所示。

圖2 滾動時域優化原理Fig.2 The principle of RHC optimization
預測控制是一種閉環控制算法。在通過最優確定了一系列未來的控制作用后,為了防止模型失配或環境干擾引起控制對理想狀態的偏離,預測控制只實現當前時刻的控制作用。到下一采樣時刻,首先檢測對象的實際輸出,并利用這一實時信息對基于模型的預測控制進行修正,然后再進行新的優化。
反饋校正的形式可以在保持預測模型不變的基礎上,對未來的誤差做出預測并加以補償,也可以根據在線辨識的原理直接修改預測模型。預測控制都把優化建立在系統實際的基礎上,并力圖在優化時對系統未來的動態行為做出比較準確的預測。因此,預測控制中的優化不僅基于模型,而且利用了反饋信息,因而構成了閉環優化[5-6]。
本文以研究非線性系統的滾動時域控制是否存在最優解進行展開分析,利用凸優化理論中的基本知識分別推導出此最優化問題在無和有集合約束條件下存在最優解的充要條件,并將此充要條件與經典優化理論中現有的FJ最優條件進行對比,得出該充要條件的優勢。
利用凸優化理論中的拉格朗日乘子和最優性的KKT[7](Karush-Kuhn-Tucker)或 FJ(Fritz John)來考慮非線性系統滾動時域控制的最優解存在問題的充要條件。
考慮如下的非線性模型

式中:f:Rn×Rm→Rn,為一給定的非線性函數;x∈Rn,為系統的狀態;u∈Rm,為系統的控制輸入;i為系統的初始時刻。在優化問題中,式(1)通常稱為等式約束。同樣,可增加關于對系統狀態和系統控制輸入的約束條件,此類約束條件通常是以集合約束的形式出現。

式中:U?Rm,X?Rn,Xf?Rn稱為對應的集合;N 為優化時域水平。通常取U為緊集,X和Xf均為閉集。非線性系統的滾動時域控制可歸納為如下的最優化問題

式中:{xk}={xi,…,xi+N},{uk}={ui,…,ui+N-1}分別稱為狀態和控制輸入序列;VN({xk},{uk})為優化問題的目標函數

式中:F(xi+N)為關于終端狀態的加權項;L(xk,uk)為關于中間狀態和控制輸入的連續函數。此處用一般形式來表示F和L,而不采用二次式的特殊形式。從式(4)中可知:約束條件有兩種,一種為等式約束,另一種為集合約束,而集合約束可轉化為一簇線性矩陣不等式。
假設目標函數和狀態方程不顯式地依賴時間(即各個表達式不是關于時間的顯函數,時間以隱函數的形式出現在表達式中)。令初始時刻i=0,在無集合約束時的最優化問題為

式中,{xk}={x0,…,xN},{uk}={u0,…,uN-1},f:Rn×Rm→Rn,L:Rn×Rm→R 為關于各自變量的可微函數。為了利用最優化理論中的FJ和KKT最優充要條件來推導式(5)的最優狀態}和最優控制輸入,定義一新的變量

矢量x中包含了最優化問題中所有的優化變量,利用定義的優化矢量x可將式(5)中的狀態方程合并為一個(N+1)n階的矩陣約束

根據 xk,uk和 f(xk,uk)的維數可令

定義一階的雅可比矩陣為

根據h(x)的構造方法,可計算矢量值函數h(x)的(N+1)n×[(N+1)n+Nm]階的雅可比矩陣為

對于初始狀態約束方程引入拉格朗日乘子λ-1∈Rn,而對于狀態方程也引入拉格朗日乘子 λk,{λk}={λ0… λN-1},λk∈Rn,構造實值的拉格朗日函數為[8]



在計算偏導之前,引入一個哈密爾頓函數H:Rn×Rm×Rn→R 為

式中:L(xk,uk)為目標函數中的各步加權;f(xk,uk)為狀態方程右邊的矢量值函數。因


式中,k=0,1,…,N -1。
由式(16)可得,無集合約束最優化問題存在最優解的充要條件,為定理1。
定理1在無集合約束下的式(5)中,最優序列,和存在的充要條件為存在一個最優拉格朗日乘子矢量使得以下各式成立。
1)狀態方程。

2)伴隨方程。

3)邊界條件。

4)哈密爾頓條件。
集合約束下的最優化問題可歸納為

同樣有{xk}={x0,…,xN},x∈Rn;{uk}={u0,…,uN-1},u∈Rm分別為狀態和控制序列;U為關于控制輸入的給定約束集;hN:Rn→Rl為關于終端狀態xN的矢量值函數。對式(17)所示的最優化問題,需要施加如下的假設條件:
1)函數F(x)為二次連續可微函數;
2) 對任意的 u∈U,函數 f(x,u)和 L(x,u)為對變量x的二次連續可微函數;
3)終端約束條件hN(x)為二次可微函數,且滿足對所有x∈Rn都有其雅可比矩陣是行滿秩;
類似于無集合約束時的最優化問題,定義如下的哈密爾頓函數

式中:η 為一實數;λk,k=0,1,…,N -1 為 Rn中的某個矢量。類似可得在集合約束條件下最優解存在的充要條件,為定理2。
定理2對于集合約束下的最優化問題式(17),存在最優序列和的充要條件是存在一個矢量序列及一個實數 η*,使得以下條件都成立。
1)伴隨方程。

2)邊界條件。存在實數β≥0和矢量γ∈Rl使得

3)哈密爾頓函數的最小化。




復合狀態 ξk的初始狀態 ξN應屬于集合{ξ∶。需要最小化的目標函數式(23)改寫為僅關于終端狀態 ξN的函數,即:VN({xk},{uk})=zN+F(xN)=g0(ξN)。

對于非線性系統,將非線性函數f(x,u),L(x,u)和hN(x)分別都在最優序列處進行線性化得到非線性方程的線性近似表達式[9],即考慮

對應的約束條件為

目標函數為

利用凸優化理論中的分離定理可知[10]:兩集合和在點處存在一個超平面以達到分離。即存在一個非零矢量使得


由η*=β可見,定理2中的式(19)明顯滿足。又由式(29)知,因,即不全為 0 。聯合式(28)和式(29)得


根據定義的3個矩陣將式(30)和式(31)合并為A1d<0,A2d=0。根據凸優化理論中的FJ最優性充要條件可知,存在一個非零矢量[qTνT]T,q∈R2,ν∈Rl,q >0,使得

式(32)包含著



至此給出了在有或無集合約束條件下最優化問題存在最優解的充要條件,而最優化問題的求解可通過文獻[11]中的橢球優化算法來求解。在求解最優控制輸入序列時僅取序列中的第1個元素作用于實際的系統(線性或非線性)。聯合上述的優化過程和選取第1個元素的過程為本文陳述的滾動時域預測控制方法,考慮將上面的推導過程與直接應用經典優化理論中的相關最優性條件進行比較。
考慮如下的最優化問題

式中:{xk}={x0,…,xN},x∈Rn,{uk}={u0,…,uN-1},u∈Rm分別稱為狀態和控制輸入序列;xk+1=f(xk,uk)為狀態方程為初始狀態;不等式gk(uk)≤0,k=0,1,…,N -1,gk:Rm→Rr,表示控制輸入uk滿足的條件,此處用線性矩陣不等式替換前面的集合約束uk∈U;gN(uN)≤0,表示對終端狀態的不等式約束;hN:Rn→Rl表示對終端狀態的等式約束。以下直接利用FJ最優條件推導出最優化問題式(35)存在最優序列和的最優條件。

其中各個量為




哈密爾頓函數定義為

根據凸優化理論中的對偶可行條件或FJ條件可得定理3。
定理3原優化問題存在最優解的充要條件是存在一標量 η*和矢量滿足如下的條件。
1)伴隨方程。

2)邊界條件。

3)哈密爾頓條件。

定理2是在假設條件下主要利用凸優化分離定理得到的最優性充要條件;而定理3是直接利用FJ條件得到的最優性充要條件。對比可知:定理2中所需要的拉格朗日乘子的數量大大減少了,因定理3中額外需要的存在,這簡化了對最優化問題是否存在最優解的檢驗過程,尤為重要的是,在定理2的證明中還詳細給出了拉格朗日乘子及實數 η*的取值方法,而在定理3中卻未給出任何相關的取值信息。
無人機航跡規劃是在綜合考慮無人機到達時間、油耗、威脅規避以及可飛行區域等因素的前提下,為無人機規劃出最優或者滿意的飛行航跡,以保證圓滿地完成飛行任務,并安全返回基地[12]。
無人機的動靜態特性可通過在慣性坐標系下一離散線性狀態空間模型表征,同時附加若干關于動態和慣性下的線性矩陣不等式約束條件。在無人機航跡規劃問題描述中,無人機狀態向量si由速度向量和位置向量構成,si=[pivi]T∈R6。其中:位置向量 pi=[xi,yi,,速度向量記無人機初始狀態為,期望終端狀態為s,優化時域長度為N,
f規劃時域N的長度依賴于可獲得的計算能力和可檢測環境的距離范圍。設第i步的代價函數L(si,ui)為一分段線性函數形式,ui表示輸入控制矢量,即需要設計的優化變量,ui為無人機的參考速度或者加速度等可控變量。終端分段線性代價函數記為F(sN)。從而得到在N時間段內最優航跡規劃問題為

式中:(xi,yi)表示無人機的位置坐標;S表示狀態變量集;U表示控制輸入集;Θ表示在已知飛行范圍內的障礙區域。此時只約束位置矢量中的前兩個變量,這常見于二維平面中的障礙物約束,若增加位置矢量中關于zi的約束即為三維空間中的地形區域約束。
考慮二維平面中矩形障礙物的左下角頂點坐標為(xmin,ymin),右上角頂點坐標為(xmax,ymax)。因無人機要避開矩形障礙物,從而無人機的每一個軌跡點(xi,yi)都應該滿足的約束條件為

式中,M為一個較大的正數。考慮飛行時間最短和消耗燃料最少的代價函數為

式中:第1項為每步的離散狀態xi與期望的終端狀態xf之間偏離代價;第2項為燃料代價;第3項為實際終端狀態xN與期望終端狀態xf之間的偏離代價。基于上述的簡單說明,在無人機從初始點x0到目標點xf的最優航跡規劃問題可歸納為如下的數學優化問題

對數學優化問題式(43),利用凸優化算法來進行求解,首先需要把眾多的等式約束和不等式約束進行合并。在每次優化求解得到的N-1個最優控制輸入序列中僅取第1項應用于實際系統中,重復上述優化過程。仿真中取
無人機的初始狀態為原點(0,0),期望的終端狀態為(60,70),各個矩陣障礙物的位置如圖3所示。

圖3 無人機從原點起飛到目的的路徑Fig.3 The path of the unmanned helicopters from origin to destination
采樣時間Δt=1,優化時域N=6,對式(43)利用滾動時域策略進行求解,得到無人機的最優航跡路徑,見圖3。無人機從原點(0,0)處開始向東飛行,經過24 s的飛行時間到達終點位置(60,70)。圖4表示代價函數隨著時間而逐漸遞減,充分說明由滾動時域控制中凸優化迭代算法得到的最優控制輸入序列是優化問題的一個最優解。

圖4 代價函數隨時間的遞減圖Fig.4 The decrease of cost function vertus time
對于非線性系統的滾動時域控制,在無和有集合約束情況下,結合凸優化理論給出非線性系統的滾動時域控制中最優化問題存在全局最優解的充要條件,將此充要條件和傳統經典的最優性條件進行比較,得出最優解存在的簡化檢驗過程。
[1] GUARDABASSI G.Virtual reference direct method:An off-line approach to data-based control system design[J].IEEE Transactions of Automatic Control,2000,45(5):954-959.
[2] LENNART L.System identification:Theory for the user[M].Prentice Hall,1999.
[3] BAZANELLA A S.Iterative minimization of H2control performance criteria[J].Automatica,2008,44(10):2549-2559.
[4] CAMPI M C.Direct nonlinear control design:The virtual reference feedback tuning approach[J].IEEE Transactions of Automatic Control,2006,51(1):14-27.
[5] LECHINI A,CAMPI M C.Virtual reference feedback tuning for two degrees of freedom controllers[J].Internation Journal ofAdaptiveControland SignalProcessing,2002,16(10):355-371.
[6] PINTELON R,SCHOUKENS J.System identification:A frequency domainapproach[M].New York:IEEE Press,2001.
[7] BOYD S,VANDENBERGHE L.Convex optimization[M].UK:Cambridge University Press,2008.
[8] NOCEDAL J,WRIGHT S J.Numerical optimization[M].Berlin:Springer-Verlag,2002.
[9] 李向旭,張曾科,姜敏.兩軸穩定平臺的模糊-PID復合控制器設計與仿真[J].電光與控制,2010,17(1):69-72.
[10] 王建宏,王道波.機載穩定跟蹤平臺速率回路的內模H∞控制[J].電光與控制,2011,18(1):20-24.
[11] 王建宏.基于先進辨識的控制策略研究及其應用[D].南京:南京航空航天大學,2011.