999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

具有未知參數(shù)的LQG對偶控制算法研究

2017-09-11 14:14:01尚婷錢富才張曉艷謝國
自動化學(xué)報 2017年8期
關(guān)鍵詞:系統(tǒng)

尚婷 錢富才,2 張曉艷 謝國

具有未知參數(shù)的LQG對偶控制算法研究

尚婷1錢富才1,2張曉艷1謝國1

對于具有未知參數(shù)的LQG(Linear quadratic Gaussian)問題,提出了一種次優(yōu)對偶控制方法,用Kalman濾波處理過程噪聲和測量噪聲,用前一時刻的后驗概率對Cost-to-go進行線性近似,然后,用動態(tài)規(guī)劃獲得了次優(yōu)控制律.最后,用一個例子說明了本文設(shè)計的控制器的實施過程.結(jié)果表明,該控制律具有良好的對偶性質(zhì),并能在學(xué)習(xí)和控制之間實現(xiàn)較好平衡.

LQG(Linear quadratic Gaussian),動態(tài)規(guī)劃,對偶控制,最優(yōu)控制

LQG(Linear quadratic Gaussian)控制問題,由于濾波器與控制器之間具有分離性質(zhì),受到了理論界和工程界的高度重視.目前,LQG理論已經(jīng)成功用于航空、航天和許多工業(yè)控制中[1?4].然而,當系統(tǒng)方程中存在未知參數(shù)時,分離性質(zhì)不再成立,LQG控制方法失去優(yōu)勢.早在上世紀60年代初,前蘇聯(lián)學(xué)者Feldbaum就注意到這類問題,并在他的系列論文中指出,僅有極少數(shù)幾個簡單問題能夠求出解析解,而對于絕大多數(shù)問題即便是想獲得數(shù)值解也極為困難,與此同時解決這類問題的對偶控制(Dual control)方法[2?3]應(yīng)運而生.2000年IEEE Control Systems Society將對偶控制列為上世紀對控制領(lǐng)域最具影響的25篇論文之一,事實上這一難題至今尚未徹底解決.

對于這類問題進行如此艱難的研究,到底有沒有實際需求,以下事例給出了肯定的回答.用現(xiàn)有控制理論設(shè)計出的控制器一般只能保證系統(tǒng)以最優(yōu)的方式運行,但是,近幾十年來,空難、海難、核爆炸等事故的出現(xiàn)使人民生命和國家財產(chǎn)遭受了重大損失,不得不將很多系統(tǒng)的可靠性和安全性放在首位.的確,當系統(tǒng)內(nèi)部元件出現(xiàn)故障時,控制器如果能夠以較快的速度作出反應(yīng),也許一些嚴重后果就可以避免.元器件的故障,如執(zhí)行器、傳感器的卡死反映在控制模型上就是存在一些未知參數(shù)[5];高速列車在行駛過程中受到空氣的阻力w與車速v的關(guān)系為:w=c0+c1v+c2v2,在跨區(qū)域、大范圍的運行中對控制器來說,c0、c1和c2都是未知的[6];在大型建筑結(jié)構(gòu)、橋梁、機床、輪船、飛行器、裝甲車和急救車中都會裝有由質(zhì)量塊–彈簧–阻尼器組成的減振系統(tǒng).系統(tǒng)中彈簧的剛性系數(shù)K和阻尼器的阻尼系數(shù)C可視為常數(shù),但往往是未知的,只能驗前知道它們在標稱值上下20%或50%內(nèi)變化[1,7],體現(xiàn)在控制問題中就是模型中存在未知參數(shù);對于一般的非線性系統(tǒng),內(nèi)部零部件的參數(shù)很難或者無法測量,即使能夠精確知道,但由于建模簡化或者環(huán)境惡劣使得模型的等效參數(shù)與元部件的實際物理參數(shù)不存在一對一對應(yīng)關(guān)系,必須通過在線辨識來確定,這些情況也可視為模型中有未知參數(shù).因此,我們有充分的理由認為,模型中存在未知參數(shù)的控制問題普遍存在.

對于存在未知參數(shù)且為常數(shù)的隨機對偶控制問題,已經(jīng)進行了大量研究,2004年,Filatov等總結(jié)了對偶控制自提出到當時的研究成果[4],目前主要的方法有對偶自適應(yīng)控制[8?9]、新息對偶控制[10]、交換算法[11]、方差最小化[12?15]、標稱對偶控制[16?18]等.所有這些方法的缺點是要么要求未知參數(shù)有明確的統(tǒng)計特性,要么在為數(shù)不多的有限集內(nèi)取某個固定值,對系統(tǒng)不確定性因素的先驗信息要求太高,而且控制器設(shè)計時往往將一個多階段最優(yōu)控制問題強行用多個單階段控制問題來近似,導(dǎo)致控制器具有“近視”行為,只能保證單步最優(yōu),而不是全局最優(yōu).本文拓寬了這些要求,僅要求未知參數(shù)在某個區(qū)間,也就是說未知參數(shù)最大不會超過的上限和最小不能小于的下限是已知的,借助于對偶控制思想,導(dǎo)出了一個次優(yōu)控制律,通過對一個例子的仿真結(jié)果可以看出,該控制律有良好的學(xué)習(xí)和控制效果.就學(xué)習(xí)而言,經(jīng)過有限時間我們可以學(xué)習(xí)出包含未知參數(shù)的區(qū)間,這個區(qū)間長度可以事先任意給定,區(qū)間長度越小,表明對未知參數(shù)產(chǎn)生的不確定性消除得越徹底,但以模型數(shù)目增大為代價.就控制而言,本文導(dǎo)出的控制律和最優(yōu)控制基本重合,兩者之間形成的面積很小.當未知參數(shù)屬于有界集合時,也可以用魯棒理論設(shè)計出所謂的魯棒控制器,實踐與理論均已表明,這類控制器往往比較保守.而本文設(shè)計出的控制器,就未知參數(shù)為常數(shù)時,可以以概率1學(xué)習(xí)到包含未知參數(shù)的最小區(qū)間.

本文的組織如下:第1節(jié)詳細描述了本文要解決的控制問題,在第2節(jié)中我們將本文具有未知參數(shù)的LQG問題轉(zhuǎn)化為對偶控制問題,第3節(jié)利用線性近似的方法設(shè)計出了具有對偶特點的次優(yōu)控制器,第4節(jié)通過一個例子說明了控制器的性質(zhì),結(jié)論放在第5節(jié)中.

1 問題描述

考慮如下具有未知參數(shù)的離散時間動態(tài)系統(tǒng):

其中,x(t)∈Rn是狀態(tài)向量,u(t)∈Rp是控制向量,z(t)∈Rq是輸出向量,ξ(t),η(t)和x(0)為相互獨立的高斯白噪聲,其分布分別為:

Φ(α),G(α),H(α)為適當維數(shù)的矩陣,可以是時變的,也可以是定常,對后面控制器的設(shè)計沒有影響,為書寫方便,本文假設(shè)它們都是定常的.另外,假定未知參數(shù)α∈R以線性形式進入矩陣Φ(·),G(·),H(·),且α在整個控制過程中是未知常數(shù),包含它的有限區(qū)間[αmin,αmax]是驗前已知的.

動態(tài)系統(tǒng)的性能指標取為狀態(tài)與控制的二次型形式:

其中A,B為適當維數(shù)的半正定和正定對稱陣.

設(shè)t為當前時刻,則t時刻的實時信息為

本文解決的控制問題為:對于系統(tǒng)(1)和(2),求出一個允許的控制律使性能指標(3)中的J最小.允許控制律是指其具有形式u(t)=μt(It),其中μt(·)是待定的非線性函數(shù).

對于上述控制問題,當α已知時,本文研究的控制問題就是標準的LQG問題,已經(jīng)有成熟的解法;當α未知時系統(tǒng)中就有兩種不確定性,一種是環(huán)境噪聲ξ(t)和量測噪聲η(t),這種不確定性是客觀存在,無法減少,只能用濾波技術(shù)對狀態(tài)進行估計;另外一種是由參數(shù)α的未知性引起的,由于α∈[αmin,αmax],因此這種不確定性是一種有界不確定性.

目前,對于隨機不確定性和有界不確定性的研究已經(jīng)相對成熟,取得了豐富成果并用于實際.然而,長期以來處理這兩種不確定性的理論被作為兩個獨立領(lǐng)域平行發(fā)展,高度分化,非此即彼.一方面導(dǎo)致在Bayesian框架下的隨機濾波由于非高斯噪聲的存在而過于樂觀,甚至不能收斂,另一方面由于高斯噪聲的存在使得魯棒濾波的噪聲邊界在選擇時過于保守,精度下降.本文將兩種不確定性視為一個共同體,在同一個框架下統(tǒng)一處理.

最近二十多年也出現(xiàn)了一些隨機系統(tǒng)魯棒分析與控制器設(shè)計方法[19],其基本思想為首先在參數(shù)變化空間內(nèi)選取M個設(shè)計點,其次,在每個設(shè)計點為被控對象設(shè)計出相應(yīng)的控制律,最后用隨機魯棒代價函數(shù)對M 個控制律進行融合,在飛行導(dǎo)彈控制中,該方法魯棒性極強,即使參數(shù)有20%的波動也能保證滿意的控制性能.然而,依據(jù)Bernoulli大數(shù)定律,要保證融合出來的控制律具有一定的可信度,M ≥1/(4ε2β),其中ε為控制精度,β為置信系數(shù).當ε=β=0.001時,M ≥2.5×108,最小設(shè)計點的選取數(shù)目巨大.

從機理上說,盡管模型中存在未知參數(shù)α,但系統(tǒng)的輸出z(t)中始終包含了α的信息,因此,通過不斷地從系統(tǒng)獲得測量信息,可以減少這類不確定性.還有,當兩種不確定性共存時,控制器一方面要使性能指標達到最優(yōu),控制信號不宜太大,另一方面還要充分激勵系統(tǒng),以獲得狀態(tài)和未知參數(shù)的更好估計,控制信號要盡可能大,顯然,兩種作用互相沖突.

本文將依據(jù)對偶控制原理,建立同時具有控制和學(xué)習(xí)(估計)特點的控制器設(shè)計理論,另外,依據(jù)本文提出的控制器設(shè)計方法,不確定參數(shù)設(shè)計點的個數(shù)僅為1/ε,在ε=0.001時,M=100.

2 對偶控制問題

為了解決上節(jié)提出的控制問題,本節(jié)將用對偶控制問題來逼近真實問題.

定理 1. 對于任意給定的正數(shù)ε,存在正整數(shù)s及[αmin,αmax]上的分點

證明.對于任意給定的正數(shù)ε,取正整數(shù)s滿足

其中,[x]為不超過x的最大整數(shù),則

即,

上式等價于

將區(qū)間[αmin,αmax]進行s等分,則每個子區(qū)間的長度為(αmax? αmin)/s,取

則定理得證.

該定理的意義是系統(tǒng)模型中的未知常數(shù)一定包含在一系列互不相交的子區(qū)間內(nèi),且僅屬于某個區(qū)間.ε越小,包含真值的區(qū)間越短,但分點會增加,從而覆蓋先驗區(qū)間[αmin,αmax]的子區(qū)間越多.

取每個子區(qū)間 [αi?1,αi]的中點為 θi,即

由于本文假定未知參數(shù)α為常數(shù),因此,α的真值α?一定在某個子區(qū)間內(nèi),假定在第i個區(qū)間,那么,|α??θi|<ε.對偶控制除了具有控制作用,還能學(xué)習(xí)出未知參數(shù),一旦以概率1學(xué)到了θi,則可認為學(xué)到了包含真值α?的最小區(qū)間.具有控制和學(xué)習(xí)特點的對偶控制是控制器設(shè)計的一種理念,不同的問題,設(shè)計方法不同,下面我們先給出對偶控制的數(shù)學(xué)描述.本文解決的對偶控制問題(Dual control problem,DCP)如下:

其中,未知參數(shù)α屬于有限集合,即α∈?={θ1,θ2,···,θs},真值是這 s 個值的其中之一,不確定性參數(shù)α可用驗前概率描述,qi(0)=1/s,i=1,2,···,s.未知參數(shù)以等概率取值于?集合中的每個數(shù),這表明驗前未知參數(shù)的不確定性最大.

為了后面書寫方便,本文做如下標記:當α=θi時,令Φi= Φ(θi),Gi=G(θi),Hi=H(θi).

注意,如果在對偶控制問題(DCP)中,參數(shù)是已知的,沒有不確定性,僅有噪聲不確定性,那么,DCP就是一個LQG問題,有成熟解法;如果未知參數(shù)有不確定性,那么設(shè)計出的控制器應(yīng)該具備雙重作用,一方面要使性能指標達到最優(yōu),另一方面又要能從s個可能的參數(shù)中學(xué)出真實參數(shù).

3 控制器設(shè)計

定義θi對應(yīng)的第i個模型在t時間關(guān)于信息集It的狀態(tài)估計為,即:

那么,依據(jù)Kalman濾波,我們有:

其中z(t)為來自于系統(tǒng)的測量.

對偶控制的學(xué)習(xí)性質(zhì)在于控制律中含有后驗概率,依據(jù)文獻[20],第i個模型在t時刻的后驗概率定義如下:

當獲得當前系統(tǒng)的測量輸出z(t)后,根據(jù)文獻[19],用Bayes公式,后驗概率τi(t)可以如下計算:

其中,在式(12)中的初值τi(0)驗前給定,且

動態(tài)規(guī)劃是求解LQG的有力工具,除了能獲得遞推形式的控制增益外,還能得到反饋形式的控制律,這是工程上所期望的.為能夠應(yīng)用動態(tài)規(guī)劃,用W?(t)表示t時刻到終端時刻N二次性能指標的最優(yōu)損失泛函,即

其中,

那么根據(jù)式(14),

方程(15)是求解DCP的最優(yōu)性原理,正如LQG求解過程那樣,在每一個時刻由后向前,就可以得到具有反饋形式的控制律.然而,整個對偶控制問題的全部復(fù)雜性都體現(xiàn)在方程(15)的求解上,由于性能指標與s個模型有關(guān),相關(guān)程度用后驗概率τi(t)來度量,顯然,后驗概率由系統(tǒng)的實時測量所決定,導(dǎo)致了LQG問題中濾波與增益的計算相互耦合,分離性質(zhì)不再成立,動態(tài)規(guī)劃中的Cost-to-go不再具有統(tǒng)一的遞歸形式.文獻[16]的研究表明,每階段的Cost-to-go在后向遞推過程中,后驗概率以非線性形式嚴重阻礙動態(tài)規(guī)劃的進行,一個能使控制律既有學(xué)習(xí)又有控制功能的次優(yōu)算法,就是在每個階段Cost-to-go關(guān)于后驗概率線性化.下面基于這一思想推導(dǎo)一個新的對偶控制律.

為書寫方便,對于參數(shù)θi,i=1,2,···,s,定義:

定理 2.對于問題DCP,t=N ?1,N ?2,···,0,其次優(yōu)解和對應(yīng)的Cost-to-go分別為:

其中,

在求解問題DCP的過程中,用動態(tài)規(guī)劃可以得到S(t),它是后驗概率τi(t),i=1,2,···,s的非線性函數(shù),導(dǎo)致動態(tài)規(guī)劃不能繼續(xù)進行.本文將S(t)在前一時刻t?1的后驗概率τi(t?1),i=1,2,···,s處線性展開,線性部分記為?S,展開后τi(t?1),i=1,2,···,s的系數(shù)記為Ri(t?1).這樣近似有3個優(yōu)點:1)在t時刻,前一時刻的后驗概率τi(t?1),i=1,2,···,s是已知的,因此,在該點線性化是可行的;2)線性化后,用后驗概率的線性部分?S代替非線性函數(shù)S(t),動態(tài)規(guī)劃能夠順利進行,保證了次優(yōu)解偏離最優(yōu)解不會太遠;3)由于線性化后?S中依然保留了后驗概率,因此導(dǎo)出的控制增益具有學(xué)習(xí)性質(zhì),從而保證了本文導(dǎo)出的次優(yōu)控制律具有對偶性質(zhì).

證明.從N?1階段開始,反向遞推到初始階段0,對時間t用數(shù)學(xué)歸納法,具體推導(dǎo)如下:

假定t=N?1,則根據(jù)最優(yōu)性原理(15),

式(23)中的條件期望具有如下性質(zhì):

將Kalman濾波方程(7)~(11)以及動態(tài)方程(1)和(2)代入上式,經(jīng)過簡單地整理后,則有以下結(jié)果:

上式是控制u(N?1)的二次形式,直接關(guān)于控制求導(dǎo),并令其為零,可以得到使上式最小的控制u?(N?1),即

其中

把最優(yōu)控制(24)代回W(N?1),對應(yīng)的最優(yōu)Cost-to-go為

其中

顯然,L(N?1)是后驗概率τi(N?1)的非線性函數(shù),導(dǎo)致S(N?1)也是τi(N?1)的非線性函數(shù).由于在N?2時刻的后驗概率 τi(N ?2),i=1,2,···,s是已知的,因此,在τi(N?2)處,對S(N?1)進行線性近似,即把S(N?1)在τi(N?2)處一階展開、忽略高次項,這樣就可得到S(N?1)的如下近似表達式:

其中,Ri(N?2)與τi(N?1)無關(guān),僅與τi(N?2)有關(guān),而τi(N?2)在N?1時刻是已知.這樣關(guān)于每個τi(N?1)是線性的.

比較在N?1時刻得到的控制與近似的Cost-to-go,這些結(jié)果與定理2的結(jié)論完全一致.這表明在t=N?1時,定理結(jié)論成立.

假設(shè)在t+1時刻,定理2的結(jié)論成立,則根據(jù)最優(yōu)性原理(15),

在式(25)中,用在t時刻線性化的ˉS近似W?(t+1)中的S(t+1),那么下式成立,

定理得證.

在N?1時刻,定理2給出的控制律是最優(yōu)的.因為動態(tài)規(guī)劃首次運用時,W?(N)中不包含后驗概率,因此無需近似.而在后續(xù)的反向遞推中,W?(t+1)都與后驗概率相關(guān),通過線性近似以保證動態(tài)規(guī)劃的順利進行,導(dǎo)致對應(yīng)的控制律為次優(yōu)控制.

控制律是在基本遵循最優(yōu)性原理(15)的基礎(chǔ)上導(dǎo)出來的,因此具有次優(yōu)性質(zhì),控制律中含有各階段的后驗概率,而后驗概率具有學(xué)習(xí)性質(zhì),保證了控制律具有學(xué)習(xí)特點.既有控制(優(yōu)化)功能又有學(xué)習(xí)特點的控制就是對偶控制[14].

4 對偶控制算法

依據(jù)定理1和定理2,總結(jié)以上結(jié)果,對于本文研究的控制問題,可用以下算法實施:

步聚1.對于給定的ε,用式(4)求出模型個數(shù)s;

步聚2.用式(6)求出θi;

步聚3.令t=0;

步聚 4.用遞推方程(18)~(22)和式(16)求出t時刻的最優(yōu)控制;

步聚5.測量系統(tǒng)輸出z(t),用Kalman濾波(7)~(11)求出(t);

步聚6.用式(13)求出后驗概率;

步聚7.如果t等于N?1,結(jié)束;否則,返回步聚4.

下面用一個簡單的例子,來說明本文提出的對偶控制算法的實施過程,并驗證控制器所具有的對偶性質(zhì).

其中,Φ=0.7+α,G=0.9?α,H=2α+0.1.

假設(shè)初始狀態(tài)x(0),過程噪聲ξ(t)與測量噪聲η(t)均服從均值為0、方差為1的高斯分布N(0,1),未知參數(shù)α∈[0,1.2],給定ε=0.6,則,s=3,

θ取每個子區(qū)間的中點,依次為θ1=0.2,θ2=0.6,θ3=1,假定α的真值為0.95,則真值落在第三個子區(qū)間[0.8,1.2]內(nèi),α取三個θ值的先驗概率假定為τ1(0)=1/3,τ2(0)=1/3,τ3(0)=1/3,也就是說最開始參數(shù)α以等概率屬于每個子區(qū)間,此時,參數(shù)的不確定性最大.

采用不同的控制策略對系統(tǒng)施行控制,當未知參數(shù)已知時,對應(yīng)的控制問題為LQG,獲得的控制律為最優(yōu)控制,對應(yīng)的性能指標是其他控制的下界.由于參數(shù)未知,學(xué)習(xí)過程不可缺少,因此,這個下界永遠不能達到.比較各種控制策略優(yōu)劣的性能指標為:

其中,A=0.4,B=0.3.

圖1是未知參數(shù)α取θ1、θ2和θ3分別對應(yīng)的后驗概率演化圖.下面的兩條“點實線”為θ1和θ2對應(yīng)的后驗概率,上面的“圈線”為θ3對應(yīng)的后驗概率,它們均從1/3(此時不確定性最大)出發(fā),經(jīng)過25個采樣時刻,θ3對應(yīng)的后驗概率接近于1,而其余兩個的后驗概率接近于0,這表明α從初始的最大不確定性開始,通過從系統(tǒng)不斷獲得測量后,其不確定性逐漸減小,直至完全消除,這是控制器的學(xué)習(xí)特點.θ3對應(yīng)的區(qū)間為[0.8,1.2],因此,利用本文的算法可以獲得包含未知參數(shù)的最小區(qū)間.依據(jù)定理1,ε越小,包含真值的區(qū)間越小,控制器的學(xué)習(xí)精度越高.然而,區(qū)間的個數(shù)s會越大,對應(yīng)的模型越多,自然會消耗更多的時間.圖1說明了本文給出的對偶控制具有學(xué)習(xí)特點.

圖2中的“實線”代表最優(yōu)控制,也就是未知參數(shù)α是真值0.95時,通過求解LQG問題得到的最優(yōu)控制.圖2中的“圈線”表示本文推導(dǎo)出的對偶控制,即假定參數(shù)α未知,一邊控制、一邊學(xué)習(xí),可以看出,兩條折線很快幾乎重合,夾在它們之間的面積很小,這表明新的對偶控制和最優(yōu)控制幾乎有相同的控制效果.然而,兩者永遠不會完全重合,畢竟控制器對未知參數(shù)的真值需要一個學(xué)習(xí)過程,這段時間兩個控制律不會重合.其實,即使學(xué)習(xí)結(jié)束,理論上兩個控制律也會存在差異,因為,θ3僅是包含真值區(qū)間的標識,而不是真正的真值.兩個控制律的充分接近,表明用本文方法設(shè)計的控制律有控制或者優(yōu)化功能,能夠迫使系統(tǒng)朝著期望的目標運行,保證二次性能指標最優(yōu).

圖1 后驗概率演化Fig.1 The posterior probabilities evolving

對偶控制在試圖控制系統(tǒng)的過程中必須對未知參數(shù)進行辨識,辨識的精度決定了控制的效果,因而辨識與控制之間有著本質(zhì)的聯(lián)系.從圖2可以看出,在開始階段對偶控制比最優(yōu)控制能量要大,其作用展示在后驗概率的演化圖1中,明顯可以看出,包含真值的區(qū)間對應(yīng)的后驗概率趨向1,而其他兩個區(qū)間對應(yīng)的后驗概率趨于0.這個事實表明在控制的初始階段控制器投入了更大的能量去學(xué)習(xí)未知參數(shù),一旦學(xué)出了未知參數(shù),對偶控制的模型與最優(yōu)控制是相同的,兩者也如圖2末端表示的那樣,幾乎重合.控制器不再分配能量去學(xué)習(xí),所有能量用來實現(xiàn)控制目標,充分體現(xiàn)了對偶控制在學(xué)習(xí)與控制之間的平衡.

圖2 對偶控制與最優(yōu)控制比較Fig.2 Comparision of the dual control with the optimal control

系統(tǒng)中未知參數(shù)α∈[αmin,αmax].我們作以下規(guī)定:當α等于真值0.95時,求解相應(yīng)的LQG問題,所得的控制律自然就是最優(yōu)控制;當α取值于區(qū)間的左端點,即α=αmin=0時,求解相應(yīng)的LQG問題,所得的控制律稱為非對偶控制1;α取右端點,即α=αmax=1.2時,解相應(yīng)的LQG問題,所得的控制律稱為非對偶控制2;用本文提出的方法,導(dǎo)出的控制律稱為對偶控制.對上述系統(tǒng),用4個不同的控制律進行控制,會得到它們各自的性能指標.由于是隨機系統(tǒng),每次性能指標是不同的,為了獲得可靠的結(jié)論,我們進行1000次Monte Carlo仿真,仿真結(jié)果如表1.可以看出,對偶控制最接近于最優(yōu)控制,其他兩個控制對應(yīng)的性能指標和最優(yōu)控制有著數(shù)量級的差別.原因在于系統(tǒng)的輸出含有未知參數(shù)α的信息,用輸出不斷校正后驗概率,使參數(shù)的不確定性持續(xù)減小,最終未知參數(shù)真值所在區(qū)間的中點θ3在控制量的計算中以概率1發(fā)揮作用,而其他兩個區(qū)間參數(shù)的代表值幾乎不參與控制量的計算.如果簡單地用未知參數(shù)的上界或者下界代替真實參數(shù),正如表中性能指標體現(xiàn)的那樣控制效果不堪設(shè)想,因此,三個控制律中對偶控制最好,最優(yōu)控制對應(yīng)的性能指標是它們永遠不能獲得的下界.

表1 不同不確定參數(shù)下Monte Carlo仿真性能指標比較Table 1 Performance index of Monte Carlo runs comparison for di ff erent uncertainty parameters

DUL算法是自適應(yīng)對偶控制的一個經(jīng)典方法[15],它的基本思想為,在DCP問題中當固定α為θi,i=1,2,···,s時,其退化為LQG問題,在k時刻依據(jù)動態(tài)規(guī)劃與Kalman濾波可以求出最優(yōu)控制(k),i=1,2,···,s,以后驗概率τi(k)為權(quán)系數(shù)對s個最優(yōu)控制(k)進行加權(quán)和,得到,視 u?(k) 為當前時刻施加于系統(tǒng)的實際控制,就得到了次優(yōu)的DUL算法.DUL算法控制器設(shè)計簡單,計算量小,后驗概率的學(xué)習(xí)性質(zhì)賦予了控制器的學(xué)習(xí)特點,是一個優(yōu)秀的次優(yōu)學(xué)習(xí)算法.然而,DUL僅用當前的系統(tǒng)信息校正前一時刻的后驗概率,而完全忽略了未來系統(tǒng)的實際輸出,是一種被動學(xué)習(xí)算法.本文提出的控制器設(shè)計方法除了用到了當前的后驗概率,還在每一個階段用前一時刻后驗概率對Cost-to-go進行線性近似,即控制律的計算用到了未來對系統(tǒng)輸出的預(yù)測信息,因此,本文的方法是一種主動學(xué)習(xí)算法.由于是隨機系統(tǒng)單次控制效果不能對控制器進行有效評估,為此,我們對本文導(dǎo)出的控制律和DUL控制律在同樣噪聲及參數(shù)不確定性條件下進行100次Monte Carlo仿真測試,從目標函數(shù)的統(tǒng)計平均值、目標函數(shù)的最大值、目標函數(shù)的標準差來比較兩個控制律的性能.表2是比較結(jié)果.

表2 兩個控制律性能比較Table 2 Performance comparison for two control laws in example

在表2中目標函數(shù)的100次統(tǒng)計平均值、最大值和標準差表明對偶控制要優(yōu)于DUL控制,這表明對偶控制比DUL控制在最優(yōu)性和可靠性都會更好,原因在于它充分利用了來自系統(tǒng)的信息.

5 結(jié)論

本文研究了具有未知參數(shù)的LQG控制問題,給出了控制問題的數(shù)學(xué)描述.由于問題中包含兩種不確定性,采用Kalman濾波處理過程噪聲和測量噪聲產(chǎn)生的不確定性;用后驗概率學(xué)習(xí)到了包含未知參數(shù)真值的給定區(qū)間,該區(qū)間的精度可以事先任意設(shè)定,正如仿真例子揭示的那樣,后驗概率從最大的不確定性開始,到控制結(jié)束時幾乎沒有不確定性.盡管動態(tài)規(guī)劃是求解具有反饋形式控制律的有力工具,但由于每個階段的Cost-to-go中含有后驗概率,導(dǎo)致動態(tài)規(guī)劃不能順利進行,本文用線性近似的方法得到了一個次優(yōu)控制律.本文的研究表明,具有未知參數(shù)的LQG問題的難點在于Cost-to-go與后驗概率的非線性依賴關(guān)系,正確和有效處理這一關(guān)系是獲得控制增益的關(guān)鍵.除了本文提出的線性近似外,我們期待其他更好的方法.另外,將這種具有學(xué)習(xí)性質(zhì)的控制方法用于傳感器、執(zhí)行器中的卡死故障及減振系統(tǒng)中的在線參數(shù)辨識,以提高系統(tǒng)的可靠性,也是未來進一步要開展的工作.

1 Asami T,Nishihara O.H2optimization of the three-element type dynamic vibration absorbers.Journal of Vibration and Acoustics,2002,124(5):583?592

2 Feldbaum A A.Optimal Control Systems.New York:Academic,1965.13?16

3 Feldbaum A A.Dual control theory I-II.Automatic Remote Control,1960,21(4):1033?1039

4 Filatov N M,Unbehauen H.Adaptive Dual Control Theory and Applications.Heidelberg:Springer Verlag,2004.75?86

5 Chen J,Patton R J[Author],Wu Jian-jun[Translator].Robust Model-Based Fault Diagnosis for Dynamic Systems.Beijing:National Defence Industry Press,2009.81?94

(Chen J,Patton R J[著],吳建軍[譯].動態(tài)系統(tǒng)基于模型的魯棒故障診斷.北京:國防工業(yè)出版社,2009.81?94)

6 Zhang Dan.Parameter Identi fi cation of Dynamic Model of High Speed Train[Master dissertation],Xi′an University of Technology,China,2016.

(張丹.高速列車動力學(xué)模型的參數(shù)辨識和狀態(tài)估計[碩士學(xué)位論文],西安理工大學(xué),中國,2016.)

7 Li Wei-Wei.Vibration Isolation Design of Vehicle Stretchersupine Body System Based on Wire-rope Spring[Master dissertation],Tianjin University,China,2013.

(李維偉.基于鋼絲繩彈簧的車載擔架–臥姿人體系統(tǒng)隔振設(shè)計研究[碩士學(xué)位論文],天津大學(xué),中國,2013.)

8 Alster J,B′elanger P R.A technique for dual adaptive control.Automatica,1974,10(6):627?634

9 Bar-Shalom Y,Wall K D.Dual adaptive control and uncertainty e ff ects in macroeconomic systems optimization.Automatica,1990,16(2):147?156

10 Milito R,Padilla C,Padilla R,Cadorin D.An innovations approach to dual control.IEEE Transactions on Automatic Control,1982,27(1):132?137

11 Deshpande J G,Upadhyay T N,Lainiotis D G.Adaptive control of linear stochastic systems.Automatica,1973,9(1):107?115

12 Fu P L,Li D,Qian F C.Active dual control for Linear-Quardratic Gaussian system with unknown parameters.In:Proceedings of the 15th IFAC World Congress.Barcelona,Spain:Pergamon,2002.337?342

13 Li D,Qian F C,Fu P L.Research on dual control.Acta Automatica Sinica,2005,31(1):32?42

14 Li D,Qian F C,Fu P L.Variance minimization in stochastic systems.Stochastic Modeling and Optimization.New York:Springer-Verlag,2003.2010?2020

15 Li D,Qian F C,Fu P L.Variance minimization approach for a class of dual control problems.IEEE Transactions on Automatic Control,2002,47(12):2010?2020

16 Li D,Qian F C,Fu P L.Optimal nominal dual control for discrete-time linear-quadratic Gaussian problems with unknown parameters.Automatica,2008,44(1):119?127

17 Qian Fu-Cai,Zhu Shao-Ping,Liu Ding.On LQG problems with unknown noises.Control Theory&Applications,2010,27(8):1017?1022

(錢富才,朱少平,劉丁.噪聲未知的LQG 控制問題研究.控制理論與應(yīng)用,2010,27(8):1017?1022)

18 Chen Xiao-Ke.Research on Dual Control in LQG with Uncertainty Parameters Problem[Master dissertation],Xi′an University of Technology,China,2004.

(陳小可.具有不確定參數(shù)的LQG 對偶控制問題研究[碩士學(xué)位論文],西安理工大學(xué),中國,2004.)

19 Wu Sen-Tang.Stochastic Robustness Analysis and Design for Guidance and Control System of Winged Missile.Beijing:National Defence Industry Press,2010.

(吳森堂.飛航導(dǎo)彈制導(dǎo)控制系統(tǒng)隨機魯棒分析與設(shè)計.北京:國防工業(yè)出版社,2010.)

20 Qian F C,Gao J J,Li D.Complete statistical characterization of discrete-time LQG and cumulant control.IEEE Transactions on Automatic Control,2012,57(8):2110?2115

尚 婷 西安理工大學(xué)自動化與信息工程學(xué)院博士研究生.主要研究方向為最優(yōu)控制,隨機控制,系統(tǒng)辨識,故障診斷.

E-mail:tshang0722@126.com

(SHANG Ting Ph.D.candidate at the School of Automation and Information Engineering,Xi′an University of Technology.Her research interest covers the optimal control,stochastic control,systems identi fi cation,fault diagnosis.)

錢富才 西安理工大學(xué)自動化與信息工程學(xué)院教授.主要研究方向為隨機控制,系統(tǒng)辨識,非線性控制,最優(yōu)控制,故障診斷和全球定位系統(tǒng).本文通信作者.E-mail:qianfc@xaut.edu.cn

(QIAN Fu-Cai Professor at the School of Automation and Information Engineering,Xi′an University of Technology.His research interest covers stochastic control,systems identi fi cation,nonlinear control,optimal control,fault diagnosis and global positioning system.Corresponding author of this paper.)

張曉艷 西安理工大學(xué)自動化與信息工程學(xué)院博士研究生.主要研究方向為對偶控制,最優(yōu)控制,故障診斷,隨機控制,容錯控制,系統(tǒng)辨識.

E-mail:xyzhang_2016@163.com

(ZHANG Xiao-Yan Ph.D.candidate at the School of Automation and Information Engineering,Xi′an University of Technology.Her research interest covers dual control,optimal control,fault diagnosis,stochastic control,tolerant-fault control and system identi fi cation.)

謝 國 西安理工大學(xué)自動化與信息工程學(xué)院副教授.2013年獲得日本大學(xué)工學(xué)博士學(xué)位.主要研究方向為軌道交通系統(tǒng)的安全性和可靠性,最優(yōu)控制,和隨機控制.E-mail:guoxie@xaut.edu.cn

(XIE Guo Associate professor at the School of Automation and Information Engineering,Xi′an University of Technology.He received his Ph.D.degree from Vihon University,Japan in 2013.His research interest covers safety and reliability of railway system,optimal control and stochastic control.)

Research on Dual Control Algorithm for LQG with Unknown Parameters

SHANG Ting1QIAN Fu-Cai1,2ZHANG Xiao-Yan1XIE Guo1

For the LQG problem with unknown parameters,a novel suboptimal dual control approach is proposed in this paper.First,Kalman fi lter is used to deal with the noises of process and measurement and posterior probabilities at the previous moment are used to linearly approximate the cost-to-go at the present moment.Then dynamic programming is adopted to obtain a suboptimal control law.Finally,an example is presented to illustrate the implementation process of the developed controller.The result shows that this control law has good dual property and achieves a better balance between learning and control.

LQG(Linear quadratic Gaussian),dynamic programming,dual control,optimal control

May 17,2016;accepted March 30,2017

尚婷,錢富才,張曉艷,謝國.具有未知參數(shù)的LQG對偶控制算法研究.自動化學(xué)報,2017,43(8):1478?1484

Shang Ting,Qian Fu-Cai,Zhang Xiao-Yan,Xie Guo.Research on dual control algorithm for LQG with unknown parameters.Acta Automatica Sinica,2017,43(8):1478?1484

2016-05-17 錄用日期2017-03-30

國家自然科學(xué)基金(61273127,U1534208),陜西省科技攻關(guān)項目(2016GY-108),航天器在軌故障診斷與維修實驗室開放課題(SDML_OF2015004)

Supported by National Natural Science Foundation of China(61273127,U1534208),Science and Technology Project of Shaanxi Province(2016GY-108),and the Key Laboratory for Fault Diagnosis and Maintenance of Spacecraft in Orbit(SDML_OF2015004)

本文責(zé)任編委 方海濤

Recommended by Associate Editor FANG Hai-Tao

1.西安理工大學(xué)自動化與信息工程學(xué)院 西安 710048 2.西安工業(yè)大學(xué)陜西省自主系統(tǒng)與智能控制國際聯(lián)合研究中心 西安 710021

1.School of Automation and Information Engineering,Xi′an University of Technology,Xi′an 710048 2.The International Joint Research Center of Autonomous Systems and Intelligent Control,Xi′an Technological University,Xi′an 710021

DOI10.16383/j.aas.2017.c160401

猜你喜歡
系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統(tǒng)
基于UG的發(fā)射箱自動化虛擬裝配系統(tǒng)開發(fā)
半沸制皂系統(tǒng)(下)
FAO系統(tǒng)特有功能分析及互聯(lián)互通探討
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統(tǒng) 德行天下
PLC在多段調(diào)速系統(tǒng)中的應(yīng)用
主站蜘蛛池模板: 国产成人精品第一区二区| 国产成人精品视频一区视频二区| 999国内精品久久免费视频| 国产哺乳奶水91在线播放| 亚洲福利一区二区三区| 不卡无码h在线观看| 国产精品欧美激情| 午夜精品久久久久久久无码软件| 国产成人欧美| 国产精品视频白浆免费视频| 拍国产真实乱人偷精品| 黄色三级网站免费| 国产丝袜91| 久久综合AV免费观看| 人妻精品全国免费视频| 久久综合激情网| 欧美一级高清视频在线播放| 久久黄色影院| 成人中文字幕在线| 国产美女一级毛片| 亚洲AV免费一区二区三区| 国产精品国产主播在线观看| 国产视频a| 国产精品13页| 亚洲成人一区二区| 国产成人精品18| 亚洲三级色| 91小视频在线观看| 伊人AV天堂| 四虎永久在线精品国产免费| 亚洲大学生视频在线播放| a毛片免费观看| 亚洲一区第一页| 国产小视频免费观看| 亚洲水蜜桃久久综合网站| 亚洲激情区| 波多野结衣亚洲一区| 91精品啪在线观看国产60岁| 自拍偷拍欧美| 亚洲日韩精品欧美中文字幕| 精品综合久久久久久97超人| 亚洲中文字幕日产无码2021| 亚洲女人在线| 国产精选自拍| 欧类av怡春院| 亚洲精品综合一二三区在线| 最新无码专区超级碰碰碰| 精品第一国产综合精品Aⅴ| 亚洲第一黄色网址| 国产成人区在线观看视频| 啪啪免费视频一区二区| 手机在线国产精品| 国产成人盗摄精品| 亚洲乱伦视频| 日韩在线2020专区| 毛片网站在线播放| 欧洲亚洲欧美国产日本高清| 在线免费观看AV| 免费啪啪网址| 国产网站免费看| 最近最新中文字幕免费的一页| 丰满的少妇人妻无码区| 亚洲视频影院| 亚洲国产精品一区二区第一页免 | 91国语视频| 2021国产精品自拍| 玖玖免费视频在线观看| 国产嫖妓91东北老熟女久久一| 天天色天天综合网| 国产91色在线| 超清无码一区二区三区| 亚洲av无码人妻| 免费看美女自慰的网站| 91精品综合| 四虎成人在线视频| 亚洲伊人天堂| 黄色福利在线| 国产白浆视频| 欧美亚洲国产精品久久蜜芽| 久久国产V一级毛多内射| 少妇人妻无码首页| 日韩毛片免费|