李昊哲,王宏偉,2*,郭明霄,楊仕旗
(1. 新疆大學(xué)電氣工程學(xué)院,新疆 烏魯木齊 830047;2. 大連理工大學(xué)控制科學(xué)與工程學(xué)院,遼寧 大連 116024)
隨著計算機技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,在解決大型復(fù)雜的實際問題時,可采用多智能體間的合作機制,代替單個系統(tǒng)獲得更好的工作效率和性能。其中,一致性問題是多智能體系統(tǒng)控制的基礎(chǔ),基本思想是為每個智能體設(shè)計控制協(xié)議,通過局部信息交互構(gòu)成網(wǎng)絡(luò)系統(tǒng),因此控制協(xié)議的設(shè)計僅取決于本地和鄰居的信息,以便所有智能體都能收斂于相同的軌跡[1]。由于多智能體系統(tǒng)在分布式協(xié)同控制和群體決策方面的優(yōu)勢,現(xiàn)已被廣泛應(yīng)用于諸多領(lǐng)域:如衛(wèi)星編隊的姿態(tài)控制、無人機密集編隊飛行控制、自主水下機器人導(dǎo)航、移動機器人編隊控制和智慧工廠等[2-6]。對于線性的多智能體系統(tǒng),為了避免全局狀態(tài)信息的使用,文獻[7]提出了一種完全分布式的自適應(yīng)控制方法。文獻[8,9]利用投影算法和確定性等價原理,研究一類帶有耦合參數(shù)的非線性多智能體系統(tǒng)的控制問題。文獻[10,11]討論了網(wǎng)絡(luò)拓撲中存在虛擬者領(lǐng)導(dǎo)者情況下的一致性跟蹤問題。文獻[12-14]分別研究了時變拓撲情況下的一致性跟蹤問題。文獻[15]考慮了具有輸出量化和通信延遲情況下的一致性跟蹤問題。
分析上述文獻發(fā)現(xiàn),目前多智能體系統(tǒng)一致性控制的相關(guān)成果,大多是在確定的系統(tǒng)模型上展開的研究。然而,實際的多智能體系統(tǒng)卻很難建立精確的數(shù)學(xué)模型,且往往是異構(gòu)的,非線性的。因此,數(shù)據(jù)驅(qū)動控制被廣泛應(yīng)用在多智能體領(lǐng)域。Chen等提出分布式合作學(xué)習(xí)控制方法解決一組未知非線性系統(tǒng)的跟蹤控制問題[16,17]。Milad等提出了分布式自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制策略[18]。雖然這些控制方法可以通過神經(jīng)網(wǎng)絡(luò)來逼近每個智能體未知的非線性部分,無需建立精確的數(shù)學(xué)模型。但是,卻需要大量的I/O數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),以獲得對未知非線性部分更好的逼近效果。針對神經(jīng)網(wǎng)絡(luò)控制需要大量訓(xùn)練數(shù)據(jù)的缺點,文獻[19]利用動態(tài)線性化技術(shù),提出了一種分布式無模式自適應(yīng)控制(MFAC)方法,解決非線性多智能體系統(tǒng)的一致性跟蹤控制問題。針對具有周期運行特點的非線性多智能體,文獻[20]研究了自適應(yīng)迭代學(xué)習(xí)控制策略。
然而,上述數(shù)據(jù)驅(qū)動控制策略大多是由均勻刷新的零階保持器實現(xiàn)。但是由于傳感器設(shè)備受到物理、機械等因素限制,以及在網(wǎng)絡(luò)控制系統(tǒng)中控制信號的傳輸存在丟失和延時現(xiàn)象,因此控制信號需使用非均勻刷新的方案,即在固定的框架周期內(nèi)多次刷新,以獲得較好的控制效果。非均勻多采樣率系統(tǒng)在增加控制系統(tǒng)復(fù)雜性的同時,提高了系統(tǒng)的控制性能。當(dāng)系統(tǒng)的輸入信號非均勻周期刷新,輸出信號周期采樣,是一類特殊的非均勻采樣系統(tǒng)。針對此類系統(tǒng),文獻[21]將非均勻采樣系統(tǒng)分解為多個子系統(tǒng),提出了多模型自校正控制方法。文獻[22]基于最優(yōu)控制原理對非均勻采樣系統(tǒng)進行了研究。為解決一類非均勻采樣非線性系統(tǒng)的控制問題,文獻[23]提出了一種無模型自適應(yīng)控制策略。但是這些方法僅適用于單一系統(tǒng)的控制,并不適用于多智能體系統(tǒng)的控制。主要困難在于:①已有方法不能很好解決非均勻采樣多智能體系統(tǒng)控制的一致性問題,即所有智能體輸出跟蹤誤差一致有界;②多智能體的模型信息是未知的,不同智能體的動力學(xué)信息往往是異構(gòu)的。
針對以上問題,本文主要研究了一類輸入非均勻刷新和輸出周期采樣的非線性多智能體系統(tǒng)一致性跟蹤控制問題。首先,利用提升變量技術(shù)將未知的非均勻采樣非線性系統(tǒng),轉(zhuǎn)化為基于當(dāng)前工作點處的緊格式動態(tài)線性化(CFDL)數(shù)據(jù)模型;然后,利用輸入和輸出數(shù)據(jù)對(CFDL)數(shù)據(jù)模型中的偽雅可比向量進行參數(shù)估計;在此基礎(chǔ)上,引入虛擬領(lǐng)導(dǎo)者產(chǎn)生期望軌跡,并對每個智能體設(shè)計分布式無模型自適應(yīng)控制策略,實現(xiàn)對參考信號的一致性跟蹤;另外,本文還對控制算法的收斂性能,以及控制器參數(shù)選擇等進行了分析,并給出跟蹤誤差收斂的必要條件。

對于q個智能體構(gòu)成的多智能體系統(tǒng)可用有向圖G(V,E,A)表示,q個智能體可視為q個節(jié)點,V={v1,v2,…,vq}表示節(jié)點集合,每個節(jié)點表示一個智能體系統(tǒng)。E?V×V表示邊集合,其中E={e1,e2,…,en},有向邊(vi,vj)∈E表示節(jié)點i可以接收到節(jié)點j的信息,信息傳遞方向不可逆[24]。A=[aij]q×q是權(quán)值鄰接矩陣,若(vi,vj)∈E,則aij>0,否則,aij=0。度矩陣被定義為D=diag{d1,…,dq},其中圖G的Laplacian矩陣L[lij]∈Rq×q被定義為L=D-A。
考慮異構(gòu)多智能體控制系統(tǒng)是由q個智能體組成的,其結(jié)構(gòu)如圖1所示,其中Hτ是非均勻保持器,刷新間隔是{τ1,τ2,…,τl},作用是將控制器產(chǎn)生的離散信號ui(kT+tl)(t1=0,tl=tl-1+τl=τ1+,…,τl,l=1,…,p)經(jīng)過刷新產(chǎn)生連續(xù)的控制信號ui(t)。

圖1 跟隨者智能體分布式控制方案

其中,控制信號ui(t)為

(1)

(2)
其中,xi(t)∈Rn是智能體i的狀態(tài)變量,ui(t)∈R1和yi(t)∈R1分別是智能體i的輸入和輸出變量。
在輸入數(shù)據(jù)ui(kT+tl)和輸出數(shù)據(jù)yi(kT)是可觀測的情況下,令xi(kT+T)是(2)式離散方程的解,其離散狀態(tài)方程為

(3)

∈Rp×1,i=1,2,…,q
(4)
對于(3)式的非均勻采樣離散系統(tǒng),可采用多模型形式表示。首先考慮一個線性的非均勻采樣系統(tǒng),其狀態(tài)空間方程如下

(5)
其中xi(t)∈Rn,ui(t)∈R1和yi(t)∈R1分別是狀態(tài),控制信號和輸出信號。Aci,Bci和Ci是適當(dāng)維數(shù)的參數(shù)矩陣。
參考文獻[21],對式(5)進行離散化



(6)
yi(kT)=Cixi(kT)
(7)

然后,引入前移算子z,zxi(kT)=xi(kT+T),則式(7)表示為

(8)
其中
a(z)=z-ndet[zIn-Ai]=1+a1z-1+a2z-2+…anz-n,aj∈R1;
b1(z)=Ciz-nadj[zIn-Ai]B1=b10+b11z-1+b12z-2+…blnz-n,b1j∈R1,b10=0,bl(z)=Ciz-nadj[zIn-Ai]Bl=bl1z-1+bl2z-2+…blnz-n,blj∈R1,l=2,…,p-1,j=1,2,…,n.


(9)
其中
?i(kT)=[-yi(kT-T), -yi(kT-2T), …,-yi(kT-nT),
ui(kT),ui(kT-T),ui(kT-nT),ui(kT-T+t1),
ui(kT-2T+t1), …,ui(kT-nT+t1), …,
ui(kT-T+tp-1),ui(kT-2T+tp-1), …,
ui(kT-nT+tp-1)]T
fh[?i(kT)]是第h個非線性加權(quán)函數(shù);gh[?i(kT)]是在第h個工作點處的局部線性模型。
最后,得到了描述系統(tǒng)(3)的多模型一般表達形式
yi(kT)=fi[?i(kT)],i=1,2,…,q
(10)
注1:由于每個智能體的fi(·)的函數(shù)結(jié)構(gòu)是不同的,因此q個智能體組成的多智能體系統(tǒng)是異構(gòu)的。

對于模型(10),各個智能體可視作多輸入單輸出(MISO)的非線性系統(tǒng).其中,第i個智能體的動態(tài)模型如下:
yi(kT+T)=fi[?i(kT+T)]
=fi(yi(kT),…,yi(kT-nyT),ui(kT),…,
ui(kT-nuT)),ny=nu=n-1,i=1,2,…,q
(11)
其中,
分別表示智能體i在kT,…,kT-nuT時刻的輸入數(shù)據(jù),ui∈Rp;ny和nu是未知的正整數(shù);fi(…)是非線性函數(shù)。
假設(shè)1[25]:fi(…)關(guān)于第(nu+ny+2)個變量具有連續(xù)的偏導(dǎo)數(shù)。



(12)
其中

證明:由式(12)知
Δyi(kT+T)
=fi(yi(kT),…,yi(kT-nyT),ui(kT),…,ui(kT-nuT))-fi(yi(kT),…,yi(kT-nyT),ui(kT-T),
ui(kT-T),…,ui(kT-nuT))+fi(yi(kT),…,yi(kT-nyT),ui(kT-T),ui(kT-T),…,ui(kT-nuT))-fi(yi(kT-T),…,yi(kT-nyT-T),
ui(kT-T),…,ui(kT-nuT-T)),i=1,2,…,q
(13)
令
ψi(kT)=fi(yi(kT),…,yi(kT-nyT),ui(kT-T),
ui(kT-T),…,ui(kT-nuT))-fi(yi(kT-T),…,yi(kT-nyT-T),ui(kT-T),…,ui(kT-nuT-T)),
i=1,2,…,q
根據(jù)假設(shè)1和微分中值定理,式(13)可整理成如下形式

(14)
固定采樣時刻k,考慮含變量Ηi(kT)∈R1×p的方程為
ψi(kT)=Ηi(kT)Δui(kT),i=1,2,…,q
(15)


根據(jù)一致性理論,考慮通信拓撲結(jié)構(gòu)固定,對多智能體系統(tǒng)(11)設(shè)計如下控制協(xié)議(16)~ (19)。
i=1,2,…,q
(16)
sign(il(kT))≠sign(il(T)),l=1,2,…,p
(17)
為使各個智能體的輸出都跟蹤上期望軌跡,本文設(shè)計如下的控制律

(18)
Θi(kT)=ci[y*(kT+T)-yi(kT)]

(19)
其中,y*(kT+T)是參考信號;若ci=1表示智能體i可以接收虛擬領(lǐng)導(dǎo)者的參考信號,否則ci=0;aij表示網(wǎng)絡(luò)拓撲中權(quán)值鄰接矩陣A=[aij]n×n中元素;λ>0是權(quán)重因子,用于控制智能體i的輸入量的變化.ρ是步長因子。
現(xiàn)在的任務(wù)是,控制器的步長因子ρ的取值滿足什么條件時,多智能體系統(tǒng)能夠?qū)崿F(xiàn)的一致的跟蹤效果。
為便于收斂性分析,下面給出如下假設(shè)和引理。
引理 1:對于非均勻采樣非線性多智能體系統(tǒng)(11),在滿足假設(shè)1和假設(shè)2的條件下,如果η∈(0,1),μ>0,則各個智能體線性化參數(shù)估計算法(16)給出的偽偏導(dǎo)數(shù)估計值i(kT)是有界的。


Φi(kT-T)-Φi(kT)
(20)


(21)
結(jié)合(21)式,將式(20)兩邊同時取范數(shù),


(22)
對(22)式不等式右邊第一項取平方有



(23)
因此存在常數(shù)d,滿足

(24)
根據(jù)式(22)和式(24),可得到如下的遞推不等式

(25)
0 (26) 證明:令 0 引理3[26]:令W(t)是一個時變的主對角線元素為正的不可約的次隨機矩陣.其中,W?RN×N表示所有可能的W(k)組成的集合。使得 其中,0<1,且W(t),t=1,2,…,L。L個矩陣是從集合W中任意選取。 假設(shè)3:拓撲圖G是強連通的,且者少有一個智能體可以獲取領(lǐng)導(dǎo)者的參考軌跡信息。 注2:假設(shè)3中的通信條件是多智能體系統(tǒng)一致性控制問題可解性的必要條件。如果存在一個孤立的智能體,它甚至不知道控制目標(biāo),那么該智能體就不可能遵循領(lǐng)導(dǎo)者的參考軌跡。 根據(jù)上述分析,下面給出以下的結(jié)論: 定理 2:非均勻采樣非線性異構(gòu)多智能體系統(tǒng)(11),在假設(shè)1、2和3滿足的條件下。若虛擬領(lǐng)導(dǎo)者的期望軌跡輸出為y*(kT+T)=y*=const,采用式(16)~式(19)的控制協(xié)議,且控制器的參數(shù)滿足,μ>0,η∈(0,1),λ>λmin。當(dāng)下面的條件成立時 則所有智能體的輸出在k→∞時,存在 證明: 定義跟蹤誤差ei(kT) ei(kT)=y*(kT+T)-yi(kT) (27) 式(19)重新整理為 i=1,…,q (28) 為便于收斂性分析,需定義如下的堆棧向量: (29) 因此,考慮網(wǎng)絡(luò)中的q個智能體,結(jié)合式(12)和式(28),則式(27)可改寫成以下緊湊形式 E(kT+T)=[I-Φ(kT)P(kT)[L+C]]E(kT) (30) 其中,L[lij]∈RN×N是拉普拉斯矩陣,表示智能體i與虛擬領(lǐng)導(dǎo)者之間的聯(lián)系,若ci=1表示智能體i有權(quán)獲取虛擬領(lǐng)導(dǎo)者的期望軌跡y*,否則ci=0。 令Ψ(kT)=I-M(kT)[L+C],其中 M(kT)=Φ(kT)P(kT)=ρ×diag[mi(kT)] (31) 因此,式(30)可重新整理為 E(kT+T)=Ψ(kT)E(kT) (32) 因為不同智能體間的網(wǎng)絡(luò)拓撲圖是強聯(lián)通的,則矩陣Ψ(kT)一定是不可約矩陣.當(dāng)ρ滿足下面的條件時, (33) 由引理2知0 下面對式(32)進行遞推運算,并對不等式兩邊同時取范數(shù)得 (34) 由引理1可知,不等式(34)可重新整理為, (35) 又因為0<1,k>L,則 (36) 定理 3.對于網(wǎng)絡(luò)通信拓撲是強聯(lián)通結(jié)構(gòu)的非均勻采樣非線性異構(gòu)多智能體系統(tǒng)(11),在假設(shè)1、2和3滿足的條件下,若虛擬領(lǐng)導(dǎo)者的期望軌跡輸出為有界的時變信號y*(kT+T),采用式(16)~式(19)的控制協(xié)議,且控制器的參數(shù)滿足,μ>0,η∈(0,1),λ>λmin。當(dāng)下面的條件成立時 各個智能體的輸出在k→∞時,跟蹤誤差有界。 證明: 定義跟蹤誤差ei(kT)以及時變參考信號在采樣周期T內(nèi)的變化Δy*(kT+T)如下 ei(kT)=y*(kT)-yi(kT) (37) Δy*(kT+T)=y*(kT+T)-y*(kT) (38) 根據(jù)式((37)和式(38)將式(19)重新整理為 Θi(kT)=ci[y*(kT+T)-yi(kT)]+ ciΔy*(kT+T) (39) 因此q個智能體的控制協(xié)議可改寫成以下緊湊形式, ΔU(kT)=P(kT)[L+C]E(kT)+P(kT)CΔR(kT+T) (40) 其中,ΔR(kT+T)=Δy*(kT+T)?1q。 下面考慮跟蹤誤差的緊湊形式 E(kT+T)=E(kT)-Φ(kT)ΔU(kT)+ΔR(kT+T) (41) 將式(40)帶入到式(41)中得 E(kT+T)=[I-Φ(kT)P(kT)[L+C]]E(kT) -Φ(kT)P(kT)CΔR(kT+T)+ΔR(kT+T) (42) 令Ψ(kT)=I-Φ(kT)P(kT)[L+C]=I-M(kT)[L+C]∈Rq×q S(kT)=Φ(kT)P(kT)C∈Rq×q 則式(42)重新整理為 E(kT+T)=Ψ(kT)Ψ(kT-T)Ψ(kT-2T)…Ψ(kT-LT) ·Ψ(kT-LT-T)Ψ(kT-LT-2T)…Ψ(kT-2LT)… Ψ(kT-nLT-T)Ψ(kT-nLT-2T)…Ψ(kT-(n+1)LT) …Ψ(3T)Ψ(2T)Ψ(T)E(T)+Ψ(kT)Ψ(kT-T)… Ψ(2T)ΔR(2T)+Ψ(kT)Ψ(kT-T)…Ψ(3T)ΔR(3T)+ …+Ψ(kT)Ψ(kT-T)ΔR(kT-T)+Ψ(kT)ΔR(kT)+ΔR(kT+T)+Ψ(kT)Ψ(kT-T)…Ψ(2T)S(T)ΔR(2T) +Ψ(kT)Ψ(kT-T)…Ψ(3T)S(2T)ΔR(3T)+… +Ψ(kT)Ψ(kT-T)S(kT-2T)ΔR(kT-T)+Ψ(kT)S(kT-T)ΔR(kT)+S(kT)ΔR(kT+T) (43) 當(dāng)步長因子ρ滿足 由引理2可知0 對式(43)兩邊同時取范數(shù)得 (44) 因為 S(kT)=Φ(kT)P(kT)C(kT)∈Rq×q 因此式(44)可重新整理為 (45) 根據(jù)向下取整函數(shù)?·」的特點,下面令 r×[d2+1](λ(k)+λ(k-1)+…+λ(1)+λ(0)) (46) 因此 (47) 綜上所述,由式(45),(46)和(47)可知,當(dāng)k→∞時, (48) 因此,跟蹤誤差是有界的,證明完畢。 考慮4個智能體按圖2所示的網(wǎng)絡(luò)拓撲結(jié)構(gòu)連接,每個智能體的模型為 圖2 網(wǎng)絡(luò)拓撲結(jié)構(gòu) +1.4u1(kT+t1-T)+0.7sin(0.5(y1(kT)-y1(kT-T))) Agent2:y2(kT+T)=u2(kT)+1.1u2(kT+t1-T)× +1.4u3(kT+t1-T)+0.7cos(0.5(y3(kT)-y3(kT-T))) (49) 其中,各個智能體的非均勻采樣方案為,T=1s,p=2,t1=0.4s。通過對非線性系統(tǒng)的分析,每個智能體都是異構(gòu)的、非最小相位系統(tǒng)。值得說明的是本文討論的是動態(tài)特性未知的異構(gòu)多智能體系統(tǒng),在控制協(xié)議的設(shè)計中不包含任何模型參數(shù)信息,上述模型只是用來產(chǎn)生相應(yīng)的輸入和輸出數(shù)據(jù)。 圖2中的節(jié)點0表示虛擬領(lǐng)導(dǎo)者,作用是為網(wǎng)絡(luò)中的部分智能體提供期望的參考信號。該網(wǎng)絡(luò)拓撲只有智能體1和智能體3可以直接獲得虛擬領(lǐng)導(dǎo)者的參考信號,而智能體2和智能體4只能通過與鄰居智能體的數(shù)據(jù)交換來實現(xiàn)跟蹤。 (50) 顯然,拓撲圖G是強連通結(jié)構(gòu),且 下面給出恒定的參考信號形式如下 (51) 由圖3~圖4可知,雖然多智能體系統(tǒng)中,有部分智能體無權(quán)獲得虛擬領(lǐng)導(dǎo)者的參考信號,但是所有智能體都能隨著采樣時間的增加實現(xiàn)輸出跟蹤的一致性。即使參考信號在500s發(fā)生變化,系統(tǒng)也能在520s左右繼續(xù)跟蹤上參考信號,且跟蹤誤差最終收斂于0,這驗證了定理2有效性。從圖5看出,系統(tǒng)偽偏導(dǎo)數(shù)估計值φi1(kT)和φi2(kT),i=1,2,3,4是慢時變的有界函數(shù),顯然滿足引理1。 圖3 輸出跟蹤性能 圖4 輸出跟蹤誤差 圖5 系統(tǒng)的偽偏導(dǎo)數(shù)變化 下面給出時變的參考信號形式如下, (52) 由圖6~圖8看出,網(wǎng)絡(luò)中的所有智能體均跟蹤上虛擬領(lǐng)導(dǎo)者的期望軌跡,且不同智能體的跟蹤誤差是有界的,驗證了定理3的有效性。同時,系統(tǒng)偽偏導(dǎo)數(shù)估計值φi1(kT)和φi2(kT),i=1,2,3,4是變化較為平穩(wěn)的慢時變有界函數(shù),其動力學(xué)行為與各個智能體的閉環(huán)系統(tǒng)工作點、控制信號有關(guān)。 圖6 輸出跟蹤性能 圖8 輸出跟蹤誤差 此外,為驗證所提方法的性能,采用固定增益的一致性控制方法跟蹤參考信號(52)。考慮P型分布式控制算法[19],ui(kT)=ui(kT-T)+KiΘi(kT),i=1,2,…,p。在仿真過程中使用相同的初始條件,對于所有的智能體選擇Ki=[0.01 0.01]T。圖9給出了輸出跟蹤誤差的仿真結(jié)果。從圖8和圖9的比較中,可以明顯的看出本文方法的跟蹤誤差較小。 圖9 輸出跟蹤誤差 針對非均勻采樣非線性多智能體系統(tǒng)的一致性控制問題,提出一種基于數(shù)據(jù)驅(qū)動的分布式控制策略。首先,采用多模型方法表示非均勻采樣非線性系統(tǒng),推導(dǎo)出每個智能體在當(dāng)前工作點處等價的緊格式動態(tài)線性化(CFDL)數(shù)據(jù)模型。然后,利用系統(tǒng)的輸入和輸出數(shù)據(jù)估計偽雅可比矩陣(PJM)的參數(shù),并利用一致性理論對各個智能體設(shè)計出相應(yīng)的分布式無模型自適應(yīng)控制器,該控制器僅依靠非均勻刷新的輸入信號和周期采樣的輸出信號以及鄰居智能體的輸出數(shù)據(jù),無需被控對象的準(zhǔn)確模型信息。同時該方法克服了傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)控制需要大量的訓(xùn)練數(shù)據(jù)的缺點,計算效率更高,更便于工程實現(xiàn)。 在未來的工作中,將進一步深入研究切換拓撲結(jié)構(gòu)下的非均勻采樣非線性多智能體系統(tǒng)的一致性控制問題,以及在事件觸發(fā)機制下的分布式無模型控制方法。因此,這方面的后續(xù)研究非常有意義。





















5 數(shù)值分析














6 結(jié)論