劉圃秀,魏文軍,2
(1. 蘭州交通大學 自動化與電氣工程學院,蘭州 730070;2. 蘭州交通大學 光電技術與智能控制教育部重點實驗室,蘭州 730070)
近年來,多智能體系統因其在解決大型復雜系統問題上表現出的分布性、協調性和自主性受到廣泛關注[1-3].對比昂貴且復雜的單個系統,雖然多智能體系統中各智能體結構較為簡單,卻能通過相互協調解決復雜的現實問題,且具有更好的性能.多智能體系統協同控制問題研究包括編隊控制[4-5]、輸出調節問題[6-7]和一致性問題等,其中一致性問題是十分重要和經典的問題.多智能體系統的一致性控制問題是指系統中的各個智能體通過自身對環境做出反應并僅與相鄰智能體通信,在一致性協議的控制下,位置或速度等狀態最終都能夠達到一致.但這種一致性在一些現實工業場景,例如周期性運行的多衛星系統或生產線上重復作業的多機械臂系統的協調控制中,無法在給定時間區間內完全跟蹤期望軌跡.
目前在周期運動控制中,迭代學習是效果比較好的控制算法.迭代學習控制是模仿人類“在重復中學習”的行為設計出的一種學習算法,因其結構簡單、對建模準確性要求低以及魯棒性較好等特點,在提出后受到了廣泛關注[8-9].迭代學習控制最初由日本學者Uchiyama提出[10],后由Arimoto等[11]詳盡且正式的描述為迭代學習控制(iterative learning control,ILC)理論.
近年來,迭代學習控制研究取得許多成果[12-15],因其結構簡單且控制效果較好而逐步應用于多智能體系統中.文獻[16]針對多智能體系統編隊問題,應用迭代學習控制算法,在智能體間的拓撲關系存在切換的情況下實現了穩定編隊.文獻[17]提出了分布式編隊迭代學習算法,驗證了該算法在系統受隨機擾動影響下的有效性,但未考慮收斂所需迭代次數問題.文獻[18]針對帶有領導者的多智能體系統的一致性問題設計了一種迭代學習型的一致性控制律,保證跟隨者對領導者的完全跟蹤并給出了控制律的收斂條件.分析以上文獻可知目前研究中設計的迭代學習控制律均沒有考慮收斂所需迭代次數的問題,系統需要經過多次迭代才能對領導者實現完全跟蹤,收斂時間長,不利于工程應用.
考慮到有限時間算法已經成功應用到普通的多智能體系統一致性控制問題上,該算法可加速誤差收斂,大大縮短收斂時間[19-20],為減少多智能體系統對領導者實現完全跟蹤所需的迭代次數,本文提出一種改進的多智能體有限時間一致性迭代學習控制律,利用有限時間算法處理跟蹤誤差,提高迭代學習控制律控制下系統的收斂速度,使系統快速收斂,更有利于工程應用.
本文考慮的多智能體系統由虛擬領導者和N個跟隨智能體共同構成.設迭代次數為k,則系統中智能體i在第k次迭代時的動態方程為
(1)
其中:xi,k(t)∈Rm和ui,k(t)∈Rm分別為智能體i的狀態向量和控制輸入向量,t∈[0,M].
設領導者在任意給定的時間區間t∈[0,M]內的狀態為x0(t),則可定義系統中跟隨著與領導者之間的誤差為
(2)


有限時間一致性算法在解決多智能體一致性問題上可獲得更快的收斂速度.有限時間穩定相關的引理、定理如下.
引理1[14]如果存在一個連續可微的函數V(x)∶Rn→R,使得其滿足下列條件:
1)V(x)是正定函數;


為了便于分析,假設系統滿足如下條件:
假設1多智能體系統的動態特性是可重復的,從而保證系統存在唯一的理想控制輸入u0(t),使系統獲得理想狀態.
假設2對于所有的k,都有xi,k(0)=x0(0),即系統每次運行初始狀態相同.
文獻[18]設計的第i個智能體在第k+1次迭代時的控制律為:
(3)
式中,γi是一個正增益.
為了使系統獲得更快的收斂速度和更好的暫態性能,在式(3)基礎上參考文獻[20]多智能體有限時間算法,設計了有限時間一致性誤差及控制律,如下所示:
(4)
其中:sig(x)σ=|x|σsgn(x),sgn(·)是符號函數;γi為學習增益;β1,β2為兩個待定參數;0<σ<1;ai0為智能體和領導者間的加權.
為了便于收斂性分析,令:
(5)
寫出式(2)系統的緊湊形式如下:
(6)

(7)
其中:Γ=diag(γ1,γ2,…,γn);?為克羅內克積.

定義2給定向量函數h∶[0,T]→Rn,其無窮范數定義為
引理3[21]對無向圖G,若存在函數Ψ∶R2→R,且對?i,j∈{1,2,…,n},i≠j滿足Ψ(xi,xj)=-Ψ(xj,xi),則有一組數列滿足
(xj,xi).
引理4[22]用L(A)=(lij)∈Rn×n代表無向圖G的Laplacian矩陣,性質如下:
2) 若拓撲圖G連通,則L(A)半正定且圖的代數連通度為

0=λ1(L)<λ2(L)<…<λN(L).
3) 若無向圖G是連通的,則對于bi≥0,?i∈{1,2,…,n},b≠0,矩陣L(A)+diag(b1,b2,…,bn)正定.



證明令
(8)
聯合式(4)、(8)可以得到
(9)
(10)
由引理3可知,
(11)
由引理5可知,式(11)可以表示為
(12)
假設M=L(A)+diag(a10,a20,…,an0),并且由引理4中L(A)的特征值條件可以得到
(13)
將式(13)代入式(12),可以得到
(14)
由引理1可知所設計的控制律滿足以下條件:
(15)

定理2給定由式(1)和(4)描述的有限時間迭代學習控制系統,若滿足條件
ρ(I-β2(HΓ)?Im)=τ<1,
(16)

證明由式(4)得k+1次迭代時的跟蹤誤差為
(17)
則相鄰兩次迭代誤差的差可表示為
δk+1(t)-δk(t)=xk+1(t)-xk(t)=(Γ?Im)ek(t).
(18)
將式(18)代入式(17)可得
ek+1(t)=(I-β2(HΓ)?Im)ek(t)-β1((L+S)?Im)sig((Γ?Im)ek(t))σ.
(19)
‖ek+1(t)‖∞≤‖I-β2(HΓ)?Im‖‖ek(t)‖∞+
‖β1((L+S)?Im)‖‖sig((Γ?Im)ek(t))σ‖<‖I-β2(HΓ)?Im‖‖ek(t)‖∞.
(20)

在Matlab軟件中對系統進行仿真,考慮文獻[18]所提的迭代學習多智能體系統由三個跟隨者和一個虛擬領導者系統組成,其中第i個智能體的動態方程如下:
智能體間的信息交流用通訊拓撲圖表示,其中0表示領導者,如圖1所示.
由圖論知識可知,S=diag(0,0,0.5),鄰接矩陣為

則Laplacian矩陣為


圖1 智能體的通信拓撲圖Fig.1 Communication topology of agents

圖6和圖7為系統分別在控制律(3)[18]和改進后的控制律(4)的作用下的最大跟蹤誤差收斂圖.通過對比圖6和圖7可知,在本文所設計的有限時間一致性迭代學習控制律作用下,系統的跟蹤誤差收斂至零所需的迭代次數由40次減少為16次.通過對比可知,所需迭代次數減少60%左右,收斂速度大幅提升.

圖2 迭代5次時各智能體的狀態曲線Fig.2 Curve state of each agent with iteration k=5

圖3 迭代5次時各智能體的狀態曲線Fig.3 Curve state of each agent with iteration k=5

圖4 迭代20次時各智能體的狀態曲線Fig.4 Curve state of each agent with iteration k=20

圖5 迭代20次時各智能體的狀態曲線Fig.5 Curve state of each agent with iteration k=20

圖6 控制律式(3)下的最大跟蹤誤差Fig.6 Maximum track error with control law (3)

圖7 控制律式(4)下的最大跟蹤誤差Fig.7 Maximum track error with control law (4)
本文針對多智能體系統迭代學習一致性問題,通過有限時間算法對迭代學習控制律進行改進.對于有重復運動性質的多智能體系統,改進后的有限時間迭代學習控制律與改進前相比,在給定的重復區間內,系統在完全跟蹤期望狀態的基礎上,跟蹤誤差的收斂速度更快,整個系統的跟隨者完全跟蹤到期望狀態所需的迭代次數明顯減少.