二階多智能體系統的量化迭代學習控制*

2019-06-08 05:36:54丁斗建趙曉林趙博欣高關根

彈箭與制導學報 2019年6期

丁斗建,趙曉林,趙博欣,高關根,劉暢

(1 空軍工程大學研究生院, 西安 710051;2 空軍工程大學裝備管理與無人機工程學院, 西安 710051; 3 中航工業西安飛行自動控制研究所慣性技術航空科技重點實驗室, 西安 710065)

0 引言

近年來,多智能體系統得到了廣泛的研究和發展,先后被學者應用到機器人編隊,無人機集群等領域[1-2]。其中一致性問題是多智能體系統研究的熱點方向,目的是通過設計一定的控制序列,使每個智能體在信息交流后實現同步。通過智能體之間的協同和合作,可以提高系統的容錯率、魯棒性以及穩定性,能較好解決復雜問題,是單個智能體不能企及的。

隨著對多智能體系統一致性問題研究的不斷深入,相應的研究成果不斷出現。文獻[3]考慮了信息受限下二階多智能體系統一致性問題;文獻[4]為了解決多智能體系統一致性跟蹤問題,提出了一種分布式自適應控制協議;文獻[5]則提出了一種異質控制協議,用于多智能體系統自適應跟蹤。相比于以上研究成果,文獻[6]考慮了分數階不確定多智能體系統,在設計控制協議時,結合了狀態觀測器。

迭代學習控制方法,是一種基于重復學習的思想,不斷重復有限時間內的操作,以到達改善控制效果的學習方法。文獻[7-10]應用迭代學習控制方法,實現了多智能體系統的編隊控制,同時還針對此方法,研究了有限時間輸出一致性問題;文獻[11-12]從迭代學習控制算法的初始條件出發,提出了分布式初始狀態學習控制方法,研究了多智能體系統的一致性問題;文獻[13-14]研究了迭代學習控制下多智能體系統一致性跟蹤問題。

近年來,有學者為了解決多智能體系統中數據傳輸帶來的負擔問題,引入了量化控制。所謂量化控制,就是將系統的實際連續信號轉化為分段連續信號再進行傳輸的一種數據處理方法。文獻[15]針對一類非線性二階多智能體系統,引入了均勻量化控制,研究了有領導智能體時系統的跟蹤問題;文獻[16]研究了二階多智能體系統在有向拓撲圖結構下,結合概率量化方法設計了控制協議,實現了系統的一致性;文獻[17]考慮了一階多智能體系統量化迭代學習控制下的一致性實現問題。

針對以上分析不難發現,量化控制方法,已經被大量用于多智能體系統中,以解決相應的問題,如跟蹤、同步等,也有學者將量化控制方法與迭代學習控制方法結合,提出了基于量化的迭代學習控制協議,如文獻[17]。文獻[17]僅考慮了一階多智能體系統的情形,文獻[16]雖然對二階多智能體系統引入了量化器,但并沒有結合迭代學習控制,而且對于帶有領導智能體的多智能體系統的情況也沒有考慮。

綜合以上分析,考慮到迭代學習方法對控制目標的修正效果,以及量化器的引入能降低信號在鏈路傳輸中的負擔等原因,文中針對帶有領導者的二階多智能體系統,引入量化器,并結合迭代學習控制方法,設計量化迭代學習控制協議。具體實施過程為:給定多智能體系統,對系統的狀態誤差和狀態兩類情形分別進行量化,應用量化后的結果,結合迭代學習控制方法,設計基于量化信息的迭代學習控制協議,再將所設計的控制協議,作用于給定系統并分析控制效果。

1 預備知識

1.1 代數圖論基本知識

對于由n個節點組成的無向圖G=(V,E,A),定義V={1,2,…,n}是點集,E∈{(i,j):i∈V,j∈V}是邊集,A=[aij]n×n,aij∈R是圖的連接權值矩陣,鄰居集Ni表示所有的信息由節點j流向節點i的集合。對于任意兩個不同的節點,如果i,j∈V,有aij=aji≥0,當j∈Ni時,有aij>0,定義aii=0,di=∑j∈Niaij,D=diag{d1,d2,…,dn},那么圖的拉普拉斯矩陣可以表示為L=D-A。對于無向圖G,權值矩陣A是對稱的,同時,如果圖中任意兩點存在一條路徑,則此無向圖是連通的。

1.2 對數量化器

考慮對數量化器[18-19],取量化等級U={±ui:ui=ρiu0,i=0,±1,±2,…}∪{0}。其中,u0>0;ρ∈(0,1)是量化密度。量化器Q(·)由式(1)給出。

(1)

式中:δ=(1-ρ)/(1+ρ)。顯然,由式(1)所定義的量化器Q(·)為對稱且時不變的,其量化結果是將實際輸入轉化為分段連續輸出。不同量化密度下的量化輸出如圖1所示。

圖1 不同量化密度下的量化輸出

根據文獻[19],對于給定的量化密度ρ,對數量化器具有如下的性質:

Q(x)-x=Δ·x

(2)

式中:x表示量化器的輸入,Δ·x表示量化誤差,且‖Δ‖≤δ。

定義1對于給定的向量函數f(t):[0,T]→Rn的λ范數定義為:

(3)

(4)

特別的,當a=0時,有

(5)

式中:‖·‖λ表示λ范數。

定義3Rn表示n×1階列矩陣,Y=[1,1,…,1]T表示元素全是1的列向量。

2 主要結果

2.1 問題描述

考慮由n個智能體和1個領導者組成的二階多智能體系統,其中第i個智能體在第k次迭代時的動態方程表示為:

(6)

假設領導者的動態方程表示為

(7)

式中:x0(t)、v0(t)和u0(t)分別表示領導者的位置、速度和控制輸入。

則可以定義多智能體系統一致性誤差為:

(8)

2.2 基于量化狀態誤差的一致性

在這一節中,主要對系統狀態誤差進行量化。考慮給定的系統式(6)和式(7),在信號傳輸的過程中,引入對數量化器。設計第i個智能體的量化一致性誤差為

(9)

式中:aij是連接矩陣A中的元素;bi表示智能體i與領導者相連的連接權值;Q(·)表示對系統狀態誤差的量化輸出。

根據對數量化器的性質式(2),將式(9)轉化為

(10)

將上式寫成矩陣的形式：

(11)

將式(8)寫成矩陣的形式,則有:

(12)

(13)

根據迭代學習控制思想,設計迭代控制協議:

(14)

式中:uk(t)∈Rn是智能體在第k代的控制輸入,Γ是學習增益矩陣。

將式(13)代入式(14),則有:

(15)

設計如下初始學習協議:

(16)

從迭代學習控制的觀點考慮,控制協議式(15)以及初始條件式(16)可以看作是微分型迭代控制序列。結合式(12)可知,這種迭代控制協議主要利用鄰居智能體間的誤差信息進行交流,因此具備了迭代學習控制和分布式協議的特點。

證明根據多智能體系統動態方程(6),不難發現

(17)

將式(15)代入式(17),則有

(18)

對式(18)右邊積分得：

(19)

代入初始條件式(16),有

(20)

根據式(12),式(20)可以轉化為：

(21)

進而,有

(22)

對上式兩邊同時積分,即

(23)

則有

(24)

代入初始條件(16),式(24)可以轉化為:

(25)

對上式兩邊同時取范數,則有

(26)

用e-λt乘以式(26)的兩邊,并根據定義1和定義2,則

(27)

2.3 基于量化狀態的一致性

這一節,主要考慮的是對系統狀態進行量化。設計第i個智能體的量化一致性誤差為:

(28)

結合對數量化器的性質,類似于2.2節的分析,可以得到:

(29)

式中:H′=D+B。設計迭代控制協議

(30)

將式(29)代入式(30),得

(31)

設計如下初始學習協議

(32)

證明因為

(33)

代入初始條件式(32),式(33)可化為:

(34)

結合式(12),式(34)可化為:

(35)

對上式兩邊同時積分,并代入初始條件(32),得:

(36)

對上式兩邊同時取范數,則有

(37)

用e-λt乘以式(37)兩邊,根據定義1和定義2,有

(38)

對于固定的多智能體系統拓撲圖,H和H′是固定的,可以選擇合適的學習增益矩陣Γ和量化密度ρ,使條件‖I-(1+Δ)ΓH‖<1和‖I-Γ(H+ΔH′)‖<1滿足控制要求。

3 仿真分析

為了驗證文中結論的正確性,對上節所述兩種情形進行仿真分析。考慮5個智能體和1個領導者組成的多智能體系統,其無向拓撲圖如圖2所示,0號代表領導者。

圖2 多智能體系統通訊拓撲圖

根據第2章所介紹的基本知識,可以得到：

B=diag(1,0,0,0,0),D=diag(2,2,2,2,2)

情形1考慮量化系統狀態誤差

給定每個智能體動態方程如式(6),領導者動態方程如式(7),領導者的輸入為,u0(t)=sin(t)。

設多智能體初始位置和速度分別為x1(0)=[2,2.5,1.5,1,0.5]T和v1(0)=[1.5,-1,0.5,-0.5,1]T;領導者初始位置,x(0)=[0,0,0,0,0]T,v(0)=[0,0,0, 0,0]T,仿真時間設置為t∈[0,6 s]。選取量化密度ρ=0.35,則σ=0.481 5,所以Δ∈[-0.481 5,0.481 5],這里選擇Δ=-0.45。

選擇Γ=diag[0.25,0.25,0.25,0.25,0.25],則有‖I-(1+Δ)ΓH‖=0.963 2<1,滿足定理1要求。取迭代次數k=200,考慮迭代學習控制律(15)和初始狀態更新控制律(16),仿真結果如圖3～圖6所示。

圖3和圖4是5個智能體的位置和速度跟蹤結果。由圖可以看出,隨著迭代次數的增加,最終初始狀態逐漸趨近于領導者的初始狀態,多智能體實現對領導者的跟蹤。圖5是k=200時的控制輸出,可以看出,最終每個智能體的控制近乎一致,從而說明了多智能體的狀態將不再發生改變。圖6是200次迭代過程中最大位置和速度誤差絕對值的變化曲線。最終誤差趨近于0,從而表明了定理1的有效性。

情形2考慮量化系統狀態

令多智能體系統和領導者動態方程與情形1保持一致。設多智能體初始位置和速度分別為x1(0)=[2,1.7,2.5,1.5,1],v1(0)=[1.5,2,2.5,1.7,1.5]T,其它參數設置與情形1一致。這里選擇Δ=0.35。選擇Γ=diag[0.35,0.35,0.35,0.35,0.35],則有‖I-Γ(H+ΔH′)‖=0.761 7<1,滿足定理2的要求。取迭代次數k=50。考慮迭代學習控制律(31)和初始狀態更新控制律(32),仿真結果如圖7～圖10所示。

圖3 5個跟隨智能體放入位置跟蹤結果

圖4 5個跟隨智能體放入速度跟蹤結果

圖5 k=200時的控制輸出

圖6 最大位置和速度跟蹤誤差

圖7 5個跟隨智能體放入位置跟蹤結果

圖8 5個跟隨智能體放入速度跟蹤結果

圖9 k=50時的控制輸出

圖10 最大位置和速度跟蹤誤差

圖7和圖8是5個智能體的位置和速度跟蹤結果。由圖可以看出,隨著迭代次數的增加,最終初始狀態逐漸趨近于領導者的初始狀態,多智能體實現對領導者的跟蹤;圖9是k=50時的控制輸出,可以看出,最終每個智能體的控制幾乎一致,從而表明了多智能體系統的狀態將不再發生改變;圖10是50次迭代過程中最大位置和速度誤差絕對值的變化曲線,最終誤差為0,從而表明了定理2的有效性。

圖3和圖4,圖7和圖8的結果說明,雖然多智能體的初始位置與領導智能體的不同,但是隨著迭代次數的增加,最終實現了同步;相比文獻[7]和文獻[14]要求多智能體的初始位置與領導者一致,對條件進行了放寬;與情形1相比,情形2實現對領導者的跟蹤,所需迭代次數明顯較少,這是因為‖Δ‖選取不一樣,情形2要比情形1粗糙。

4 結論

文中應用量化器信息,結合迭代學習控制方法,分析了基于量化系統狀態誤差和量化系統狀態兩種情形下的帶有領導者的二階多智能體系統一致性實現問題;針對不同情形,設計了不同的迭代學習控制協議和初始狀態更新律,通過理論分析,獲得了智能體實現對領導者跟蹤同步的收斂條件,仿真結果表明了所設計的量化迭代學習協議的有效性。后續工作將在此基礎上對高階多智能體系統進行相關分析和討論。