王常虹,劉 博,李清華
(哈爾濱工業大學空間控制與慣性技術研究中心, 哈爾濱 150001)
隨著社會的進步與發展,人們對機器人系統的依賴也越來越強,需要機器人系統完成的任務也日趨復雜,特別是重復性、危險性較高的工作,對機器人系統的需求更為明顯。雖然目前在單機器人領域有了較為長足的進步,但是由于任務的多樣化、復雜化,單個機器人常常無法完成部分人們指定的任務。為了解決這些復雜困難的任務,多機器人系統(Multi-Robot System, MRS)應運而生。MRS是由多個在同一環境中相互作用的機器人組成的系統。相較于單機器人系統 ,MRS具有如下幾方面的優勢:
1)MRS個體可分布于空間的不同位置。
2)任務并行處理:群體中的個體間既有耦合又相互獨立。在任務內個體間相互耦合,任務間個體相互獨立。MRS根據任務形成了相應的MRS子集并行處理問題,提高了任務完成效率。
3)魯棒性:MRS可適應不同的任務環境,且當環境具有不確定性時,MRS具有一定的容錯性。由于個體間功能的冗余性,當某個或者某些機器人出現故障甚至完全損壞時,系統仍然可能正常工作。
由于MRS的高效性和魯棒性,具有廣泛的應用場景,但目前MRS發展還不完善,大多數MRS成果還停留在理論研究和實驗室演示階段,因此MRS的實際應用成果較少,主要集中在大范圍環境態勢感知[1]、集群協同作戰、復雜環境救援[2]、無人機集群編隊表演和工廠協同裝配等幾個方面。
自20世紀60年代法國生物學家Grasse通過觀察白蟻的筑巢行為,提出了共識自主性的概念,學術界對于集群系統的研究逐步發展起來。進入21世紀后,隨著美國國防部高級研究計劃局(Defense Advanced Research Projects Agency, DARPA)和歐盟信息社會項目提出越來越多有關MRS的項目需求,MRS研究進入了高速發展的階段。
對于MRS,除了單個機器人涉及的問題外(如軌跡規劃、控制等),還涉及機器間如何實現交互、如何解決機間路徑沖突、一致性控制和復雜任務分解和分配等諸多問題。Bond和Gasser[3]兩位學者總結了MRS的相關問題:
1)如何在個體中用公式表示、描述、分解和分配任務;
2)個體間如何交流和互相影響;
3)如何確保個體行為的連貫性;
4)個體間如何辨認和處理相互的沖突。
要解決這些問題,需要建立合適的系統模型,理解MRS運動的發生機理,研究個體與系統間的關系。目前較為常用的MRS建模研究思路可以分為自頂向下和自底向上兩種。
自頂向下的方法主要基于分而治之的分層思路,將MRS問題分解為多個子問題,如任務分配、航跡規劃、控制等多個層次。針對每個層次分別進行建模求解,有效降低了問題求解的難度和復雜度。以P.R.Chandler[4-5]所提出的分層遞階結構為例,如圖 1所示,該遞階結構包括3個決策層和1個控制層。第3層進行任務分配,在滿足約束條件的前提下,將任務分配給具有不同能力的個體(群);第2層進行個體間任務協調,包括協同攻擊、協同分類、沖突消解等;第1層負責任務的執行與航跡規劃,包括路徑規劃、軌跡優化及路徑沖突解決;第0層為控制層,負責解決軌跡跟蹤與底層控制問題。雖然在圖 1中相鄰兩層相互影響,但是在實際研究中,鮮有將相鄰層次耦合求解,通常為完全解耦求解,以求得次優解。

圖1 分層遞階結構Fig.1 Hierarchical decomposition
采用分層遞階結構有效降低了MRS決策與控制的復雜性,是目前主流的研究方法。對于這種問題的建模和求解,主要是針對任務分配與航跡規劃解耦求解。從數學角度來看,任務分配(亦稱為任務規劃、任務調度)屬于復雜的組合優化問題,目前已有多份優秀的研究綜述[6-8],本文不再贅述。而針對航跡規劃問題,主要是解決個體間空間與時間層面的沖突及動態避障的問題[9],總體呈現百家爭鳴的態勢,非本文研究重點,可查看近期研究綜述[10-11]。
不同于自頂向下的研究方法,自底向上的方法主要基于自組織方法的研究思路,通過個體的微觀模型,從個體對環境的感知、交互、決策協調入手,對整個MRS產生宏觀調控的效果。這種分布式調控的方式還可以解決分層遞階結構求解時對動態環境響應較慢的問題。
自底向上的MRS建模方法,最初起源于對生物界群集行為的研究,如鳥群[12]、魚群[13](見圖2)、蟻群[14]等,后來通過模擬生物群體的行為,對系統進行建模,從而實現了MRS的自組織策略,這種方式計算簡單且魯棒性好。在Jadbabaie和Olfati-Saber等的推動下,擬生物方法逐步形成了MRS一致性控制理論。一致性控制理論是指隨著時間的推移,MRS中的所有個體的某項或者某些狀態趨于一致。由于分布式的一致性控制與基于生物的自組織策略具有類似特點,且有數學理論支撐,因此越來越多的學者對一致性控制理論產生了濃厚的研究興趣。

圖2 魚群行為研究Fig.2 Study on the movement of fish schools
雖然現階段國內外研究人員已取得了一些研究成果,但是大部分仍處于只關注工程實現,采用拼湊的方法解決簡單的問題,或是采用集中分配求解方法,不利于充分發揮MRS的優勢。本文將從自底向上的研究方法入手,對當前自組織MRS建模形式進行總結與分析。
MRS較個體建模更加復雜,除個體模型外,通常情況還需考慮系統個體模型間的關系,即拓撲模型,個體模型表示為拓撲模型中的節點。故MRS控制系統模型一般包含兩部分:拓撲模型和節點模型。拓撲模型決定了個體間的連接關系,現階段通常用圖表示,如:無向圖、有向圖、加權圖等。節點模型則用于描述個體的狀態。本節將主要從擬生物行為模型、一致性控制模型和多智能體強化學習系統模型3個方面對自組織MRS建模方法進行總結與分析。
MRS最初起源于對生物界群集行為的研究,生物學的理論和方法對MRS建模研究具有重要影響。在生物群體中,通過個體間或個體與環境的相互作用實現自組織,從而完成特定任務,如螞蟻搭橋[14]、蜜蜂尋巢[15]、狼群圍獵[16]等。類似地,MRS主要研究機器人之間和機器人與環境之間如何通過有限感知和局部交互,涌現出期望的群集行為。而對生物群體建模,是MRS模仿生物群體行為智能決策和智能涌現的前提。
最早的MRS模型是Reynolds[12]于1987年提出的Boids模型,該模型用計算機來模擬群體行為,并給出了智能集群系統滿足的3個規則:
1)速度匹配:個體盡量與鄰居速度和方向的平均值保持一致;
2)聚集:盡量向鄰居的平均位置運動;
3)避免碰撞:相鄰個體間避免發生碰撞。
2001年,Reynolds將Boids模型所有資料公布于網站1
1http://www.red3d.com/cwr/boids/上,包括程序、示例、相關論文等。在Boids模型的基礎上,1995年Vicsek等[17]將其簡化,提出了一種離散MRS模型—Vicsek模型,用于模擬大量粒子涌現的現象,其實質是Boids模型中速度匹配的動力學表示。Vicsek模型刻畫了多個粒子構成的自治系統的同步運動。在這個模型中粒子遵循如下規則:
1)系統中運動的粒子具有常速率v;
2)粒子存在一個影響半徑r,即系統中的任意一對粒子,只有這對粒子之間的直線距離小于r時,他們才存在相互的影響;
3)粒子每一時刻的運動方向跟上一時刻影響半徑范圍內的其他所有粒子的平均運動方向相同。
同時,Vicsek模型首次對MRS進行了數學化描述,如式(1)所示
(1)
其中:xi(t)為個體i在t時刻的位置;vi(t)為個體i在t時刻的速度;θi(t)為個體i在t時刻的航向;<θi(t)>r為個體i及其周圍個體的航向平均值;Δi(t)為擾動項。引入φ評判是否同步
(2)
其中,φ為描述歸一化的平均速度的指標,當速度一致時φ=1;當系統完全雜亂無章時φ=0,如圖 3所示。

圖3 左:φ=0;右:φ=1Fig.3 Left:φ=0;right: φ=1
考慮到大部分生物無法獲得360°的感知范圍,因此在Boids模型和Vicsek模型的基礎上,部分學者添加了有限視場角約束[18-19], 建立了有限視場約束的Reynolds群集模型和有限視場約束的Vicsek模型。
與Reynolds同時期,加州大學的Beni與Hack-wood兩位教授[20]首次提出了群體智能的概念,而后Bonabeau和Dorigo 在其著作[14]中,將生物群體智能定義為:任何一種由昆蟲群體或其他動物社會行為機制而激發設計出的算法或分布式解決問題的策略。同時兩人還提出了另一種影響深遠的擬生物群MRS模型——蟻群模型。昆蟲學家發現,雖然螞蟻視覺系統并不發達,但總可以通過感知種群中螞蟻個體釋放的信息素,選擇信息素濃度較高的路徑,不斷正向迭代,使蟻群逐漸沿著最短的路徑找到食物。在此基礎上,Dorigo[14]提出了蟻群模型,用于解決車輛路徑、調度優化、指派和旅行商等問題[14,21]。以旅行商問題(Traveling Salesman Pro-blem, TSP)為例,蟻群群體數量為m,目標數為n,節點i與節點j的距離為dij,2個節點間信息素濃度為τij(t)。根據τij(t)設計節點間轉移概率,根據dij設計城市間轉移的期望,從而完成模型的基本設計。螞蟻個體沿路徑信息素釋放模型可以根據問題進行設計,常采用:與經過路徑總長度成反比的ant cycle模型、僅與相鄰節點距離成反比的ant quantity模型,以及信息素濃度始終保持不變的ant density模型三類。
人工蜂群最早起源于生物學家對自然界蜂群行為的觀察[15],常用于集體決策研究。該模型通過模擬偵察蜂搖擺舞行為,建立分布式決策模型。以尋找新據點為例[22],M. R. Myerscough建立了一套普適決策模型:根據潛在偵察蜂的總數以及在每個地點搖尾的次數,分配每個地點在各個時刻所需偵察蜂的數目。人工蜂群模型中個體完全獨立,通過個體的感知和決策,最終形成系統的統一決策。在此基礎上,逐步發展成為完善的人工蜂群算法,廣泛應用于無人機偵察和打擊領域[23]。
在鴿群層級網絡自組織模型中[24],通過模仿鴿群中的層級網絡,反映鴿群中的通信、各層級數目、智能化程度、個體間的連接關系等,從而使得群體通過微觀的個體之間的交互產生宏觀行為調控。根據生物學研究發現,鴿群交互模型為根據固定范圍確定網絡模型和固定鄰居數目的交互模型,因此可以構建鴿群的層級引領網絡模型,模型描述與傳統一致性控制模型相似:由個體動力學模型及網絡拓撲模型構成,模型中個體被上層領導者領導,并對下層跟隨個體有引導作用[25]。
狼群在獵殺食物時[16,26],常常可以獵殺體重數倍于自己的獵物,在獵殺過程中,狼群自主決策產生組織者,并根據狼群的個體情況,均衡分配任務追蹤和包圍獵物,直到獵物停止移動,最后以車輪戰的方式拖垮獵物。由狼群獵殺行為可以看出,狼群模型中個體間自治,角色可靈活轉換,無法區分,個體間交互信息為互相的位置信息,每個個體都具有任務管理和任務分配的能力,且每階段任務中,組織者均可能會發生改變,因此狼群模型具有極強的魯棒性。該模型包括當前任務狀態、行為庫、策略庫、任務環境,以任務環境和當前任務狀態作為輸入,通過策略庫從動作庫中選擇下一步動作,直至完成整個任務集。該模型廣泛應用于軍事無人機圍堵、打擊和任務分配。
受到Wang等[27]2016年針對大象群體中氏族形成行為研究的啟發,Almufti等[28]構建了象群優化(Elephant Herding Optimizations, EHO)模型,該模型可分為2個部分:
1)種群更新:用于更新每個部落中大象和母族長的位置
Xnew,ci,j=Xci,j+α(Xbest ci-Xci,j)r
(3)
其中,Xnew,ci,j為ci氏族中個體j的位置更新;α∈[0,1]表示母族長對于個體Xci,j的影響程度;Xbest,ci表示族長的位置;r∈[0,1]則表示一種隨機分布,用于改善大象種群的多樣性。母族長的位置則由氏族重心所引導,不斷更新。
2)分離:在每一個象族中,公象在成年后都會離開族群獨自生活,進而提高了下一個搜索階段的種群多樣性。
通過這種建模形式,Almufti等[28]有效解決了MRS中多旅行商的目標分配問題。
C. Jada等[29]受到蝴蝶交流和尋找配偶等生物現象的啟發,構建了meta-butterfly模型,并描述了蝴蝶群體模型。在模型中,基于歐氏距離確定周圍蝴蝶,更新自身信息素,并通過對不同個體釋放不同量的信息素與周圍蝴蝶交互,進而完成選擇過程,根據移動策略(式(4))完成聚集。
(4)
其中,Bs為步長;xi(t)為t時刻蝴蝶i的位置。
除了動物的集體行為,細胞水平的生物現象也同樣可以在MRS的研究中被采用。H. Oh等[30]通過研究生物學中形態因子影響胚胎階段擴散到發育組織,并自動調整細胞的行為和反應的現象,構造了分布式的數學模型,形態因子通過機器人擴散模型描述
(5)
其中,Cbi為個體b中形態因子i的濃度;Di表示擴散率;ri為衰減速率;dbb′表示個體b到b′的距離;Nb表示與個體b相連接的個體數。
上面的擴散模型并未考慮個體間對形態因子的影響。當考慮一個細胞的幾個形態因子與鄰近細胞的形態因子發生反應時,將式(5)中引入反應機制,則可以建立Reaction-diffusion模型
(6)
其中,wij為交互矩陣的元素;fij表示更新函數,通常采用sigmoid方程。
在Reaction-diffusion模型的基礎上,Y.Ike-moto等[31]利用一組機器人,成功生成并保持圓形、三角形、四邊形、六邊形等多種圖案。以圓形為例,機器人一旦形成一個圓形圖案,2個形態因子的信號就會在機器人之間交換,并通過一組Reaction-diffusion方程相互作用,穩定為圓形圖案。
近年來,部分學者通過觀察細菌的生物學特性,建立相應規則,形成MRS聚集行為。受到細菌趨光性質的啟發,Li等[32]設計了一套僅靠周圍粒子根據環境變化情況實現運動的系統,個體根據環境的光照控制本體擴張與收縮,個體間相互推擠實現運動。這套系統即使20%的個體失效,仍能保持運動,展示了大規模MRS的強魯棒性。
至此可以看出,通過對生物群社會行為的研究和模仿,從而驗證了MRS的自組織方法對環境有較強適應性,且系統具有較強的魯棒性,不會因為某些個體出現問題而導致系統崩潰,具有一定的自愈能力,同時這種方法通過簡單個體的協作,高效完成了復雜任務,也體現了系統智能的涌現。但是,這種擬生物群體方法的缺點也十分明顯。該方法源于對自然界生物群體社會性行為的觀察與模仿,相關數學分析比較缺乏,描述尚不完善,因此無法對結果和過程進行完善的分析,進而導致行為反應不可完全預測、結果可信度較低。
一致性問題起源于對自然界生物行為的研究,并在擬生物方法的基礎上逐步發展為MRS最重要的研究方向之一,是MRS最基本的控制問題。一致性算法的基本思想是個體利用網絡傳遞信息,設計合理的控制算法,實現系統內個體狀態的一致或同步。MRS中的許多問題都可以歸結為一致性控制問題,如MRS的聚集問題和編隊隊形形成問題均可以描述為MRS個體位置一致性問題。最為常見的群集問題是指所有個體速度達到相同并避免碰撞,可以用速度一致性來描述。近些年MRS一致性控制問題快速發展,從傳統的低階積分模型演變到高階模型、一般系統模型和非線性模型,也逐漸從同質系統演變到異質系統,同時為提高采樣與控制效率,基于事件觸發[33-34]的MRS一致性問題研究也逐步興起。
2.2.1 低階一致性模型
在Reynolds[12]提出的Boids模型及Vicsek等[17]提出的Vicsek模型兩種擬生物群模型的基礎上,2003年,Jadbabaie等[35]在無噪聲的假設條件下對Vicsek模型進行了簡化,用矩陣論和圖論(無向圖)給出了Vicsek模型的收斂性的理論證明,指出:只要滿足聯通,粒子的運動方向就能達到一致。與Vicsek描述類似,Jadbabaie引入了圖論,將無領導的模型描述為
(7)

(8)
當需要領航員的情況下,bi(t)=1,否則bi(t)=0。集群系統模型自此從群體動力學模型時代進入了網絡化系統與圖論描述時代。
Olfati-Saber等[36-38]將Jadbabaie的工作進一步擴展,在其基礎上研究了系統的網絡拓撲結構與系統收斂性之間的關系,指出如果系統的網絡拓撲結構是強連通的有向圖,則對于任意初始狀態,系統的狀態是漸近收斂的,且對于強連通有效拓撲結構下的MRS,平均一致收斂的充要條件是它的信息交換圖是平衡圖。
Olfati-Saber將系統描述為G=(V,ε,A),其中V為節點,ε為邊,A為鄰接矩陣,它的元素均為非負。個體的集合為
NJ:=
(9)
建立個體動力學模型為
定義有向拉普拉斯矩陣為
L(G)=L=Δ-A
其中,Δ為入度矩陣。
針對切換拓撲的模型,Olfati-Saber[38]建立模型
Γn={G=(V,ε,A):rank(L(G))
=n-1,1TL(G)=0}
(10)
第1個式子是對強連通網絡的描述,第2個式子是對系統的描述。其中s(t):R≥0→IΓn是切換信號。
在Olfati-Saber的基礎上,美國加州大學河濱分校的任偉教授等[39]在固定拓撲結構的假設下,將強連通拓撲條件弱化為只要在一段時間內網絡拓撲子圖的聯合圖包含一條有向生成樹,則系統可實現一致性;在動態變化的交互拓撲下,如果有向交互圖的并集在系統演化過程中有足夠頻繁的生成樹,則也可以實現信息漸近一致,并建立了離散系統建模與連續模型。
同樣受到Vicsek和Jadbabaie工作的啟發,Cucker和Smale[40-41]提出了一個非常有意義的集群模型(Cucker-Smale模型, CS模型),在模型中所有個體具有慣性,且整個系統完全驅動。在CS模型中,個體會對其速度進行自我調節,即通過自己在t時刻的速度跟其他個體在t時刻的速度差的加權平均值來調節自己下一時刻的速度。之前的模型需要在無限時間序列上的一個假設,CS模型的收斂結果只依賴于初始狀態條件和影響參數。在CS模型中,也做了一些理想化處理:
1)所有個體之間都有相互影響;
2)個體間影響的強弱跟它們之間的絕對距離和速度差有關。
連續CS模型:考慮一個具有N個子個體的MRS,對于個體i,它在t時刻的位移記為xi(t),速度記為vi(t)的模型滿足
(11)
其中

以CS模型中個體之間的影響機制為基礎,美國的Shen教授[42]提出了一個特殊的具有領導機制和分等級機制的集群(Hierarchical Leadership, HL)模型。HL模型中每個成員都屬于和它對應的一個等級,對它們從高到低依次排序。成員們遵循一個低等級的成員只能夠被高等級的成員影響和領導的機制。與CS模型表述相同,僅加入了2組額外描述:
1)當j
2)若個體i領導組成的集合表征為:L={aij(t) > 0},那么對于任意的i> 0都有L≠?。
哈爾濱工業大學的Li等[41]在Shen的基礎上改進了HL模型,建立了一個更為一般的單領航機制的多智能復雜系統集群模型(Cucker-Smale under Rooted Leadership, CSRL)。在這個模型中存在一個全局領導者,它不受其他個體的影響,但是直接或者間接地影響著其他所有個體。這個模型更好地揭示了全體的合作信息交換的優點。
2011年,美國馬里蘭大學終身杰出教授Tadmor及其團隊[43]改進了CS模型,在CS模型的基礎上考慮生物集群特性,提出了一個新的MRS集群模型(Motsch-Tadmor, MT)。在這個模型中不僅考慮了個體數量,還考慮了個體在空間中的幾何關系。但是由于相對距離的引進,使得原CS模型中的對稱性質遭到破壞,Tadmor通過引進一個新的分析方法對復雜MRS集群性質進行了開創性的研究。
在MT模型中,考慮一個具有N個子個體的MRS,對于個體i,它在t時刻的位移和速度分別為xi(t)和vi(t),模型滿足
(12)
其中

2013年,哈爾濱工業大學的Dong等[44]在Shen的基礎上,研究了具有自由意志的離散HL模型,并給出了一個自由意志函數控制的條件以確保系統的集群性。在Dong和Tadmor工作的基礎上,2016年湖南大學的李樂博士[45]綜合了具有自由意志的離散HL模型[44]和MT模型[43],提出了具有多領導者、等級制度且描述個體間影響的RH模型。考慮一個有N個個體的MRS,假設系統中存在K個等級,等級Ri中存在Ni個個體。Ri中的個體i,在t時刻的位移和速度記為xi(t)和vi(t)。系統在MT個體模型的基礎上加入自由意志,并對不同層級個體分別進行描述,驗證了11個個體模型的速度和位置一致性。
2.2.2 高階一致性模型
除上述較為常見的低階積分型線性模型外,更具有普適性的是線性定常模型(Linear Time-Invariant,LTI),這種模型中每個個體有獨立的多輸入多輸出線性動力學模型,且階次任意,其模型可表達為
(13)
其中,xi∈Rn為狀態信息;ui∈Rp為控制輸入;yi∈Rq為可測的系統矩陣;A、B、C、D為常數矩陣。
在高階非線性模型研究中,有兩種典型的高階系統模型:Kuramoto模型[46-48]和Brunovsky模型[49]。Kuramoto模型是一種經典的非線性動力學模型,主要用于描述相位或頻率的一致性問題,該模型由n個耦合振蕩器組成,其動力學方程[48]為
(14)
其中,B為具有N個節點、e個邊的有向圖的incidence矩陣,j傳輸到i時Bij=1,反之Bij=-1,無連接時Bij=1;θ和ω分別表示振蕩器的相位和固有頻率;K表示耦合強度。
Brunovsky模型是一種具有代表性的標準高階非線性集群系統[49],其個體模型通過一個高階積分器耦合未知非線性動力學以及未知擾動來表示
(15)
其中,i=1,…,n,xij∈R是個體j的第i階狀態;xj=[x1j,…,xnj]T是個體j的狀態向量;未知函數f(·):Rn→R在Rn上局部Lipschitz,且f(0)=0;ζj∈R是未知的但是有界的外部擾動。
2.2.3 異質MRS模型
MRS中往往存在不同類型的個體,即系統異構或異質。在控制系統模型中,通常是指個體動力學模型不同的系統,而并非是具有不同功能的個體,即異質MRS模型。清華大學的王龍等[50]在2011年首次提出了異質MRS模型,將一階和二階模型混合,建立系統模型
(16)
其中,xi∈R,vi∈R,ui∈R是個體i的位置、速度和控制信號。
在王龍[50]工作的基礎上,Kim等[51]則考慮了受環境因素影響,個體之間的通信連接可能中斷或重連的情況,他們把這種情況描述為一個伯努利概率序列的數學模型。根據通信中斷前的一步信息設計控制協議,然后利用線性矩陣不等式,解決了一階和二階異質集群系統在離散時間情況下的均方一致性控制問題。
Liu則在王龍等[50]的基礎上,將異質系統擴展到更為復雜的情況:即異質系統由線性一階、線性二階和非線性Eulre-Lagrange三類個體動力學模型組合,并在非線性個體參數已知和非已知的情況下解決了異質MRS的編隊和聚集問題。
(17)
其中,xi∈R,vi∈R,ui∈R是個體i的位置、速度和控制信號;Mi(xi)∈R為一般慣性矩陣;Ci(xi,vi)∈R為科氏力和離心力矩陣。且Eulre-Lagrange方程需滿足以下4個假設條件
(18)
2.2.4 考慮時延MRS一致性模型
在實際生活中,個體間通信、執行計算、執行器執行等經常存在時間延遲的情況,而時延往往會影響系統的穩定性。M. M. Gulzar等[52]將時間延遲的情況劃分為四類,分別為:由于通信速度引起的通信時延、傳感器獲取感知信息的控制時延、用于計算控制輸入的計算時延以及執行器執行動作導致的執行時延。
當只考慮傳輸信息的狀態受到時延的影響,即通信時延,則個體的連續時間一致性模型可以被修改為
(19)
如果同時考慮控制時延、計算時延和執行時延這類輸入延遲帶來的時延,個體的連續時間一致性模型可被修改為
(20)
式(19)和式(20)中,τij>0是個體i與個體j之間的時延。采用這兩種時延模型可以對上述章節的任意MRS一致性模型進行修改,從而形成新的考慮時延的MRS一致性控制模型。以考慮時延的高階非線性Kuramoto模型[47]為例,考慮通信時延的模型可以被修改為
(21)
至此可以看出,基于一致性的MRS模型已得到十分深入且廣泛的研究。從簡單的一階積分系統,逐步擴展至一般線性系統、拓撲改變的系統、高階非線性系統、具有時延的系統和異質MRS,且與擬生物行為的模型相比,一致性控制模型具有嚴格的數學基礎和理論依據,結果更可信。但是這種方法模型多為主從結構,需要領導者或虛擬領導者。另外在控制過程中并未考慮系統避障的問題,個體間可能發生相互碰撞的情況。同時若考慮個體間的相互避碰及環境中的障礙物,暫時無法完全保證一致性模型MRS系統分析方法的收斂性。
近些年,隨著強化學習的發展,多智能體強化學習(Multi-Agent Deep Reinforcement Learning,MARL)也成為研究MRS的重要方面。MARL首次由Littman[53]于1994年提出,Littman提出了基于零和對策的MARL方法—Minmax-Q,并利用線性規劃進行求解,解決了2個個體的博弈問題。MARL至今已發展20余年,從整體來看,MARL算法與單個體強化學習算法發展基本一致,歷經Q-Learning為基礎的值函數RL算法、策略梯度優化、Actor-Critic方法。Mnih等[54]將深度學習(Deep Learning, DL)引入RL框架中后,MADRL算法[55-56]逐漸占據主流,與基礎RL算法不同,MARL除了RL自身的挑戰外,還需重點考慮個體間關系(合作、競爭、混合)、非穩定性環境以及與博弈論或圖論等學科相交叉的問題。MARL方面的MRS建模主要圍繞馬爾可夫決策過程(Markov Decision Process, MDP)及其變體形式展開。
MDP可以由一個元組(S,A,c,P,ρ) 來表示,其中:S表示狀態空間;A表示動作空間;c(s,a)∈[0, ∞)為代價函數;P(s′|s,a)為狀態轉移概率;ρ(s)為初始狀態概率分布。
部分可觀的馬爾可夫決策過程(Partial Observable MDP, POMDP)是MDP 的更一般性描述。一般來說,POMDP中個體i可以描述為POMDPi=,其中:S為環境的有限狀態集;Ai為個體i的行為集;Ti為個體i在一種狀態下采取行為a,到達某一狀態的概率的集合;Oi為個體i的觀測;Oi為個體i的觀測函數,定義了給定動作的觀察概率;Ri為個體i的獎勵函數,代表i的偏好,R(s,a)表示狀態s下采取動作a的立即回報。
當一組決策者需要以分散的方式做出選擇時,可以將問題建模為分散的部分可觀的馬爾可夫決策過程 (Decentralized POMDP, Dec-POMDP)[57]。雖然Dec-POMDP模型為不確定性下的協同順序決策提供了一個豐富的框架,但該模型的計算復雜度是一個重要的研究挑戰。它是POMDP框架的擴展。一般來說,Dec-POMDP中個體i可以描述為POMDPi=,S、Ti、Oi、Ri與POMDP描述一致,其中:I={1, …,n}為n個個體的集合;Ai為個體i的行為集,結連行為的集合A=×iAi;Oi為個體i的觀測,結連觀測的集合O=×iOi;h為問題的維度,始終為一個正整數。
與Dec-POMDP相似,多體MDP(Multi-MDP, MMDP)[57]的描述為:MMDPi=。
當考慮到個體間相互競爭和合作的博弈關系時,一些研究人員通常會結合博弈論對MARL系統進行建模,Hu 等[58]提出了Stochastic game模型,其中:I= {1, …,n}為n個個體的集合;S為環境的有限狀態集;對于個體i,有限行為集Ai,回報函數S×A→Ri,A=A1×A2×…×An;Ti為個體i在某狀態下采取行為a,到達另一狀態的概率S×A×S→[0, 1]。
與上述的模型不同,一般隨機博弈為了尋找一個Nash均衡點,其對于所有的策略滿足πi∈Πi
(22)
受到傳統的多智能體系統(Multi-Agent System, MAS)建模思想的影響,Zhang等[59]將圖論知識引入MARL建模中,提出了Networked Multi-Agent MDP模型,將系統描述為一個元組
(S,{Ai}i∈N,P,{Ri}i∈N,{Gt}t≥0)
(23)

在MARL的框架下,代爾夫特理工大學的Jelmer等[60]建立了一個最初的MAS框架(圖 4)。將系統分層級描述為particalsPi和動態個體Ai,Pi用于描述每個個體的物理特性,Ai則是采用MDP的形式描述系統的環境和智能特性。

圖4 Jelmer模型Fig.4 Jelmert’s model
除上述描述的建模方式外,部分學者通過對流體近似的研究,以平均場模型的形式建立了MAS控制模型[61],并設計了控制策略。平均場模型包括常微分方程、偏微分方程和差分方程,具體取決于個體的狀態和時間變量是離散或連續。采用平均場構建的宏觀模型與MRS中數量無關,與基于個體的群體微觀模型相比,具有更大的可擴展性。通常,平均場建模方法分為有限維模型與無限維模型,有限維模型又分為離散時間模型與連續時間模型,基于圖論和馬爾可夫鏈的性質構建流體/隨機系統模型;無限維模型通常設定初始個體無交互,采用隨機過程,以柯爾莫哥洛夫前向方程和福克普朗克擴散模型[62]構建系統模型。以A. Prorok等[63]的研究為例,其借鑒隨機系統的建模方法,通過福克普朗克擴散模型提出了一種個體隨時間-空間分布模型,解決了由一組微型機器人執行的檢查任務,并對系統性能做出了準確的預測。倫敦大學學院的汪軍教授[64]也將平均場理論應用于MARL的建模工作中,提出了一種基于博弈論中平均場理論的MARL(Mean Field MARL,MFMARL)算法,致力于極大規模的MARL問題,有效解決了大規模數量MARL問題,雖然有嚴格的理論證明,但是該模型并不是完全分布式的。
上述方法中考慮的個體數目動態變化及分布式的系統模型較少。雖然目前針對聚集和群集2個問題已有部分模型可以解決,如Vicsek模型、Jadbabaie模型及其部分擴展工作,但均是在個體等價的前提下進行建模。然而在實際任務中,環境中的個體數量可以很大,并且是多種多樣的。此外,由于個體離開(被擊毀或出現故障等)或在執行任務過程中進入系統,個體的狀態數量也可能會發生變化,這種問題通常被稱為一個開放的MRS[65]。針對開放的MRS尚未有較完善的相關可擴展、具有魯棒性的建模方法和問題研究。
除3.1節中提出的問題外,目前MARL方法缺乏對其收斂性和收斂結果類型的理論認識。博弈論均衡是一個可以用來促進收斂的理論概念,如相關均衡和Nash均衡。雖然已有部分這方面的研究[58],但這些方法的缺點是需要計算均衡解,以及均衡的非唯一性,這需要某種形式的協調均衡選擇。最近在這個方向上的研究中,Li等[66]使用了極大極小平衡的近似解,提出了一種新的魯棒MARL算法。Zhang等[59]研究了基于網絡的MARL問題,提出了兩種具有函數逼近的分散的actor-critic算法,采用線性函數逼近的方法對算法的收斂性進行理論分析,并采用最大熵強化學習產生對MRS建模錯誤和分布轉移具有魯棒性的潛力。然而,到目前為止,對MARL方法的收斂性問題還缺乏詳細的理論探索及可靠的建模形式。
傳統的自組織MRS建模方式,大多數考慮了個體的動力學模型,但并未考慮個體的能力,也就是默認了系統中個體能力相同,即為同構。在MARL模型中,目前大部分的工作都集中于同構MRS中,且一般不考慮個體的動力學模型。然而在實際任務中,系統中的個體常常具有不同的能力,也就是系統異構,且需考慮個體的運動模型。在MRS異構的環境中,綜合系統中個體能力及運動學特性,構建完整的系統模型,快速有效地完成動態任務,這樣的模型屈指可數[67-68],且都是僅在理論探索階段。
目前的MRS建模方式幾乎沒有對系統性能及智能化水平的評價。通常只是根據任務直接進行分配或控制,對于系統是否具備相應的智能化水平,以及多樣性是否滿足均無評測,抑或是僅僅進行定性分析。對系統的評估,往往有助于更加快速有效地完成系統任務,近些年A. Prorok[67]從度量多樣性定量評估系統性能,K. P.Valavanis[69]采用熵的方法評估系統的智能化程度。兩位學者做出了前期探索,但是如何系統建立可以評價系統多樣性和智能化水平的系統模型,以及采用什么方法去評價都是亟待解決的問題之一。
隨著更多的國內外團隊加入MRS的研究,MRS建模將會越來越完善,本文從一致性控制理論建模方法、基于擬生物行為、強化學習的建模方法幾個方面進行總結與分析。同時針對現有模型,總結了一些仍待解決的典型建模問題,如何建立可擴展、魯棒的異構MRS模型,如何在復雜環境中應用,如何建立可評價系統指標的完整模型等。隨著這些問題的解決, MRS將更加廣泛地應用于生產生活、軍事作戰之中,讓社會進入更加自主化的時代。