999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

無人艇集群最優(yōu)協(xié)同控制反演

2021-01-16 05:18:18張振華俞成浦
水下無人系統(tǒng)學(xué)報 2020年6期
關(guān)鍵詞:優(yōu)化模型

張振華, 李 堯, 俞成浦

無人艇集群最優(yōu)協(xié)同控制反演

張振華, 李 堯, 俞成浦*

(北京理工大學(xué) 自動化學(xué)院, 北京, 100081)

為實現(xiàn)通過數(shù)據(jù)驅(qū)動學(xué)習(xí)人為操作下的無人艇集群最優(yōu)協(xié)同控制策略, 文中提出了一種線性二次型閉環(huán)微分博弈反演優(yōu)化算法, 根據(jù)觀測到的系統(tǒng)最優(yōu)狀態(tài)和控制輸入軌跡辨識協(xié)同策略目標函數(shù)。首先, 根據(jù)觀測到的含加性白噪聲的最優(yōu)系統(tǒng)狀態(tài)和控制輸入軌跡辨識最優(yōu)反饋矩陣; 然后, 通過求解由納什平衡充要條件推出的耦合代數(shù)黎卡提方程的解來辨識協(xié)同策略目標函數(shù)。所提出的反演優(yōu)化算法能夠獲得滿足給定系統(tǒng)狀態(tài)和控制輸入軌跡的最優(yōu)協(xié)同策略目標函數(shù); 同時, 該算法辨識出的目標函數(shù)可以用于實現(xiàn)針對特定任務(wù)場景的無人艇集群最優(yōu)協(xié)同控制, 并為集群的對抗博弈提供新的思路和解決方案。

無人艇集群; 最優(yōu)協(xié)同控制; 反演優(yōu)化; 耦合代數(shù)黎卡提方程

0 引言

無人艇集群能在復(fù)雜海況下執(zhí)行協(xié)同任務(wù), 其在軍用和民用領(lǐng)域的應(yīng)用前景十分廣泛。針對給定的任務(wù)目標, 無人艇集群的理想行為可以看作是其最優(yōu)協(xié)同控制的結(jié)果[1-2]。在實際應(yīng)用中, 實現(xiàn)最優(yōu)的協(xié)同控制必須有最優(yōu)的定量協(xié)同策略作為具體評價標準, 也就是無人艇集群在任務(wù)執(zhí)行期間的決策和行為應(yīng)使某些目標函數(shù)的值達到最優(yōu)(一般是最小值)。由于無人艇集群工作環(huán)境的復(fù)雜性和拓撲連接的多樣性, 其最優(yōu)協(xié)同控制策略很難直接采用強化學(xué)習(xí)等方法試探[3]。一種快速得到最優(yōu)協(xié)同控制目標函數(shù)的思路是以“人”為最優(yōu)參考標準[4], 在某一任務(wù)場景下讓一組經(jīng)驗豐富的操作人員做出決策進而控制各個無人艇, 并采集無人艇集群的動態(tài)信息, 包括無人艇集群的運動狀態(tài)和每個操作人員對單艘無人艇的控制輸入。然后結(jié)合采集得到的動態(tài)信息和已知的無人艇集群動力學(xué)特性, 將人對各無人艇的控制策略反演優(yōu)化為機器可以理解的目標函數(shù)。使用反演優(yōu)化出的目標函數(shù), 無人艇集群可以在無人的任務(wù)場景中自主決策從而實現(xiàn)最優(yōu)協(xié)同控制。這種從行為信息和系統(tǒng)模型出發(fā)得到最優(yōu)協(xié)同控制策略的問題一般被稱為最優(yōu)協(xié)同控制反演問題。探究最優(yōu)協(xié)同控制反演問題對揭示人類操艇經(jīng)驗的隱性知識有很大幫助, 可推動無人艇集群最優(yōu)協(xié)同控制的研究。

作為無人艇集群最優(yōu)協(xié)同控制的參考對象, 人與人之間協(xié)同是在了解任務(wù)目標和他人當(dāng)前情況條件下, 各自做出完成自身當(dāng)前任務(wù)的最優(yōu)決策。為了使無人艇集群更好地模擬人的協(xié)同策略, 即通過辨識得到的模型自主產(chǎn)生的最優(yōu)協(xié)同控制策略與人遙控的策略盡可能吻合, 文中選用納什最優(yōu)下的微分博弈模型為辨識模型[5], 設(shè)計無人艇集群最優(yōu)協(xié)同控制反演算法來辨識各無人艇目標函數(shù)權(quán)重矩陣的參數(shù)值。由于絕大多數(shù)情況下各無人艇在協(xié)同過程中能同人一樣實時交換所需信息, 所以文中使用閉環(huán)微分博弈模型作為辨識模型。因而, 在算法研究中, 無人艇集群的最優(yōu)協(xié)同控制反演可以近似為無人艇集群的閉環(huán)納什最優(yōu)微分博弈反演優(yōu)化問題。

針對閉環(huán)非合作微分博弈反演問題, 國內(nèi)外學(xué)者已經(jīng)進行了一些基礎(chǔ)性的研究[6-7]。Li等[8]研究了對應(yīng)于穩(wěn)態(tài)納什策略的對稱耦合代數(shù)黎卡提方程, 所提出的并行算法收斂到耦合代數(shù)黎卡提方程的非負(正)定穩(wěn)定解; Priess等[9]提出了一套在連續(xù)時間和離散時間情況下尋找時不變線性二次調(diào)節(jié)器(linear quadratic regulator, LQR)問題的目標函數(shù)的技術(shù), 并用于反演人體坐姿控制策略; Rothfu?等[10]以駕駛輔助系統(tǒng)為例, 研究了人機協(xié)同背景下如何通過非合作微分博弈反演對人的行為策略建模; Inga等[11]提出了一種方法來尋找在無限時間區(qū)間線性二次(linear quadratic, LQ)微分策略中產(chǎn)生相同納什平衡的所有成本函數(shù), 該方法依賴于耦合矩陣黎卡提方程的重新表述; Molloy等[12]提出了2種基于最小值原理的有限時間開環(huán)非線性微分博弈反演算法, 并在2個智能體三維避碰博弈實例中實現(xiàn)較高的辨識精度; K?pf等[13]設(shè)計了一種用于離散閉環(huán)博弈反演的方法, 并用于球-杠桿模型。

上述研究主要集中于理想博弈模型的反演, 但關(guān)于多人協(xié)同決策經(jīng)驗的建模與遷移應(yīng)用還存在欠缺。無人艇集群的最優(yōu)協(xié)同控制反演問題主要體現(xiàn)在有3艘及以上目標函數(shù)未知的無人艇參與博弈, 且實際控制決策并非由理想博弈模型產(chǎn)生, 相當(dāng)于采集的信號與參數(shù)逼近最好的理想模型得出的信號間存在固有噪聲。文中采用非合作閉環(huán)LQ納什最優(yōu)微分博弈模型, 給出了無人艇集群基于所反演優(yōu)化的模型參數(shù)自主實現(xiàn)最優(yōu)協(xié)同控制的決策方法, 即反演問題對應(yīng)的正問題, 并將由該方法生成的軌跡加入噪聲以模擬人的實際決策過程, 然后基于約束優(yōu)化方法對無人艇集群的最優(yōu)協(xié)同控制反演過程進行數(shù)值仿真, 得到最接近實際協(xié)同控制過程的模型參數(shù), 分析其所反演模型生成的運動和控制軌跡與實際軌跡的誤差, 為今后基于無人艇集群最優(yōu)協(xié)同控制真實場景數(shù)據(jù)的反演與模型遷移研究提供參考。

1 模型建立

1.1 正問題求解

無人艇集群的最優(yōu)協(xié)同控制模型主要體現(xiàn)在最優(yōu)目標函數(shù)與系統(tǒng)動力學(xué)特性兩方面。為簡化計算并滿足實時性要求, 文中做出以下假設(shè): 1)不考慮復(fù)雜海況和無人艇集群高時滯、大慣性、高度非線性等特征的影響, 無人艇集群系統(tǒng)動力學(xué)模型采用可鎮(zhèn)定線性時不變(linear time invariant, LTI)微分博弈系統(tǒng)模型; 2) 參考協(xié)同控制策略能夠采用參數(shù)適定的LQ閉環(huán)微分博弈目標函數(shù)模型近似; 3) 相同初始狀態(tài)下, 參考協(xié)同控制的系統(tǒng)狀態(tài)和控制輸入軌跡與由其反演得到的模型生成的軌跡之差用高斯白噪聲近似。

根據(jù)上述簡化與假設(shè), 得到如式(1)所示無人艇集群系統(tǒng)方程來描述其運動特性

每艘無人艇的控制輸入與狀態(tài)間存在LTI反饋控制率, 即

同時定義閉環(huán)系統(tǒng)矩陣

在如圖1所示的LQ非合作閉環(huán)微分博弈模型中, 每艘無人艇都力圖使自身的一個關(guān)于式(5)的目標函數(shù)

圖1 閉環(huán)微分博弈框圖

在上述模型中, 如果已知其他無人艇的控制率, 對于任意一艘無人艇, 都不能通過調(diào)整自身控制率來減小其目標函數(shù)值, 否則將被來自其他無人艇博弈性的調(diào)整反制, 達到平衡狀態(tài), 即

1.2 反演優(yōu)化算法

為了實現(xiàn)由采集到的無人艇集群運動狀態(tài)軌跡和每個操作人員對單艘無人艇的控制輸入反演, 優(yōu)化出無人艇集群最優(yōu)協(xié)同控制微分博弈模型, 此部分提出基于耦合黎卡提方程的反演優(yōu)化算法。

證明: 將式(8)向量化, 得到

將式(7)代入上式并化簡得到

并將式(7)向量化得到

代入式(12)即可得到

證明完畢。

1) 目標函數(shù)權(quán)重矩陣為對稱矩陣

如果假設(shè)所有目標函數(shù)權(quán)重矩陣均為對稱矩陣, 則式(10)的未知參數(shù)個數(shù)為

又因為

2) 目標函數(shù)權(quán)重矩陣為對角形式

無人艇集群最優(yōu)協(xié)同控制反演優(yōu)化算法流程如下。

1) 建立采集到的納什平衡條件下無人艇集群運動狀態(tài)和每個操作人員對單艘無人艇的控制輸入信息模型

3) 建立反演優(yōu)化模型。根據(jù)式(2)、式(7)和式(19), 對無人艇集群最優(yōu)協(xié)同控制反演優(yōu)化問題建立如下優(yōu)化模型

通過計算無人艇集群系統(tǒng)狀態(tài)真實值與預(yù)測值之間的相對誤差來驗證其準確性

2 仿真結(jié)果與分析

通過數(shù)值仿真驗證文中所提算法的有效性和準確性。

為了便于說明, 以圖2所示的3艘無人艇協(xié)同執(zhí)行補充補給任務(wù)(圖中: 中間為補給船; 三角形的3個頂點為執(zhí)行任務(wù)的無人艇)為例。將此3艘無人艇系統(tǒng)動態(tài)方程簡化為

用線性二次型微分博弈協(xié)同決策目標函數(shù)來近似無人艇執(zhí)行協(xié)同任務(wù)過程中的控制策略。然后通過采集在執(zhí)行協(xié)同任務(wù)過程中系統(tǒng)最優(yōu)狀態(tài)和各無人艇控制輸入軌跡辨識協(xié)同策略目標函數(shù)

首先求解式(24), 并將得到的系統(tǒng)狀態(tài)和控制輸入軌跡作為觀測到的人為操作下無人艇集群系統(tǒng)最優(yōu)狀態(tài)和各無人艇最優(yōu)控制輸入。然后, 使用所求得的最優(yōu)狀態(tài)量和控制輸入量進行反演優(yōu)化。最后, 根據(jù)辨識得到的協(xié)同策略目標函數(shù)參數(shù)再次求解式(24), 得到系統(tǒng)狀態(tài)和各無人艇控制輸入軌跡, 并通過式(22)驗證算法的相對誤差水平。

現(xiàn)有文獻中并沒有能確保式(24)所表示的正向微分博弈問題一定收斂的算法, 因此在仿真中僅統(tǒng)計求解正向問題收斂的算法, 來驗證所提算法的有效性。

文中實例包含100組正向問題收斂情況下的數(shù)值試驗結(jié)果。所獲得的系統(tǒng)狀態(tài)預(yù)測相對誤差分布和統(tǒng)計直方圖分別如圖3和圖4所示。

圖4 無噪聲條件下相對誤差統(tǒng)計直方圖

圖5 30 dB噪聲條件下相對誤差分布圖

圖6 30 dB噪聲條件下相對誤差統(tǒng)計直方圖

3 結(jié)束語

文中提出了一種無人艇集群最優(yōu)協(xié)同控制反演優(yōu)化算法。該算法通過反演優(yōu)化線性二次型微分博弈問題的協(xié)同策略目標函數(shù)權(quán)重矩陣來學(xué)習(xí)無人艇集群最優(yōu)協(xié)同控制策略。此外, 該算法構(gòu)建了一個雙層優(yōu)化的反演優(yōu)化模型, 并充分利用了線性二次型微分博弈問題達到納什平衡時的耦合代數(shù)黎卡提方程的性質(zhì), 將雙層優(yōu)化模型轉(zhuǎn)化為簡單的二次型規(guī)劃問題, 以實現(xiàn)快速求解。

文中所使用的無人艇集群系統(tǒng)方程是近似的線性方程, 且在噪聲干擾下反演優(yōu)化算法精度不高。后續(xù)要針對更符合實際的非線性系統(tǒng)方程展開無人艇集群的最優(yōu)協(xié)同控制反演優(yōu)化算法研究, 并提升算法的魯棒性。

[1] Carvalhosa S, Pedro Aguiar A, Pascoal A. Cooperative Motion Control of Multiple Autonomous Marine Vehicles: Collision Avoidance in Dynamic Environments[C]//Pro- ceedings of the 7th IFAC Symposium on Intelligent Autonomous Vehicles 2010. Lecce, Italy: IFAC, 2010: 282-287.

[2] Pedro Aguiar A, Almeida J, Bayat M, et al. Cooperative Control of Multiple Marine Vehicles: Theoretical Challenges and Practical Issues[C]//Proceedings of the 8th IFAC International Conference on Manoeuvring and Control of Marine Craft. Guarujá, Brazil: IFAC, 2009: 412- 417.

[3] Wang Y C, Fu H X, Liu F M. Ship Speed Control Method Based on Fuzzy-Cerebellar Model Articulation Controller[C]//Proceedings of the 31st Chinese Control Conference. Hefei, China: CCC, 2012: 4396-4399.

[4] Aza N A, Shahmansoorian A, Davoudi M. From Inverse Optimal Control to Inverse Reinforcement Learning: A Historical Review[J]. Annual Reviews in Control, 2020, 50: 119-138.

[5] Basar T, Olsder G J. Dynamic Noncooperative Game Theory[M]. London: Academic Press, 1999.

[6] Mohajerin Esfahani P, Shafieezadeh-Abadeh S, Hanasusanto G A, et al. Data-driven Inverse Optimization With Imperfect Information[J]. Mathematical Programming, 2018, 167(1): 191-234.

[7] Zhang H, Li Y, Hu X. Inverse Optimal Control for Finite-Horizon Discrete-time Linear Quadratic Regulator Under Noisy Output[C]//2019 IEEE 58th Conference on Decision and Control(CDC). Nice, France: IEEE, 2020.

[8] Li T Y, Gajic Z. Lyapunov Iterations for Solving Coupled Algebraic Riccati Equations of Nash Differential Games and Algebraic Riccati Equations of Zero-Sum Games[M]// New Trends in Dynamic Games and Applications. Boston: Birkh?user Boston Inc., 1995.

[9] Priess M C, Conway R, Choi J, et al. Solutions to the Inverse LQR Problem with Application to Biological Systems Analysis[J]. IEEE Transactions on Control Systems Technology, 2015, 23(2): 770-777.

[10] Rothfu? S, Inga J, K?pf F, et al. Inverse Optimal Control for Identification in Non-Cooperative Differential Games[J]. IFAC-Papers on Line, 2017, 50(1): 14909-14915.

[11] Inga J , Bischoff E , Molloy T L , et al. Solution Sets for Inverse Non-Cooperative Linear-Quadratic Differential Games[J]. IEEE Control Systems Letters, 2019, 3(4): 871- 876.

[12] Molloy T L, Inga J, Flad M, et al. Inverse Open-Loop Noncooperative Differential Games and Inverse Optimal Control[J]. IEEE Transactions on Automatic Control, 2019, 65(2): 897-904.

[13] K?pf F, Inga J, Rothfu? S, et al. Inverse Reinforcement Learning for Identification in Linear-Quadratic Dynamic Games[J]. IFAC-Papers on Line, 2017, 50(1): 14902- 14908.

Inverse Optimal Cooperative Control for Unmanned Surface Vessel Cluster

ZHANG Zhen-hua, LI Yao, YU Cheng-pu*

( School of Automation, Beijing Institute of Technology, Beijing 100081, China)

To realize an optimal cooperative control strategy of unmanned surface vessel(USV) clusters under artificial control through data-driven learning, a linear quadratic closed-loop differential game inverse optimization algorithm is proposed. The algorithm can identify the cooperative strategy objective function according to the optimal system state and control input trajectories. In this study, an optimal feedback matrix is first identified based on the observed optimal system state and control input trajectories with additive white noise. The cooperative strategy objective function is then identified after solving the coupled algebraic Riccati equations derived from the necessary and sufficient conditions for Nash equilibria.The proposed inverse optimization algorithm can obtain the optimal cooperative strategy objective function to satisfy the given system state and control input trajectories. The objective functions identified by the inverse optimization algorithm can then be used to achieve an optimal cooperative control of USV clusters for specific task scenarios and provide new ideas and solutions for cluster adversarial games.

unmanned surface vessel(USV) cluster; optimal cooperative control; inverse optimization; coupled algebraic Riccati equations

張振華, 李堯, 俞成浦. 無人艇集群最優(yōu)協(xié)同控制反演[J]. 水下無人系統(tǒng)學(xué)報, 2020, 28(6): 611-617.

TJ630; U664.82; TP273.1

A

2096-3920(2020)06-0611-07

10.11993/j.issn.2096-3920.2020.06.004

2020-09-04;

2020-10-16.

國家自然科學(xué)基金重大項目課題(61991414).

俞成浦(1984-), 男, 博士, 教授, 主要研究方向為系統(tǒng)辨識與機器學(xué)習(xí)、分布式優(yōu)化與控制、無線傳感器網(wǎng)絡(luò)與室內(nèi)定位.

(責(zé)任編輯: 陳 曦)

猜你喜歡
優(yōu)化模型
一半模型
超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
民用建筑防煙排煙設(shè)計優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
由“形”啟“數(shù)”優(yōu)化運算——以2021年解析幾何高考題為例
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 视频国产精品丝袜第一页| 国产麻豆aⅴ精品无码| 三上悠亚一区二区| www.亚洲一区| 国产91麻豆视频| 国产精品成人久久| 亚洲av无码片一区二区三区| 青青青国产精品国产精品美女| 伊人成人在线视频| 精品国产自在现线看久久| 成人免费午夜视频| av无码一区二区三区在线| 日韩精品一区二区三区大桥未久| 欧美a在线看| 国产午夜人做人免费视频| 亚洲精品视频免费看| 亚洲国产中文欧美在线人成大黄瓜| 亚洲中文精品人人永久免费| 亚洲日韩第九十九页| 99热这里只有精品在线观看| 亚洲天堂视频在线免费观看| 亚洲国产综合精品一区| 亚洲人成高清| 91亚洲精选| 国产又色又爽又黄| 国产波多野结衣中文在线播放| 亚洲AV无码一二区三区在线播放| 91免费国产高清观看| 99精品国产自在现线观看| a级毛片免费看| 亚洲欧美日韩天堂| 欧美天天干| 全午夜免费一级毛片| 亚洲综合18p| 精品人妻AV区| 无码精油按摩潮喷在线播放| 精品视频在线一区| 91青草视频| 国产爽爽视频| 中文字幕天无码久久精品视频免费| 9久久伊人精品综合| 99久久国产综合精品女同| 69视频国产| 国产成人av大片在线播放| 国产成人亚洲精品蜜芽影院| 国产精品免费露脸视频| 狠狠操夜夜爽| 999在线免费视频| 丁香六月综合网| 中国精品自拍| 久久人人97超碰人人澡爱香蕉| 亚洲成人手机在线| 欧美日韩导航| 午夜福利无码一区二区| 亚洲欧美一区二区三区蜜芽| 久久免费观看视频| 男女男精品视频| 超清无码一区二区三区| 亚洲av无码人妻| 日本不卡在线播放| 少妇人妻无码首页| 成人综合在线观看| 黄色国产在线| 99久久精品视香蕉蕉| 久草视频福利在线观看| 精品福利网| 亚洲视频免费播放| 亚洲大学生视频在线播放| 伦精品一区二区三区视频| AV网站中文| 亚洲AⅤ无码国产精品| 亚洲AV无码不卡无码 | AV不卡在线永久免费观看| 欧美国产三级| 狠狠色丁香婷婷| 在线网站18禁| 午夜国产精品视频黄| 毛片手机在线看| 日韩免费中文字幕| 91久久偷偷做嫩草影院电| 久久精品中文字幕少妇| 精品国产毛片|