鄒明胤 朱曉敏 包衛東 王 吉 劉大千
1.國防科技大學大數據與決策實驗室 湖南 長沙 410073 2.軍事科學院戰略評估咨詢中心 北京 100097
近年來,在人工智能、大數據、云計算、物聯網等先進技術的推動下,無人平臺已經被廣泛應用到物品投送、環境保護、搶險救災、農藥噴灑、燈光表演、地圖測繪、偵察追蹤等領域,在極大解放勞動力的同時,還能夠替代人類執行枯燥、惡劣、危險的任務,正在國民經濟建設和國防領域扮演著越來越重要的角色[1].
隨著所承擔任務的工作量和復雜性不斷增加,無人平臺在載荷、續航、決策等方面的負擔不斷加劇,逐漸暴露出任務執行能力弱、效率低、靈活性差等問題. 因受制于現有技術和成本,依靠無人平臺的作業能力難以勝任不斷涌現的新任務需求. 無人平臺的研究在工業生產、搶險救災等實際環境中具有時代意義. 近些年,研究者們面向多無人平臺協同任務規劃方法研究,依靠無人集群實現目標偵察、跟蹤與圍捕等實時任務規劃,在實際的環境中具有廣闊的應用前景. 特別是在軍事領域,可以實現對入侵者的偵察、監視、打擊、毀傷評估等,提高了軍隊各類設備的智能化程度,在安全保障方面提供了新思路、新方式.
各軍事強國對無人集群任務規劃能力高度重視,視之為改變未來戰爭制勝規則的顛覆性力量. 2018年8月,美國國防部發布了《無人系統綜合路線圖2017-2042》[2],提出了美國無人系統領域發展的4 大主題和19 項關鍵技術. 4 大主題是互用性、自主性、網絡安全和人機協同. 19 項關鍵技術包括了機器人技術、人工智能、集群能力等. 美正在開展的代表性項目如“小精靈”項目、“進攻性蜂群使能戰術”、“試驗性驗證網關演習”項目等均取得了突破性進展[3].2021年10月,“小精靈”項目空中回收“小精靈”無人機實驗成功,邁出無人集群韌性靈活執行任務的關鍵一步[4]. 2021年12月,“進攻性蜂群使能戰術”項目融合虛實結合技術,通過沉浸式蜂群界面對蜂群指揮控制,為有人/無人協同執行任務提供了技術支持[5]. 2022年4月,“試驗性驗證網關演習”完成了由30 架無人機組成的無人集群作戰試驗. 此次試驗采用空地協同、分批發射與分布式控制的方式,依次完成偵察、防空壓制、打擊與毀傷評估任務. 集群作戰概念由“無人機蜂群”轉變成“無人機狼群”,是低成本無人機集群作戰的全新作戰理念[6]. 在實際戰場中,2020年9月,阿塞拜疆部署由6 架異構無人機組成的無人機集群,摧毀了亞美尼亞的防空系統,導致亞美尼亞地面資產遭受大量破壞[7].
在國內,2021年11月,中國電子技術標準化研究院發布《智能無人集群系統發展白皮書》,指出智能無人集群系統的任務復雜度普遍提升,對于集群系統的智能化、魯棒性提出了更高的功能與性能要求[8]. 2018年1月,國防科技大學智能科學學院無人機系統創新團隊開展了20 余架次的無人機集群自主協同飛行試驗,驗證了空中集結編隊、定向編隊飛行和編隊協同偵察等任務執行能力[9]. 2020年9月國內民營企業,成功地組織了3 051 架無人機同時集群飛行,創下了集群控制新的世界記錄[10]. 這些項目在無人集群任務規劃相關技術進行了大量深入的探索.
值得注意的是,目前無人平臺的自主性處于“弱智能”階段,無人集群協同感知、決策、控制能力略顯不足,逐漸暴露出靈活性差、計算能力低、環境感知能力差、任務執行能力差等問題,有人系統與無人集群之間存在態勢把控難、實時信息交互慢等問題.傳統的無人集群在態勢感知、資源整合、組織協同等信息力方面的缺陷直接制約了有人系統與無人集群協同執行任務的完成率和時效性. 與此同時,考慮在復雜環境中目標具有動態性,任務具有實時性等特點,進一步增加了執行任務的難度. 因此,如何建立智能有人/無人集群任務規劃系統集成框架,有效地組織、管理無人集群,實現單無人平臺自主行為規劃、無人集群自主協同、有人系統與無人集群協同,具有十分重要的研究價值.
近年來,在各發達國家的軍事技術發展布局中,無人集群任務規劃在戰場物資投送[11]、戰場監視[12]、協同偵察打擊[13]等實際應用中的廣泛性明顯增加. 當前,對于無人集群任務規劃的研究思路主要集中在路徑規劃和資源調度兩方面,并開展了豐富的研究,取得了如下成果.
路徑規劃是無人集群完成多樣化任務的重要保證. 在不斷變化的新形式任務環境中,具有自主決策和優秀感知能力的無人平臺才能快速高效地完成任務. 由于微型無人平臺搭載的硬件設施能力有限,面對復雜多變的任務環境,無人平臺由于自身偵察范圍有限,往往不能有效的執行任務. 因此,需要多無人平臺實時路徑規劃算法,來保持多無人平臺的高機動性和避障功能. 為了合理制定任務方案并減少無人集群的成本,許多研究人員已經開發出有效的策略應對這一問題[14]. 李瑞陽等提出了基于列生成算法的無人機路徑規劃方法[15],以飛行成本最小為目標函數,充分考慮時間約束的前提下建立無人機路徑規劃優化模型. 該方法采用列生成算法對飛行方案進行優化選擇,提高了任務的完成效率. 當面對動態任務和不確定的環境時,去中心化無人集群路徑規劃方法受到了廣泛關注. KIM 等針對無人機編隊在未知區域協同執行搜索攻擊任務的路徑規劃問題,提出了一種分布式路徑規劃方法[16]. 該方法能夠利用平衡資源消耗的方式有效地利用現有資源,從而通過保留更多可用的無人機以順利應對動態任務. 經驗證明該方法獲得了較高的資源保障和快速攻擊響應的能力. LEMAIRE 等針對多機器人系統的任務規劃問題,提出了一個完全分布式的結構[17]. 為了平衡工作負載,減低系統成員間工作負荷的不均衡性,引入了一個公平系數進行調節,進而保持系統完全分布式. LUO 等提出了一種適用于異構多機器人系統的分布式任務規劃算法[18]. 該算法將任務劃分為若干個不相交的組,并且限定完成每組任務的機器人數量(包括在整個任務內以及在不同的任務組內). 由于每個機器人均在任務執行中獲得一定的收益,因此,該任務規劃方法的目標函數是最大化群機器人總收益. 該方法通過分布式算法迭代地計算每個機器人在執行任務中的成本,從而構建群機器人的任務規劃方式. LIU 等針對不確定環境下的監視問題提出了多無人機協同路徑規劃模型[19],以能量消耗和傳輸不可靠為代價,在不確定障礙區域情況下,根據實時障礙情況,建立不同的約束機制,通過調整無人機監視的位置來提高目標監視性能. ZOU 等針對未知環境下的編隊問題提出了多目標優化控制框架[20].在該框架,無人機集群可以在保持編隊相似,編隊密度一致和快速編隊的同時,自由變換隊形.
然而在復雜未知環境下,上述無人集群任務規劃方法未考慮目標及無人平臺動態變化的情況,尤其是對無人平臺資源調度的問題缺乏進一步討論[21].資源調度是保證任務質量、提高系統資源利用率、減少系統能耗的有效手段. 由于未知環境中充滿動態性、不確定性、突發性和復雜性等特征導致無人平臺具有易損性,因此,如何在任務完成的前提下,最大限度的利用現有資源,是無人系統所要面對的重要問題. 此外,由于無人資源的異構性,資源模塊需具有靈活的按需供給能力. 針對上述無人平臺資源調度問題,近年來,許多研究者從靜態資源調度和動態資源調度兩個方面展開研究. 靜態資源調度存在約束條件簡單,目標函數單一的問題. 針對這一問題,考慮無人資源合理分配和高效運用,皇甫瑩麗等提出了一種面向災害救援的無人機資源優化配置方法[22],該方法以多目標規劃和聚類技術為核心的優化策略,建立了多目標規劃模型,在同時滿足最大搜救和中繼需求的情況下,解決無人機資源的優化配置問題. 考慮無人機負荷有限的約束,蔡偉等提出了一種對觀察窗口偵察資源的協同優化調度方法[23]. 該方法通過優化當前場面下各機電子偵察的瞬時空-頻域覆蓋選擇,提高無源定位中每個定位參數對定位結果的效用,降低獲取定位參數所需要的對偵察資源的占用,從而提升無人機集群能夠同時應對的目標數. 考慮最少任務約束的大規模資源調度問題,鄧敏等設計成本、效益等多維指標,利用層次分析法計算指標權重,結合并行遺傳模型有效求解大規模復雜資源調度問題,可以有效求解大規模復雜資源調度問題[24].針對動態資源調度問題,考慮實現應急情況下多無人機動態資源調度問題,FEI 等提出了一種基于滾動激勵的異構無人機應急任務調度方法[25]. 為保證應急任務能夠實時分配給無人機,該算法設計了一種基于密度峰值聚類算法的任務分組策略,能夠對到達系統的任務快速選擇性能匹配的無人機. 該算法在確保應急任務完成率的同時,降低多無人機的飛行成本,為應急救援,智能交通等提供可靠地算法支撐. 考慮動態資源調度的擾動因素,劉文文等設計調度收益以及最小方案變動作為目標函數,根據不同擾動因素構建不同的動態資源調度模型,結合多目標優化算法為動態資源調度提供解決方案[26]. 此外,為了提高動態資源部署的計算效率,FEI 等提出了基于數據聚類的彈性資源調度方法[27],通過任務聚類,任務量預測與動態資源調度完成資源靈活調配.
值得注意的是,由于在復雜多變的環境下,無人平臺易發生損毀,系統內呈現出高度動態的特性,拓撲結構不斷變化. 要實現無人集群動態、實時任務規劃,不僅需要精確高效的實時規劃算法,更需要系統集成技術,將無人平臺、無人集群與有人系統有機地整合在一起,以發揮出體系效益. 針對上述問題,趙林等面向協同感知,任務規劃與路徑規劃等任務,提出了分布式協同框架[28]. 該框架包含任務分解、任務調整、執行條件約束、計算規劃等關鍵技術. 通過預先計算和任務預先分配的方式,無人集群按照既定方案執行任務. 向錦武等面向區域搜索、資源調度等任務需求,結合“感知-判斷-決策-行動”(oberve-orient-decide-act,OODA)循環,建立復雜環境下無人集群自主協同系統集成框架[29]. 該框架通過高維態勢感知與認知、智能決策與規劃與自主協同控制三類關鍵技術,完成非結構化的信息協同采集、無中心的自組織任務規劃與分布式強魯邦控制. 王祥科等融合OODA 回路與集群協同的關鍵技術,在感知部分,應用協同觀測技術;在判斷部分,應用協同偵察、協同定位與建圖技術;在決策部分,應用任務分配與任務規劃技術;在行動部分,應用聚集、蜂擁與編隊技術[30].盡管上述這些文獻結合系統工程思想與OODA 循環,提出了無人集群自主任務規劃系統集成框架. 然而,針對復雜環境以及有人無人協同下的任務規劃問題,現如今缺少一定的系統集成框架. 因此,如何實現無人平臺多功能集成,無人集群系統集成與有人/無人系統集成,仍需開展進一步研究.
任務規劃是針對已知任務和已知平臺信息的優化求解過程. 常見的任務規劃系統流程如圖1 所示.指揮員下達命令生成任務列表,這些任務根據功能和約束分類成任務流,這些任務流經過任務調度、資源分配和路徑規劃最終得到任務規劃方案.
無人集群任務規劃是智能無人系統研究中的熱點問題之一,主旨是在感知未知環境中的可能目標后,如何利用資源調度優化模型對現有可利用資源進行整合評估,以最大可能地挖掘各個無人平臺的潛力,達到無人平臺的合理部署,從而完成任務規劃[31]. 如圖2 所示,無人集群任務規劃問題具體可以分為路徑規劃與資源調度兩部分,路徑規劃問題是考慮環境約束下的平臺位置與任務位置之間的組合優化問題. 而資源調度是考慮資源與需求之間的匹配機制,使得路徑規劃的平臺與任務在確保任務完成時間的同時確保資源保障到位.

圖2 無人集群任務規劃模型Fig.2 Unmanned swarm mission planning model
然而,在復雜環境下,這些任務規劃流程與模型無法適應動態多變的實際環境、無法考慮集群內部的協同、有人/無人集群之間的協同. 基于此,提出了如圖3 所示的有人/無人任務規劃系統集成框架. 該系統集成框架將規劃決策、無人平臺、有人系統組合起來解決無人集群實時任務規劃問題. 集成的各個子部分包含無人平臺自主行為規劃系統集成、無人集群分布式系統集成與有人/無人集群系統集成.無人平臺自主行為規劃系統通過感知、認知、決策與控制完成自主行為規劃. 不同無人平臺之間通過交互感知-通信信息,平臺-任務信息,資源-需求信息與決策信息,完成對無人集群分布式系統集成. 有人系統參與無人集群在準備階段的預先規劃、執行任務階段的實時規劃與完成任務后的事后評估過程,使得有人系統與無人系統實時協同交互,進而完成有人/無人集群系統集成.

圖3 有人/無人任務規劃系統集成框架Fig.3 Integration framework of manned/unmanned mission planning system
無人平臺的行為規劃通常需要提前進行充分的計算和分配,每個無人平臺按照既定的方案執行,這很難適應動態變化和復雜的環境. 為了完成自主行為規劃,將無人平臺自主行為規劃系統解耦成4 個層面:感知層、認知層、決策層與控制層. 無人平臺通過感知層獲取外部環境與無人集群的相關信息,這些信息匯總到認知層,經過決策層,最終通過控制層反饋給外部環境和無人集群. 通過無人平臺與外部環境、無人集群之間的交互,最終完成自主行為規劃循環,具體過程如圖4 所示.

圖4 無人平臺自主行為規劃系統集成Fig.4 Autonomous behavior planning system integration for unmanned platform
如圖5 所示,感知層行為具體為無人平臺對外界信息的收集. 外界信息主要包括圖像信息和通信信息. 而在圖像信息中,既包含對靜態地圖的構建,同時又包含對任務目標的檢測. 因此,感知層行為主要包含靜態地圖構建、任務目標檢測與通信信號接受三類任務. 其中,靜態地圖構建(simultaneous localization and mapping,SLAM),為無人集群提供基礎地圖和定位參考. 根據無人平臺所攜帶的傳感器的不同,可以將靜態地圖構建分為激光SLAM,視覺SLAM 以及多傳感器融合SLAM[32]. 激光SLAM 通過搭載激光雷達,掃描外界環境,獲得外界環境的點信息,根據不同點的信息差異,獲取環境信息和無人平臺的位姿信息[33]. 視覺SLAM 通過搭載單目相機、多目相機以及深度相機等記錄外界環境的圖像信息,根據和環境紋理信息提取,深度信息判斷,獲取環境信息和位姿信息[34]. 多傳感器融合SLAM 通過搭載包含激光雷達、多目相機以及慣性測量單元(IMU)等多類傳感器,獲取多維環境信息,利用多傳感器數據融合算法,獲取誤差較小的環境信息和位姿信息[35].任務目標檢測需要對無人平臺的視野中的任務目標進行準確識別,是無人集群態勢理解的基礎. 常見的目標檢測算法可以分為傳統目標檢測算法和基于深度學習的目標檢測算法. 傳統目標檢測算法通過區域選擇器對視野內圖像不斷進行框選,接著通過特征提取算法分析這些框選區域,最后根據預訓練好的分類器對特征進行分類并最終完成目標檢測[36]. 然而,傳統目標檢測算法由于算法時間復雜度高、求解效率低、精度低、泛化能力差等缺點而無法滿足目標檢測需求. 而深度學習目標檢測算法包含單階段檢測算法、雙階段檢測算法、對抗學習算法等[37],可以在較短時間內完成目標精確識別的同時,具有較強的泛化性能,更適合于無人集群自主任務規劃場景. 在通信信號接收中,無人平臺既需要接收來自其他無人平臺所感知的態勢信息,同時也需要接收來自有人系統的命令.

圖5 感知層行為Fig.5 Perceptual layer behavior
如圖6 所示,認知層行為具體為無人平臺對感知信息的整合、匯總,并生成優化問題. 隨著感知信息的不斷更新,認知層需要將這些信息不斷地融合在整個態勢中. 這里的態勢信息指的是通過感知層信息構成的地圖以及地圖內各個要素的參數信息.認知融合算法需要根據多無人平臺搭載傳感器(可見光、多光譜、紅外、合成孔徑雷達等)以及多無人平臺間通信所傳回的相關數據轉換到統一的“時-空”坐標系中[38]. 常見的融合方式包含估計理論數據融合方法(卡爾曼濾波方法、最小二乘法等)、分類數據融合方法(聚類分析法、隨機森林方法等)、推理數據融合方法(貝葉斯估計法、DS 證據推理法等)以及人工智能融合方法(模糊邏輯法、神經網絡法等). 例如,秦武韜等針對無人集群任務規劃中目標的準確可靠定位問題,提出了層次化分布式多無人機容錯定位濾波結構[39],該結構既有完全分布式結構的通信帶寬低、系統容錯強的優點,同時又有中心式結構的信息集中處理的優點,提高了信息融合的容錯性和可靠性. 對于存在沖突以及缺失的信息,認知層通過推理得到統一的態勢信息. 李洪瑤等針對無人集群大區域巡視問題中多無人機對目標位置和類比的信息感知的偏差,設計了基于動態切換機制的多機融合識別方法[40],自適應選擇DS 證據推理理論以及DSmT 信息融合算法,有效提高無人集群巡視系統的檢測精度. 周治國等針對無人艇水面目標跟蹤任務中,存在遮擋、光照變化、攝像頭抖動等導致信息偏差的問題,提出了時空信息融合算法,在空間層面應用深度學習算法提取圖像語義特征[41],在時間層應用相關濾波跟蹤算法,計算與空間層相關特征的相關性. 該方法能夠在多源信息存在沖突的情況下,確保了目標檢測與跟蹤的魯棒性與實時性. 通過該態勢信息,認知層通過自動建模獲取得到決策變量、目標函數以及約束條件最終傳遞到決策層中. 關于認知建模算法,魏瑞軒等針對多無人機協同搜索中的搜索策略選擇問題,借鑒人在搜索行為中的認知決策方式,提出了3 層結構模糊認知決策方法[42],可以在感知環境信息后,自主選擇優化目標是全域覆蓋搜索還是針對性目標搜索. 針對不同優化目標,根據模糊聚類算法完成搜索路徑匹配,使得無人機集群的行動軌跡可以集中于目標最可能出現的區域,從而提高搜索效率. 吳子沉等針對無人機集群圍捕任務的環境適應能力差的問題,設計基于認知發育的圍捕方法[43],通過建立知識庫的方式,將無人機集群感知的態勢狀態信息與優化目標、圍捕策略等的匹配規則建立規則匹配庫,再根據優化目標結合強化學習算法(deep Q-network,DQN)訓練無人機的圍捕動作. 根據該算法,無人機集群可以在不同環境下高效完成圍捕任務.

圖6 認知層行為Fig.6 Cognitive layer behavior
如圖7 所示,決策層行為具體為無人平臺對優化問題的優化求解. 根據認知層獲得的態勢信息,決策層可以對不同的決策方案進行仿真推演,并根據不同的評估函數對不同的決策方案進行評估. 通過最優化算法、啟發式算法以及貪心算法等對決策優化,最終得到當前認知態勢下的優化決策. 值得注意的是,由于感知層信息的不斷變化,導致認知態勢的不斷變化. 這對決策的實時響應要求極高. 為此,設計優化結果庫可以根據不同的優化問題給出之前結果的變種. 在決策過程中,認知層獲得的實時動態任務規劃任務會根據規劃算法庫中算法并行計算. 這些算法根據運行時間分為3 類:1)快速算法:這類算法無法求得精確解,但是可以在短時間內快速獲得有效解. 常見算法包括貪心算法[44]、聚類算法[45]等.2)動態啟發式算法:這類算法通過不斷迭代,獲得優化的解決方案. 其中,動態啟發式算法由于環境的變化導致目標函數、決策變量的變化,需要對優化結果庫中的相似優化結果進行重建,并最終反饋給動態優化算法加速迭代計算[46]. 3)精確算法:這類算法最后計算得到精確的優化結果,但往往需要大量的計算時間.這類算法包含分支限界算法[47]、動態規劃算法[48]等. 這3 類算法得到結果都會記錄在優化結果庫中,通過篩選,取得實時最佳結果到控制層去執行.

圖7 決策層行為Fig.7 Decision-making layer behavior
如圖8 所示,控制層行為具體為無人平臺自身對外界環境的影響. 主要包含無人平臺的移動控制、資源控制以及通信輸出. 在移動控制中,除了要根據決策層獲得的位置進行移動,同時要注意環境中的靜態目標與動態目標,根據目標信息及時完成避障、避險控制. MA 等針對障礙環境下的無人集群協同編隊飛行問題,結合蜂擁模型以及優化算法,設計含參的無人集群避障避險規則以及行動規則[49],應用優化算法在多種不同的障礙環境中優化求解行動規則的參數,并最終獲取無人集群的行動規則. 該算法可以在不同環境中保證無人集群的自主飛行與避障避險.WU 等針對障礙環境下無人集群協同編隊飛行與編隊圍捕任務,設計同質-異質基因調控網絡,自適應設計無人集群的避障避險規則以及行動規則及其相關參數[50],根據基因調控網絡自適應訓練獲取優化后的無人集群避障避險規則. 該方法可以適應不同環境下無人集群完成高效的協同編隊與協同圍捕任務.在資源控制中,無人平臺需要完成對物資、彈藥等載荷的釋放和對不同傳感器的控制. 在通信輸出中,無人平臺除了對其他無人平臺發送通信感知、平臺任務、資源需求與決策的交互信息. 同時也需要將信息反饋給有人系統中.

圖8 控制層行為Fig.8 Control layer behavior
根據無人平臺自主行為規劃,無人平臺從感知層獲得態勢地圖要素傳遞給認知層中. 認知層通過融合、推理、建模最終生成態勢地圖與問題建模傳遞給決策層. 決策層通過優化計算獲得決策結果傳遞給控制層進行執行. 控制層反饋移動控制與資源控制到外界環境中,同時將當前交互信息反饋給無人集群中. 不同層次之間數據流如圖9 所示.

圖9 自主行為規劃系統數據流Fig.9 Data flow of autonomous behavior planning system
在復雜多變的動態環境中,無人集群任務規劃更加側重于將動態到達的各類任務規劃至合適的無人平臺,以使集群內各無人平臺在時間、空間上形成有序的協同行為并發揮出各無人平臺的能力,最終聚合形成無人集群協同體系. 因此,動態任務規劃是智能無人集群系統自主協同的關鍵. 復雜環境中對抗性強、通信穩定性差、任務時效性要求高等特點都加大了無人集群動態任務規劃的難度. 在復雜環境中,任務和無人機資源存在動態變化的情況. 其中,任務動態變化通常指任務目標的位置發生變化和任務目標的新增等. 任務和資源動態變化通常是指無人機存在損毀以及無人機增援等情況. 任務與資源的動態變化往往帶來優化問題的解向量空間的動態變化.
針對任務與資源動態變化問題,提出了如圖10的無人集群分布式系統集成體系架構. 在該體系架構中,每個無人平臺通過感知、認知、決策與控制,完成自主行為規劃. 為適應復雜多變的動態環境,完成無人集群分布式自主控制,每個無人平臺均為決策主體,平臺間以交互信息、彼此決策的方式完成協同. 其中,無人平臺之間通過交互通信感知信息、平臺任務信息、資源需求信息與決策信息等可協同信息到自身認知層協助決策,進而完成平臺間自主協同. 整個無人集群通過交互信息,涌現出集群感知、集群認知、集群決策與集群控制,進而完成無人集群分布式自主控制.

圖10 無人集群任務規劃體系架構Fig.10 Architecture of unmanned swarm mission planning
在傳統的無人集群任務規劃模型中,無人集群的協作方式分為基于中心式以及基于分布式兩種方式. 基于中心決策式的方法通過中間節點計算整個集群的路徑規劃和資源調度,再通過分發的形式傳遞給無人集群的各個無人平臺. 這種方式存在通信帶寬過高,任務響應時間過長等問題[51]. 而基于分布式決策的方法一般通過拍賣協商機制,發現任務目標的無人平臺通過招標的方式把任務分發給其他無人平臺,其他無人平臺通過競標的方式來獲取對應的任務[52].在基于拍賣協商機制的分布式決策過程中,為了進一步探討無人平臺的交互模式,將交互過程的主體分成我方、友方、敵方與環境4 部分. 基于此,構建了如圖11 的感知決策交互模式. 該模式中,交互信息自下而上分別考慮了通信-態勢、平臺-任務、資源-需求和決策. 其中,不同的交互層具有不同的交互任務以及交互算法,如圖12 所示. 通信-態勢層應用深度學習多傳感器融合與定位算法等相關技術完成態勢感知與目標檢測任務. 我方設備通過通信與友方設備進行交互. 與此同時,我方設備通過計算機視覺技術對友方設備、敵方設備、環境、任務等進行識別;平臺-任務層應用啟發式算法、行為樹、強化學習、復雜網絡等相關技術完成路徑規劃、編隊控制、目標跟蹤、目標圍捕等任務;資源-需求層應用貪心/聚類算法、數學規劃、演化計算等相關技術完成資源匹配、資源調度等任務;決策層應用GMCR沖突分析圖模型、因果理論和博弈論等相關技術完成戰術博弈與沖突分析等任務. 我方決策與友方決策、敵方決策之間組成合作博弈,同時與任務之間進行匹配,進而獲得最佳決策.

圖11 感知決策交互模式Fig.11 Perceptual decision-making interaction mode

圖12 感知決策交互任務與算法Fig.12 Perceptual decision-making interaction task and algorithm
基于感知決策交互模式,無人平臺在集群中通過交互信息、交互任務、交互算法完成對自身認知的提升的同時,實現無人平臺與友方協同,環境交互和敵方博弈,進而涌現出群體感知、群體認知、群體決策與群體控制,從而實現無人集群的分布式系統集成.
為了構建有人系統與無人集群的感知、認知、決策與控制的交互,本文設計了有人/無人集群任務規劃系統框架如圖13 所示. 該系統自下而上通過服務層、應用層與數據層支持與平臺層中的無人集群進行數據交互.

圖13 有人/無人任務規劃系統框架Fig.13 Manned/unmanned mission planning system framework
服務層主要包含規劃方案庫、態勢實時數據庫、任務規劃算法庫與決策評估庫,為預先規劃、實時規劃以及事后評估提供服務保障. 應用層主要分為3個階段:1)預先規劃. 2)實時規劃. 3)事后評估. 在預先規劃階段,指揮員通過對所需規劃任務分析完成對規劃計劃、無人資源以及任務目標的指派. 并將規劃任務放入任務規劃算法庫中進行預先任務規劃,獲得任務規劃預案發送到無人集群;實時規劃首先需要對整個任務的執行過程進行監控,并對實時態勢進行統計分析,利用實時任務規劃算法獲得實時規劃指令發送給無人集群;事后評估階段首先評估專家根據評估問題構建評估指標體系,之后通過集群收集到的全局交互信息進行態勢分析溯源,并對規劃方案進行評估,最終生成事后分析報告. 數據層是無人集群與任務規劃系統交互的橋梁. 應用層獲得的任務規劃預案與實時規劃指令傳遞給集群感知層.而集群控制層將實時交互信息反饋給任務規劃系統應用層中及時進行實時規劃.
預先規劃是有人/無人集群協同任務規劃的前提和基礎. 通過預先規劃,可以使人與無人平臺對任務的了解情況保持一致,為后續協同執行任務打下基礎. 在預先規劃階段,有人/無人任務規劃系統需要在已知部分任務目標以及環境信息的情況下,通過規劃任務分析、預先任務規劃、規劃計劃篩選,最終制定任務預案,并傳遞給無人集群的認知層中. 胡月等針對有人/無人直升機協同打擊地面目標問題,提出了有人/無人直升機任務規劃系統[53]. 該系統包含規劃臺、規劃推演系統以及規劃結果檢驗3 部分組成.規劃臺負責任務的預先任務規劃,任務推演系統通過互動仿真的形式,完成對規劃任務仿真推演. 最后根據規劃結果檢驗,將任務方案通過交互平臺傳遞給有人直升機,再依次傳遞給各個無人直升機. 然而,該方法的有人系統僅僅參與了預先任務規劃的信息獲取部分,沒有參與預先規劃的計算部分. 為了提高有人/無人集群任務規劃的高效自主協同,本節設計的預先規劃流程與方法如圖14 所示. 在該系統中,指揮員與專家需要進行規劃任務分析. 具體包含明確任務目標、管理無人資源與制定規劃計劃3 部分.由于人為制定計劃往往存在單一性、片面性等缺點,因此,需要通過預先任務規劃進行規劃計劃優化. 預先任務規劃在規劃算法庫中,包含規劃計劃評估、規劃計劃優選與規劃計劃修改3 個部分,通過不斷迭代,最終獲取具有不同側重的規劃計劃. 這些計劃通過指揮員篩選出最合適的計劃生成任務預案并存入規劃方案庫中. 每個預案包含執行任務的無人平臺編號、任務分工、以及具體任務. 這些任務為某個時刻需要到達某個位置執行某些任務. 在圖13 中,如任務預案1 中,無人平臺1 需要在22年8月31日15 時08 分到達27°51′,112°59′ 的位置執行偵察任務. 這些預案同時會存儲在無人集群的認知層中,等待任務開始時,無人集群可以按照任務預案高效執行任務.

圖14 預先規劃流程與方法Fig.14 Pre-planning processes and methods
實時規劃是有人/無人集群協同任務規劃的核心.通過實時規劃,可以使人與無人平臺在復雜環境中適時作出合理調整,提高有人/無人集群協同任務規劃的有效性和魯棒性. 在實時規劃階段,有人/無人任務規劃系統通過實時態勢監控獲取從無人集群控制層發出的實時交互信息,并通過態勢統計分析、實時態勢分析、實時任務規劃以及規劃計劃重篩等獲得實時規劃指令并傳遞給無人集群的感知層中. 柳文林等針對有人/無人機實時協同編隊問題,設計了有人/無人機協同作戰指揮控制結構[54]. 該架構通過任務規劃層、協調控制層與功能實現層3 層架構實現有人/無人機之間在沒有地面基站以及操作人員的情況下的協同編隊飛行. 其中,任務規劃層為有人/無人協同的關鍵部分. 在任務規劃層中,無人機通過通信數據鏈系統向任務規劃層傳入圖像和數據等信息.任務規劃層將這些數據整合形成戰場態勢,并展示在有人機的人機交互界面上. 人機交互界面同時還提供輔助決策和在線規劃等功能,并最終生成指令通過通信數據鏈系統發送給無人機. 然而該架構僅僅可以進行較為簡單任務規劃,無法應對復雜環境下的任務規劃問題. 為了適應復雜環境下有人/無人集群協同任務規劃,本節提出的實時規劃流程與方法如圖15 所示. 在該系統中,無人集群所產生的實時態勢數據與系統所產生的實時計劃數據通過實時態勢監控,實時記錄在態勢實時數據庫中. 這些數據經過態勢分析統計,傳遞給指揮員與專家進行實時態勢分析. 分析過程主要包含對任務目標的重構,對無人資源的管理以及對規劃計劃的重置. 當任務場景發生變化時,指揮員與專家首先需要分析當前任務目標與當前態勢,判斷當前任務是否需要作出改變,并更新任務所需資源. 這些更新后的任務目標、資源以及約束條件等通過有人/無人系統傳遞給無人系統中的規劃算法庫中. 規劃算法庫將預先規劃方案以及作出改變前的規劃方案通過重構生成適合當前任務內容的任務規劃方法. 重置后的規劃計劃經過實時規劃算法計算最終生成實時指令. 具體而言,需要規劃算法庫首先對規劃計劃進行重構,并對計劃進行評估、優選、修改的迭代. 最終獲得的優化實時指令記錄在規劃方案庫中并傳遞給無人集群的感知層中. 這些實時指令主要是執行任務的無人平臺編號、以及具體任務. 在圖13 中,實時指令1 為無人平臺1 需要在22年8月31日15 時08 分在27°51′,112°59′完成協同偵察任務.

圖15 實時規劃流程與方法Fig.15 Real-time planning processes and methods
事后評估階段為有人/無人集群協同任務規劃提供決策可解釋性. 通過事后評估,可以分析不同決策對任務進程的影響,并通過復盤從而發現新的優化決策. 在事后評估階段,有人/無人任務規劃系統通過評估模型構建,態勢分析溯源與規劃方案評估最終生成事后分析報告. 左欽文等針對復雜仿真下的評估科學性問題,提出了基于大數據及機器學習的作戰評估技術總體框架[55]. 該框架通過指標體系智能構建、作戰網絡評估分析、體系評估視圖構建的方式,為作戰方案評估提供新的解決方案. 盡管這類方法可以有效評估不同任務方案的優劣,然而,這類方法缺少對任務方案的溯源與分析. 因此,本節提出的事后評估流程與方法如圖16 所示. 在該系統中,指揮員與評估專家首先完成評估模型建立. 具體包含確立評估問題、設計評估指標以及指標體系構建. 評估模型傳遞給決策評估庫中. 同時,整個任務執行過程中無人集群所產生的全局態勢數據與系統所產生的全局計劃數據會傳遞給決策評估庫中,完成態勢溯源、低效決策搜索、決策分析修改以及決策推演評估. 最后,評估專家根據決策評估分析結果撰寫事后分析報告.

圖16 事后評估流程與方法Fig.16 Post-assessment processes and methods
針對動態環境下,無人集群任務規劃問題,從路徑規劃與資源調度兩個問題分析了任務規劃研究現狀,構建了有人/無人集群任務規劃系統集成架構. 該系統集成架構主要包含無人平臺自主行為規劃系統、無人集群分布式系統與有人/無人集群任務規劃系統.無人平臺自主行為規劃系統集成感知、認知、決策與交互完成自主行為規劃. 無人平臺依據交互信息,彼此決策的方式,構建了無人集群分布式系統. 無人平臺間的交互包含通信感知、平臺任務、資源需求和決策信息. 基于該體系架構,設計了有人/無人集群任務規劃系統,支持指揮員在預先規劃、實時規劃與事后評估階段與無人集群的實時協同交互.