王詔豐 李博驍 高原 陸澤健
(中國電子科技集團(tuán)公司電子科學(xué)研究院 北京市 100041)
雷達(dá)、聲吶、紅外等異構(gòu)多傳感器組網(wǎng)協(xié)同探測廣泛應(yīng)用于空中目標(biāo)探測跟蹤、海上/水下目標(biāo)檢測定位、太空目標(biāo)監(jiān)視以及導(dǎo)彈預(yù)警等領(lǐng)域,探測場景往往具備實(shí)時(shí)性要求高、空間跨度大、對抗性強(qiáng)等特點(diǎn),傳統(tǒng)規(guī)劃屬于事前規(guī)劃,在應(yīng)對實(shí)際場景中會(huì)造成兩方面的問題:
(1)目標(biāo)場景具有較強(qiáng)的不確定性,籌劃過程難以窮舉所有場景,因此造成規(guī)劃結(jié)果與場景適配性存在偏差,影響整體效能;
(2)對抗過程不可預(yù)知,以無人機(jī)群、導(dǎo)彈等目標(biāo)為例,群體機(jī)動(dòng)、密集攻擊等突防形式復(fù)雜多變且發(fā)生時(shí)機(jī)不可預(yù)測,以人為經(jīng)驗(yàn)難以保證全局最優(yōu)。
隨著對現(xiàn)代戰(zhàn)爭對抗性、不確定性、非線性認(rèn)識的不斷深化,有關(guān)部門在學(xué)習(xí)借鑒外軍先進(jìn)理論的基礎(chǔ)上,開展了一些將智能技術(shù)應(yīng)用于任務(wù)規(guī)劃和輔助決策的基礎(chǔ)性研究工作。
空軍指揮學(xué)院基于Agent智能技術(shù)和行動(dòng)方案生成專家系統(tǒng)開發(fā)了作戰(zhàn)計(jì)劃協(xié)同制定系統(tǒng)[1-2];海軍裝備論證研究院基于模型庫開發(fā)了作戰(zhàn)方案輔助決策系統(tǒng)[3-4];國防科學(xué)技術(shù)大學(xué)基于模型分析和仿真評估研制了聯(lián)合作戰(zhàn)方案生成與評估系統(tǒng)[5]和空軍戰(zhàn)役智能決策支持系統(tǒng)[6]。這些對提升我軍作戰(zhàn)指揮效能和作戰(zhàn)籌劃能力均起到了積極的推動(dòng)作用,但總體而言,我軍無論是系統(tǒng)規(guī)模還是自動(dòng)化程度與外軍相比還存在較大差距。
多目標(biāo)決策(分配)屬于組合優(yōu)化問題,目前,多目標(biāo)決策技術(shù)已經(jīng)有很多研究成果,如窮舉法、動(dòng)態(tài)網(wǎng)絡(luò)流方法[7]、蟻群算法(ACO)[8]、粒子群算法(PSO)[9]、遺傳算法(GA)[10]等。但是,實(shí)戰(zhàn)環(huán)境中存在各種不確定性,目前大部分多目標(biāo)分配算法普遍存在效率低以及不能收斂等問題,且只適用于靜態(tài)的目標(biāo)分配,適應(yīng)環(huán)境變化能力差。將人工智能技術(shù)應(yīng)用于多目標(biāo)分配任務(wù),為解決此問題提供了機(jī)遇。
本文提出一種適用于強(qiáng)化學(xué)習(xí)算法和離線訓(xùn)練方式的異構(gòu)傳感器網(wǎng)絡(luò)智能輔助決策系統(tǒng)的設(shè)計(jì)方法,該系統(tǒng)以異構(gòu)傳感器網(wǎng)絡(luò)高保真仿真環(huán)境為基礎(chǔ)平臺,利用批量生成規(guī)劃方案和方案效能評估產(chǎn)生離線訓(xùn)練數(shù)據(jù)。經(jīng)過大量事前訓(xùn)練,得到性能穩(wěn)定的策略網(wǎng)絡(luò)。在執(zhí)行階段,策略網(wǎng)絡(luò)可根據(jù)實(shí)時(shí)感知態(tài)勢快速生成智能規(guī)劃結(jié)果,為時(shí)敏目標(biāo)復(fù)雜探測場景下多傳感器任務(wù)規(guī)劃提供輔助支撐。
面向異構(gòu)傳感器網(wǎng)絡(luò)的智能輔助決策系統(tǒng)硬件組成主要包括臺式工作站和網(wǎng)絡(luò)交換機(jī),軟件組成主要包括應(yīng)用軟件、仿真平臺、基礎(chǔ)資源三部分,其中應(yīng)用軟件包括場景分析軟件、效能評估軟件、智能規(guī)劃模型、數(shù)據(jù)分析顯示軟件。仿真平臺主要包含想定編輯工具、傳感器模型、目標(biāo)模擬軟件等,基礎(chǔ)資源主要包括操作系統(tǒng)、數(shù)據(jù)庫、消息中間件和時(shí)統(tǒng)等。軟件系統(tǒng)架構(gòu)如圖1所示。

圖1:系統(tǒng)軟件架構(gòu)
系統(tǒng)硬件設(shè)備組成主要包含4臺工作站和一臺交換機(jī),4臺工作站性能參數(shù)為顯示器大小:17英寸以上;顯示器分辨率:不低于1680×1050;CPU:Inter E5-2640;2GHz 32核;內(nèi)存:64GB DDR II;部署環(huán)境如圖2所示。

圖2:系統(tǒng)部署環(huán)境
想定編輯席主要用于制作訓(xùn)練階段和執(zhí)行階段所用到的場景數(shù)據(jù),包括傳感器類型、參數(shù)、部設(shè)位置,目標(biāo)類型、運(yùn)動(dòng)軌跡等。智能規(guī)劃席部署場景分析軟件、智能規(guī)劃模型、數(shù)據(jù)分析顯示軟件,主要完成批量規(guī)劃數(shù)據(jù)產(chǎn)生、在仿真模型席和效能評估席的配合下共同完成模型學(xué)習(xí)訓(xùn)練,此外包含對訓(xùn)練結(jié)果的能力分析顯示。效能評估席主要在訓(xùn)練階段對規(guī)劃樣本數(shù)據(jù)計(jì)算評估指標(biāo)和方案的綜合評價(jià),在執(zhí)行階段對比多方案綜合效能。仿真模型席部署目標(biāo)模型和傳感器模型,基于規(guī)劃結(jié)果產(chǎn)生仿真數(shù)據(jù),支持評估指標(biāo)的計(jì)算。席位組成及軟件部署見表1。

表1:席位組成與軟件部署表
2.2.1 訓(xùn)練階段信息流程
訓(xùn)練階段信息流程主要包括訓(xùn)練場景準(zhǔn)備、場景分析計(jì)算、AI模型訓(xùn)練三個(gè)部分,如圖3所示。

圖3:訓(xùn)練階段信息流程
2.2.1.1 訓(xùn)練場景準(zhǔn)備
事先由想定編輯工具創(chuàng)建任務(wù)場景想定,包括探測場景和目標(biāo)場景。探測場景包括傳感器類型、部署位置、朝向、探測威力等,各訓(xùn)練場景中包含的探測場景保持一致;目標(biāo)場景主要包括目標(biāo)類型、典型參數(shù)、飛行軌跡、起止時(shí)間等。任務(wù)場景想定以XML文件格式存入數(shù)據(jù)庫。
2.2.1.2 場景分析計(jì)算
由場景分析軟件設(shè)置參與訓(xùn)練的想定場景,從數(shù)據(jù)庫獲取想定文件,解析想定中包含的傳感器布設(shè)信息、目標(biāo)航跡,并基于傳感器能力進(jìn)行可見性分析計(jì)算,為AI模型提供基礎(chǔ)分析數(shù)據(jù);
2.2.1.3 AI模型訓(xùn)練
智能規(guī)劃模型基于策略網(wǎng)絡(luò)產(chǎn)生規(guī)劃動(dòng)作,一路動(dòng)作數(shù)據(jù)經(jīng)過效能評估軟件計(jì)算出動(dòng)作對應(yīng)的收益和代價(jià),并和規(guī)劃動(dòng)作一起構(gòu)成樣本數(shù)據(jù)放入經(jīng)驗(yàn)回放池。策略網(wǎng)絡(luò)動(dòng)作選擇的依據(jù)。一路動(dòng)作數(shù)據(jù)經(jīng)過價(jià)值網(wǎng)絡(luò)(Q-Net),對Q值進(jìn)行更新,并反饋至策略網(wǎng)絡(luò)。具體步驟包括:
(1)初始階段樣本池為空,用初始化模型(默認(rèn)為隨機(jī)策略)與環(huán)境交互填充樣本池;
(2)每個(gè)step提取一個(gè)時(shí)間片的樣本,包含該時(shí)間片的所有目標(biāo)的數(shù)據(jù)編碼;
(3)數(shù)據(jù)以單時(shí)間片-單目標(biāo)為單位輸入到策略網(wǎng)絡(luò)中進(jìn)行決策,以時(shí)間片為單位,將該時(shí)間片的所有狀態(tài)數(shù)組依次輸入到策略網(wǎng)絡(luò)中,輸出該時(shí)間片所有裝備對每一個(gè)目標(biāo)的動(dòng)作;
(4)將動(dòng)作和狀態(tài)輸入到Q網(wǎng)絡(luò)中,得到該動(dòng)作的好壞評估,使用Q值來更新策略網(wǎng)絡(luò)的參數(shù),然后結(jié)合評估系統(tǒng)提供的每個(gè)時(shí)間片每個(gè)目標(biāo)的指標(biāo)值,以及懲罰措施,得到一個(gè)真實(shí)獎(jiǎng)勵(lì),更新價(jià)值網(wǎng)絡(luò),再用價(jià)值網(wǎng)絡(luò)的輸出更新策略網(wǎng)絡(luò)參數(shù);
(5)最后使用當(dāng)前階段最優(yōu)的策略模型與仿真平臺進(jìn)行交互,更新樣本池。
2.2.2 執(zhí)行階段信息流程
執(zhí)行階段信息流程主要包括測試場景設(shè)置、場景分析計(jì)算、智能規(guī)劃計(jì)算、結(jié)果對比分析四個(gè)部分,如圖4所示。

圖4:執(zhí)行階段信息流程
2.2.2.1 測試場景設(shè)置利用想定編輯工具設(shè)置目標(biāo)場景,探測場景保持與訓(xùn)練場景一致。
2.2.2.2 場景分析計(jì)算
由批量規(guī)劃軟件從數(shù)據(jù)庫獲取想定文件,完成想定解析和可見性分析。
2.2.2.3 智能規(guī)劃計(jì)算
根據(jù)時(shí)間片依次將場景數(shù)據(jù)輸入給模型,先經(jīng)過數(shù)據(jù)處理處理為符合網(wǎng)絡(luò)輸入格式的狀態(tài)數(shù)據(jù),然后輸入給策略網(wǎng)絡(luò)模型;網(wǎng)絡(luò)會(huì)經(jīng)過幾層神經(jīng)網(wǎng)絡(luò)輸出各裝備的編碼動(dòng)作,然后再經(jīng)過數(shù)據(jù)處理模塊整理為系統(tǒng)可用規(guī)劃結(jié)果文件。
2.2.2.4 結(jié)果對比分析利用效能評估軟件計(jì)算節(jié)點(diǎn)指標(biāo)、全局指標(biāo)和綜合評分;通過數(shù)據(jù)分析軟件實(shí)現(xiàn)智能規(guī)劃方案和按照規(guī)則生成方案的綜合評分對比以及規(guī)劃數(shù)據(jù)的回放顯示。
訓(xùn)練場景主要包含目標(biāo)場景和探測場景兩部分。以導(dǎo)彈目標(biāo)預(yù)警探測為背景,分析國內(nèi)外典型型號與作戰(zhàn)戰(zhàn)法,設(shè)置了包含由簡單場景、多方向場景、集火場景、多波次場景等場景要素構(gòu)成的8類威脅場景,從適用性角度,基本能夠覆蓋所有潛在威脅。具體場景特征如表2所示。

表2:典型目標(biāo)場景
探測場景包含三類具有不同能力的傳感器,數(shù)量共記20個(gè)。如表3所示。

表3:探測場景
批量規(guī)劃生成軟件在訓(xùn)練階段主要用于產(chǎn)生離線訓(xùn)練數(shù)據(jù),典型場景以想定的形式存儲(chǔ)在數(shù)據(jù)庫中,在訓(xùn)練過程中,批量規(guī)劃生成軟件會(huì)以輪詢的方式逐個(gè)加載想定文件,批量生成JSON格式的規(guī)劃方案,規(guī)劃的內(nèi)容包含每個(gè)時(shí)間片,每個(gè)傳感器對每個(gè)目標(biāo)的工作模式,時(shí)間片長度定義為10s。批量規(guī)劃生成的過程考慮幾類基本約束,包括規(guī)則合理性約束、資源約束等:
(1)每個(gè)目標(biāo)保證至少一部傳感器裝備跟蹤;
(2)目標(biāo)跟蹤之后才能進(jìn)行識別;
(3)對目標(biāo)跟蹤指令的變化只發(fā)生在某些關(guān)鍵點(diǎn)而不是所有時(shí)間片。
其中,關(guān)鍵點(diǎn)選取規(guī)則為:
(1)當(dāng)前規(guī)劃目標(biāo)所在方向上,有任一傳感器新捕獲任意目標(biāo);
(2)當(dāng)前規(guī)劃目標(biāo)所在方向上,有任一傳感器丟失任意目標(biāo)(飛出探測范圍);
(3)特定對抗事件發(fā)生(可見的);
(1)和(2)對應(yīng)的關(guān)鍵點(diǎn)根據(jù)可見性關(guān)系得到,(3)對應(yīng)的關(guān)鍵點(diǎn)從目標(biāo)軌跡數(shù)據(jù)里獲取。
評估指標(biāo)計(jì)算模塊結(jié)合場景信息和規(guī)劃結(jié)果,對批量生成的規(guī)劃進(jìn)行評估分析,生成對應(yīng)的節(jié)點(diǎn)指標(biāo)和全局指標(biāo),評價(jià)指標(biāo)選取主要考慮及時(shí)發(fā)現(xiàn)能力、連續(xù)跟蹤能力、跟蹤精度、識別完成度、資源占用情況等方面。其中節(jié)點(diǎn)指標(biāo)經(jīng)過融合處理后作為即時(shí)收益用于指導(dǎo)模型學(xué)習(xí)訓(xùn)練,全局指標(biāo)主要用于多方案對比。
3.3.1 局部指標(biāo)
局部指標(biāo)為單時(shí)間片指標(biāo),由指令評估系統(tǒng)直接輸出,僅根據(jù)當(dāng)前時(shí)間片決策動(dòng)作計(jì)算,本方案中使用的局部指標(biāo)共有5個(gè),具體如表4所示。

表4:局部評價(jià)指標(biāo)
將上述五個(gè)指標(biāo)融合,得到一個(gè)reward值,融合方法:
Reward=(跟蹤計(jì)數(shù)/當(dāng)前總時(shí)間)+(跟蹤精度/100)+(一類識別完成度/100)+(二類識別完成度/100)+(三類識別完成度/100)
3.3.2 全局指標(biāo)
全局指標(biāo)為整局評分,為一個(gè)分?jǐn)?shù)值,主要根據(jù)局部指標(biāo)的相關(guān)計(jì)算和積累得到首次點(diǎn)發(fā)現(xiàn)時(shí)間、跟蹤覆蓋率、識別完成度等,再通過加權(quán)求和計(jì)算得到整局評分。整局評分由指令評估系統(tǒng)直接輸出。
策略網(wǎng)絡(luò)訓(xùn)練模塊基于強(qiáng)化學(xué)習(xí)方法模型,首先需要將描述環(huán)境狀態(tài)和智能體動(dòng)作的相關(guān)數(shù)據(jù)進(jìn)行狀態(tài)編碼和動(dòng)作編碼。
3.4.1 狀態(tài)編碼
狀態(tài)編碼大小為向量形式,大小為(1,27),其中目標(biāo)狀態(tài)7維,傳感器狀態(tài)20維,編碼結(jié)果如圖5所示。

圖5:狀態(tài)編碼
第1維表示目標(biāo)的優(yōu)先級(0為低威脅目標(biāo),1為高威脅目標(biāo));第2-4維表示目標(biāo)位置;第5-7維表示目標(biāo)速度;第8-27維對應(yīng)20個(gè)傳感器各自狀態(tài)。
傳感器狀態(tài)主要根據(jù)目標(biāo)可見性和可用資源進(jìn)行融合:對于每一個(gè)目標(biāo),不可見該目標(biāo)的傳感器可用資源置0,可見傳感器可用資源計(jì)算方式為,A、B類傳感器每跟蹤一個(gè)目標(biāo),可用資源減少1/30,C類傳感器每識別一個(gè)目標(biāo),可用資源減100%,最終,為0的緯度表示該傳感器對目標(biāo)不可見或無可用資源,不為零的傳感器可進(jìn)行跟蹤識別分配,得出可見性和可用資源的融合特征。
3.4.2 動(dòng)作編碼
動(dòng)作編碼為(1、20)的向量,分別代表20個(gè)傳感器的工作狀態(tài)選擇,每個(gè)傳感器根據(jù)表3的工作特性設(shè)置其可選工作狀態(tài),取值范圍為0-4(0表示搜索,1表示跟蹤,2表示一類識別、3表示二類識別、4表示三類識別)。
模型訓(xùn)練借鑒Off-Policy方法Soft Actor-Critic(SAC)[11]算法,使用Actor-Critic框架,結(jié)合policy network和Q Network和進(jìn)行策略更新。相較于On-Policy,Off-Policy具有優(yōu)化探索并行、樣本利用充分等優(yōu)點(diǎn)。考慮到仿真平臺的設(shè)計(jì),Off-Policy更為合理。但是大部分離線學(xué)習(xí)方法比如Q-Learning以及他的各種版本是valuebased,與在線學(xué)習(xí)的Policy-Gradient相比,對于動(dòng)作的探索性并不好。兩者結(jié)合起來的AC算法互補(bǔ)了他們的缺陷,既可以用Critic擬合動(dòng)作Q值,也有Actor使用Policy-Gradient探索、更新策略。但是一般的AC算法是在線學(xué)習(xí)的。而SAC算法沒有這一局限。SAC的另一大優(yōu)點(diǎn)是使用了Maximum Entropy,使得其有了更強(qiáng)的探索能力,以及更好的魯棒性。
訓(xùn)練過程共包含10個(gè)epoch,每個(gè)epoch包含150局場景,每20000個(gè)step更新一次網(wǎng)絡(luò)參數(shù),每個(gè)epoch測試一次,評估指標(biāo)為評估系統(tǒng)的終局得分。
以對應(yīng)表2中最復(fù)雜場景的930號場景(多波次多方向集火攻擊)為例,圖6表示該場景下的訓(xùn)練過程。由于模型訓(xùn)練過程存在最大熵探索,并且分?jǐn)?shù)指標(biāo)是整局得分,并不直接聯(lián)系于模型訓(xùn)練所用的單時(shí)間片reward,所以分?jǐn)?shù)曲線做了多項(xiàng)式擬合,弱化了探索過程中的波動(dòng)。可以看出前半段以探索為主導(dǎo),后半段模型從較低得分逐漸收斂到高得分。

圖6:訓(xùn)練過程得分收斂過程
(1)雙擊dos命令行程序,啟動(dòng)智能規(guī)劃算法模型,提示模型加載完成,準(zhǔn)備就緒…,軟件執(zhí)行結(jié)果如圖7所示。

圖7:啟動(dòng)智能規(guī)劃算法模型
(2)啟動(dòng)智能預(yù)案生成總控軟件,輸入測試場景對應(yīng)想定編號,以及生成批量規(guī)劃方案數(shù)量,軟件操作界面如圖8所示。

圖8:啟動(dòng)總控軟件
(3)點(diǎn)擊生成指令按鈕,向智能預(yù)案生成子系統(tǒng)發(fā)送1各規(guī)劃方案生成請求,同時(shí)向批量規(guī)劃方案軟件發(fā)送100個(gè)方案生成請求,后臺開展方案的生成和評估;通過總控界面可以監(jiān)視當(dāng)前方案生成進(jìn)度;
(4)方案生成結(jié)束后,由評估系統(tǒng)對1套智能規(guī)劃方案和100套批量規(guī)劃方案進(jìn)行效能評估,給出綜合評價(jià)得分;
(5)啟動(dòng)結(jié)果對比軟件,分別設(shè)置1套智能規(guī)劃方案和100套批量規(guī)劃方案評估結(jié)果的存放目錄,點(diǎn)擊對比按鈕,查看評分結(jié)果對比情況,驗(yàn)證智能生成方案綜合評分是否優(yōu)于100套批量規(guī)劃方案;
(6)啟動(dòng)仿真推演軟件,設(shè)置1套智能規(guī)劃方案的存放目錄,加載規(guī)劃結(jié)果文件,動(dòng)態(tài)展示各時(shí)間點(diǎn)各裝備對所有目標(biāo)的跟蹤情況,內(nèi)容展示形式如圖9所示。

圖9:規(guī)劃方案內(nèi)容展示
針對復(fù)雜任務(wù)場景下,異構(gòu)傳感器協(xié)同探測任務(wù)規(guī)劃問題,本文提出了一種基于高置信度仿真平臺和機(jī)器學(xué)習(xí)模型的輔助決策系統(tǒng)設(shè)計(jì)方法。該系統(tǒng)通過事前大量人工標(biāo)定的典型場景生成訓(xùn)練樣本,通過離線訓(xùn)練對策略網(wǎng)絡(luò)進(jìn)行迭代強(qiáng)化。本文重點(diǎn)針對系統(tǒng)架構(gòu)設(shè)計(jì)、訓(xùn)練場景設(shè)計(jì)、數(shù)據(jù)編碼、訓(xùn)練模型選型等方面進(jìn)行了介紹,最后通過系統(tǒng)運(yùn)行測試對操作流程和功能界面進(jìn)行了展示,通過與固定規(guī)則模型進(jìn)行對比,對訓(xùn)練成果的有效性進(jìn)行了驗(yàn)證。