999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識(shí)牽引與數(shù)據(jù)驅(qū)動(dòng)的兵棋AI設(shè)計(jì)及關(guān)鍵技術(shù)

2021-11-11 05:59:18余曉晗邵天浩
關(guān)鍵詞:規(guī)劃動(dòng)作

程 愷, 陳 剛, 余曉晗, 劉 滿, 邵天浩

(陸軍工程大學(xué)指揮控制工程學(xué)院, 江蘇 南京 210007)

0 引 言

兵棋是一種研究戰(zhàn)爭(zhēng)內(nèi)在規(guī)律和訓(xùn)練指揮員指揮決策能力的工具,分為手工兵棋和計(jì)算機(jī)兵棋。隨著信息技術(shù)的飛速發(fā)展,計(jì)算機(jī)兵棋逐漸成為當(dāng)前兵棋推演的主要方式。特別是近年來(lái)人工智能(artifical intelligence, AI)技術(shù)在AlphaGo、德州撲克以及星際爭(zhēng)霸等游戲領(lǐng)域取得突破[1-7],從簡(jiǎn)單環(huán)境下的完全信息博弈,到不完全信息博弈,再到復(fù)雜環(huán)境下的不完全信息博弈,這些游戲AI在與人的博弈中均展現(xiàn)出了高水平的智能性。由于兵棋推演也是一種復(fù)雜環(huán)境下的不完全信息博弈過(guò)程,因此如何將相關(guān)AI技術(shù)應(yīng)用到兵棋推演中[8-9],設(shè)計(jì)實(shí)現(xiàn)兵棋AI輔助指揮員進(jìn)行感知、判斷、決策和行動(dòng)(observe orient decide act,OODA),已成為當(dāng)前兵棋推演研究的熱點(diǎn)問(wèn)題。

國(guó)外兵棋系統(tǒng)發(fā)展較早,美軍通過(guò)聯(lián)合戰(zhàn)區(qū)級(jí)兵棋系統(tǒng)(joint theater level simulation,JTLS) 和聯(lián)合沖突戰(zhàn)術(shù)兵棋系統(tǒng)(joint conflict and tactical simulation,JCATS)[10]等對(duì)作戰(zhàn)方案進(jìn)行分析與評(píng)估。2020年美國(guó)蘭德公司發(fā)布了《思維機(jī)器時(shí)代的威懾》報(bào)告,討論的核心問(wèn)題是兵棋推演中AI和自主技術(shù)如何隨著事件的發(fā)展影響局勢(shì)升級(jí)和威懾方式[11]。美國(guó)國(guó)防高級(jí)研究計(jì)劃局(defense advanced research projects agency,DARPA)最近也啟動(dòng)了“兵棋突破者”項(xiàng)目,旨在研究開(kāi)發(fā)兵棋AI幫助人類指揮官在真實(shí)戰(zhàn)斗中擊敗對(duì)手[12]。國(guó)內(nèi)兵棋系統(tǒng)起步較晚,通過(guò)借鑒國(guó)外成熟的兵棋技術(shù)并與實(shí)際相結(jié)合,在兵棋系統(tǒng)研發(fā)與運(yùn)用方面也取得了較快的發(fā)展。研制了戰(zhàn)略戰(zhàn)役級(jí)兵棋系統(tǒng),并分析了AI特別是深度學(xué)習(xí)運(yùn)用在兵棋系統(tǒng)上需要解決的問(wèn)題[8]。自2017年首次推出“CASIA-先知1.0”兵棋推演人機(jī)對(duì)抗AI以來(lái),陸續(xù)推出了分隊(duì)級(jí)AI “AI-alphawar V1.0”以及群隊(duì)級(jí)AI “紫冬智劍V1.0”,一直在探索如何將人工智能技術(shù)應(yīng)用于復(fù)雜場(chǎng)景下不完全信息博弈的兵棋推演領(lǐng)域[13-14]。近期上線的“廟算·智勝”即時(shí)策略人機(jī)對(duì)抗平臺(tái)更是為相關(guān)科研人員研究兵棋AI提供了良好的平臺(tái)環(huán)境[15]。此外,2019年由指控學(xué)會(huì)和華戍防務(wù)共同推出的專業(yè)級(jí)兵棋《智戎·未來(lái)指揮官》,作為《“墨子”聯(lián)合作戰(zhàn)推演系統(tǒng)》的民用版本,在第三、四屆全國(guó)兵棋推演大賽中成為官方指定平臺(tái)。2020年由中央軍委裝備發(fā)展部舉辦的聯(lián)合作戰(zhàn)智能博弈挑戰(zhàn)賽,采用了陸海空一體的聯(lián)合戰(zhàn)役級(jí)兵棋系統(tǒng)。這些比賽都極大促進(jìn)了智能博弈技術(shù)在兵棋推演中應(yīng)用,取得了良好的效果。

分析梳理現(xiàn)有的兵棋AI研究,可以看出主要是利用強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)、行為樹(shù)、有限狀態(tài)機(jī)、啟發(fā)式搜索、博弈優(yōu)化等技術(shù)提升兵棋AI在態(tài)勢(shì)感知與判斷、指揮決策、行動(dòng)執(zhí)行等方面的智能性[16-19]。當(dāng)前,各種智能博弈技術(shù)相互交織,迫切需要從整體架構(gòu)上對(duì)兵棋AI的設(shè)計(jì)進(jìn)行研究[20-21],充分發(fā)揮各類技術(shù)的優(yōu)勢(shì)并避免其不足,從而提升兵棋AI的整體智能性。因此,本文在分析知識(shí)型兵棋AI與學(xué)習(xí)型兵棋AI優(yōu)缺點(diǎn)的基礎(chǔ)上,提出了知識(shí)加學(xué)習(xí)的混合型AI設(shè)計(jì)思路,進(jìn)一步在知識(shí)牽引與數(shù)據(jù)驅(qū)動(dòng)背景下設(shè)計(jì)了兵棋AI開(kāi)發(fā)框架,并針對(duì)框架中涉及的關(guān)鍵技術(shù)進(jìn)行了深入探討,最后分析了該框架的可擴(kuò)展性問(wèn)題。

1 兩類兵棋AI優(yōu)缺點(diǎn)分析

知識(shí)推理型和數(shù)據(jù)學(xué)習(xí)型兵棋AI是目前兵棋推演中主要使用的兩類決策模型,它們各自具有一定的優(yōu)勢(shì)及不足。

1.1 知識(shí)推理型兵棋AI

知識(shí)推理型兵棋AI是通過(guò)人工抽取作戰(zhàn)規(guī)則、條令條例、指揮員經(jīng)驗(yàn)等非結(jié)構(gòu)化信息形成領(lǐng)域知識(shí),并以此為基礎(chǔ)進(jìn)行推理決策的模型。

1.1.1 知識(shí)推理型兵棋AI的優(yōu)點(diǎn)

(1) 無(wú)需訓(xùn)練,可解決智能體的冷啟動(dòng)問(wèn)題

通過(guò)人工編輯將軍事知識(shí)轉(zhuǎn)化成計(jì)算機(jī)可以識(shí)別的結(jié)構(gòu)化數(shù)據(jù)庫(kù),作為兵棋AI進(jìn)行推理決策的依據(jù),一旦知識(shí)庫(kù)建立完成,不需要經(jīng)過(guò)長(zhǎng)時(shí)間的訓(xùn)練,知識(shí)推理型兵棋AI即可運(yùn)行。

(2) 具備高層戰(zhàn)法智能性,取決于領(lǐng)域知識(shí)的完善程度

人工抽取的知識(shí)大都是指揮員多年累積的經(jīng)驗(yàn)規(guī)則,例如體現(xiàn)指揮藝術(shù)的戰(zhàn)法策略,因此知識(shí)推理型兵棋AI能夠體現(xiàn)符合軍事常識(shí)的策略層面決策,其高層智能性水平取決于領(lǐng)域知識(shí)的完善程度。

1.1.2 知識(shí)推理型兵棋AI的缺點(diǎn)

(1) 人工建模領(lǐng)域知識(shí),效率低下

知識(shí)和經(jīng)驗(yàn)大都來(lái)自領(lǐng)域?qū)<?通常領(lǐng)域?qū)<也⒉皇怯?jì)算機(jī)專家,需要計(jì)算機(jī)專家理解領(lǐng)域?qū)<业闹R(shí)后,再建立結(jié)構(gòu)化數(shù)據(jù)庫(kù)讓計(jì)算機(jī)可讀,這個(gè)過(guò)程非常艱難,需要高度的協(xié)同且成本昂貴,費(fèi)時(shí)費(fèi)力。

(2) 確定性規(guī)則,智能化水平有上限

通常知識(shí)推理型兵棋AI都是基于確定性的規(guī)則進(jìn)行推理決策,其上限是領(lǐng)域?qū)<业膫€(gè)人經(jīng)驗(yàn),難以突破產(chǎn)生超越人類智慧的水平,且展現(xiàn)出來(lái)的行為動(dòng)作比較固定,很容易被對(duì)手發(fā)現(xiàn)缺陷。

1.2 數(shù)據(jù)學(xué)習(xí)型兵棋AI

數(shù)據(jù)學(xué)習(xí)型兵棋AI是基于大量數(shù)據(jù)及與環(huán)境的交互,通過(guò)深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方式不斷學(xué)習(xí)訓(xùn)練得到的決策模型。

1.2.1 數(shù)據(jù)學(xué)習(xí)型兵棋AI的優(yōu)點(diǎn)

(1) 通過(guò)算法自動(dòng)從數(shù)據(jù)中學(xué)習(xí)知識(shí),自動(dòng)化程度高

不需要人工提煉領(lǐng)域知識(shí),依靠算法和強(qiáng)大的算力,可以處理大量數(shù)據(jù),從數(shù)據(jù)中獲取經(jīng)驗(yàn)知識(shí),通過(guò)不斷優(yōu)化學(xué)習(xí)展示出一定的智能性。

(2) 探索未知套路,靈活性高

由于是從數(shù)據(jù)獲取知識(shí)而不是人工編碼知識(shí),數(shù)據(jù)學(xué)習(xí)型兵棋AI可能從自我博弈的數(shù)據(jù)中發(fā)現(xiàn)未知的行動(dòng)套路,基于態(tài)勢(shì)輸出動(dòng)作,展示出較高的靈活性。

1.2.2 數(shù)據(jù)學(xué)習(xí)型兵棋AI的缺點(diǎn)

(1) 狀態(tài)空間大,獎(jiǎng)勵(lì)延遲長(zhǎng),學(xué)習(xí)訓(xùn)練代價(jià)高昂

對(duì)于較為復(fù)雜的決策場(chǎng)景,模型學(xué)習(xí)訓(xùn)練的搜索空間極其巨大,并且對(duì)于持續(xù)的序慣決策而言,隨著序慣長(zhǎng)度的增加,模型的獎(jiǎng)勵(lì)延遲加長(zhǎng),造成學(xué)習(xí)訓(xùn)練的計(jì)算代價(jià)高昂。

(2) 模型解釋能力較差,泛化能力較弱

通常訓(xùn)練得到深度神經(jīng)網(wǎng)絡(luò)模型,知識(shí)隱藏在結(jié)點(diǎn)與結(jié)點(diǎn)的連接及其權(quán)重上,人類對(duì)這些形式的知識(shí)難以理解和解釋。如果模型訓(xùn)練的場(chǎng)景與實(shí)際應(yīng)用時(shí)的場(chǎng)景差別較大,效果通常較差。

(3) 高層戰(zhàn)法策略學(xué)習(xí)困難

基于數(shù)據(jù)進(jìn)行訓(xùn)練,得到的大多是底層動(dòng)作級(jí)模型,即狀態(tài)-動(dòng)作響應(yīng)輸出模型,很難從數(shù)據(jù)中學(xué)習(xí)得到較高層面的戰(zhàn)法策略型知識(shí),而往往這些戰(zhàn)法策略型知識(shí)更能體現(xiàn)出高水平的智能性。

1.3 兩類兵棋AI優(yōu)缺點(diǎn)比較

從上述對(duì)知識(shí)推理型兵棋AI與數(shù)據(jù)學(xué)習(xí)型兵棋AI的優(yōu)缺點(diǎn)分析可以看出,知識(shí)推理型兵棋AI具有無(wú)需訓(xùn)練、高層智能的優(yōu)勢(shì),而數(shù)據(jù)學(xué)習(xí)型兵棋AI具有自動(dòng)學(xué)習(xí)、靈活性高的優(yōu)勢(shì),因此考慮將這兩者的優(yōu)勢(shì)有機(jī)結(jié)合起來(lái),形成優(yōu)勢(shì)互補(bǔ)的知識(shí)與數(shù)據(jù)混合的兵棋AI,如圖1所示。

圖1 優(yōu)勢(shì)互補(bǔ)的知識(shí)數(shù)據(jù)混合型AIFig.1 Hybrid AI of knowledge and data withcomplementary advantages

2 知識(shí)牽引與數(shù)據(jù)驅(qū)動(dòng)的兵棋AI設(shè)計(jì)

在知識(shí)與數(shù)據(jù)混合的思想指導(dǎo)下,以知識(shí)牽引AI的整體策略,以數(shù)據(jù)驅(qū)動(dòng)AI的具體動(dòng)作,設(shè)計(jì)基于知識(shí)牽引與數(shù)據(jù)驅(qū)動(dòng)的兵棋AI框架。該框架分為宏觀和微觀兩個(gè)層面,宏觀層面AI為知識(shí)推理型,實(shí)現(xiàn)高層策略設(shè)計(jì),主要通過(guò)作戰(zhàn)任務(wù)規(guī)劃技術(shù)產(chǎn)生作戰(zhàn)行動(dòng)序列,微觀層面AI為數(shù)據(jù)學(xué)習(xí)型,實(shí)現(xiàn)底層態(tài)勢(shì)-動(dòng)作執(zhí)行,接收宏觀AI輸出的作戰(zhàn)行動(dòng)序列,主要基于深度強(qiáng)化學(xué)習(xí)技術(shù),產(chǎn)生算子最終執(zhí)行的動(dòng)作行為,如圖2所示。

圖2 基于知識(shí)與數(shù)據(jù)的兵棋AI設(shè)計(jì)框架Fig.2 Wargame AI design framework based on knowledge and data

知識(shí)主要包括戰(zhàn)法藝術(shù)類、行動(dòng)規(guī)則類、對(duì)抗經(jīng)驗(yàn)類等,為宏觀AI提供推理決策依據(jù)。其中戰(zhàn)法藝術(shù)類知識(shí)主要指高層的作戰(zhàn)策略,體現(xiàn)指揮員的指揮藝術(shù),例如聲東擊西、兩路夾擊等策略,用于指導(dǎo)基于聯(lián)盟博弈的空間域任務(wù)分解。行動(dòng)規(guī)則類知識(shí)主要指將復(fù)雜的任務(wù)分解為若干行動(dòng)的分解規(guī)則,例如對(duì)于火力打擊任務(wù),可分解為機(jī)動(dòng)、火力輸出等行動(dòng),用于指導(dǎo)基于層次任務(wù)網(wǎng)的時(shí)間域任務(wù)分解。對(duì)抗經(jīng)驗(yàn)類知識(shí)主要指局部的選擇規(guī)則,體現(xiàn)指揮員實(shí)戰(zhàn)經(jīng)驗(yàn),例如如何選擇最佳的射擊點(diǎn)、如何選擇最佳的安全點(diǎn)等,用于指導(dǎo)基于遺傳模糊系統(tǒng)的關(guān)鍵點(diǎn)推理。時(shí)間域和空間域的任務(wù)分解都會(huì)產(chǎn)生需要完成的任務(wù)或行動(dòng),而對(duì)于動(dòng)態(tài)變化的戰(zhàn)場(chǎng)態(tài)勢(shì),初始規(guī)劃的行動(dòng)序列可能會(huì)部分無(wú)法執(zhí)行,從而無(wú)法達(dá)到作戰(zhàn)目標(biāo),因此需要對(duì)行動(dòng)序列進(jìn)行計(jì)劃修復(fù)或者重規(guī)劃,通過(guò)不斷調(diào)整行動(dòng)序列應(yīng)對(duì)各種不確定因素,保證預(yù)期作戰(zhàn)目標(biāo)的達(dá)成。

數(shù)據(jù)主要包括約束規(guī)則數(shù)據(jù)、自博弈數(shù)據(jù)、復(fù)盤(pán)數(shù)據(jù)等,為微觀AI提供學(xué)習(xí)訓(xùn)練基礎(chǔ)。其中約束規(guī)則類數(shù)據(jù)主要指基本的約束條件,例如武器在冷卻時(shí)間內(nèi)不能再次射擊、高程差過(guò)大的路段車輛無(wú)法通行等,為基于深度強(qiáng)化學(xué)習(xí)的算子動(dòng)作生成提供約束條件,避免產(chǎn)生明顯不符合規(guī)則的行動(dòng)。自博弈類數(shù)據(jù)主要指智能體自己和自己對(duì)抗產(chǎn)生的數(shù)據(jù),為基于深度強(qiáng)化學(xué)習(xí)的算子動(dòng)作策略不斷優(yōu)化提供數(shù)據(jù)基礎(chǔ)。復(fù)盤(pán)數(shù)據(jù)主要指人類選手的對(duì)抗數(shù)據(jù),通過(guò)對(duì)其分析挖掘,對(duì)敵方位置和行動(dòng)等進(jìn)行預(yù)測(cè),進(jìn)而將不完全信息的戰(zhàn)場(chǎng)態(tài)勢(shì)變得更加透明,即基于數(shù)據(jù)補(bǔ)全的戰(zhàn)場(chǎng)態(tài)勢(shì)感知。

宏觀AI完成的作戰(zhàn)任務(wù)規(guī)劃,其本質(zhì)就是形成任務(wù)執(zhí)行主體,行動(dòng)的先后順序,執(zhí)行任務(wù)的地點(diǎn),需要執(zhí)行的任務(wù)。空間域的任務(wù)分解主要解決從頂層目標(biāo)任務(wù)到分隊(duì)任務(wù)的分解,對(duì)算子進(jìn)行分組形成不同分隊(duì),并為其分配相應(yīng)的分隊(duì)任務(wù)。通過(guò)引入博弈論中的聯(lián)盟博弈方法,期望實(shí)現(xiàn)分隊(duì)與分隊(duì)之間最大收益的協(xié)同作戰(zhàn)。時(shí)間域的任務(wù)分解主要解決從分隊(duì)任務(wù)到行動(dòng)序列的分解,需要根據(jù)分隊(duì)任務(wù)明確分隊(duì)內(nèi)每個(gè)算子的行動(dòng),并指定這些行動(dòng)之間的先后順序。通過(guò)基于層次任務(wù)網(wǎng)的規(guī)劃技術(shù),實(shí)現(xiàn)滿足作戰(zhàn)規(guī)則的行動(dòng)序列生成。無(wú)論是分隊(duì)任務(wù)還是單個(gè)算子行動(dòng),都需要明確執(zhí)行任務(wù)的地點(diǎn),通過(guò)引入遺傳模糊系統(tǒng)實(shí)現(xiàn)關(guān)鍵點(diǎn)的推理,為任務(wù)和行動(dòng)的執(zhí)行提供最佳位置。微觀AI則主要解決“如何做”的問(wèn)題,針對(duì)上層輸入的行動(dòng),采用深度強(qiáng)化學(xué)習(xí)技術(shù)得到態(tài)勢(shì)動(dòng)作輸出模型,通過(guò)一系列的動(dòng)作執(zhí)行完成上層輸入的行動(dòng)。

上下分層的設(shè)計(jì)框架,能夠充分發(fā)揮知識(shí)推理型和數(shù)據(jù)學(xué)習(xí)型AI各自優(yōu)勢(shì),并且避免其不足。宏觀AI具備一定戰(zhàn)法智能,在全局場(chǎng)景下針對(duì)目標(biāo)任務(wù),充分發(fā)揮已有知識(shí)的牽引作用,通過(guò)任務(wù)規(guī)劃設(shè)計(jì)戰(zhàn)爭(zhēng)。微觀AI具備一定的動(dòng)作智能,在局部場(chǎng)景下針對(duì)特定行動(dòng),充分發(fā)揮算法學(xué)習(xí)與計(jì)算的能力,通過(guò)態(tài)勢(shì)-動(dòng)作響應(yīng)模型來(lái)生成動(dòng)作完成行動(dòng)。如此一來(lái),既實(shí)現(xiàn)了宏觀層面指揮員的戰(zhàn)法藝術(shù),又實(shí)現(xiàn)了微觀層面靈活快速的動(dòng)作輸出。

3 知識(shí)牽引與數(shù)據(jù)驅(qū)動(dòng)的兵棋AI關(guān)鍵技術(shù)

下面按照OODA的順序?qū)χR(shí)牽引與數(shù)據(jù)驅(qū)動(dòng)的兵棋AI框架中所涉及的關(guān)鍵技術(shù)進(jìn)行闡述。

3.1 基于數(shù)據(jù)補(bǔ)全的戰(zhàn)場(chǎng)態(tài)勢(shì)感知

早期不完全信息博弈的代表是德州撲克等牌類游戲,主要通過(guò)概率統(tǒng)計(jì)和對(duì)對(duì)手建模減弱不完全信息的影響,像星際爭(zhēng)霸等即時(shí)策略(real-time strategy,RTS)游戲,其不完全信息受觀察范圍和屏幕大小的約束,主要的處理方式為利用長(zhǎng)短記憶(long short-term memory,LSTM)網(wǎng)絡(luò)進(jìn)行處理。

在戰(zhàn)爭(zhēng)對(duì)抗領(lǐng)域,優(yōu)秀的指揮員必然能很好的透過(guò)戰(zhàn)爭(zhēng)迷霧,準(zhǔn)確地分析敵方態(tài)勢(shì)和意圖。兵棋不完全信息主要是因?yàn)橛^察距離限制或者地形遮擋而導(dǎo)致的敵方棋子信息不可觀察。一方面,對(duì)于從未觀察到的敵方棋子,其信息具有很強(qiáng)的隨機(jī)性,與對(duì)方指揮員的指揮風(fēng)格相關(guān)性較大;另一方面,對(duì)于曾經(jīng)觀察到的敵方棋子,當(dāng)前時(shí)刻無(wú)法觀察,其隨機(jī)性相對(duì)較低,對(duì)其預(yù)測(cè)是一種條件概率預(yù)測(cè)。

在圖像處理領(lǐng)域,數(shù)據(jù)補(bǔ)全技術(shù)可以根據(jù)部分圖像生成其余的全部圖像[22-23]。兵棋態(tài)勢(shì)信息可以看作一張或多張圖片,因此考慮將圖像領(lǐng)域中的數(shù)據(jù)補(bǔ)全技術(shù)遷移到兵棋態(tài)勢(shì)感知領(lǐng)域中,根據(jù)部分態(tài)勢(shì)補(bǔ)全完整的態(tài)勢(shì)信息,揭開(kāi)戰(zhàn)爭(zhēng)迷霧,基本思路如圖3所示。其中,條件變分自動(dòng)編碼機(jī)(conditional variational auto encoder,CVAE)能夠根據(jù)特定的前提條件,隨機(jī)生成特定類型的圖像。神經(jīng)高斯過(guò)程(neural processes,NP)是對(duì)CVAE框架的發(fā)展,其將圖片的已知信息作為概率預(yù)測(cè)的條件,對(duì)圖像未知的部分進(jìn)行多樣性預(yù)測(cè)。模型訓(xùn)練時(shí)基于大量的歷史復(fù)盤(pán)數(shù)據(jù),得到態(tài)勢(shì)補(bǔ)全與預(yù)測(cè)的生成模型。算法輸入數(shù)據(jù)具有高度靈活性,既能夠根據(jù)當(dāng)前時(shí)刻的已知態(tài)勢(shì)補(bǔ)全未知態(tài)勢(shì),又能夠?qū)ξ磥?lái)下一時(shí)刻或者一段時(shí)間內(nèi)的態(tài)勢(shì)進(jìn)行預(yù)測(cè)生成,較好地滿足了不同戰(zhàn)場(chǎng)態(tài)勢(shì)感知的需求。

圖3 基于數(shù)據(jù)補(bǔ)全的戰(zhàn)場(chǎng)態(tài)勢(shì)感知Fig.3 Battlefield situation awareness based on data completion

該技術(shù)主要針對(duì)OODA中的觀察環(huán)節(jié),將圖像處理領(lǐng)域中的數(shù)據(jù)補(bǔ)全技術(shù)遷移到兵棋的態(tài)勢(shì)感知中來(lái),解決態(tài)勢(shì)中的部分可觀察問(wèn)題。

3.2 基于遺傳模糊系統(tǒng)的關(guān)鍵地點(diǎn)推理

遺傳模糊系統(tǒng)是遺傳算法與模糊系統(tǒng)結(jié)合的一類模型。該模型既可以依托模糊系統(tǒng)建模專家知識(shí),又可以借助遺傳算法挖掘經(jīng)驗(yàn)數(shù)據(jù)中的可靠信息,是一種能夠同步應(yīng)用知識(shí)和數(shù)據(jù)的方法。在應(yīng)對(duì)少量數(shù)據(jù)學(xué)習(xí)的問(wèn)題時(shí),該方法能夠盡可能地利用人類專家知識(shí),從而實(shí)現(xiàn)更好的訓(xùn)練效果[24-25]。

在本文框架中,遺傳模糊系統(tǒng)被用于作戰(zhàn)任務(wù)規(guī)劃中關(guān)鍵地點(diǎn)的推理,如圖4所示。通過(guò)建模專家知識(shí),構(gòu)造出初步的關(guān)鍵地點(diǎn)推理模糊系統(tǒng),這是顯性知識(shí)的學(xué)習(xí)。之后,通過(guò)對(duì)對(duì)抗經(jīng)驗(yàn)的學(xué)習(xí),對(duì)初步模糊系統(tǒng)中的規(guī)則和參數(shù)進(jìn)行調(diào)優(yōu),實(shí)現(xiàn)隱性知識(shí)的學(xué)習(xí)。

圖4 基于遺傳模糊系統(tǒng)的作戰(zhàn)任務(wù)規(guī)劃關(guān)鍵地點(diǎn)推理Fig.4 Reasoning of key points in operational mission planning based on genetic fuzzy system

經(jīng)過(guò)訓(xùn)練的遺傳模糊系統(tǒng)可以在各類作戰(zhàn)任務(wù)規(guī)劃中推理出作戰(zhàn)任務(wù)的關(guān)鍵地點(diǎn)。例如為進(jìn)攻任務(wù)推理“進(jìn)攻點(diǎn)”,為防守任務(wù)推理“防守點(diǎn)”,為偵察任務(wù)推理“偵察點(diǎn)”等。自動(dòng)推理作戰(zhàn)任務(wù)的關(guān)鍵地點(diǎn)是實(shí)現(xiàn)自主任務(wù)規(guī)劃的關(guān)鍵,可以提高作戰(zhàn)任務(wù)規(guī)劃的泛化能力。

該技術(shù)主要針對(duì)OODA中的判斷環(huán)節(jié),將遺傳算法與模糊系統(tǒng)相結(jié)合,解決任務(wù)規(guī)劃中關(guān)鍵地點(diǎn)的自動(dòng)推理問(wèn)題。

3.3 基于層次任務(wù)網(wǎng)的規(guī)劃技術(shù)

從決策任務(wù)的復(fù)雜程度來(lái)看,國(guó)際象棋的決策空間是10123,圍棋是10360,王者榮耀(1V1)是1018 000,騰訊實(shí)驗(yàn)室用了600 000個(gè)CPU以及1 064個(gè)GPU(Tesla P40+V100)訓(xùn)練70 h能夠達(dá)到專業(yè)水平的AI智能體。

對(duì)于兵棋推演等決策空間更加巨大的作戰(zhàn)問(wèn)題,如果通過(guò)單純的訓(xùn)練想得到較高水平的指揮決策AI智能體,其所需的計(jì)算資源將更加龐大。

為此,可以采用多層次任務(wù)分解的思想,將決策空間劃分為策略層、分隊(duì)層和個(gè)體層3個(gè)層次分別求解。針對(duì)復(fù)雜問(wèn)題,對(duì)其進(jìn)行不同層次的劃分,降低了在每個(gè)層次上問(wèn)題求解的決策空間,如圖5所示。

圖5 多層次決策空間的分解Fig.5 Decomposition of multi-level decision space

層次任務(wù)規(guī)劃與作戰(zhàn)過(guò)程中指揮員的思維方式很類似,都是將一個(gè)大的復(fù)雜任務(wù)不斷的分解細(xì)化,最終產(chǎn)生行動(dòng)的過(guò)程[26-28]。因此在宏觀AI層面,采用層次任務(wù)規(guī)劃的方法,逐層分解產(chǎn)生行動(dòng)序列,如圖6所示。

圖6 引入博弈的時(shí)空域?qū)哟稳蝿?wù)規(guī)劃Fig.6 Hierarchical task planning in time and space domain with game theory

對(duì)于總體作戰(zhàn)任務(wù),可以先劃分階段任務(wù),這部分通常比較固定,可分為機(jī)動(dòng)部署階段、偵查打擊階段、火力奪控階段、守點(diǎn)防御階段等。然后針對(duì)每個(gè)階段的任務(wù),分解產(chǎn)生在本階段不同分隊(duì)的任務(wù),例如偵查任務(wù)、打擊任務(wù)、保障任務(wù)等。最后針對(duì)每個(gè)分隊(duì)任務(wù),再分解產(chǎn)生每個(gè)算子的作戰(zhàn)行動(dòng)序列。從階段任務(wù)到分隊(duì)任務(wù)的分解、從分隊(duì)任務(wù)到作戰(zhàn)行動(dòng)序列的分解都涉及到分解方法的選擇問(wèn)題,傳統(tǒng)的層次任務(wù)網(wǎng)在選擇分解方法時(shí)通常只考慮己方的情況,為此將博弈論引入,通過(guò)聯(lián)盟博弈和動(dòng)態(tài)博弈選擇合適的分解方法,既考慮己方之間的協(xié)同,又考慮到對(duì)手策略的影響,使產(chǎn)生的分隊(duì)任務(wù)和行動(dòng)序列能夠獲取最大的收益。

該技術(shù)主要針對(duì)OODA中的決策環(huán)節(jié),在層次任務(wù)網(wǎng)的基礎(chǔ)上引入博弈論,解決任務(wù)規(guī)劃中的協(xié)同和對(duì)抗問(wèn)題。

3.4 反應(yīng)與預(yù)測(cè)相結(jié)合的重規(guī)劃技術(shù)

由于作戰(zhàn)過(guò)程是一個(gè)高度動(dòng)態(tài)的過(guò)程,初始規(guī)劃的行動(dòng)序列由于戰(zhàn)場(chǎng)的種種不確定因素變得不可執(zhí)行。任務(wù)規(guī)劃中處理不確定因素有兩種方式:反應(yīng)式與預(yù)測(cè)式。反應(yīng)式方法在計(jì)劃執(zhí)行中動(dòng)態(tài)調(diào)整,靈活多變但需要準(zhǔn)確感知化;預(yù)測(cè)式方法在計(jì)劃執(zhí)行中無(wú)需介入調(diào)整,魯棒性高但計(jì)劃制定復(fù)雜。單純的反應(yīng)式或預(yù)測(cè)方法雖各有優(yōu)勢(shì),但也都存在一定缺陷。

因此,可以將二者結(jié)合,設(shè)計(jì)一套反應(yīng)與預(yù)測(cè)相結(jié)合的混合式行動(dòng)序列監(jiān)視與執(zhí)行方法,解決在合適的時(shí)機(jī)選擇合適的重規(guī)劃算法對(duì)初始行動(dòng)序列進(jìn)行調(diào)整的問(wèn)題[29-30],如圖7所示。

圖7 應(yīng)對(duì)不確定因素的重規(guī)劃方法Fig.7 Replanning method to deal with uncertain factors

狀態(tài)監(jiān)測(cè)主要是確定重規(guī)劃介入的時(shí)機(jī),包括兩個(gè)方面。一是從前向后的基于效果期望的差異監(jiān)測(cè),針對(duì)不確定因素對(duì)已經(jīng)完成行動(dòng)效果的影響問(wèn)題,比較已完成行動(dòng)的累積效果與實(shí)際效果,監(jiān)視是否存在執(zhí)行效果無(wú)效而導(dǎo)致的差異,從而判斷是否需要進(jìn)行重規(guī)劃。二是從后向前的基于任務(wù)期望的差異監(jiān)測(cè),針對(duì)不確定因素未執(zhí)行行動(dòng)前提條件的影響問(wèn)題,比較所有未執(zhí)行行動(dòng)的前提條件是否滿足從最終效果期望倒推而來(lái)小約束,從而判斷是否需要進(jìn)行重規(guī)劃。

差異映射主要是根據(jù)差異的大小選擇不同的重規(guī)劃算法。其中計(jì)劃修復(fù)通過(guò)建立修復(fù)規(guī)則,針對(duì)個(gè)別行動(dòng)進(jìn)行局部調(diào)整,無(wú)需調(diào)用規(guī)劃器,局部重規(guī)劃針對(duì)還未完成或未執(zhí)行的分隊(duì)任務(wù)進(jìn)行局部調(diào)整,需要調(diào)用規(guī)劃器重新分解分隊(duì)任務(wù),全局重規(guī)劃針對(duì)總體目標(biāo)任務(wù)或者階段任務(wù)進(jìn)行全局調(diào)整,需要調(diào)用規(guī)劃器對(duì)高層任務(wù)進(jìn)行全面的調(diào)整。

最終通過(guò)狀態(tài)監(jiān)測(cè)和差異映射確定在恰當(dāng)?shù)臅r(shí)機(jī)選擇合適的重規(guī)劃算法,提升任務(wù)規(guī)劃與執(zhí)行過(guò)程中應(yīng)對(duì)戰(zhàn)場(chǎng)不確定因素的能力。

該技術(shù)主要針對(duì)OODA中的決策環(huán)節(jié),將反應(yīng)式與預(yù)測(cè)式規(guī)劃相結(jié)合,解決計(jì)劃執(zhí)行中受到不確定因素影響的問(wèn)題。

3.5 基于深度強(qiáng)化學(xué)習(xí)的算子動(dòng)作策略優(yōu)化

基于深度強(qiáng)化學(xué)習(xí)的算子動(dòng)作策略優(yōu)化主要解決底層最佳動(dòng)作的輸出問(wèn)題[31-32],如圖8所示。

圖8 算子動(dòng)作策略優(yōu)化方法Fig.8 Operator action strategy optimization method

作為微觀AI的動(dòng)作輸出模型,強(qiáng)化學(xué)習(xí)器的網(wǎng)絡(luò)結(jié)構(gòu)包括狀態(tài)的編碼與策略的強(qiáng)化學(xué)習(xí),從而最終預(yù)測(cè)輸出動(dòng)作。模型的輸入數(shù)據(jù)包括基于數(shù)據(jù)補(bǔ)全生成的態(tài)勢(shì)數(shù)據(jù)、基于層次任務(wù)規(guī)劃產(chǎn)生的行動(dòng)序列數(shù)據(jù)、從兵棋系統(tǒng)獲取的算子狀態(tài)數(shù)據(jù)等,這些數(shù)據(jù)通過(guò)由卷積層或全連接層組成的預(yù)處理網(wǎng)絡(luò)進(jìn)行編碼。策略的強(qiáng)化學(xué)習(xí)采用近端策略優(yōu)化方法(proximal policy optimization,PPO),PPO是一種基于策略梯度優(yōu)化的深度強(qiáng)化學(xué)習(xí)算法,通過(guò)區(qū)分采樣策略和學(xué)習(xí)策略,可以在多個(gè)訓(xùn)練步驟實(shí)現(xiàn)小批量的更新,并且適合于分布式的離線學(xué)習(xí)。在兵棋系統(tǒng)中,不同類型的算子通過(guò)一個(gè)策略網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)是比較困難的,因此可以通過(guò)對(duì)目標(biāo)函數(shù)的解耦合,達(dá)到對(duì)不同類型算子解耦合的目的。根據(jù)解耦合后的目標(biāo)函數(shù)利用PPO算法分別學(xué)習(xí)每類算子的動(dòng)作輸出網(wǎng)絡(luò),例如產(chǎn)生坦克算子動(dòng)作輸出網(wǎng)絡(luò),步兵算子動(dòng)作輸出網(wǎng)絡(luò)等。最終由算子動(dòng)作輸出網(wǎng)絡(luò)輸出當(dāng)前態(tài)勢(shì)下最佳的動(dòng)作,例如機(jī)動(dòng)、射擊、奪控等。

預(yù)處理網(wǎng)絡(luò)與態(tài)勢(shì)復(fù)雜程度相關(guān),在兩個(gè)算子與兩個(gè)算子對(duì)抗條件下,態(tài)勢(shì)、行動(dòng)、算子狀態(tài)都相對(duì)簡(jiǎn)單,此時(shí)的預(yù)處理網(wǎng)絡(luò)較為簡(jiǎn)單。而隨著算子數(shù)量的增多,從兩個(gè)到多個(gè),從分隊(duì)到群隊(duì),輸入的數(shù)據(jù)將變得十分復(fù)雜,此時(shí)的預(yù)處理網(wǎng)絡(luò)也將變得較為復(fù)雜。然而,各類算子動(dòng)作輸出網(wǎng)絡(luò)與輸入的數(shù)據(jù)無(wú)關(guān),其只與預(yù)處理網(wǎng)絡(luò)的輸出結(jié)果有關(guān),這就將算子的動(dòng)作輸出與態(tài)勢(shì)的復(fù)雜度分離了。算子動(dòng)作輸出網(wǎng)絡(luò)可以單獨(dú)訓(xùn)練,訓(xùn)練完成后可以進(jìn)行模塊化組合,從而使整個(gè)網(wǎng)絡(luò)模型能夠快速適應(yīng)新的情況。

該技術(shù)主要針對(duì)OODA中的執(zhí)行環(huán)節(jié),在深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)上引入解耦合的思想,解決訓(xùn)練大規(guī)模兵棋算子動(dòng)作輸出的問(wèn)題。

4 知識(shí)牽引與數(shù)據(jù)驅(qū)動(dòng)的兵棋AI可拓展性

基于知識(shí)牽引與數(shù)據(jù)驅(qū)動(dòng)的兵棋AI設(shè)計(jì)具備良好的可擴(kuò)展性,能夠根據(jù)不同的應(yīng)用場(chǎng)景加載不同的模塊,動(dòng)態(tài)適應(yīng)分隊(duì)級(jí)AI、群隊(duì)級(jí)AI以及人機(jī)混合AI的應(yīng)用需求。

(1) 分隊(duì)級(jí)AI設(shè)計(jì)與技術(shù)架構(gòu)

針對(duì)分隊(duì)級(jí)AI,只需要在宏觀AI中去掉基于聯(lián)盟博弈的空間域任務(wù)分解模塊,給定分隊(duì)任務(wù),調(diào)用基于層次任務(wù)網(wǎng)的時(shí)間域任務(wù)分解模塊即可,其他模塊無(wú)需改變。

(2) 群隊(duì)級(jí)AI設(shè)計(jì)與技術(shù)架構(gòu)

針對(duì)群隊(duì)級(jí)AI,需要完整的宏觀AI和微觀AI,通過(guò)基于聯(lián)盟博弈的空間域任務(wù)分解模型實(shí)現(xiàn)將目標(biāo)任務(wù)分解為各個(gè)分隊(duì)任務(wù),即上述基于知識(shí)牽引與數(shù)據(jù)驅(qū)動(dòng)的兵棋AI框架,不再贅述。

(3) 人機(jī)混合AI設(shè)計(jì)與技術(shù)架構(gòu)

針對(duì)人機(jī)混合智能,在宏觀層面以指揮員為主進(jìn)行任務(wù)規(guī)劃,其根據(jù)作戰(zhàn)意圖進(jìn)行任務(wù)的逐層分解,并為各個(gè)分隊(duì)分配任務(wù)。與此同時(shí),宏觀AI將指揮員的作戰(zhàn)意圖映射為目標(biāo)任務(wù),自動(dòng)的對(duì)目標(biāo)任務(wù)進(jìn)行分解與分配,并生成行動(dòng)序列,為指揮員的任務(wù)規(guī)劃提供輔助決策。這樣,在宏觀層面以指揮員為主、宏觀AI為輔進(jìn)行任務(wù)規(guī)劃,而微觀AI自動(dòng)地完成行動(dòng)序列到動(dòng)作的輸出,形成宏觀層面以人為主的人機(jī)混合以及宏微觀之間人機(jī)混合的技術(shù)架構(gòu)。

5 結(jié) 論

隨著人工智能技術(shù)在星際爭(zhēng)霸、DOTA、王者榮耀等游戲領(lǐng)域取得的突破,智能博弈對(duì)抗技術(shù)已成為目前國(guó)內(nèi)外人工智能領(lǐng)域研究的熱點(diǎn)。兵棋推演作為一種復(fù)雜環(huán)境下的不完全信息博弈過(guò)程,同樣受到越來(lái)越多的關(guān)注。本文著眼于智能兵棋推演的需求,首先分析了知識(shí)型兵棋AI與學(xué)習(xí)型兵棋AI的優(yōu)勢(shì)與不足,提出了一種知識(shí)加數(shù)據(jù)的兵棋AI設(shè)計(jì)思路。其次,進(jìn)一步提出了基于知識(shí)牽引與數(shù)據(jù)驅(qū)動(dòng)的兵棋AI設(shè)計(jì)框架。然后,針對(duì)框架中涉及的態(tài)勢(shì)感知、關(guān)鍵點(diǎn)推理、任務(wù)規(guī)劃與重規(guī)劃、動(dòng)作策略優(yōu)化等關(guān)鍵技術(shù)進(jìn)行了深入分析。最后,討論了該框架的可擴(kuò)展性問(wèn)題。在該框架以及相關(guān)關(guān)鍵技術(shù)的支撐下,設(shè)計(jì)并實(shí)現(xiàn)了分隊(duì)級(jí)、群隊(duì)級(jí)的兵棋AI,在多個(gè)作戰(zhàn)想定背景下,與多個(gè)AI團(tuán)隊(duì)以及人類兵棋選手的比賽中均取得了優(yōu)異的成績(jī),說(shuō)明本文所提框架具有較強(qiáng)的適應(yīng)性,不僅能夠滿足不同場(chǎng)景下兵棋推演應(yīng)用需求,而且能夠適用于解決一般的博弈對(duì)抗問(wèn)題。

總之,人工智能尤其是強(qiáng)化學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等技術(shù)的發(fā)展給智能博弈對(duì)抗問(wèn)題的解決帶來(lái)了契機(jī)。如何將新興的基于數(shù)據(jù)驅(qū)動(dòng)的模型與傳統(tǒng)的基于知識(shí)規(guī)則的模型進(jìn)行有機(jī)融合,是有效解決復(fù)雜環(huán)境下不完全信息博弈問(wèn)題的關(guān)鍵所在。因此,未來(lái)的工作就是在此框架下,結(jié)合領(lǐng)域問(wèn)題,科學(xué)合理地建立起這些異構(gòu)模型之間的高效協(xié)作機(jī)制,進(jìn)一步推進(jìn)智能博弈對(duì)抗理論、技術(shù)與應(yīng)用的深入發(fā)展。

猜你喜歡
規(guī)劃動(dòng)作
下一個(gè)動(dòng)作
發(fā)揮人大在五年規(guī)劃編制中的積極作用
動(dòng)作描寫(xiě)要具體
規(guī)劃引領(lǐng)把握未來(lái)
快遞業(yè)十三五規(guī)劃發(fā)布
商周刊(2017年5期)2017-08-22 03:35:26
畫(huà)動(dòng)作
讓動(dòng)作“活”起來(lái)
動(dòng)作描寫(xiě)不可少
多管齊下落實(shí)規(guī)劃
十三五規(guī)劃
華東科技(2016年10期)2016-11-11 06:17:41
主站蜘蛛池模板: 亚洲国产系列| 啊嗯不日本网站| 波多野结衣视频网站| 性激烈欧美三级在线播放| 国产在线观看精品| 丁香婷婷激情综合激情| 欧美在线综合视频| 国产va在线| 午夜精品福利影院| 极品国产在线| 人人看人人鲁狠狠高清| 美女免费黄网站| 日韩免费视频播播| 午夜日本永久乱码免费播放片| 无码免费试看| 国产一级一级毛片永久| av天堂最新版在线| 强奷白丝美女在线观看| 国产91视频免费观看| av在线人妻熟妇| 青青草原国产av福利网站| 久久精品无码专区免费| 九九免费观看全部免费视频| 亚洲男人的天堂网| 国产成人亚洲精品无码电影| 国产精品成人一区二区不卡 | 日本午夜三级| 亚洲精品中文字幕午夜| 久久精品一品道久久精品| 国产免费人成视频网| 国产成在线观看免费视频| 国产在线98福利播放视频免费| 午夜欧美在线| 日韩精品免费一线在线观看 | 国产高潮流白浆视频| 国产精品毛片一区| 中文字幕自拍偷拍| 久久国产拍爱| 91无码视频在线观看| www精品久久| 中文字幕一区二区人妻电影| 99久久免费精品特色大片| 国产SUV精品一区二区6| 日韩小视频在线播放| 福利一区在线| 久久久久人妻精品一区三寸蜜桃| 国产成人一区| 日韩天堂网| 日本不卡视频在线| 美女无遮挡免费网站| a毛片免费观看| 国产精品私拍在线爆乳| 欧美天堂在线| 一级片一区| 在线欧美国产| 新SSS无码手机在线观看| 成人国产精品一级毛片天堂 | 亚洲av无码片一区二区三区| 久久99国产综合精品1| 欧美专区在线观看| 日韩成人午夜| 成人毛片免费观看| 久久窝窝国产精品午夜看片| 国产成人综合亚洲网址| 97成人在线观看| 色135综合网| 久草性视频| 亚洲一区二区三区香蕉| 欧美精品一区二区三区中文字幕| 91精品久久久久久无码人妻| 亚洲成人高清在线观看| 日韩在线第三页| 亚洲日本在线免费观看| 亚洲无码视频图片| 国产成人亚洲欧美激情| 精品人妻无码区在线视频| 一级在线毛片| 激情无码字幕综合| 91九色视频网| 色妺妺在线视频喷水| 精品欧美视频| 久久久精品国产SM调教网站|