999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度遷移強(qiáng)化學(xué)習(xí)的無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制算法

2023-12-09 08:08:30張堃李珂鄒杰栗鳴李陽
航空科學(xué)技術(shù) 2023年11期
關(guān)鍵詞:動(dòng)作

張堃,李珂,鄒杰,栗鳴,李陽

1.西北工業(yè)大學(xué),陜西 西安 710072

2.洛陽電光設(shè)備研究所 空基信息感知與融合全國重點(diǎn)實(shí)驗(yàn)室,河南 洛陽 471000

3.西安機(jī)電信息技術(shù)研究所,陜西 西安 710065

4.航空工業(yè)沈陽飛機(jī)設(shè)計(jì)研究所,遼寧 沈陽 110035

隨著無人機(jī)技術(shù)和計(jì)算機(jī)技術(shù)的迅猛發(fā)展,無人機(jī)的性能得到了快速的提升,它的功能也不斷得到完善,其被廣泛應(yīng)用到區(qū)域搜索、目標(biāo)監(jiān)視/跟蹤、精確投放等各種任務(wù)場景中,無人機(jī)的智能化成為當(dāng)前及未來很長一段時(shí)間的研究熱點(diǎn)[1]。對(duì)于無人機(jī)在實(shí)際應(yīng)用場景中存在的問題,各國的無人機(jī)專家學(xué)者專注于預(yù)防人為損失、提升平臺(tái)自主飛行能力及減少人為干預(yù)的次數(shù)[2-3]。針對(duì)無人機(jī)投放引導(dǎo)過程中的機(jī)動(dòng)控制問題,有專家學(xué)者提出無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制算法,以引導(dǎo)無人機(jī)規(guī)避飛行過程中存在的雷達(dá)探測(cè)等威脅,完成對(duì)投放目標(biāo)點(diǎn)的瞄準(zhǔn)。

針對(duì)無人機(jī)在精確投放任務(wù)中的自主引導(dǎo)問題,相關(guān)領(lǐng)域?qū)<覍W(xué)者提出了航路規(guī)劃算法和軌跡跟蹤控制技術(shù)相結(jié)合的算法模型。一般使用直覺模糊博弈[4-5]、遺傳算法[6]、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)[7]、影響圖[8]、滾動(dòng)時(shí)域[9-10],以及近似動(dòng)態(tài)規(guī)劃[11]等方法,實(shí)現(xiàn)固定區(qū)域內(nèi)的航路規(guī)劃。但上述方法都存在一些局限性,如直覺模糊博弈、影響圖等都要求對(duì)自主引導(dǎo)問題的模型構(gòu)建清晰而完整,這使得構(gòu)建自主引導(dǎo)問題模型的過程十分復(fù)雜;動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)對(duì)未知環(huán)境的適應(yīng)能力差,要求對(duì)問題有全面的了解;近似動(dòng)態(tài)規(guī)劃則要求有清晰的狀態(tài)轉(zhuǎn)移模型;對(duì)于在線問題的解決,采用遺傳算法等優(yōu)化類方法,效率往往并不高。在執(zhí)行階段,為使無人機(jī)具有相應(yīng)的機(jī)動(dòng),還需要設(shè)計(jì)軌跡追蹤控制器。這些因素共同降低了無人機(jī)航路引導(dǎo)的自主性,增加了未來無人機(jī)智能化作戰(zhàn)需求的困難。

隨著人工智能技術(shù)的飛速發(fā)展,各種人工智能算法被應(yīng)用于解決無人機(jī)投放引導(dǎo)問題。其中,因?yàn)樯疃葟?qiáng)化學(xué)習(xí)方法[12]具備端對(duì)端特性,在解決無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制問題時(shí)具有一定的優(yōu)勢(shì);同時(shí)由于無人機(jī)投放引導(dǎo)問題的復(fù)雜性,引入遷移學(xué)習(xí)方法[13],將領(lǐng)域知識(shí)融入模型中,將復(fù)雜問題拆解為若干子問題。因此,本文基于深度遷移強(qiáng)化,提出無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制算法。首先,建立基于馬爾可夫決策過程的無人機(jī)投放引導(dǎo)機(jī)動(dòng)決策模型,并設(shè)計(jì)基于回報(bào)重塑的無人機(jī)投放引導(dǎo)機(jī)動(dòng)決策評(píng)價(jià)模型;在此基礎(chǔ)上,構(gòu)建基于強(qiáng)化學(xué)習(xí)的無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制策略學(xué)習(xí)方法,擬合基于深度神經(jīng)網(wǎng)絡(luò)的無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制策略網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)。其次,建立基于遷移學(xué)習(xí)和課程學(xué)習(xí)的無人機(jī)投放引導(dǎo)機(jī)動(dòng)策略學(xué)習(xí)機(jī)制。最后,仿真實(shí)現(xiàn)無人機(jī)投放自主引導(dǎo)飛行,驗(yàn)證本文所提算法的有效性。

1 基于馬爾可夫決策過程的無人機(jī)投放引導(dǎo)機(jī)動(dòng)決策模型

1.1 馬爾可夫決策過程

馬爾可夫決策過程是離散事件動(dòng)態(tài)系統(tǒng)中一個(gè)重要的狀態(tài)分析工具[14],其特征在于決策者在一個(gè)特定的時(shí)間尺度上,通過對(duì)帶有馬爾可夫特性的隨機(jī)動(dòng)態(tài)系統(tǒng)進(jìn)行周期或連續(xù)的觀測(cè),并按一定的順序做出相應(yīng)的決策。馬爾可夫決策過程可通過五元組來描述。

馬爾可夫決策過程的執(zhí)行過程如圖1 所示,s0為系統(tǒng)的初始狀態(tài),決策者選取動(dòng)作執(zhí)行a0,系統(tǒng)按照轉(zhuǎn)移概率P( ?|s0,a0)向下一個(gè)狀態(tài)s1轉(zhuǎn)移,如此迭代循環(huán)。

圖1 馬爾可夫決策過程執(zhí)行過程Fig.1 The execution processes of Markov decision processes model

在決策過程中,決策者可獲得(r0,r1,…)的即時(shí)回報(bào)。此過程中,決策者會(huì)受外部收益的激勵(lì),在決策中不斷地調(diào)整自身決策策略,以使自身收益最大化。決策者所采取的策略確定為a= π(s),馬爾可夫理論效用函數(shù)(在系統(tǒng)狀態(tài)s∈S下,利用決策者所采取的策略π 所能夠得到的期望回報(bào))定義為v(s, π),因此,如果此刻的策略是最優(yōu)策略,應(yīng)該滿足式(1)

如式(2)所示,針對(duì)無人機(jī)航路自動(dòng)導(dǎo)向機(jī)動(dòng)控制問題的特征,構(gòu)建效用函數(shù)無限階段折扣模型

式中,γ∈[0, 1]為未來報(bào)酬折扣因子,R(s,a)為回報(bào)函數(shù)。

1.2 無人機(jī)投放自主引導(dǎo)問題

針對(duì)無人機(jī)投放自主引導(dǎo)問題,基于三自由度運(yùn)動(dòng)方程構(gòu)造無人機(jī)運(yùn)動(dòng)模型,通過對(duì)無人機(jī)的方位過載進(jìn)行控制,可以在任務(wù)范圍內(nèi)進(jìn)行動(dòng)態(tài)規(guī)避,同時(shí)向目標(biāo)點(diǎn)自主引導(dǎo)。圖2所示為無人機(jī)投放自主引導(dǎo)任務(wù)示意圖。

圖2 自主引導(dǎo)任務(wù)示意圖Fig.2 The schematic diagram of autonomous guidance mission

設(shè)無人機(jī)速度矢量為VUAV,無人機(jī)方位為ψUAV,任務(wù)區(qū)域內(nèi)第i個(gè)威脅的位置為,其影響范圍為半徑的圓形區(qū)域,目標(biāo)分布在以為中心、為半徑的圓形區(qū)域內(nèi)。無人機(jī)的引導(dǎo)目標(biāo)為:在規(guī)避任務(wù)區(qū)域內(nèi)所有威脅的前提下,飛入目標(biāo)點(diǎn)所在區(qū)域并完成對(duì)目標(biāo)點(diǎn)的瞄準(zhǔn)。

1.3 無人機(jī)投放自主引導(dǎo)狀態(tài)空間/動(dòng)作空間

針對(duì)無人機(jī)投放自主引導(dǎo)問題,基于馬爾可夫決策過程的定義,設(shè)計(jì)無人機(jī)投放自主引導(dǎo)狀態(tài)空間和動(dòng)作空間。

1.3.1 狀態(tài)空間

圖3所示為無人機(jī)投放自主引導(dǎo)威脅感知示意圖。在無人機(jī)投放自主引導(dǎo)過程中,根據(jù)無人機(jī)對(duì)周圍環(huán)境威脅實(shí)時(shí)感知信息,建立如下所示的狀態(tài)空間

圖3 自主引導(dǎo)威脅感知示意圖Fig.3 The schematic diagram of threat perception for autonomous guidance

式中,vUAV為無人機(jī)速度;HUAV為無人機(jī)高度;為無人機(jī)正前方威脅距離為無人機(jī)正前方威脅相對(duì)方位;為無人機(jī)左前方威脅距離為無人機(jī)左前方威脅相對(duì)方位為無人機(jī)右前方威脅距離為無人機(jī)右前方威脅相對(duì)方位為目標(biāo)點(diǎn)相對(duì)無人機(jī)的水平距離;為目標(biāo)點(diǎn)相對(duì)無人機(jī)的方位;ABomb為當(dāng)前態(tài)勢(shì)下無人機(jī)投放物水平射程。

1.3.2 動(dòng)作空間

針對(duì)無人機(jī)投放自主引導(dǎo)問題,建立了如下所示的動(dòng)作空間

式中,NT為無人機(jī)的轉(zhuǎn)向過載;T表示轉(zhuǎn)向。

1.4 無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)決策評(píng)價(jià)模型

針對(duì)無人機(jī)投放自主引導(dǎo)任務(wù),基于回報(bào)重塑方法和航空火力控制理論,遷移專家經(jīng)驗(yàn)輔助解決火控問題,構(gòu)建無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)決策評(píng)價(jià)模型,如式(5)所示

式中,R(s,a)為回報(bào)函數(shù),γ為折扣參數(shù),Φ(s)為狀態(tài)勢(shì)函數(shù)。Φ(s)定義如式(6)所示

式中,Uatt(s)為目標(biāo)點(diǎn)吸引勢(shì)函數(shù);Urep(s)為威脅排斥勢(shì)函數(shù)。式(7)所示為Uatt(s)的定義

式中,katt為吸引勢(shì)權(quán)重因子為目標(biāo)點(diǎn)相對(duì)無人機(jī)最大水平距離。Urep(s)定義如式(8)所示

式中,u( ?)為無人機(jī)威脅影響勢(shì)函數(shù);sf、sl和sr分別為無人機(jī)正前方、左前方和右前方威脅狀態(tài)。u( ?)定義如式(9)所示

式中,krep為威脅排斥勢(shì)權(quán)重因子;為威脅感知最遠(yuǎn)距離;為當(dāng)前感知威脅的水平距離。

2 基于深度遷移強(qiáng)化學(xué)習(xí)的無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制算法

2.1 無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)決策框架

基于Actor-Critic架構(gòu)的深度確定性策略梯度方法[15]是一種無模型且異策略的深度強(qiáng)化學(xué)習(xí)方法。該方法能夠很好地處理連續(xù)性控制問題,圖4 所示為深度確定性策略梯度(DDPG)方法組織結(jié)構(gòu)圖。

圖4 DDPG方法組織結(jié)構(gòu)圖Fig.4 The schematic diagram of DDPG method

該算法主要由決策網(wǎng)絡(luò)μ(s;θμ)、評(píng)估網(wǎng)絡(luò)Q(s,a;θQ)、目標(biāo)決策網(wǎng)絡(luò)μ′(s;θμ′)和目標(biāo)評(píng)估網(wǎng)絡(luò)Q′(s,a;θQ′) 共4個(gè)網(wǎng)絡(luò)與回放經(jīng)驗(yàn)集共D5部分組成,在學(xué)習(xí)過程中,通過專家經(jīng)驗(yàn)收集歷史數(shù)據(jù)建立經(jīng)驗(yàn)庫,并使用強(qiáng)化學(xué)習(xí)算法對(duì)經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)和優(yōu)化。在開始階段,通過結(jié)合加入噪聲的當(dāng)前環(huán)境狀態(tài),行為網(wǎng)絡(luò)選擇執(zhí)行對(duì)應(yīng)的動(dòng)作,接著將此刻的系統(tǒng)狀態(tài)、決策者的行動(dòng)動(dòng)作、決策者獲得的回報(bào)收益以及之后的系統(tǒng)狀態(tài)數(shù)據(jù)儲(chǔ)存在經(jīng)驗(yàn)存儲(chǔ)區(qū)中,之后,行為網(wǎng)絡(luò)從回放經(jīng)驗(yàn)集中隨機(jī)少量地抽取部分樣本,然后使用梯度下降法等優(yōu)化算法來更新行為網(wǎng)絡(luò)與評(píng)判網(wǎng)絡(luò)的參數(shù),最后平滑更新目標(biāo)網(wǎng)絡(luò)參數(shù)。

2.2 基于深度神經(jīng)網(wǎng)絡(luò)的無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制策略模型

Actor-Critic的深度強(qiáng)化學(xué)習(xí)結(jié)構(gòu)如圖5所示。在強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí),動(dòng)態(tài)演化環(huán)境的作用是產(chǎn)生系統(tǒng)狀態(tài)s∈S,決策網(wǎng)絡(luò)以此為基礎(chǔ),生成動(dòng)作a∈A(s),在整個(gè)訓(xùn)練中,采用TD-error[16]優(yōu)化評(píng)估網(wǎng)絡(luò)參數(shù),決策網(wǎng)絡(luò)參數(shù)優(yōu)化則是通過在動(dòng)態(tài)演化環(huán)境中進(jìn)行迭代,依據(jù)maxQ(s,a)原則獲取最優(yōu)策略。

圖5 Actor-Critic深度強(qiáng)化學(xué)習(xí)結(jié)構(gòu)圖Fig.5 The schematic diagram of Actor-Critic deepreinforcement learning

基于深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)無人機(jī)航路自動(dòng)引導(dǎo)機(jī)動(dòng)控制決策算法中的決策網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò),從而更好地模擬無人機(jī)的飛行狀態(tài)和“端到端”的無人機(jī)機(jī)動(dòng)決策。

2.2.1 決策網(wǎng)絡(luò)

決策網(wǎng)絡(luò)μ(s;θμ)主要是基于此刻的系統(tǒng)狀態(tài)來進(jìn)行實(shí)時(shí)的判斷并做出決策,它的網(wǎng)絡(luò)輸入為此刻的系統(tǒng)狀態(tài)s∈S,而網(wǎng)絡(luò)輸出則是系統(tǒng)根據(jù)此刻狀態(tài)而應(yīng)該采取的行動(dòng)動(dòng)作a∈A(s)。按照上文中對(duì)無人機(jī)運(yùn)動(dòng)狀態(tài)空間的定義,用dim(S)表示網(wǎng)絡(luò)輸入神經(jīng)元數(shù)量,dim(A)表示網(wǎng)絡(luò)的輸出神經(jīng)元數(shù)量,圖6 所示為決策網(wǎng)絡(luò)組織結(jié)構(gòu)圖。

圖6 決策網(wǎng)絡(luò)組織結(jié)構(gòu)圖Fig.6 The schematic diagram of decision network

根據(jù)決策網(wǎng)絡(luò)的定義,決策網(wǎng)絡(luò)輸入層由11個(gè)單元組成,與狀態(tài)空間的維度相同;隱藏層全部是全連接的線性層,分別由20、40、40 和40 個(gè)修正線性單元組成;輸出層也是全連接的線性層,具有一個(gè)單元,與動(dòng)作空間維度相同。

2.2.2 評(píng)估網(wǎng)絡(luò)

評(píng)估網(wǎng)絡(luò)的功能是對(duì)此刻決策的行動(dòng)動(dòng)作a∈A(s)的最優(yōu)程度進(jìn)行評(píng)估,它的網(wǎng)絡(luò)輸入與輸出分別定義為[s,a]和Q(s,a)。圖7所示為評(píng)估網(wǎng)絡(luò)組織結(jié)構(gòu)圖。

圖7 評(píng)估網(wǎng)絡(luò)組織結(jié)構(gòu)圖Fig.7 The schematic diagram of critic network

根據(jù)評(píng)估網(wǎng)絡(luò)的定義,評(píng)估網(wǎng)絡(luò)輸入層由12個(gè)單元組成,與狀態(tài)空間和動(dòng)作空間的維度相同;隱藏層全部是全連接的線性層,分別由20、40、40 和40 個(gè)修正線性單元組成;輸出層也是全連接的線性層,具有一個(gè)單元,輸出狀態(tài)和動(dòng)作對(duì)應(yīng)的Q值。

根據(jù)前文所定義的狀態(tài)空間與動(dòng)作空間,在將狀態(tài)s∈S和動(dòng)作a∈A(s)歸一化之后,將其輸入網(wǎng)絡(luò)。在DDPG 中,目標(biāo)決策網(wǎng)絡(luò)μ′ (s;θμ′) 與目標(biāo)評(píng)估網(wǎng)絡(luò)Q′(s,a;θQ′)的結(jié)構(gòu)與μ(s;θμ)和Q(s,a;θQ)相同。

2.2.3 回放經(jīng)驗(yàn)集

回放經(jīng)驗(yàn)集D記錄了算法與環(huán)境交互產(chǎn)生的歷史數(shù)據(jù),從D中重新隨機(jī)抽樣,打破序列相關(guān)性并重復(fù)利用歷史經(jīng)驗(yàn),生成決策網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)的訓(xùn)練樣本集,完成決策網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)的訓(xùn)練。訓(xùn)練樣本與當(dāng)前狀態(tài)s∈S、下一時(shí)刻狀態(tài)s′∈S、動(dòng)作a∈A(s)和回報(bào)r=R(s,a)相關(guān)。

2.3 基于DDPG的無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制算法

在式(2)基礎(chǔ)上,通過分析馬爾可夫決策過程理論效用函數(shù),得到了相應(yīng)的描述狀態(tài)—?jiǎng)幼髟u(píng)價(jià)函數(shù),如式(10)所示

式(10)為狀態(tài)動(dòng)作值函數(shù),因此,最優(yōu)決策可以定義為

式(11)表示在系統(tǒng)狀態(tài)為st∈S時(shí),最優(yōu)決策為at。因此,可通過求解Q(s,a)的方法來得到最優(yōu)策略。根據(jù)式(2)及式(10),可得到Q-Learning方法迭代公式,如式(12)所示

式中,s∈S為系統(tǒng)當(dāng)前狀態(tài);a∈A(s)為當(dāng)前決策結(jié)果;r=R(s,a)為當(dāng)前回報(bào);s′∈S為系統(tǒng)下一時(shí)刻狀態(tài)。在此基礎(chǔ)上,得到Q(s,a;θQ)網(wǎng)絡(luò)訓(xùn)練損失函數(shù),如式(13)所示

進(jìn)而可得到Q(s,a;θQ)網(wǎng)絡(luò)的損失函數(shù)的梯度,如式(14)所示

在實(shí)際訓(xùn)練中,可以根據(jù)式(13)不斷優(yōu)化改變Q(s,a;θQ)的網(wǎng)絡(luò)參數(shù)θQ。

Policy Gradient 算法[17]作為一種以策略為導(dǎo)向的強(qiáng)化學(xué)習(xí)方法,與值函數(shù)方法相比,具有可以直接求解最優(yōu)策略的優(yōu)勢(shì),而DDPG 的決策網(wǎng)絡(luò)正是源自此算法。根據(jù)DPG定理,直接獲得決策網(wǎng)絡(luò)μ(s;θμ)的優(yōu)化目標(biāo)函數(shù)v(s,μ)的梯度方程,如式(15)所示

在訓(xùn)練過程中,通過式(15)優(yōu)化決策網(wǎng)絡(luò)μ(s;θμ)的參數(shù)θμ。由于?aQ(s,a;θQ)為常量,因此,在實(shí)際訓(xùn)練中算法對(duì)參數(shù)θμ的優(yōu)化如式(16)所示

另外,DDPG 還定義了用于存放先前數(shù)據(jù)的回放經(jīng)驗(yàn)集D,通過使用D中的歷史數(shù)據(jù),訓(xùn)練決策網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò),經(jīng)驗(yàn)集D的元素定義如式(17)所示

式中,s∈S為系統(tǒng)當(dāng)前狀態(tài);a∈A(s)為當(dāng)前決策結(jié)果;r=R(s,a)為當(dāng)前回報(bào);s′∈S為系統(tǒng)下一時(shí)刻狀態(tài)。

對(duì)于目標(biāo)網(wǎng)絡(luò)μ′(s;θμ′)和Q′(s,a;θQ′)的參數(shù),本文采用平滑更新的方式進(jìn)行更新,如式(18)所示

式中,τ∈(0, 1)為目標(biāo)網(wǎng)絡(luò)更新參數(shù)。

在訓(xùn)練過程中,因?yàn)榇_定性策略的動(dòng)作探索性不強(qiáng),所以采取了將噪聲附加在決策網(wǎng)絡(luò)輸出上來處理該問題,如式(19)所示

式中,N(t)為Ornstein-Uhlenbeck過程[18]。

在上文所述的基礎(chǔ)上,本文給出的一種基于DDPG 的無人機(jī)航路自主引導(dǎo)機(jī)動(dòng)控制決策算法的訓(xùn)練流程如下:(1) 預(yù)置回放經(jīng)驗(yàn)集D;(2) 預(yù)置決策網(wǎng)絡(luò)μ(s;θμ)和目標(biāo)決策網(wǎng)絡(luò)μ′(s;θμ′),評(píng)價(jià)網(wǎng)絡(luò)Q(s,a;θQ)和目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)Q′(s,a;θQ′);(3) 預(yù)置Ornstein-Uhlenbeck 的過程N(yùn)(t),采集無人機(jī)飛行模擬環(huán)境系統(tǒng)的初始狀態(tài)s0;(4) 基于at=μ(st;θμ)+N(t)產(chǎn)生行動(dòng)動(dòng)作;(5) 在無人機(jī)飛行模擬環(huán)境系統(tǒng)中執(zhí)行行動(dòng)動(dòng)作at,得到反饋回報(bào)收益rt;(6) 獲取后一時(shí)間段無人機(jī)飛行模擬環(huán)境系統(tǒng)的狀態(tài)st+1,并在D中記錄當(dāng)前數(shù)據(jù)(st,at,rt,st+1);(7) 根據(jù)式(14),更新參數(shù)θQ;(8)根據(jù)式(16),更新參數(shù)θμ;(9)根據(jù)式(18),更新目標(biāo)網(wǎng)絡(luò)參數(shù)θQ′和θμ′;(10)重復(fù)第(4)~(9)步至t=T;(11)重復(fù)第(3)~(10)步M次至訓(xùn)練結(jié)束。

按照上述流程進(jìn)行訓(xùn)練,當(dāng)訓(xùn)練結(jié)束后,就能夠獲得對(duì)應(yīng)的最優(yōu)決策網(wǎng)絡(luò)μ(s;θμ),此流程中,決策結(jié)果可直接被用作決策網(wǎng)絡(luò)的輸出,式(20)所示為動(dòng)作生成公式

3 仿真驗(yàn)證與分析

給定無人機(jī)飛行試驗(yàn)的空域范圍為100km×100km 的正方形區(qū)域,對(duì)模型進(jìn)行訓(xùn)練的周期數(shù)為M= 1000,一個(gè)循環(huán)周期內(nèi)最大決策時(shí)刻數(shù)目T= 500。通過建立隨機(jī)的無人機(jī)初始狀態(tài),設(shè)置不同的目標(biāo)點(diǎn)位置和無人機(jī)初始航向,實(shí)現(xiàn)無人機(jī)自主引導(dǎo)和瞄準(zhǔn)。

圖8~圖11 所示為部分仿真試驗(yàn)的可視化結(jié)果。圖中橫軸East表示正東方向,縱軸North表示正北方向。紅色實(shí)線為無人機(jī)飛行軌跡,紅色虛線為瞄準(zhǔn)線,紅色實(shí)心點(diǎn)為無人機(jī)起點(diǎn),紅色“X”為無人機(jī)終點(diǎn),藍(lán)色“+”為目標(biāo)點(diǎn),綠色點(diǎn)畫線為威脅影響范圍,綠色虛線為威脅截止區(qū)域,綠色“X”為威脅位置。

圖8 無人機(jī)投放自主引導(dǎo)試驗(yàn)1結(jié)果圖Fig.8 The visualization of autonomous guidance of UAV dropping experiment 1

圖9 無人機(jī)投放自主引導(dǎo)試驗(yàn)2結(jié)果圖Fig.9 The visualization of autonomous guidance of UAV dropping experiment 2

圖10 無人機(jī)投放自主引導(dǎo)試驗(yàn)3結(jié)果圖Fig.10 The visualization of autonomous guidance of UAV dropping experiment 3

圖11 無人機(jī)投放自主引導(dǎo)試驗(yàn)4結(jié)果圖Fig.11 The visualization of autonomous guidance of UAV dropping experiment 4

仿真試驗(yàn)過程中,目標(biāo)距離初始生成無人機(jī)約為80km,無人機(jī)最大過載為5,任務(wù)區(qū)域內(nèi)包含三個(gè)威脅。無人機(jī)在任意位置、姿態(tài)下,能夠規(guī)避任務(wù)區(qū)域內(nèi)威脅,快速抵達(dá)投放目標(biāo)點(diǎn)附近,并完成瞄準(zhǔn)。

仿真試驗(yàn)過程中,將決策網(wǎng)絡(luò)μ(s;θμ)與目標(biāo)決策網(wǎng)絡(luò)μ′(s;θμ′)、評(píng)價(jià)網(wǎng)絡(luò)Q(s,a;θQ) 與目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)Q′(s,a;θQ′)作為整體進(jìn)行訓(xùn)練。輸入飛機(jī)初始狀態(tài)s∈S到?jīng)Q策網(wǎng)絡(luò),得到輸出,繼續(xù)將輸出輸入評(píng)價(jià)網(wǎng)絡(luò),得到評(píng)估結(jié)果,根據(jù)評(píng)估結(jié)果與預(yù)期目標(biāo)計(jì)算損失函數(shù)Q(s,a;θQ),更新參數(shù)θμ,優(yōu)化網(wǎng)絡(luò)。

從圖中可看出,無人機(jī)在飛行過程中,面對(duì)不同位置的敵機(jī)威脅,從起始位置到結(jié)束位置約80km,通過控制無人機(jī)轉(zhuǎn)向過載實(shí)現(xiàn)威脅規(guī)避,并向目標(biāo)點(diǎn)飛行;到達(dá)目標(biāo)點(diǎn)附近后,控制無人機(jī)轉(zhuǎn)向過載,能夠消除無人機(jī)瞄準(zhǔn)偏差,完成對(duì)目標(biāo)點(diǎn)的瞄準(zhǔn)。

4 結(jié)論

本文針對(duì)無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制問題,提出了基于深度遷移強(qiáng)化學(xué)習(xí)的無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制算法,提煉了無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制問題,采用馬爾可夫決策過程構(gòu)建了無人機(jī)投放引導(dǎo)機(jī)動(dòng)決策模型,設(shè)計(jì)了無人機(jī)投放引導(dǎo)狀態(tài)空間、動(dòng)作空間和改進(jìn)的回報(bào)函數(shù)模型,實(shí)現(xiàn)了無人機(jī)投放自主引導(dǎo)仿真環(huán)境,開展了無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制算法的仿真訓(xùn)練,并進(jìn)行了大量仿真驗(yàn)證。結(jié)果表明了無人機(jī)投放自主引導(dǎo)機(jī)動(dòng)控制算法的有效性,證明了本文所提算法能夠有效提高無人機(jī)執(zhí)行投放引導(dǎo)任務(wù)的自主性。

猜你喜歡
動(dòng)作
動(dòng)作不可少(下)
巧借動(dòng)作寫友愛
下一個(gè)動(dòng)作
動(dòng)作描寫要具體
畫動(dòng)作
讓動(dòng)作“活”起來
動(dòng)作描寫不可少
非同一般的吃飯動(dòng)作
動(dòng)作喜劇電影周
電影故事(2015年30期)2015-02-27 09:03:12
神奇的手
主站蜘蛛池模板: 国产成人高清亚洲一区久久| 欧美成人精品一区二区| 色婷婷成人网| 久久精品波多野结衣| 成色7777精品在线| 亚洲第一黄片大全| 亚洲黄网视频| 亚洲国产理论片在线播放| 91成人在线免费观看| 国产中文一区a级毛片视频| 国产精品成人观看视频国产| 成人一区在线| 5555国产在线观看| 国产精品永久在线| 亚洲精品无码日韩国产不卡| 久久国产精品电影| 欧美一区二区福利视频| 成年免费在线观看| 国产高清在线丝袜精品一区| 国产乱子伦视频在线播放 | 亚洲精品成人片在线观看| 久久免费视频播放| 亚洲中字无码AV电影在线观看| 久久精品国产一区二区小说| 亚洲国产精品日韩专区AV| 久久亚洲天堂| 成人91在线| 国产视频自拍一区| 91麻豆精品国产高清在线 | 欧美三级自拍| 久久久噜噜噜久久中文字幕色伊伊| 狠狠色香婷婷久久亚洲精品| 萌白酱国产一区二区| 永久免费av网站可以直接看的 | 狼友视频一区二区三区| 国产第一页免费浮力影院| 久久鸭综合久久国产| 97视频在线精品国自产拍| 日韩欧美91| 又污又黄又无遮挡网站| 美女扒开下面流白浆在线试听 | 国产情侣一区二区三区| 日韩欧美国产精品| 日本三级精品| 欧美黄色网站在线看| 青青草原国产av福利网站| 一级一级一片免费| 亚洲黄网在线| 美女无遮挡免费网站| 国产成人精品在线1区| 免费看美女毛片| 国产成人夜色91| 一区二区午夜| 97国产在线观看| 综合亚洲网| 夜精品a一区二区三区| 国产日韩AV高潮在线| 日本精品影院| 国产一区二区人大臿蕉香蕉| 国产精品永久不卡免费视频| 亚洲国产欧美国产综合久久| 欧美精品一区在线看| 毛片一级在线| 波多野结衣一区二区三区四区视频| 久草性视频| 欧美午夜小视频| 大陆国产精品视频| 综合色亚洲| 亚洲综合香蕉| 亚洲综合二区| 国产流白浆视频| 欧美日韩中文国产va另类| 国产第八页| a国产精品| 欧美成人亚洲综合精品欧美激情| 成人国产三级在线播放| 91精品国产自产在线老师啪l| 欧美日韩福利| 亚洲视频无码| 91在线精品麻豆欧美在线| 亚洲三级成人| 98精品全国免费观看视频|