999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于POMDP的多機無源傳感器協(xié)同任務(wù)規(guī)劃

2022-06-29 05:18:10彭冬亮任金磊
無線電工程 2022年7期
關(guān)鍵詞:優(yōu)化

馬 玲,左 燕*,彭冬亮,任金磊

(1.杭州電子科技大學 自動化學院,浙江 杭州 310018;2.中國運載火箭技術(shù)研究院,北京 100076)

0 引言

隨著隱身飛機、反輻射導彈和電子對抗技術(shù)的飛速發(fā)展,無源探測系統(tǒng)不主動發(fā)射電磁信號,具有隱蔽性好、覆蓋范圍廣等優(yōu)點,被廣泛應用于目標定位、跟蹤、監(jiān)視、導航和無線通信等領(lǐng)域。

在無源探測系統(tǒng)中,到達時差(Time of Arrival,TOA)是基本的觀測信息之一[1],基于無源時差的定位跟蹤算法相繼提出[2-4]。TOA協(xié)同定位性能不僅與傳感器量測精度有關(guān),還很大程度上受到目標和傳感器之間的幾何位置影響[5]。當無源傳感器部署在多個無人機上,通過優(yōu)化無人機飛行軌跡可有效提高多機協(xié)同跟蹤精度[6]。面向跟蹤目標任務(wù)的多機無源傳感器任務(wù)規(guī)劃問題成為研究熱點。

多機無源傳感器協(xié)同跟蹤根據(jù)一定的最優(yōu)準則,優(yōu)化無人機的運行參數(shù)使得目標跟蹤系統(tǒng)整體跟蹤性能達到最優(yōu)[7]。不同優(yōu)化性能指標下的無人機調(diào)度方法被相繼提出[8],基于信息驅(qū)動的調(diào)度通常以信息增量[9-12]為優(yōu)化指標使得多無人機協(xié)同跟蹤下所獲取的目標信息增益最大化。基于跟蹤任務(wù)的調(diào)度通常以目標跟蹤狀態(tài)估計誤差性能下界[13-14]為優(yōu)化指標。上述調(diào)度方法僅考慮以當前調(diào)度決策產(chǎn)生的目標跟蹤收益或代價為調(diào)度目標,而未考慮當前調(diào)度決策帶來的長期跟蹤性能影響,具有短視性。

多無人機遠期調(diào)度將無人機飛行規(guī)劃決策視為部分可觀察馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP),其本質(zhì)屬于高維非線性優(yōu)化問題[7]。由于目標運動狀態(tài)不確定和傳感器量測不確定,加上無人機飛行約束,使得無人機遠期調(diào)度策略的求解非常復雜。文獻[15]將調(diào)度過程抽象為決策樹問題,采用改進分支定界算法進行求解。文獻[16]提出自適應多種群協(xié)同差分進化算法。上述方法具有較高的計算復雜度,無法滿足任務(wù)決策的實時性需求。

對此,本文針對多無人機無源協(xié)同定位跟蹤下傳感器調(diào)度問題,提出了遠期調(diào)度策略,并提出了一種分布式自主決策優(yōu)化算法,最后仿真實驗結(jié)果表明了所提傳感器調(diào)度方法的有效性。

1 POMDP問題描述

NS架無人機上分別裝載一部TOA無源傳感器,通過優(yōu)化多個無人機的運動方向協(xié)同跟蹤目標。將機載無源傳感器看作是一個智能體,面向目標跟蹤任務(wù)的多無人機無源傳感器調(diào)度可描述為POMDP,模型要素用六元組表示〈S,φ,Z,f,h,R〉。

1.1 系統(tǒng)狀態(tài)S和狀態(tài)轉(zhuǎn)移函數(shù)f(·)

目標的狀態(tài)轉(zhuǎn)移方程可描述為:

Xk+1=FkXk+wk,

(1)

式中,Fk為目標狀態(tài)轉(zhuǎn)移矩陣,不同的目標運動模式(如勻速運動、勻加速運動等)對應不同的目標狀態(tài)轉(zhuǎn)移矩陣;wk為k時刻過程噪聲,均值為0,方差為Q。

傳感器i位置轉(zhuǎn)移方程可描述為:

(2)

(3)

式中,f(·)為系統(tǒng)狀態(tài)轉(zhuǎn)移函數(shù)。

1.2 決策變量φ和決策空間

定義k時刻系統(tǒng)的決策變量φk為無人機的飛行方向,φk=[φ1(k),φ2(k),…,φNs(k)]T,其中φi(k)為k時刻無人機i的飛行方向。由于機載平臺運動能力受到限制,無人機i運動方向需滿足轉(zhuǎn)彎率要求[5]:

Φi={φi(k)|φi,min≤φi(k)≤φi,max},

(4)

式中,φi,min和φi,max分別為無人機i飛行方向可改變的最小值和最大值。

將各無人機飛行方向在各自角度范圍內(nèi)等分,則無人機i的可行飛行方向滿足:

(5)

每一時刻k,無人機i的調(diào)度決策空間為

多機無源傳感器協(xié)同跟蹤下傳感器調(diào)度決策空間為U=U1×U2×…×UNS。

1.3 觀測值集Z和觀測函數(shù)h(·)

定義k時刻觀測值集Zk為所有無源傳感器的觀測值組成的集合Zk=[Z1(k),Z2(k),…,ZNS(k)]Τ。由于各個傳感器獨立觀測,k時刻機載無源傳感器i對目標的觀測函數(shù)為:

Zi(k)=hi(Sk)+vi(k),

(6)

式中,hi(Sk)為傳感器i的TOA觀測函數(shù),具體為:

(7)

(8)

1.4 收益函數(shù)R(·)

考慮TOA量測噪聲與距離相關(guān)的特點,本文采用GCRLB的跡最小化為優(yōu)化指標進行傳感器調(diào)度決策。高斯噪聲下Fisher信息矩陣(Fisher Information Matrix,FIM)滿足以下遞推形式[6]:

(9)

(10)

將式(8)帶入式(7),有:

Jk(Sk,φk)=(Qk-1+Fk-1Jk-1-1Fk-1T)-1+

(11)

GCRLB定義為FIM的逆,以GCRLB的跡為目標跟蹤代價函數(shù),有:

R(Sk,φk)=tr(Jk(Sk,φk)-1)。

(12)

1.5 基于變增益無跡卡爾曼濾波的狀態(tài)更新

在POMDP框架下,系統(tǒng)的狀態(tài)不完全可觀。為實現(xiàn)目標的持續(xù)穩(wěn)定跟蹤,在獲得量測值之后需要對系統(tǒng)的狀態(tài)進行持續(xù)更新。考慮AOA量測噪聲方差隨目標-傳感器距離變化特點,設(shè)計一種變增益無跡卡爾曼濾波(Variable-Gain Unscented Kalman Filter,VUKF)算法對系統(tǒng)狀態(tài)后驗估計。

(13)

(14)

式中,N為Sigma點的維數(shù);λ為標度參數(shù),它確定圍繞狀態(tài)向量Xk均值的Sigma點的分布。

② 預測。計算Sigma點的一步預測及相應量測預測值:

(15)

(16)

(17)

③ 計算增益。根據(jù)目標一步預測值更新量測噪聲方差,以此更新濾波器增益:

(18)

(19)

(20)

④ 狀態(tài)更新。根據(jù)新的量測更新目標狀態(tài)和狀態(tài)協(xié)方差:

(21)

(22)

1.6 基于POMDP的多機任務(wù)規(guī)劃問題

基于POMDP的多機載被動傳感器協(xié)同跟蹤任務(wù)規(guī)劃的最終目的是在有限任務(wù)時域內(nèi),優(yōu)化無人機平臺的飛行方向,提高目標的跟蹤性能。

令調(diào)度序列Φ1:N=[φ1,φ2,…,φN],在任務(wù)周期[1,N]內(nèi)總目標跟蹤代價函數(shù)為:

(23)

POMDP任務(wù)規(guī)劃決策模型為:

s.t.φi(k)∈Ui,i=1,2,…,NS;k=1,2,…,N。

(24)

基于POMDP的多機無源傳感器協(xié)同任務(wù)規(guī)劃過程如圖1所示。

圖1 基于POMDP的協(xié)同任務(wù)規(guī)劃過程Fig.1 Mission planning process based on POMDP

2 任務(wù)規(guī)劃模型求解

2.1 基于單步?jīng)Q策的傳感器遠期調(diào)度子問題

將任務(wù)周期[1,N]內(nèi)傳感器調(diào)度問題分解為N個單步?jīng)Q策子問題,每一時刻k(k=1,2,…,N)優(yōu)化決策各無人機的飛行方向φk。由于目標狀態(tài)具有無后效性,k時刻的最優(yōu)決策φk與過去狀態(tài)無關(guān),僅取決于當前狀態(tài)Sk。k時刻,當前調(diào)度決策φk產(chǎn)生的目標跟蹤代價為:

V(Sk)=tr(Jk(Sk,φk)-1)+V(Sk+1),

(25)

式中,V(Sk)為從當前狀態(tài)Sk開始產(chǎn)生的目標跟蹤代價,第1項為當前調(diào)度決策φk產(chǎn)生的瞬時跟蹤性能,第2項為當前調(diào)度決策對未來跟蹤性能的影響。

本文采用滾動策略迭代算法,在k時刻進行單步調(diào)度決策優(yōu)化,未來[k+1,N]時段采用基本策略H對值函數(shù)V(Sk+1)進行近似。文獻[18]指出,滾動策略迭代算法下調(diào)度性能具有策略改進特性,即滾動策略迭代算法性能優(yōu)于基本策略H。

(26)

k時刻,基于單步?jīng)Q策的傳感器遠期調(diào)度子問題可描述為:

s.t.φi(k)∈Ui,i=1,2,…,NS。

(27)

2.2 傳感器遠期調(diào)度分布式優(yōu)化求解

基于單步?jīng)Q策的傳感器遠期調(diào)度子問題決策空間為U=U1×U2×…×UNS,集中式優(yōu)化求解方法將求解過程描述為決策樹,每一節(jié)點數(shù)為可行調(diào)度決策,基于改進分支定界算法[17]對其優(yōu)化求解,其計算復雜度為O(|U1|×|U2|×…×|UNS|),在上述離散化決策空間描述下,其計算復雜度為O((L+1)NS)。隨著傳感器個數(shù)NS的增加,決策樹的分支呈指數(shù)增長。為了降低算法的計算復雜度,提高調(diào)度決策的實時性,本文提出了一種分布式求解算法。多傳感器遠期調(diào)度分布式優(yōu)化決策過程如圖2所示。

圖2 多傳感器遠期調(diào)度分布式優(yōu)化決策過程Fig.2 Distributed optimization of non-myopic sensor scheduling

Vi(S(k),φi(k))=tr(Jk(S(k),φi(k))-1)+

(28)

式中,目標函數(shù)包括3項:第1項為傳感器i調(diào)度決策產(chǎn)生的瞬時跟蹤代價,第2項為傳感器i調(diào)度決策產(chǎn)生的長期跟蹤代價,第3項為其他傳感器j調(diào)度決策對目標跟蹤產(chǎn)生的影響。

傳感器i最優(yōu)調(diào)度決策為:

(29)

每個傳感器在調(diào)度時刻獨立進行控制決策,采用改進分支定界樹算法對式(21)進行求解,其最優(yōu)決策在最小化目標長期跟蹤代價的準則獲得,整個分布式多傳感器遠期調(diào)度的計算復雜度為O(NS(L+1))。與集中式調(diào)度決策相比,分布式調(diào)度決策可以極大地降低計算復雜度,提高計算效率。

3 仿真實驗

仿真場景和參數(shù)設(shè)置如下:探測區(qū)域內(nèi)有一個運動目標,目標初始狀態(tài)[0,50,0,50]Τ,飛行時間為150 s,目標在15~25 s做左轉(zhuǎn)彎運動(轉(zhuǎn)彎速率為0.02 rad/s),40~50 s做右轉(zhuǎn)彎運動(轉(zhuǎn)彎速率為-0.02 rad/s),其余仿真時間目標做勻速直線運動。機載平臺的初始狀態(tài)參數(shù)如表1所示。

表1 傳感器初始狀態(tài)信息Tab.1 Sensor initial state information

將本文算法與啟發(fā)式調(diào)度[6]、短期調(diào)度[14]進行比較。不同算法下目標位置估計總誤差如圖3所示。

圖3 不同算法下目標位置估計總誤差Fig.3 Total error of target position estimation with different algorithms

由圖3可以看出,本文提出的基于單步?jīng)Q策的遠期調(diào)度算法性能最好,短期調(diào)度算法[14]次之,啟發(fā)式算法[6]性能最差。隨著預測步長增加,基于單步?jīng)Q策的遠期調(diào)度算法下目標位置估計誤差逐漸減小。

分別取傳感器個數(shù)為2,3,5,10(對應表中前2,3,5,10個傳感器),其他仿真參數(shù)不變,采用傳感器遠期調(diào)度算法(預測步長為4)進行仿真測試,不同傳感器個數(shù)下遠期調(diào)度目標位置估計平均誤差如圖4所示。

圖4 不同傳感器個數(shù)下目標位置估計平均誤差Fig.4 Average error of target position estimation with different number of sensors

由圖4可以看出,隨著傳感器個數(shù)的增加,目標跟蹤誤差減小。對多機載無源傳感器組網(wǎng)協(xié)同跟蹤,增加無人機的個數(shù)有望顯著提升目標跟蹤精度。

將分布式優(yōu)化決策與集中式優(yōu)化決策[15]進行對比仿真。仿真場景選取5個傳感器(如表1所示),其他仿真參數(shù)不變。遠期調(diào)度集中式?jīng)Q策和分布式?jīng)Q策求解算法下目標跟蹤性能和計算性能對比分別如圖5和圖6所示。

圖5 集中式和分布式算法性能對比Fig.5 Performance comparison of centralized and distributed algorithms

圖6 集中式和分布式求解算法計算性能對比Fig.6 Computational efficiency comparison of centralized and distributed algorithms

由圖5和圖6可以看出,分布式優(yōu)化求解算法下目標跟蹤精度與集中式優(yōu)化求解算法的跟蹤性能非常接近,但分布式優(yōu)化求解算法的計算效率顯著提高。隨著預測步長的增加,集中式優(yōu)化求解算法的計算復雜度呈指數(shù)增長,無法滿足實時性要求。而分布式優(yōu)化算法能夠在保證一定跟蹤性能的前提下,大大降低算法復雜度,能夠很好地滿足在線調(diào)度的實時性需求。隨著多傳感器個數(shù)的增加,分布式優(yōu)化求解的優(yōu)勢將更明顯。

4 結(jié)束語

針對多機載無源傳感器協(xié)同跟蹤問題,提出了一種基于長期跟蹤代價的多無人機無源傳感器調(diào)度算法。首先,在POMDP框架下建立了基于GCRLB指標的傳感器遠期調(diào)度模型。隨后,采用滾動時域方法將多階段問題分解為多個單步?jīng)Q策的調(diào)度子問題,考慮當前決策對未來長期跟蹤性能的影響。然后,設(shè)計了一種基于分布式自主優(yōu)化求解算法,通過對多個傳感器獨立自主決策,在保證目標估計精度的基礎(chǔ)上提高傳感器調(diào)度的靈活性和快速性。最后,理論分析和仿真測試驗證了算法的有效性。

猜你喜歡
優(yōu)化
超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
PEMFC流道的多目標優(yōu)化
能源工程(2022年1期)2022-03-29 01:06:28
民用建筑防煙排煙設(shè)計優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
由“形”啟“數(shù)”優(yōu)化運算——以2021年解析幾何高考題為例
圍繞“地、業(yè)、人”優(yōu)化產(chǎn)業(yè)扶貧
事業(yè)單位中固定資產(chǎn)會計處理的優(yōu)化
消費導刊(2018年8期)2018-05-25 13:20:08
4K HDR性能大幅度優(yōu)化 JVC DLA-X8 18 BC
幾種常見的負載均衡算法的優(yōu)化
電子制作(2017年20期)2017-04-26 06:57:45
主站蜘蛛池模板: 伊在人亞洲香蕉精品區| 亚洲一道AV无码午夜福利| 国产在线精品美女观看| 亚洲动漫h| 国产丝袜一区二区三区视频免下载| 专干老肥熟女视频网站| 免费毛片在线| 亚洲视频在线观看免费视频| 欧美日韩91| 亚洲手机在线| 伦精品一区二区三区视频| 成人一级免费视频| 这里只有精品在线播放| 国产成人综合亚洲欧美在| 九月婷婷亚洲综合在线| 欧美成人午夜影院| 国产打屁股免费区网站| 日韩黄色精品| 日韩成人高清无码| 尤物亚洲最大AV无码网站| 波多野结衣在线se| 免费国产一级 片内射老| 国产成人亚洲精品色欲AV | 日韩在线欧美在线| 欧美成人综合视频| 91无码人妻精品一区| 亚洲欧洲一区二区三区| 亚洲一区二区日韩欧美gif| 国产极品美女在线播放| 婷婷综合缴情亚洲五月伊| 亚洲日本一本dvd高清| 色婷婷狠狠干| 狠狠干综合| 国产永久免费视频m3u8| 久久婷婷人人澡人人爱91| 亚洲精品视频免费观看| 国产乱人免费视频| 欧美国产日韩一区二区三区精品影视| 亚洲伊人天堂| 欧美在线精品一区二区三区| 国产色婷婷| 宅男噜噜噜66国产在线观看| 国产成熟女人性满足视频| 白浆视频在线观看| 色哟哟国产精品一区二区| 国产在线观看一区精品| 亚卅精品无码久久毛片乌克兰| 亚洲成a人片| 毛片免费观看视频| 欧美一级99在线观看国产| 亚洲天堂777| 国产麻豆aⅴ精品无码| 小蝌蚪亚洲精品国产| 欧美专区日韩专区| 国产九九精品视频| 国产99视频精品免费视频7 | 国产精品无码一二三视频| 亚洲欧美综合另类图片小说区| 99热这里都是国产精品| 四虎亚洲精品| 毛片大全免费观看| 久久99国产综合精品1| 99久久国产综合精品2020| 伊人久久久久久久| 日韩人妻无码制服丝袜视频| 国产日韩精品欧美一区喷| 欧美另类精品一区二区三区 | 亚洲精品片911| 91丝袜在线观看| 91久久青青草原精品国产| 综合天天色| 久久五月视频| 无码丝袜人妻| 日韩欧美中文亚洲高清在线| 国产SUV精品一区二区6| 国产一区在线视频观看| 鲁鲁鲁爽爽爽在线视频观看| 91精品专区| 国产精品综合久久久| 亚洲人成人伊人成综合网无码| 久久精品无码中文字幕| 欧美另类图片视频无弹跳第一页|