喬成林, 單甘霖, 段修生,2, 郭峰
(1.陸軍工程大學石家莊校區 電子與光學工程系, 河北 石家莊 050003; 2.石家莊鐵道大學 機械工程學院, 河北 石家莊 050043;3.北京航天飛行控制中心, 北京 100094)
網絡化戰爭中,戰場中分布大量多種型號的傳感器,如何管理這些傳感器資源以滿足作戰任務需求,具有重要的意義。目前,以主動、被動傳感器協同跟蹤為代表的調度方法正逐漸受到學者的重視,通過合理地調度主動、被動傳感器可以滿足任務需求、降低系統輻射。文獻[1]研究了單平臺主動、被動傳感器輻射控制方法,當滿足精度需求時調度被動傳感器,否則調度主動傳感器??紤]雜波環境,文獻[2]提出一種機載雷達輔助無源傳感器的機動目標跟蹤方法。進一步,吳巍等[3]研究了多平臺主動、被動傳感器調度方法,并提出一種時間- 空間輻射控制方法,即時間上優先選擇被動傳感器,若不能滿足任務需求,則在空間上選擇威脅度最小的主動傳感器,從而降低系統輻射。實際上,不同主動傳感器的使用代價是不同的,文獻[4]通過量化主動傳感器輻射代價,構建跟蹤任務需求下傳感器調度模型,實現了對目標的協同跟蹤。然而,由于未考慮切換代價,系統容易產生頻繁切換,不利于實際應用。
此外,依據決策步長,傳感器調度方法可分為短時調度和長時調度。短時調度以當前單步收益為決策準則,因此文獻[1-4]的調度方法均可認為是短時調度。相對于短時調度方法,長時調度以未來一段時域內的收益為決策準則,其性能往往更優越。文獻[5]研究了多被動傳感器長時任務規劃問題,采用基于蒙特卡洛Rollout采樣的Q值估計方法實現對目標的協同跟蹤。文獻[6]將空間態勢感知中多傳感器長時調度問題轉化為多Agent馬爾可夫決策過程,給出基于隨機仿真的隨機優化技術,實現了對多個動態目標的協同監測。文獻[7]針對聲納傳感器長時調度問題,提出一種連續概率狀態算法,實現了對多個水下目標的持續跟蹤。然而,長時調度方法的計算量隨決策步長增加呈指數爆炸增長[8],如何降低搜索空間、提高算法實時性顯得尤為重要。
針對上述問題,本文提出一種多平臺主動與被動傳感器協同跟蹤的長時調度方法。首先,構建基于部分可觀馬爾可夫決策過程(POMDP)的長時調度模型;然后,考慮跟蹤任務需求,引入傳感器輻射代價和切換代價,建立長時目標優化函數;最后,提出改進的維特比算法(VA),求解最優調度序列。仿真結果驗證了所提搜索算法和調度方法的有效性。
在多平臺主被動傳感器系統中,一方面主動傳感器通過向外輻射電磁波獲得目標位置信息,但其輻射代價較高;另一方面被動傳感器無需輻射電磁波就能獲知目標的角度信息,但信息的缺維會導致跟蹤精度發散。為此,考慮跟蹤任務需求和主被動傳感器特性,依據POMDP理論[9],建立基于POMDP的傳感器長時調度模型,以滿足跟蹤任務需求、降低系統輻射代價。

(1)
系統狀態空間Sk由目標運動狀態Xk、平臺調度動作ak、傳感器調度動作gk及目標運動模型mk組成,則k時刻:
(2)

目標狀態按照其狀態轉移律轉移到下一時刻,即
Xk+1=f(Xk,mk,vk),
(3)
式中:vk為零均值高斯過程噪聲,其協方差矩陣為Qmk.
進一步,機動目標狀態轉移律可由目標運動模型mk獲得,則其對應的狀態轉移律可表示為Fmk.
目標觀測律取決于傳感器觀測模型,即
(4)
式中:wk為零均值高斯觀測噪聲;rk+1表示k+1時刻平臺與目標的距離;Th為相應傳感器的作用范圍,當目標處于傳感器作用范圍內時,傳感器能獲得目標量測信息,否則不能。
若調度平臺上主動傳感器(如雷達),則
Zk+1=h(Xk+1,ak,gk,wk)=[rk+1,θk+1,φk+1]Τ+wk,
(5)
式中:θk+1和φk+1分別表示方位角和俯仰角。
相似地,若調度平臺上被動傳感器(如紅外傳感器),則
Zk+1=h(Xk+1,ak,gk,wk)=[θk+1,φk+1]Τ+wk.
(6)
考慮到目標跟蹤系統中,狀態不能被完全觀測,引入目標信念狀態bk,以實現對目標運動狀態的持續更新[5],則定義信念狀態為
bk=p(Xk|X0,p0,Z1,…,Zk,a0,…,ak-1,g0,…,gk-1),
(7)
式中:X0和p0為目標初始狀態及其分布概率。
不同的應用場景,性能衡量指標往往不同。為此,結合戰場應用實際,本文引入3種性能指標,即目標跟蹤精度、傳感器輻射代價和切換代價,分別表征系統的目標跟蹤性能、生存性能和穩定性能:
1)目標跟蹤性能ρ(bk,ak,gk)。為了滿足跟蹤任務需求,需要協同調度各平臺各類型傳感器。對于雜波條件下的機動目標,由于當前時刻不能準確地獲知未來時刻的量測,較難準確地獲知其跟蹤精度。為此,引入后驗克拉美- 羅下界(PCRLB)指標,以表征其跟蹤性能。
2)傳感器輻射代價E(ak,gk)??紤]到主被動傳感器輻射電磁波的差異性,主動傳感器的輻射代價要大于被動傳感器。結合文獻[10],可假設被動傳感器的輻射代價為0,此外,由文獻[11]可知,不同主動傳感器的輻射代價也不同。
3)切換代價γ(ak-1,ak,gk-1,gk)。在傳感器調度中,為了獲得最優調度性能,系統常面臨頻繁切換問題,從而極大影響了系統穩定性和可操作性。為此,結合實際,引入切換代價[12]。顯然,不同平臺間的切換代價要遠大于同一平臺內傳感器的切換代價,下文分別簡稱為平臺切換代價和傳感器切換代價。
因此,定義短時代價函數為

(8)
式中:α表示平衡系數;en、cp和cs分別表示傳感器輻射代價、平臺切換代價和傳感器切換代價;δ(x,y)為指示函數,x=y時取值為0,否則為1.
相比于短時代價函數,長時代價函數能進一步提高系統性能??紤]跟蹤精度需求,構建長時代價函數的目標優化函數,即
(9)
式中:Ak:k+H-1={ak,gk,…,ak+H-1,gk+H-1},H為決策時長;ρd為任務需求對應的精度閾值。
傳感器長時調度包含兩種模式:開環調度和開環反饋調度,本文調度屬于后者,其調度流程如圖1所示。任意k時刻,調度中心根據目標優化函數獲得最優調度序列Ak:k+H-1,而后選擇第1個調度動作(ak,gk)實現目標信念狀態的更新。由于加入反饋環節,開環反饋調度的性能要優于開環調度,但其計算量也更高。
2.1基于交互式多模型概率數據關聯算法的信念狀態更新
為有效估計雜波環境下機動目標狀態、更新其信念狀態,引入交互式多模型概率數據關聯(IMMPDA)算法[13],其執行步驟如下:
1)相互作用。依據先驗信息,計算混合概率:
(10)

進一步,計算模型j的混合初始狀態及其協方差矩陣:
(11)
2)濾波。

(12)
式中:ZXk+1表示實際觀測值;l為最大有效區域對應的模型;ε為波門參數;|·|為求行列式。
若ZXk+1滿足(12)式,則將其作為候選回波;否則舍棄該觀測。
③ 估計模型j狀態。假設共有nk+1個候選回波,則
(13)
(14)

3) 更新模型概率。似然函數是nk+1個新息的聯合概率密度函數,即
(15)
式中:PD表示檢測概率;PG表示門概率;nz為觀測向量的維數;cnz為相應超球面體積。
進一步,更新模型概率,即
(16)
式中:πj為列向量;μk和c分別為模型概率和歸一化因子。
4) 目標信念狀態更新。估計目標狀態及其協方差矩陣
k+1)k+1)T],
(17)
更新k+1時刻目標信念狀態,即
bk+1~N(Xk+1;
(18)
考慮到當前時刻無法獲知未來時刻目標的量測信息,結合PCRLB理論,依據當前先驗信息,計算目標的狀態估計下界,并以此作為目標的預測精度,從而合理地調度傳感器以滿足跟蹤精度需求。
根據PCRLB理論,則存在
E(
(19)
式中:Jk為Fisher信息矩陣。
進一步,目標狀態轉移先驗概率密度函數為
(20)
式中:mk+1表示k+1時刻目標的運動模型。
Fisher信息矩陣遞推公式為
(21)
顯然,在k時刻無法獲知目標的運動模型。為此,依據k時刻的模型概率,以當前最大概率對應的模型作為目標預測模型[15],則
(22)
因此,機動目標跟蹤精度預測流程為
1) 根據k時刻信念狀態bk,獲得目標狀態估計k、協方差Pk及模型概率μk.

3)計算p(Xk+h|Xk)。再依據(21)式計算k+h時刻Fisher信息矩陣Jk+h.
考慮(9)式的優化模型,其共有(2N)H種傳感器組合。當N和H較大時,其計算量將是巨大的,難以滿足實時性要求。動態規劃具有廣泛的應用范圍,尤其適用于節點狀態及路徑代價已知的優化問題。然而,本文優化模型中各節點的狀態及其路徑代價取決于傳感器序列,不同傳感器序列,節點的狀態及路徑代價是不同的[16]。為此,提出改進的VA以滿足本文應用。
假設以傳感器節點狀態和決策步長分別代替VA的節點狀態和路徑長度。此時,VA的節點狀態不再是一個標量,而是包含了目標跟蹤誤差和使用代價的向量。相應地,路徑代價由前后傳感器節點實時計算獲得。為了進一步降低算法復雜度,考慮到被動傳感器的輻射代價為0,結合貪婪策略,當平臺被動傳感器能滿足要求時優先調度被動傳感器。
以N=3為例,改進VA搜索流程圖如圖2所示,其具體的執行步驟如下:
1) 初始化,根據目標信念狀態bk獲得k時刻目標狀態Xk及其協方差Pk.



利用上述步驟能夠快速求解最優傳感器調度序列,若不存在最優解,則采用以下原則:

2)若在執行步驟2時搜索不成功,即下一時刻所有傳感器均不能滿足跟蹤精度需求,則選擇跟蹤誤差最小的傳感器作為最優調度序列,以快速滿足精度需求。

考慮N=4個平臺在雜波環境下協同跟蹤一個機動目標,用M=3個模型來描述目標運動,模型1為勻速直線,模型2為左轉彎,模型3為右轉彎。假設目標初始位置和速度分別為(15 km,4 km,5 km)和(-280 m/s,-260 m/s,0 m/s)。進一步,假設采樣間隔τ=1 s,仿真時長為100τ. 在26~50τ時間內目標以角速度5°向右轉,在51~74τ時間內向左轉,其余時間做勻速運動。各模型初始概率為[0.8,0.1,0.1],不同模型之間的切換概率為0.025. 此外,假定雜波服從泊松分布,主動和被動傳感器的虛假量測密度分別為3×10-9個/(m·mrad2)和1×10-3個/mrad2,檢測概率為1,波門參數為4,門概率為0.999 7.
各平臺分布在Oxy平面內,均距離坐標原點5 km,相互間隔90°. 平臺上主動和被動傳感器探測范圍分別為60 km和10 km. 主動傳感器的斜距離標準差分別為100 m、50 m、50 m和20 m,方位角標準差分別為10 mrad、5 mrad、5 mrad和2 mrad,對應的俯仰角標準差與方位角一致。各平臺被動傳感器性能一致,其方位角和俯仰角標準差均為5 mrad. 各平臺主動傳感器輻射代價設為[1,2,2,3]。仿真實驗中,所有仿真結果均為500次獨立蒙特卡洛仿真取平均值。
3.2.1 不考慮切換代價
圖3為不同精度閾值和決策步長下的累積輻射代價。由圖3可知,隨著跟蹤精度閾值的提高,可以調度更多的被動傳感器滿足需求,因此其累積輻射代價更小。相同跟蹤精度閾值下,隨著決策步長的增加,其累積輻射代價更小,即系統能夠獲得更優的調度序列。此外,累積輻射代價隨著決策步長的增加,其下降幅度逐漸變小,而且決策步長越大其計算復雜度越高。因此在實際應用中,需要權衡各個要素,選擇合適的決策步長。
以跟蹤精度閾值ρd=50 m為例,表1給出了不同算法不同決策步長的搜索性能對比。表1中ES為窮舉搜索,UCS為標準統一代價搜索,表中UCS算法和改進VA的百分比為其相應的節點打開數與ES算法節點打開數的比值。圖4為UCS算法和改進VA的節點打開百分比。由表1和圖4可知,UCS算法以代價為順序進行搜索,有效提高了搜索效率,但其節點打開數依然較大且需要較大的存儲空間。相比于UCS算法,本文提出的改進VA能夠顯著地減少節點打開數、降低存儲空間。圖5為不同決策步長的累積輻射代價。圖5中,最優值對應的曲線是由UCS算法獲得(之后不再贅述),隨著決策步長增大,系統能夠搜索到更優的調度序列,使得其累積輻射代價更低,進而驗證了長時調度模型的必要性。此外,由于改進VA采用貪婪策略降低搜索空間,當決策步長H>1時,其只能獲得次優解,對應的累積輻射代價要略高于最優值。結合圖3可知,隨著決策步長增加,累積輻射代價下降幅度變小。因此,考慮到算法復雜度,之后的仿真實驗以H=4為例。

表1 算法搜索性能對比
為了驗證本文調度方法的有效性,引入隨機調度方法(RSM)、最近鄰調度方法(CSM)以及短時調度方法(MSM)進行對比。以ρd=50 m為例,圖6為不同調度方法下的目標均方根誤差(RMSE)對比。由圖6可見,RSM和CSM不能依據跟蹤精度閾值,自適應地調度傳感器滿足任務需求。而MSM和本文方法能夠根據閾值要求,自適應地調度傳感器以滿足任務需求。此外,由于目標機動,在模型切換階段,其RMSE不能滿足任務需求,符合實際情形。圖7為不同時間下的累積輻射代價。由圖7可知,在整個時間范圍內,RSM和CSM的累積輻射代價總體較高。本文方法(H=4)要優于MSM(H=1)。同時,考慮到本文方法采用改進VA,因此其累積輻射代價要略高于最優值。
圖8為本文方法下的平臺及傳感器調度序列。結合圖6可知,初始階段目標較遠且跟蹤誤差較大,為了滿足跟蹤精度需求,本文方法頻繁調度主動傳感器以滿足精度需求。隨著目標靠近平臺,系統頻繁地調度被動傳感器以降低輻射代價,從而解釋了圖7中在中間階段MSM和本文方法累積輻射代價幾乎不變的原因。當目標再次遠離平臺時,系統會再次頻繁地調度主動傳感器以滿足精度需求。因此,通過多平臺主被動傳感器協同跟蹤,能夠有效地滿足跟蹤任務需求、降低輻射代價。
3.2.2 考慮切換代價
由3.2.1節可知,不考慮切換代價時,雖然能夠獲得較低的輻射代價,但會頻繁地發生切換、穩定性差。為此,引入切換代價,以權衡系統輻射代價和切換代價。取平臺切換代價cp=1,傳感器切換代價cs=0.5. 圖9為不同平衡系數下累積輻射代價和累積切換代價的關系。由圖9可知:平衡系數較小時,系統更注重穩定性,其累積切換代價較??;當平衡系數較大時,系統更注重生存性能,其累積輻射代價較低。不失一般性,取平衡系數為0.6,以權衡系統累積輻射代價和累積切換代價。
圖10為不同方法下累積代價對比。由圖10可知,RSM和CSM的累積總代價較高,本文方法以多步預測進行決策,要優于MSM以單步預測進行決策。同時,由于最優值能夠搜索到更優的調度序列,其累積總代價更低。此外,引入切換代價,MSM、本文方法和最優值的切換代價相差無幾,均能較好地平衡系統累積輻射代價和切換代價。
圖11為考慮切換代價的平臺及傳感器調度序列。對比圖8可知,當不考慮切換代價時,調度過程中頻繁發生切換,其平臺切換次數為30.6,同一平臺內傳感器切換次數為16.0. 當引入切換代價時,其平臺切換次數僅為10.7,傳感器切換次數為21.8. 引入平臺切換代價后,調度過程中平臺切換次數明顯降低,更易實際實現。同時,由于平臺切換代價大于傳感器切換代價,為了降低系統輻射代價,根據目標函數優先調度同一平臺內的主動或被動傳感器。因此,在調度過程中,需要根據任務需求、綜合各個因素,選擇合適的平衡系數,以滿足任務需求及其實際應用。
本文建立了基于POMDP的傳感器長時調度模型,引入目標跟蹤精度、傳感器輻射代價和切換代價,構建了長時代價函數;給出了基于IMMPDA算法的目標信念狀態更新方法和基于PCRLB的機動目標長時精度預測方法,提出了改進VA搜索長時調度序列。得出以下結論:
1)所提改進VA以累積輻射代價略上升為代價,顯著降低了搜索空間和存儲空間。
2)不考慮切換代價時,與已有調度方法相比,所提長時調度方法能夠獲得更低的累積輻射代價,生存性能更優。
3)考慮切換代價時,所提長時調度方法累積代價更低,克服了傳感器頻繁切換、穩定性更好。