李 維 ,萬曉冬
(1.南京航空航天大學 自動化學院, 南京 211100;2.通信網信息傳輸與分發技術重點實驗室, 石家莊 050000)
近年來,軍用無人機迅速發展成了一種新型武器,在幾次高技術局部戰爭中發揮了重要作用。美軍在海灣戰爭、科索沃戰爭、阿富汗戰爭、伊拉克戰爭中對無人機的大量軍事運用,特別是“捕食者”直接發射導彈攻擊地面目標,更是將無人機的發展與使用推向了新的高潮[1-2]。
在現代空戰中,無人機需具備自主作戰的能力。在實際作戰中,指揮員難以處理大量的戰場信息,無法滿足作戰的實時性和適應性的需求;并且為了應對UAV 與地面任務控制站之間可能出現的通信中斷等突發狀況,提高作戰無人機自主決策能力是適應現代化戰爭的必然趨勢[3-4]。
目前關于自主決策的方法有許多,如神經網絡、基于黑板模型、基于案例推理[5-7]。為了充分利用指揮員已有的作戰經驗以提高無人機自主決策的能力,本文提出基于知識庫的自主決策方法。將指揮員的作戰經驗以特定的方式存入知識庫。無人機將結合作戰任務、目標狀態以及系統狀態,依據知識庫中的作戰規則來制定一系列的作戰行動。
無人機自主決策過程是對人腦思維模式和思維過程的模擬,其核心是知識庫。知識庫包括了模型庫(事實庫)、評估模型、規則庫。無人機平臺將傳感器系統的輸出處理為對狀態的認知,然后通過知識庫來決定作戰行動。知識庫好比指揮員的大腦,存儲了作戰經驗,比如攻擊煉油廠時,較好的攻擊武器是AGM-65“小牛”空地導彈,因為這類帶導彈擊中目標后容易引起大火,以達到最好的攻擊效果。這類簡單直接的知識經驗很難用算法或者數據模型表達,若直接以if的方式鑲嵌到控制主系統中,將增大決策系統的耦合性,使系統變得臃腫不可維護。所以本文將上述類的作戰經驗以規則的方式存儲在知識庫中的規則庫中,將規則與程序隔離。還有些作戰規則是針對模糊的判斷做出的選擇,比如敵方目標對我方威脅度大,應立刻對其采取措施。其中威脅程度的大小是指揮員根據目標信息以及我方狀態得到的模糊的主觀評估,如何表達這樣的評估知識也是構建知識庫的重點。
無人機自主決策流程如圖1所示。模糊化是對傳感器數據進行模糊化處理,得到連續變量的隸屬度,然后傳遞給貝葉斯網絡進行評估。動態貝葉斯評估網絡根據各項評估模型建立對應的貝葉斯網絡,輸入離散變量與模糊后的連續變量證據,結合知識庫中的專家經驗得到評估結果。推理引擎根據輸入的事實與評估當前狀態的評估結果,與規則庫中的規則進行匹配,若匹配成功,執行相應的決策結果。

圖1 無人機自主決策流程圖
無人機平臺在執行任務的過程中利用其自身的傳感器(如雷達、敵我識別器、電子支援設備等)對來自戰場的信息進行采集,采集戰場信息經過各傳感器的響應處理后形成對戰場信息不同的表達,如戰場目標的類型,特征,敵我屬性等。這些戰場信息經過傳感器信息的處理和知識表達之后,無人機利用所建立的相應貝葉斯網絡對傳感器信息和數據庫信息進行融合,并將評估結果輸入規則引擎,規則引擎結合自身情況、數據庫信息以及各方面評估效果做出戰術性決策,決定下一步的行動。
知識庫是自主決策系統的核心部分。知識庫包括了模型庫(事實庫)、評估模型、規則庫。
模型庫主要存儲目標、無人機平臺、任務載荷的參數信息。
其中目標主要指地面實體,包括動態實體與靜態實體單元。動態實體主要指具有機動能力的作戰實體,如坦克、裝甲車輛;靜態實體主要指靜止的建筑、工事,如橋梁、指揮所、煉油廠等。
無人機的任務載荷主要涉及三類,分別是偵察監視載荷、武器載荷、干擾載荷。其中偵察監視載荷主要用于對目標進行搜索、識別跟蹤等。可通過測量與分析提供目標的類型、位置、速度等信息,并提供武器瞄準、發射所需數據。武器載荷指在無人機上進行投射用于攻擊敵方目標的武器裝備,根據用途可分為航空火箭彈、航空炸彈、制導炸彈、空空導彈、空地導彈等。進行武器載荷選擇時可根據任務類型攜帶相應的武器型號,由于選定的無人機平臺載重有一定的限制,所以對攜帶的武器數量也有相應的約束。干擾載荷是指為無人機提供電子防護,還可用來干擾敵方雷達與攻擊武器的裝備,其中電子干擾機可與對敵方雷達進行壓制,降低敵方搜索能力;另一種是干擾彈,如紅外干擾彈,用于制造假目標,可誘騙敵方發射的紅外制導方式的武器,使無人機躲過敵人的攻擊。
這些實體與裝備模型可用動態與靜態兩種參數描述。動態參數用于描述當前各實體的運動狀態、工作狀態、評估結果、屬性,其可作為條件用于觸發決策規則;靜態參數包括各實體的重量、長度、體積、適用距離等常識性知識,用于決策過程中進行與實際情況對比參考。
規則庫存放的是專家經驗的決策知識,描述不同態勢與戰斗階段下無人機應做出怎樣的行動。為了對規則進行統一的存儲管理,需要對作戰規則進行形式化描述。因此選擇何種描述方法成為建立規則庫的關鍵。
規則庫采用產生式規則來描述作戰經驗知識,有作戰經驗的軍事人員將對地攻擊時用到的推斷與決策經驗總結出的一套戰術描述,作為制定產生式規則的基礎,然后經過專家的分析和改進,去掉冗余的態勢判斷,補全未知情況下的行動措施,最后建立邏輯全覆蓋、合理完善的規則庫。
產生式規則由條件(IF)和結論(THEN)兩部分組成。具體結構如下:
if 子句 1 or/and 子句 2
then 子句 3 or/and 子句4
通過深入研究無人作戰活動的分類特點和組織形式,建立了將無人機各模塊屬性、狀態、行動相結合的規則模型。
事實庫中使用面向對象的方法定義各個領域:目標、無人機平臺(包括武器系統、雷達系統、飛控系統),環境等。根據實體的功能定義不同的狀態信息與數據信息。規則的前件包括對象的屬性以及狀態信息,屬性信息是對當前數據的表示,狀態信息確定了當前作戰階段,可用于控制流程;后件部分描述對情況下應采取的作戰行動。決策時,使用Rete算法進行前向規則匹配[8],當滿足前件條件時,則觸發規則,執行后件動作。表1是部分規則示例。

表1 規則示例
在戰場中,指揮員需要根據戰場中態勢進行決策。例如敵方目標對我方產生較高威脅時,應立刻對該目標采取應對處理。判斷目標的威脅程度,即對傳感器得到而數據進行融合形成對當前態勢的描述,如何對這類評估知識進行表達是本章的主要內容。
本文采用了動態貝葉斯網絡(DBN)[9]來進行戰場態勢的評估,包括目標威脅評估、打擊效果評估等。下面將以基于DBN的目標威脅程度評估模型為例。
運用貝葉斯網絡進行威脅評估,首先需要確定影響目標威脅程度判斷節點因素及其狀態,即確定貝葉斯網絡中的時間節點及其對應的狀態;然后按照各事件之間的因果關系建立節點間的有向弧,表示事件之間的層次關系;然后確定貝葉斯網絡參數,及網絡中各節點的先驗概率或邊緣概率;最后選擇合適的算法進行推理[10]。
影響地面目標威脅程度的因素是多樣的,結合空對地作戰的實際,得到影響目標威脅評估的因素主要包括目標企圖、目標毀傷能力、我方目標價值、目標面向速度、目標距離、方向、干擾能力、目標類型。基于靜態貝葉斯網絡的目標威脅評估網絡圖2,其對應的節點狀態如下:
目標威脅程度(TH):高(H),中(G),低(L);
目標企圖(IN):火力攻擊(A),預警探測(S),防空攔截(P),電子干擾(E);
毀傷能力(DE):強(S),中(M),弱(W);
我方價值(VA):高(H),較高(E),中(M),低(L);
面向速度(V):快(Q),中(M),慢(S);
距離(S):遠(F),中(M),近(C);
方向(D):靠近(E),遠離(L);
干擾能力(G):強(H),中(M),弱(L);
目標類型(T):雷達(T1),裝甲車輛(T2),導彈陣地(T3),高炮陣地(T4)。

圖2 目標威脅評估網絡圖
在實際作戰過程中,目標的狀態信息不是一成不變的,若只以某一時刻的信息作為后續決策的判斷依據將會造成巨大的誤差。所以本文采用了動態貝葉斯網絡,在靜態貝葉斯網絡中加入時間節點,將前一時刻的評估結果作為后一時刻的評估依據,能夠將歷史信息與最新的證據信息結合,提高評估系統的實時性與魯棒性。
在實際中,由于戰場信息的高度保密性,很難獲取大量的樣本數據進行貝葉斯網絡參數的學習,因此本文采用專家知識來完成貝葉斯網絡的參數模型,并在實驗中不斷優化參數,使其接近真實狀態。
在本文中的無人機自主決策作戰仿真過程中,當無人機發現并鎖定目標后,獲取目標的類型、運動路徑、當前位置等信息,加入無人機平臺的目標集,決策模塊通過規則匹配,觸發目標應對規則,無人機平臺根據獲取的目標信息進行威脅評估,并根據相應規則決定是攻擊、躲避還是忽略。若需要對目標進行打擊,觸發武器選擇規則,根據目標類型、武器載荷等約束選擇合適的武器進行打擊,打擊結束后進行打擊效果評估,根據評估結果決定是否進行二次打擊;若目標威脅程度大,敵我勢力懸殊,無人機需要對目標的攻擊進行躲避,根據電子對抗規則,若被敵方雷達鎖定,可釋放金屬箔條對雷達進行干擾,若敵方目標發射紅外導彈,可使用紅外干擾機或紅外誘餌,在電子對抗的輔助下進行機動動作對敵方的攻擊進行規避,能有效逃離敵方的壓制;若目標威脅程度低,無人機可忽略該目標繼續進行原偵察任務。在整個過程中,沒有依賴地面站的控制,無人機平臺一直循環更新目標、態勢等信息,并根據獲取的信息不斷匹配相應的規則,整個作戰流程根據無人機平臺以及目標的狀態信息按照相應的規則進行驅動,完成自主決策。該決策過程流程如圖3所示。

圖3 自主決策流程圖
針對上述自主決策流程,進行無人機執行簡單察打任務的仿真實驗實例。
3.2.1 作戰想定
我方無人機在警戒區域執行偵察任務時,敵方裝甲車輛向我方軍事要地秘密潛入,且行進速度較快。已知敵方裝甲車輛進入無人機探測范圍。
3.2.2 實驗平臺
本實驗使用的是基于Agent[11]的仿真軟件:Repast[12]。實驗中,進行簡單的戰場仿真[13],并創建兩個實體模型:UAVAgent與TargetAgent。TargetAgent代表我方察打無人機,具有探測、決策、打擊功能;TargetAgent代表敵方裝甲車輛。下面主要介紹無人機Agent的構建。
無人機Agent主要由五部分構成,分別為無人機平臺、機載雷達模塊、飛行控制模塊、火力控制模塊、輔助防御模塊。
無人機平臺:主要由無人機決策系統構成,無人機通過機載雷達模塊獲取目標及環境信息,所獲信息進入由動態貝葉斯與規則推理組成的決策系統,得出決策結果,飛行控制、火力控制、輔助防御模塊根據該結果執行相應的動作。
機載雷達模塊:該模塊執行的動作包括敵方地面目標的搜索、目標識別、目標跟蹤、獲取目標位置、速度、方位信息、目標指示等。這些動作的執行根據無人機平臺的任務以及雷達模塊工作狀態由相應的目標探測規則觸發。 雷達模塊根據雷達的相關參數,主要包括工作頻率、天線增益、發射機峰值功率、探測范圍、發現概率、虛警概率等。當目標進入雷達探測距離后,并不一定能發現目標,可以通過產生一個范圍為0到1的隨機數,將該數與發現概率相比較,若該隨機數大于發現概率,則目標為被發現,若小于發現概率,則判定雷達探測到該目標。
飛行控制模塊:無人機的機動主要包括無人機平飛、轉彎、俯沖、等動作的執行。大多數無人作戰飛機所需的升力基本全部來源與機翼上下面壓力差形成的升力,沒有飛行速度,光靠氣流吹襲產生的升力是遠遠不夠的,所以無人作戰飛機在鎖定目標后,并不能執行懸停動作,這樣,無人機平臺機動就可能導致敵方目標脫離機載偵察設備的視場范圍。仿真實驗中,無人機不做復雜的機動動作,在向目標點飛行時,主要采取直線平飛。當在某區域執行偵察任務時,開啟巡航模式,即航行軌跡為圓周。當無人機偵察到敵方目標時,為保持目標在視場范圍內執行定常盤旋動作。
火力控制模塊:當無人機發射導彈后,導彈并不一定能夠擊中目標,可以通過產生一個范圍為0到1的隨機數,將該數與導彈殺傷概率相比較,若該隨機數大于殺傷概率,則目標未被擊中,若小于殺傷概率,則判定該目標被擊中。目標被擊中后不一定能被摧毀,因為目標會有一定的裝甲、抗損傷能力,可將目標裝甲能力用0到1之間的值標定,將其與導彈殺傷力的乘積通過閾值比較進行實際毀傷定性判定。
輔助防御模塊:該模塊主要動作是壓制性干擾和防御干擾。當無人機為躲避敵方地面警戒雷達探測時,通過自衛干擾設備進行壓制性干擾躲避敵方的探測與跟蹤。當無人機被敵方警戒雷達鎖定后,根據敵方發射導彈類型選擇釋放箔條彈或者紅外干擾彈,以躲避敵方導彈的攻擊。
3.2.3 實驗結果
UAVAgent的決策日志見表2,仿真展示見圖4,整個決策流程通過改變無人機平臺與目標的狀態控制流程,其對應的狀態值記錄如表3。

圖4 仿真展示圖

表2 決策仿真日志
Tick1時刻,Target進入UAV的雷達探測范圍內,UAV的目標隊列中加入該目標,由表3可見此時Target處于被警告狀態,觸發UAV目標應對規則庫的相應規則,對Target進行威脅評估;Tick2時刻,威脅評估完成,Target處于評估完成狀態,威脅評估結果為高,Target的威脅狀態置為高,此時UAV觸發目標打擊規則,對目標進行打擊準備;Tick3時,Target處于打擊準備狀態,武器分發為等待狀態,觸發武器選擇規則,并按照相應的武器選擇規則進行打擊武器選擇;Tick4時,武器選擇完成后,武器分發狀態為已分配狀態;Tick5時刻,Target處于UAV打擊范圍內后,觸發相應打擊規則,進行武器發射,如圖4(b);Tick6時,打擊結束,Target處于已攻擊狀態,觸發相應毀傷評估規則,進行打擊效果評估;Tick7時,打擊效果達標,目標處于被摧毀狀態,觸發相應規則,UAV的目標隊列中Target被移除,打擊任務完成,如圖4(c)。在上述仿真過程中,UAVAgent通過感知并使用評估網絡獲取當前態勢,設置各模塊的狀態值并觸發相應的規則,做出對應的行動,動作完成時改變各模塊狀態值,觸發新的規則,以此不斷推進任務的完成,完成自主決策。

表3 狀態值記錄表
結合人腦的思維模式和思維過程,提出基于知識庫來實現無人機的自主決策。知識庫主要用以存儲軍事作戰經驗。通過規則匹配的方式進行決策,能避免神經網絡等理論進行模型構建帶來的困難和一些不確定因素,而且從實驗看,此決策過程是可行的。下一步工作是對無人機領域模型的完善,并加入環境態勢,提高無人機復雜態勢下的自主決策能力。