谷玉榮,黃耀雄,高 艷,郭 靜
(北方自動控制技術研究所,太原 030006)
現在航空與航天一體化預警、偵查、探測技術的飛速發展和以微電子技術、計算機技術、網絡技術、人工智能技術、通信技術等為基礎的信息技術在防空對抗領域的廣泛運用,形成了空、天、地一體化的情報信息。面對這些海量的數據,戰場指揮員如何高效分析戰場態勢數據,快速、精確地判斷出空中潛在威脅目標,將成為影響戰爭全局的極其重要的因素。本文利用數據挖掘中的K-Means均值算法對空中態勢信息進行深度聚類分析,及時準確地判明敵方行動意圖,可使指揮員全面、準確地掌握戰場態勢,快速找出威脅度高的目標,從而更好地保護重要作戰目標。
隨著防空對抗領域作戰節奏加快和作戰手段增強,敵方空中作戰部署對我方空中態勢的威脅越來越大。為了使指揮員不成為戰場態勢感知的“瞎子”和“聾子”,需要對空中態勢威脅因素進行深度挖掘,分析出威脅度最高的敵方目標。空中態勢威脅挖掘是從大量的戰場數據中獲取與空中態勢威脅有關的數據,利用屬性約簡的方法,合理選取威脅屬性特征并對其進行量化處理,結合數據挖掘的算法建立挖掘模型,確定敵方目標對我方陣地構成的威脅程度。目前,空中態勢威脅挖掘的研究成果主要集中在以下兩個方面[1],如圖1所示。

圖1 空中態勢威脅挖掘
其中,定性推理是戰場指揮員通過作戰指揮經驗和主觀能動性,對敵方具有威脅能力目標的狀態和行為進行細致觀察和分析,從而給出評價的方法,缺乏對客觀數據的分析;定量計算主要將威脅屬性特征的客觀數據進行數據探索和數據特征分布分析,通過離散化、標準化、歸一化等處理,建立數學挖掘模型,分析空中態勢目標威脅等級,具有客觀化、特征化、精確化等特點[2]。
Means聚類算法是在沒有給定目標分類的情況下,根據目標類內誤差最小化的距離相似度進行分組,是一種基于距離的非監督學習算法。即兩個目標之間的距離越近,相似度越大,聚為同一類的概率越大。在防空對抗作戰的態勢威脅挖掘中,敵方目標威脅的相似程度用目標之間的距離來描述,常用歐幾里得距離[3]作為K-均值聚類算法中相似性度量的準則。假如有n個敵方目標,每個目標對應的威脅屬性特征有m個,可以得到一個數據矩陣S。

其中,xik表示第i個目標的第k個屬性,dij表示第i個目標到第j個目標間的距離,則可得到兩目標之間的歐幾里得距離。

用K-Means聚類算法建模的主要算法過程如下[4]:
1)從雷達探測到的威脅屬性特征數據集中隨機選取M個樣本數據,從樣本數據中隨機抽取L個對象作為初始的聚類中心;
2)分別計算每個樣本到各個聚類中心的距離,將目標分配到距離最近的聚類中;
3)所有目標分配完成后,重新計算L個聚類的中心;
4)與前一次計算得到的L個聚類中心得到比較,如果聚類中心發生變化,轉2),否則轉5);
5)當質心不發生變化時停止并輸出聚類結果。
防空對抗態勢中敵方威脅屬性特征的樣本空間也可表示為 S=[x1,x2,…,xn],將 S 分成 L 類,聚類中心為 Z={z1,z2,…,zL},則樣本空間內所有樣本點與所屬聚類均值距離的總和用函數H表示,表達公式為:

目標函數H可以表現出空中態勢威脅聚類分析結果的特征,其值越小,則表示該類別中越相關、越獨立。聚類的過程就是使函數H擁有最小值。將式(2)和式(3)可得聚類結果公式:

隨著防空對抗戰場環境日益復雜,作戰目標類型多樣化,指揮員很難以主觀經驗對來襲目標作出較為合理的判斷,因此,對威脅屬性因素進行挖掘研究顯得越來越重要。文獻[5]將神經網絡理論用于防空指揮系統的威脅值分析中,經過仿真驗證,將專家評估的威脅值和通過神經網絡算法得到的威脅值進行了對比,得出利用神經網絡算法可以提高威脅估計算法性能的結論;文獻[6]提出了將熵權灰色關聯法與D-S證據理論結合起來的空中威脅評估方法,確定了指標權重的Mass函數,從客觀上提高威脅評估的不確定性。文獻[5-6]的威脅評估都是在已知敵方目標威脅值的情況下對算法進行改進,提高威脅評估的準確性,沒有對威脅目標進行聚類分析,判斷威脅等級的情況。在實際戰場中,由于戰場情況復雜多變,受保護的目標眾多,并且面臨的威脅源的種類和數量也會隨著時間在變化,因此,對敵方目標威脅程度進行聚類很有必要。空中態勢目標威脅挖掘模型如圖2所示。
對防空戰場上所有原始數據進行收集,將這些數據進行融合,抽取出和空中態勢威脅屬性因素有關的數據,并將數據的格式轉換成數據挖掘需要的CSV格式。
對固定CSV格式的空中態勢威脅屬性因素的數據,進行分布特征探索分析,得到我方目標和敵方目標的分布特征,排除掉我方空中目標的數據。
經過數據探索處理后的數據,保留的是敵方空中目標威脅屬性因素的數據。這些數據從質量上分析,難免存在一些空缺數據、噪聲數據、異常數據等“臟數據”,不能很好地反應整體數據的特征,在建模的過程當中,可能對最后挖掘結果的精度產生很大影響。因此,需要對數據進行預處理,主要包括缺失值和異常值的處理[7]。缺失值處理是利用刪除法、替換法和插補法等方法對無法知道或沒有搜集的數據進行處理。異常值處理是利用刪除法、平均值修正法和插補法等方法對明顯偏離的數值進行處理[8-9]。
本文的空中態勢目標威脅挖掘模型建立中,缺失值處理采用拉格朗日插值法進行插補。首先確定因變量和自變量,取出敵方態勢威脅屬性因素缺失值前后的若干數據,將取出的這些數據組成一組,利用拉格朗日多項式式(5)和式(6)對全部缺失數據進行插補。異常值視為缺失值,也利用拉格朗日插值法進行插補。

其中,x為缺失值對應的下標序號,Ln(x)為缺失值的差值結果,xi為非缺失值yi的下標序號。
對預處理過后的空中態勢威脅屬性因素進行分析,得出威脅挖掘指標體系,主要從作戰意圖、作戰效果和作戰能力3個方面進行描述,如圖3所示。

圖3 空中目標威脅挖掘指標體系
從空中目標威脅挖掘指標體系中可以看出,一方面由于威脅因素種類繁多,因素之間的關聯性復雜,若要把所有的威脅因素考慮進去,得出目標威脅程度與所有因素之間的關聯關系,容易產生組合爆炸,使計算量增加,問題變復雜,導致挖掘結果不易實現;另一方面在激烈緊張的實際防空對抗戰場環境下,時間對于指揮員來說是很寶貴的,因此,選取對威脅評估影響較大的威脅因素進行挖掘。本文選取目標速度、目標距離、目標高度、編隊數量的定量指標和目標類型、敵我識別、抗干擾能力的定性指標進行聚類挖掘。
1)目標類型T。目標類型體現出目標的攻擊能力,在實際防空對抗作戰中,不同目標類型對我方同一陣地的威脅程度是不一樣的。同一目標類型,由于受到目標的速度、航向角、攜帶武器數量和被保護區域的重要程度等因素的影響,威脅程度也是不同的。一般情況下,導彈等小型目標威脅程度最大,轟炸機等大型目標威脅程度次之,直升機目標威脅程度最小,加油機、運輸機等輔助作戰飛機無威脅度。
2)目標速度V。實際作戰中,同一目標的速度會隨著時間而變化,目標速度越快,給指揮員反應的時間越短,對我方要保護的目標殺傷力越大;反之,目標速度越慢,殺傷力越小。
3)目標距離D。目標距離我方要保護的軍事設施越近,威脅程度越大。
4)目標高度H。目標高度越低,對我方目標發起的突然攻擊率就會越高,相應的威脅程度就會越大。
5)編隊數量N。敵方目標的編隊數量越多,對我方軍事設施的威脅程度越大。
6)干擾特性M。敵方目標干擾性越強,越不利于我方雷達的探測,更容易對我方保護重地造成突然襲擊,增大威脅程度。
根據以上選取的6項威脅因素,建立的目標威脅公式為:

數據變換是進行空中態勢威脅程度挖掘關鍵的一步,由于威脅因素取值范圍不同,數值變化很大,對威脅因素進行相關性分析時,需對數據進行歸一化處理,使威脅因素的取值處于相似區間。上述各威脅因素取值范圍如表1所示。
對威脅因素的數值采用G.A.Miller進行9級量化論的歸一化處理。目標類型定義4種屬性,分別為大型目標(9)、小型目標(6)、直升飛機(3)、援助飛機(1);敵我識別定義2種屬性,分別為敵、友(0、1);目標速度按0 m/s~2 700 m/s等間隔量化為1-9;距離按0 km~540 km等間隔量化為9-1;高度按1 km~54 km等間隔量化為9-1;編隊數量按1-18等間隔量化為1-9;干擾能力定義4種屬性,分別為強(9)、中(6)、弱(3)、無(1)。
本文選取的是經過一定處理后的45組空中態勢威脅屬性因素的真實數據,將威脅度分為低、中、高3個等級,用R進行仿真實驗。其中,一部分數據如圖4所示。

表1 威脅因素取值范圍

圖4 空中態勢威脅屬性因素值
按照建模步驟,對空中態勢威脅屬性因素進行數據探索、預處理分析和數據規約和數據變換,可得下頁圖5所示數據。
用K-Means聚類算法進行聚類分析后,可得聚類結果如圖6和圖7所示。從圖6可以看出,空中態勢威脅等級聚類分成3大類。從圖7可以看出目標威脅程度為 1、2、3 的聚類個數分別為 2、12、3。其中,威脅程度為1的飛行高度的聚類中心為1.000 000 km,發現距離的聚類中心為3.500 000 km,飛行速度的聚類中心為5.000000m/s。威脅程度為2的飛行高度的聚類中心為7.583 333 km,發現距離的聚類中心為6.250 000 km,飛行速度的聚類中心為1.500 000 m/s。威脅程度為3的飛行高度的聚類中心為4.000000km,發現距離的聚類中心為7.666 667 km,飛行速度的聚類中心為6.333 333 m/s。從圖7中也可以看出敵方目標的威脅等級排序,將導彈等小型目標聚類成一類,轟炸機等大型目標聚類成一類,加油機、預警機等聚成一類。

圖5 變換后態勢威脅屬性因素數據

圖6 空中態勢威脅聚類

圖7 空中態勢威脅等級聚類結果
本文通過利用K-Means聚類算法對空中態勢威脅進行了聚類分析,將定量指標和定性指標相結合,利用客觀數據和專家經驗,確定聚類中心值,較合理地判斷出敵方目標的威脅等級,適用于大規模數據、數據類型豐富和數據價值巨大的情況,為作戰指揮員進行實時決策提供有力支撐。雖然K-Means聚類算法理論嚴謹,處理數據實時性強,但聚類中心值的選擇及真實情況中不明目標因素的存在,將對算法結果準確性產生較大影響。本文后續將進一步研究K-Means算法在聚類中心值選取和不明目標因素存在情況下的聚類分析,優化完善K-Means算法在空中態勢威脅挖掘中的應用。