成磊峰 張 颋 代 翔
(1.中國西南電子技術研究所 成都 610036)(2.解放軍73636部隊 福州 350000)
當前,目標分析主要建立在高價值、小數據的分析基礎上,數據掌握的不夠充分,無法保障分析的全面性和準確性。目標識別分析依賴于用戶的經驗總結,主要通過業務規則來實現。對多元目標數據的挖掘分析,深度利用層次比較低,潛在的內涵規律挖掘不足等問題比較突出。面對眾多的情報信息,目前雖然大部分處理系統已初步實現“態勢一幅圖”,但仍處于“有態無勢”的局面,且對當前狀態缺乏解讀,僅僅是當前態勢的簡單展示,數據決策支持能力嚴重不足。因此,需要以目標畫像為需求牽引,針對大數據背景下目標行為分析與識別問題,開展深度學習框架中的模型訓練、自主學習、知識維護、信息反饋等內容的研究工作,針對已掌握行為意圖的目標數據,利用數據智能挖掘分析算法,提取隱含在數據中的、事先未知的、而又潛在有用的目標信息。
在過去的幾年里,由深度學習發展而來的一些科學技術對信號和信息處理的各個方面都產生了深遠的影響,這種影響不僅存在于傳統領域,也存在于諸如機器學習[1~3]和人工智能等一些重要的新興領域中。當前工業界并未大范圍的使用深度學習[4~6]作為目標檢測的技術,主要原因是因為傳統的模型仍然能夠滿足客戶需求,加之普遍情況下,目標檢測的條件并不是非常苛刻,即大部分場景下的目標辨識度高,機器的識別效率高,如交通行人檢測,醫學生物等目標檢測,而傳統模型也具有數學理論完備,硬件資源要求低,模型參數易向客戶解釋等特點。
傳統的目標檢測模型[7~13]有基于貝葉斯的概率模型、模板匹配、核技巧、集成學習方法。1)貝葉斯模型:學習數據的特征計算后驗概率,根據后驗概率的大小進行判別分類,基本思想是最優化某個損失函數,得出模型的參數,再用學習到的模型參數去泛化其他樣本數據。2)模板匹配:定義某種實現特定功能的模板,通過判斷模板與樣本的匹配程度來識別目標。這種方法需要根據感興趣目標的先驗知識來構造合適的模板。3)核技巧:是基于核函數的方法,典型的如支持向量機,將原始數據轉換到高維空間,利用多個超平面將數據劃分為多個類。4)集成學習:先學習若干個弱機器學習模型,然后通過某種結合規則將這些弱機器學習模型結合起來,通過這種強化獲得比單一模型更好的效果,如bagging算法,Adaboost算法等。
為此,本文提出了一種基于動態行為特征學習的目標識別分析方法,該方法針對具有時空屬性的數據,通過目標數據預處理、目標特征建模、特征深度學習,實現對空中目標的識別分析,以輔助形成目標的全維畫像,提升對空中目標的認知能力。
數據清洗與標注,包括數據格式轉換、基礎標簽化和數據質量優化。
數據格式轉換,通過關系型數據庫的數據導入工具,來實現對常用文本格式excel、txt等半結構化的數據格式轉換。
基礎標簽化,主要實現對數據進行時空打標,以及基于業務規則進行初級業務打標。
數據質量優化,包括數據標準化、缺失值處理、數據去重和野值剔除。數據標準化,針對數據字段不一致的數據,依據元數據中的信息生成一個標準映射表,按照統一后的標準對不一致的數據字段進行轉換。錯缺項的處理策略,處理方法有:1)使用一個全局的常量填充,如缺省值等;2)對某一類屬性值進行簡單計算或推斷后填充錯缺項。常用方法包括使用形式值、平均值(連續變量)、數據的分布特征(統計規律)等;3)用其它字段屬性值來推測錯缺項值;4)使用最有可能的值填充,主要途徑通過數據挖掘技術建立一個預測模型,主流技術有回歸、貝葉斯分類或判定樹等技術,利用已有數據的多維信息來推測錯缺項,然后按照這個模型的預測結果添值。數據去重處理策略,當檢測到重復記錄后,采用下面的規則進行剔除操作:1)保留字段項比較全的記錄;2)保留無錯誤的記錄;3)保留最新的記錄。野值剔除,針對穩定性好,位置連續的目標航跡數據,采用濾波的方式,剔除航點;針對穩定性差,精度不太好的目標航跡數據,采用運動準則剔除航點,即兩個點之間的距離<=定位時間差*最大運動速度。
基于各類目標數據的結構化特征選擇結果,在業務知識和規則的指導下,將各類情報貢獻的特征要素進行疊加、關聯[14],完成以目標為中心的多源情報的關聯匯集。多元數據關聯,分關聯分粗關聯和精關聯兩步,關聯結果分為臨時關聯對和固定關聯對兩種。粗關聯準則:如果目標型號、目標名稱、機弦號、呼號、地址碼等能夠表明目標身份的屬性不為空,則按照目標的身份屬性進行關聯;目標敵我屬性已知的,作為關聯的一票否決條件,即敵方目標與我方目標一定不存在關聯關系。精關聯準則:對利用粗關聯準則關聯上的目標,再利用時間、位置信息進行判斷,如果目標出現的時間差和距離滿足閾值要求,則認為是同一個目標,輸出關聯結果。
通過定義目標特征學習所依賴的字段來解決,主要標注或提取的信息,形成特征數據集。基于目標識別場景,對目標特征數據集進行組合,形成目標識別特征模型要素,選取的特征要素包括速度、高度、加速度、爬升率、起飛機場、降落機場、高度區間、速度區間、航線起點、航線終點、起飛時段、降落時段、飛行時長等特征。
通過特征選擇,一些和應用無關或者冗余的特征被刪除,簡化的數據集常常會得到更精確的模型,也更容易理解。針對選擇后的特征要素,根據不同的應用場景選擇不同的網絡模型進行訓練,通常使用的網絡模型有決策樹、隨機森林、支持向量機和卷積神經網絡等。本文針對空中目標識別,采用的是隨機森林模型。
將總數據集X分成集合X1和X2,其中X1作為訓練集,用于訓練分類器[15],其中X2作為測試集,用于分類器測試。本文采用隨機森林作為網絡模型進行模型訓練。對訓練樣本集X1={xi},其中i=1,…,N。在隨機森林中決策樹數目為K,共有可選擇特征M 和類別總數為F,決策樹k(k ∈{1,…,K}),執行如下操作:
1)采取bootstrap 方式[16]對樣本進行取樣,產生n個子集;
2)從根節點開始,在每個節點分裂過程中,從M個可選特征隨機挑選m個,比較節點中m 個特征的信息熵值,進行最優分裂;
3)當到達最大深度Dmax時,或者訓練樣本數目小于閾值Nmin時,停止繼續分裂,生成分類器γk(x)。
對整個隨機森林反復迭代執行上述操作,形成隨機森林最終模型。
針對歷史目標數據,首先,對目標數據進行預處理,形成目標特征數據集;其次,對目標特征數據集進行特征組合,形成業務應用的目標特征模型要素,并抽取已標注的樣本數據作為訓練數據;然后,基于深度學習算法,使用樣本數據來訓練深度學習網絡,通過反復特征替換計算準確率和召回率,選取評估結果最好的網絡模型進行輸出;最后,基于目標特征數據訓練后的特征識別模型,進行目標識別。

圖1 目標離線分析流程圖
針對實時接收到的目標數據,經過數據清洗處理后,推送實時計算引擎,計算目標識別的特征要素,并調用訓練后的模型作為預測器進行目標實時識別分析,輸出識別機型結果和準確率。

圖2 目標實時識別流程圖
下面通過使用Matlab軟件,利用某年度的測試數據進行目標實時識別仿真實驗。通過數據預處理,抽取的目標行為特征數據集,針對目標機型識別應用場景,結合數據情況,形成目標機型識別的特征模型要素包括:最小轉彎半徑、最大減速度、運動最小高度、平均運動速度、平均加速度、運動平均高度、運動最大高度、最大轉角速率、拐點占比、平均下降加速度、平面最小速度、最大加速度、最小運動速度、平均爬升加速度、平均爬升減速度、軌跡總長度、最大爬升加速度、平均減速度、運動總時長。
根據隨機抽樣原理,隨機選取全年度70%的數據作為訓練數據,隨機選取全年度30%的數據作為測試數據,采用隨機森林模型進行訓練,訓練之后的目標特征,經過降維處理后的原始特征曲線,如圖3所示。

圖3 目標原始數據特征曲線圖
針對降維后的特征曲線,經過去噪光滑處理后得到的曲線,如圖4所示。

圖4 目標數據特征曲線圖
從圖3、圖4可以看出,所選特征集在一定程度上有效區別所需要分析的空中目標。利用訓練后的目標機型識別模型,針對實時目標數據進行識別處理,識別準確率變化情況,如圖5所示。

圖5 目標識別準確率隨時間變化曲線圖
從圖5 可以看出,根據選取的特征要素,識別準確率隨著目標活動時長而增長,在數據采集15分鐘后空中目標識別準確率穩定在80%以上。
本文針對空中目標識別強依賴業務規則的現象,利用結構化、非結構化等類型的目標數據,創新性的利用深度學習技術,以數據驅動的思維從動態行為特征維度,探索目標數據特征表達的新思路,豐富了目標數據認知維度,拓展了目標歷史行為規律挖掘分析的途徑,輔助目標活動的趨勢判斷和意圖預測,提升了目標分析認知能力。通過數值仿真試驗,可以看到不依賴于業務規則,僅以數據角度可在一定程度上解決目標識別問題。由于本文在分析計算時,僅僅考慮數據模型,沒有添加業務規則識別流程,以及受實際樣本數據的限制,所以,目標識別準確率有待于進一步完善。