趙 辰 王壽鵬,2 梁甲慧
(1.國防大學(xué)聯(lián)合作戰(zhàn)學(xué)院 石家莊 050084)(2.陸軍勤務(wù)學(xué)院 重慶 401331)
演訓(xùn)數(shù)據(jù)作為對演訓(xùn)活動實時態(tài)勢的描述,完整地記錄了演訓(xùn)活動的全過程、全要素、全流程,不僅可用于復(fù)現(xiàn)演訓(xùn)過程,在經(jīng)過數(shù)據(jù)分析和挖掘后生成提煉的作戰(zhàn)行動標準和認知數(shù)據(jù),還可為檢驗認證方案計劃、裝備效能、人員能力和水平提供決策依據(jù)[1]。關(guān)聯(lián)挖掘是利用數(shù)據(jù)挖掘的思想,在不同種類的海量數(shù)據(jù)中發(fā)現(xiàn)有關(guān)聯(lián)性的、有價值但不明顯的有效信息,這種從數(shù)據(jù)中挖掘提取信息的過程就是在進行一種探索性的數(shù)據(jù)分析[2]。在裝甲分隊演訓(xùn)中進行嵌入式數(shù)據(jù)采集,能夠在實裝上生成數(shù)量龐大、豐富多元的演訓(xùn)數(shù)據(jù)。對這些數(shù)據(jù),需要使用科學(xué)的方法加以挖掘分析,以定量描述和定性描述結(jié)合的方式反映作戰(zhàn)行動的質(zhì)量[3],達到對演訓(xùn)效果的準確評估。
數(shù)據(jù)挖掘涉及數(shù)據(jù)庫技術(shù)、機器學(xué)習(xí)、統(tǒng)計學(xué)、高性能計算、神經(jīng)網(wǎng)絡(luò)、模式識別、數(shù)據(jù)可視化、信息檢索等多學(xué)科的技術(shù)集成[4]。其最常用的分析方法主要包括分類、聚類、回歸分析、關(guān)聯(lián)規(guī)則挖掘和數(shù)據(jù)特征分析等[5]。其中,利用關(guān)聯(lián)規(guī)則對數(shù)據(jù)進行挖掘是發(fā)現(xiàn)其隱含的有用內(nèi)容的重要手段。
關(guān)聯(lián)挖掘前,通常需要在對數(shù)據(jù)探索性分析[6]的基礎(chǔ)上進行清洗,從而為數(shù)據(jù)分析和構(gòu)建模型做準備[7]。主要是對缺失值、異常值(離群點)、重復(fù)值以及噪音數(shù)據(jù)的處理。
單變量分析是關(guān)聯(lián)挖掘的基礎(chǔ),其目的是對變量分布的特征和規(guī)律進行刻畫和描述。1)單變量描述統(tǒng)計,主要是用最簡單的概括去反映大量數(shù)據(jù)中的基本信息,可以確定頻數(shù)、頻率分布,從而進行集中趨勢、離散趨勢分析。2)單變量推論統(tǒng)計,主要是通樣本的數(shù)據(jù)資料對總體的參數(shù)值進行推斷。主要從區(qū)間估計和假設(shè)檢驗兩個方向進行。
進行多變量分析要在單變量分析的基礎(chǔ)上,主要目的是查找相同類別變量之間的關(guān)聯(lián)。常用的方法有聚類分析[8]、回歸分析、判別分析[9~10]、主成分分析[11]等。
關(guān)聯(lián)分析是在大量數(shù)據(jù)集中去發(fā)現(xiàn)有關(guān)聯(lián)性或相關(guān)性的數(shù)據(jù),從而描述事物中不同屬性之間聯(lián)系的規(guī)律和模式。Apriori算法和FP-Tree算都是較為經(jīng)典的關(guān)聯(lián)挖掘算法,其核心思想是通過迭代生成頻繁項集。當前,已經(jīng)有很多工具包集成了各種分析功能,可以進行大數(shù)據(jù)環(huán)境中的關(guān)聯(lián)分析,如Mahout工具包可實現(xiàn)分類、聚類、關(guān)聯(lián)挖掘、回歸等操作。
演訓(xùn)數(shù)據(jù)關(guān)聯(lián)挖掘流程如圖1所示,分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、判別分析、關(guān)聯(lián)規(guī)則挖掘、可視化動態(tài)展示、形成結(jié)論六個步驟。

圖1 演訓(xùn)數(shù)據(jù)關(guān)聯(lián)挖掘流程圖
演訓(xùn)數(shù)據(jù)一般分為基礎(chǔ)數(shù)據(jù)、人工采集數(shù)據(jù)和傳感器采集數(shù)據(jù)。隨著我軍信息化條件下實戰(zhàn)化訓(xùn)練的深入開展,各級部隊“靠數(shù)據(jù)打仗”“用數(shù)據(jù)說話”意識逐漸增強,各種數(shù)據(jù)資源漸趨豐富。這些數(shù)據(jù)具有不同類別屬性、層次結(jié)構(gòu)、互相之間存在復(fù)雜的映射、計算關(guān)系,這就導(dǎo)致了數(shù)據(jù)的數(shù)量和類型大大增加。因此,應(yīng)遵循實用性、高效性、完備性、安全性的原則進行采集。
受戰(zhàn)場環(huán)境、儀器精度等客觀原因影響,采集到的數(shù)據(jù)具有結(jié)構(gòu)不統(tǒng)一、無效數(shù)據(jù)多、能夠直接提供的價值有限等特點。需要通過清洗、去噪等操作得到完整、清晰的數(shù)據(jù)表格。
在進行清洗、去噪得到清晰數(shù)據(jù)的基礎(chǔ)上,要做進一步的變量分析。對得到的一批采集數(shù)據(jù),需要按照一定的判別準則,建立一個或多個判別函數(shù),計算判別指標,從而確定該批數(shù)據(jù)的歸屬問題。例如,對裝甲車運動狀態(tài)的判斷,如果單純利用采集到的速度數(shù)據(jù)來判斷,可能會產(chǎn)生誤判,需要綜合考慮各種影響運動狀態(tài)的因素,建立判別函數(shù),對數(shù)據(jù)進行歸類。
演訓(xùn)數(shù)據(jù)關(guān)聯(lián)挖掘是在分布式存儲和并行運算技術(shù)基礎(chǔ)上采用關(guān)聯(lián)規(guī)則方法構(gòu)建模型,對演訓(xùn)數(shù)據(jù)各要素間的關(guān)聯(lián)關(guān)系、發(fā)展趨勢進行全面分析,精確判斷,從中找出可以為決策者提供幫助的隱藏條件、未知的相關(guān)關(guān)系以及其他難以預(yù)測的有用信息的過程。
關(guān)聯(lián)挖掘得到的規(guī)則中可能會包含一些無實際意義甚至不符合邏輯的錯誤規(guī)則,因此,我們還需要結(jié)合演訓(xùn)的實際情況對冗余規(guī)則做剔除處理。之后再進行規(guī)則解讀,將其轉(zhuǎn)化為演訓(xùn)現(xiàn)象,使所得結(jié)論更加精確量化,對演訓(xùn)實際更具指導(dǎo)意義。
為提高演訓(xùn)數(shù)據(jù)的可讀性,要基于數(shù)據(jù)可視化技術(shù),直觀展示采集到的行動數(shù)據(jù),還原機動路線和部隊行動。對各種戰(zhàn)術(shù)行動進行可視化動態(tài)展示可以更直觀、更準確的按照戰(zhàn)術(shù)要求對行動進行深入分析,為后續(xù)的定量評估提供有力依據(jù)。
現(xiàn)以某部的一次裝甲分隊突擊行動演練為案例,根據(jù)本文提出的應(yīng)用架構(gòu)和邏輯對行動數(shù)據(jù)進行關(guān)聯(lián)挖掘和分析,進而對突擊行動組織效果進行評價。
藍軍某機步旅在A地區(qū)組織防御,企圖以既設(shè)堅固陣地為依托阻滯紅軍攻擊行動,進而屏護T島中部安全。紅軍由一個機步連擔任前沿突擊分隊,其主要任務(wù)是打開通路,破壞A地區(qū)前沿火力點,爾后就地轉(zhuǎn)入防御,進而保障后續(xù)部隊發(fā)展進攻。演練行動共分為集結(jié)部署、形成戰(zhàn)斗隊形、地面突擊行動三個階段。
數(shù)據(jù)來源是現(xiàn)場采集或者各類傳感器采集的多源異構(gòu)數(shù)據(jù),如從車輛上安裝的數(shù)據(jù)記錄儀可以采集到車輛裝甲有關(guān)信息,從各監(jiān)控點的視頻監(jiān)控獲取的視頻數(shù)據(jù),從現(xiàn)場工作人員和導(dǎo)調(diào)員處獲取人工采集的數(shù)據(jù)。現(xiàn)選取安裝在車輛上的數(shù)據(jù)記錄儀采集到的數(shù)據(jù)進行分析,包括時間、經(jīng)度、緯度、速度、高程、方位角六個維度。
數(shù)據(jù)記錄儀從行動開始每隔10s記錄一次裝甲車輛的相關(guān)數(shù)據(jù),考慮到數(shù)據(jù)記錄儀的誤差(當ν<10km/h,采集的速度數(shù)據(jù)可能為0),需要對采集到的數(shù)據(jù)進行入庫整編,其采集分析系統(tǒng)結(jié)構(gòu)組織以及工作流程圖2所示。

圖2 裝甲分隊演訓(xùn)數(shù)據(jù)采集分析流程圖
通過大數(shù)據(jù)的分析挖掘,將所得結(jié)論與視頻數(shù)據(jù)和人工記錄數(shù)據(jù)分析結(jié)論相比較,驗證關(guān)聯(lián)挖掘的可行性和有效性,對裝甲分隊突擊行動組織效果進行定量評估,以指導(dǎo)部隊訓(xùn)練,提高部隊戰(zhàn)斗力。
1)實驗數(shù)據(jù)預(yù)處理。由于戰(zhàn)場環(huán)境的復(fù)雜性、部隊行動的實時性、儀器自有精度等原因,演練產(chǎn)生的大數(shù)據(jù)中存在部分無效數(shù)據(jù),結(jié)構(gòu)格式也不能直接使用,需進行數(shù)據(jù)合理化分析和清洗去噪。
通過整理,可以得到表1每輛裝甲車的有效序列數(shù)據(jù),形如{UID,T,R}。其中UID表示裝甲車輛實體,T為數(shù)據(jù)采集時間,R表示實體屬性值列表,包括經(jīng)緯度、速度、高程、方位角等時序數(shù)據(jù)。

表1 裝甲車輛序列數(shù)據(jù)信息描述
2)運動狀態(tài)判別分析。由于數(shù)據(jù)記錄儀存在誤差(當ν<10km/h時,采集速度數(shù)據(jù)可能為0),我們應(yīng)考慮在諸如轉(zhuǎn)向、掉頭、原地轉(zhuǎn)彎等非靜止狀態(tài)的采集速度可能為0。因此,不能僅以速度指標來判定,需綜合考慮經(jīng)緯度、方位角等變化。這就需要通過建立判別函數(shù)進行分析、判定。
判別條件1:

表示車輛在一段時間內(nèi)vt=0。
通過計算,在不考慮高程和其余條件的情況下,經(jīng)緯度對距離的影響見表2。

表2 經(jīng)緯度變化與距離的關(guān)系表
判別條件2:

當s<0.1×10-4m 時,車輛位置不發(fā)生變化。
判別條件3:如果v=0,且10s內(nèi)方位角增量:

判別過程如圖3所示。

圖3 運動狀態(tài)判別流程圖
當條件1成立,進一步驗證條件2,如果式(2)不成立,說明車輛處在運動狀態(tài)。如果式(1)、(2)同時成立,進一步驗證條件3,如果式(3)成立,車輛處于運動狀態(tài),否則可以判斷為靜止狀態(tài)。
通過上述判斷函數(shù),可對裝甲車輛進行判別分類,區(qū)分靜止運動兩個狀態(tài),作為UID的第7個屬性,得到整體出發(fā)時間和各車位置及經(jīng)緯度隨時間變化圖,以便于下一步的關(guān)聯(lián)挖掘。
3)對數(shù)據(jù)進行關(guān)聯(lián)挖掘[12]及解讀。在準確判斷車輛運動狀態(tài)之后,可以進一步對數(shù)據(jù)進行關(guān)聯(lián)挖掘從而得到每個實體的時序數(shù)據(jù),如車間距、行進速度、隊形展開時間、機動效率、突擊效率等若干因素有關(guān)的時序數(shù)據(jù)。這些數(shù)據(jù)能真實地還原分隊行動的實際情況,但要想提高數(shù)據(jù)的參考價值還應(yīng)當酌情考慮戰(zhàn)場環(huán)境,需進行關(guān)聯(lián)挖掘分析。
首先,進行關(guān)聯(lián)規(guī)則挖掘。可得到表3所示的一系列關(guān)聯(lián)規(guī)則和信息。

表3 演訓(xùn)數(shù)據(jù)關(guān)聯(lián)規(guī)則
對挖掘到的關(guān)聯(lián)規(guī)則進行篩選解讀,將其轉(zhuǎn)化為可理解的知識,用來評估裝甲分隊此次突擊行動的組織效果。以表3前三條規(guī)則為例進行解讀。
第一條:根據(jù)1號裝甲車輛的速度和時間屬性可得到加速度,將相關(guān)偏差因素考慮入內(nèi),其置信度為0.75。
第二條:根據(jù)1號裝甲車角度隨時間的變化,可以得到其車輛在任一時刻的角速度,其置信度為1。
第三條:根據(jù)1號裝甲車經(jīng)緯度隨時間的變化,可得到其在某段時間內(nèi)的水平位移。
以上為從1號車的{UID,T,R}序列可得到的部分關(guān)聯(lián)信息,根據(jù)裝甲分隊演訓(xùn)科目及要評估的內(nèi)容,制定不同關(guān)聯(lián)規(guī)則分析可挖掘到更多信息。
4)形成結(jié)論。分階段對突擊效果進行分析可得如下結(jié)論。
一是前沿攻擊隊從展開地區(qū)發(fā)起沖擊至通過通路階段。沖擊距離約1.5km~3.5km,分隊可以采取乘車沖擊與下車沖擊相結(jié)合的方式進行,而通道地形上乘車沖擊平均速度要求25km/h左右,下車沖擊平均速度10km/h左右,考慮到敵炮火攔阻、前沿陣地火力威脅和分隊實施火力打擊等因素,實際沖擊速度應(yīng)降為正常速度的三分之一左右,該裝甲分隊平均速度達到24.7km/h,基本能達到該標準。
二是前沿攻擊隊從通過通路至奪占敵一線排陣地階段。依據(jù)敵抵抗程度及敵防守陣地的地形情況,大約需要0.7h~1h,達到了大綱規(guī)定標準和要求。
三是后續(xù)階段。前沿攻擊隊奪占一線排陣地后向敵縱深陣地發(fā)展進攻至機動攻擊隊加入戰(zhàn)斗完成營的后續(xù)戰(zhàn)斗任務(wù)、抗擊敵反沖擊和保障上級縱深攻擊群進入戰(zhàn)斗階段,此階段依據(jù)敵縱深陣地敵兵力部署及地形情況,通常需要0.5h~1h左右,該裝甲分隊需時0.6h左右,符合需求。總體來看,該裝甲分隊地面突擊行動組織效果良好,基本完成預(yù)期戰(zhàn)斗目的。
5)可視化展示。利用軟件仿真模擬可得圖4裝甲分隊各車位置隨時間變化圖。

圖4 裝甲分隊各車位置隨時間變化圖
貼近實戰(zhàn)的演訓(xùn)活動是檢驗部隊訓(xùn)練水平的重要方式,對各類演訓(xùn)活動進行定量分析評價,是軍事訓(xùn)練和評估最新發(fā)展趨勢,關(guān)聯(lián)挖掘在其中的作用日益凸顯。綜合運用數(shù)據(jù)分析技術(shù)對演訓(xùn)數(shù)據(jù)進行關(guān)聯(lián)挖掘和可視化利用,既能實現(xiàn)“用數(shù)據(jù)來說話”,又能實現(xiàn)“用數(shù)據(jù)來管理”,更能基于廣闊戰(zhàn)場的信息網(wǎng)絡(luò)數(shù)據(jù)分析與指揮員高超指揮藝術(shù)的有機融合,實現(xiàn)“用數(shù)據(jù)來決策”,為軍事訓(xùn)練效果評估工作提供可靠的數(shù)據(jù)支撐[13]。