郭瑞 賀筱媛
摘要
現代戰場信息大數據產生的戰爭迷霧對指揮員的戰場態勢認知產生了強烈干擾,這些都會增加指揮員的指揮決策的難度,針對某計算機兵棋系統具有高度模擬真實戰場的能力,本文依據對兵棋模擬數據研究的基礎上,選擇其中偵查相關數據作為處理對象,通過數據的清洗與集成能更清晰的認知戰場模擬態勢環境,為認識真實戰場提供一種模擬數據預處理方法,為戰場態勢認知的研究打下基礎。
【關鍵詞】模擬戰場 仿真數據 數據預處理
1 引言
在信息技術和戰爭實踐的推動下,聯合作戰和體系對抗己成為了現代戰爭的基本特征,現代戰爭與以往不同,戰爭的節奏越來越快,產生的戰場信息呈現幾何級增長,所以戰場態勢認知的研究勢在必行。
在一次對抗演習中,數據是兵棋演習的基礎支撐部分,一般意義上來講,數據可以對應、有序、準確的顯示出演習中的一切行動和特征,貫穿于演習的整個過程。在演習數據分類中,運行數據由系統自動產生,基礎想定數據則是根據演習的環境和實體參數在演習前設定完成,存放于對應的兵棋演習數據庫中,兵棋演習數據絕大部分是實時的、準確的,但是也會有部分數據存在內容不完整、格式不一致、存放重復、信息缺失等情況,這些會對之后的數據處理和信息分析產生影響,甚至有可能對模型算法造成偏差,所以數據的預處理是非常必要的。
2 數據的預處理研究
2.1 選擇偵查預警數據為預處理目標
根據演習模型的規則和所得出數據的參數特征要求,計劃先選擇出相應有價值的數據,對之進行兩次清洗,然后再集成出我們需要的格式數據。一次演習可能會產生海量的數據,而研究工作可能要針對多次不同的演習情況,如果對這些數據都要加以處理的話,工作量的巨大程度無法評估,而且我們采用的算法的精確度也會受到一定的影響,所以我們要抽取出其中一部分有代表性意義而且對實驗有幫助的數據進行處理,這里選用偵查預警的相關態勢數據進行舉例說明整個數據預處理過程。
2.2 對所選偵查預警數據進行首次清洗
現實偵查預警任務中發生的一些突發問題,會產生相關預想不到的情況,對應演習數據有時難免會發生一些錯誤,另外在數據傳輸和采集的過程中已經規則設定偏差等原因,都會產生一些異常,這些不僅僅影響數據庫的準確性,而且會對后續研究造成不利影響。
為了提升己選數據的精確性和研究價值,需要對一些突出的錯誤進行修正,這作為第一步的數據清洗,用來糾正偏差,重新錄入殘缺部分,清除偏離數據,提高這些備用數據的可用性。具體清洗辦法如下所示。
2.2.1 異常檢測方法
通過模式識別、聚類、基于鄰近性、關聯規則等方式實現兵棋演習數據異常的自動檢測,并能夠將數據異常進行分類,為確定數據清洗方法提供依據。
2.2.2 缺失值填充方法
通過忽略元組、全局常量填充、數據的中心度量填充以及特殊情況下的人工填寫等方法填充缺失值。
2.2.3錯誤糾正方法
對形式和內容不符合要求的數據進行糾正,對錯誤難以改正且不重要的數據采取刪除整條記錄的方法處理。
2.2.4 冗余消除方法
采取近鄰排序法對重復記錄進行識別、比較和排序,刪除低價值的重復冗余數據。
2.2.5 光滑噪聲方法
分箱、回歸、離群點分析等。
現今階段,數據的這一方面清洗技術已經比較完備,本研究打算以成熟工具為基礎,例如WEKA,作為一個公共數據挖掘平臺,它集合了大量能承擔數據挖掘任務的機器學習算法,包括對數據進行預處理,分類、回歸、聚類,針對WEKA中的AddID、Remove、AddCluster、NumericCleaner、StringToWordVector等數據過濾器的具體特點,具體流程如下所示。
(1)檢測偏差,通過對輸入數據的檢驗,抽出其中出現錯誤、重復、缺失的數據,并對其進行記錄,并對原始數據進行分析,確定是否需要下一步的清洗。
(2)確定方法,根據原始數據的異常類型,選擇確定清洗方案。
(3)檢驗方法,調用檢驗模塊檢驗選取的清洗方法是否適用于處理該類問題,如果適用,則執行下一步,如果不適用,則進入手工清洗模式。
(4)執行清洗,調用清洗模塊、標記異常數據、填補缺失數據、修改錯誤數據、刪除冗余數據。
(5)數據歸檔,調用加載模塊,將清洗后的目標數據歸檔到目的數據庫中。
2.3 對研究數據的最后集成
在演習中,根據模型的規則以及數據本身的特點,相應的會把數據分類存放在幾個數據庫以及文件中,這樣對模型本身的結構會有很好的適應性,但對于研究數據來說,會帶來一定的困難,因為有些數據會根據不同要求而重復存在,如果集成過程是簡單的把數據庫疊加在一起的話,可能會帶來一些數據的冗余甚至自相矛盾,另外還可能會產生相同數據的命名不一樣的問題等。所以要把所需的數據集成為一個結構相同、適合研究的集成文件中,這次集成是數據庫內部的另一次清洗過程,這里用到的是數據倉庫的相關技術。
所以這里采用Oracle grid和Oracle database來組建所需要的數據倉庫,Oracle作為一款普遍使用的數據庫軟件,具有強大的數據處理能力。
由于所選數據的類型有對實體進行描述性的靜態數據,也有在演習中進行交互的動態數據,而這些數據是相關的,所以這次集成是要從不同的來源根據相互之間的關系進行挑選與合成。
3 結束語
本文的是在認知戰場的目的下,從模擬戰場環境的兵棋數據入手,從數據來源到數據的結構以及存儲與采集方式,初步研究對戰場實時偵查預警模擬數據的處理方法,對數據預處理是為了進一步更好的研究戰場認知打下基礎,通過對數據的清洗和集成可以更清晰明了的呈現戰場態勢。
參考文獻
[1]胡曉峰,范嘉賓.兵棋對抗演習概論[M].北京:國防大學出版社,2012.
[2]徐寧.計算機兵棋的關鍵技術研究與實現[D].東北大學,2009.
[3]彭春光,趙鑫業,劉寶宏等.兵棋推演技術綜述[J].系統仿真技術及其應用,11:366-370.
[4]彭希文.兵棋-從實驗室走向戰場[M].北京:國防大學出版社,2013.
[5]陶雪嬌.基于仿真大數據的指揮效能分析方法研究[D].國防大學,2014.
[6]李曉菲.數據預處理算法的研究與應用[D].西南交通大學,2003.