李德偉 黃高明
摘要:為加強部隊訓練能力,客觀、合理評估訓練效果,聯合訓練需對海情、空情、水文、氣象、指揮指令以及裝備產生的報文、音視頻等多源異構海量數據進行實時處理。通過傳輸服務、協議適配和實時消息處理等模塊的構建,實現多源異構海量數據的互聯互通和實時數據接入控制,設計基于Hadoop與分布式并行存儲數據庫,提高海量數據的實時存儲和訪問效率,通過海量數據預處理、數據融合和高性能計算等設計實現海量數據實時性處理能力。實踐證明系統運行穩定、信息處理及時,為訓練效果裁決評估提供了實時可靠的數據依據。
關鍵詞:云計算;作戰數據;框架
中圖分類號:TP391文獻標志碼:A文章編號:1008-1739(2019)11-58-4

0引言
隨著訓練任務與組訓規模的不斷擴大及訓練樣式的不斷創新,訓練準備和實施階段不僅需要大量的海情、空情、水文和氣象等信息支持,而且需要各參訓系統產生的大量過程數據(實裝狀態采集信息等)的支撐。但當前數據處理系統存在多源異構海量信息采集接入壓力大、存儲資源緊張、處理效率低下、分發邏輯復雜、信息孤島林立及數據產出受限等問題,在一定程度上影響了訓練效率與效果。為強化部隊訓練能力,必須建立與不同作戰訓練信息系統之間的協同關系,引接指揮控制、情報支援、測繪導航、軍用授時及頻譜管控等信息,并大幅度提高數據的實時處理效率和存儲能力,為數據生產服務。
1總體架構
多源異構訓練數據實時綜合處理技術架構如圖1所示。由于當前實戰化訓練方式下,要有大量的實裝和保障設備參與訓練,為客觀合理評價訓練效果,要采集大量數據,并接入各類信息。從信息形式看,主要包括實時報文、音頻、視頻、數據包及辦公文件等,由于大量非結構化數據產生,為提高數據快速處理,不能采用傳統的數據庫進行存儲,而應采用分布式大數據Hadoop與結構化數據庫(Oracle)混合方式進行存儲和提取。

1.1傳輸服務
聯合作戰訓練數據的傳輸,具有跨網絡、有線無線并存、多協議UDP/TCP及本地多網卡等復雜運行環境特點。實時數據傳輸服務主要選擇數據分發服務(Data Distribution Service,DDS)通信中間件,采用以數據為中心的信息交互模式,實現系統內部數據交互以及外部多源異構數據的匯集分發。基于DDS的數據-訂閱分發技術提供了一種高效靈活的數據交換和匯集手段,基于這種技術開發的數據訂閱分發服務可實現網絡環境下不同資源間的信息動態交換共享,為多源異構海量數據能實時處理、低延遲和可靠高效分發提供了前提和保障。
1.2協議適配
為解決各系統之間互聯互通的問題,要為各種異構網絡通信提供協議適配服務,用以實現多源異構訓練數據信息地轉譯和封裝。基于訓練數據的標準規范,識別各系統之間傳輸的數據信息并進行封裝,實現雙向適配。同時,將外部引接數據和信息接入匯集的數據信息轉譯為可識別的數據來源,實現各系統之間數據信息的互聯互通,協議適配如圖2所示。

1.3實時消息處理
聯合作戰各訓練業務系統產生的數據需實時、低延遲地不停流轉,整個實時數據處理系統一方面解決數據傳輸服務問題,另一方面需解決傳輸通信和數據處理之間實時、高效交互的問題。引入高性能跨語言分布式發布/訂閱消息隊列系統,作為整個系統高速數據總線,解決系統間耦合、數據安全不丟失、系統擴展性、峰值處理能力、可恢復性、順序保證、緩沖及異步通信等問題。
實時消息處理通過數據發布和訂閱提供數據的高吞吐量和高并發量,并將消息持久化到磁盤,可進行持久化操作以防止數據丟失,再采用分布式結構,以實現易于數據存儲設備的向外擴展。另外,消息被處理的狀態是在消費端維護,而不是由服務端維護,這樣當消息處理失敗時,可實現消息處理任務的自動平衡。
2數據實時處理
2.1數據預處理
訓練過程中大量的訓練數據由系統平臺匯總收集,這些海量數據格式各異,形式多樣,主要包括文檔、圖片、掃描件及音頻視頻等格式,這些非結構化數據的收集和處理存在一定的效率瓶頸,為確保訓練數據可用性和預處理過程的高效性,系統引入多種技術手段對訓練數據預處理過程進行保障,基本流程如圖3所示。

①數據抽取:根據各業務系統對數據的需要,將訂閱分發的數據在接入的海量數據報文中挑選、抽取出來,以備后續處理。
②數據清洗:將數據抽取的原始數據通過移除空的數據行或重復的數據行、過濾數據行、聚集或轉換數據值及分開多值單元等,以修復采集的原始數據中的錯誤數據。
③數據轉換:主要實現各類數據的量綱統一、坐標轉換和數據整合。量綱統一模塊完成相同測量參量的量綱統一,如輻射特性測量輸出的目標輻射強度和溫度等,因此要根據參數配置模塊的要求進行量綱統一。坐標轉換是將各類測量數據統一到規定的坐標系,為數據綜合處理提供基礎。數據整合是針對訓練數據按統一規范進行整合、歸類,為數據挖掘與分析提供支撐。
④數據加載:主要是把預處理的數據進行相應的入庫處理。
2.2數據融合
數據融合模塊主要是將雷達、遙測、GPS和光電等設備所測的同一目標軌跡數據按照相關算法進行融合,進一步減小誤差、提高目標軌跡精度。數據融合模塊接收各設備處理后的軌跡數據,采用SF算法融合,生成目標融合軌跡數據,流程如圖4所示。

①優先融合:根據各測量設備特性,在不同的空域對目標的定位精度不同。試驗時根據目標距離選擇優先級最高的單路測量數據作為融合數據輸出,融合數據的精度與當前空域內優先級最高的測量設備相同。
②簡單融合:軟件中采用的濾波算法是交互式多模型濾波(IMM濾波)算法,在每次濾波后濾波器會根據3個模型生成3個協方差矩陣,而簡單融合所使用的協方差矩陣就是將這3個矩陣進行輸出交互后的結果。
2.3高性能計算
為了應對數據規模增加、數據處理需求不斷增加的現狀,高性能計算采用了可靈活擴展的分布式Share-Nothing架構,可通過增加服務器來提升系統的計算能力。同時,系統提供Storm實時計算引擎,Stream流計算引擎和SQL交互式查詢引擎,可針對文件數據進行實時在線計算,其高性能計算架構如圖5所示。
①任務執行模塊:任務執行模塊稱為Worker,進程管理模塊稱為WorkerManager,一個Worker與一個WorkerManager組成了一個進程,一個進程中運行多個處理任務,每個處理任務對應一個線程,任務執行模塊主要負責數據處理。

②進程管理模塊:每一個進程都配有一個進程管理線程,該線程負責進程注冊、任務獲取、任務監控,另外,如果多個分布式進程同時運行,將選舉出一個主進程leader,所有其他的進程成為子進程follower,leader將承擔額外的工作,主要包括任務分配、子進程follower的監控與follower出現故障時做任務的負載均衡,follower監聽leader的狀態,當leader故障時,follower重新選舉出一個leader并做一次任務的負載均衡。
③數據配置與管理模塊:數據配置與管理模塊體現為開發平臺的幾個服務,用于處理模型的配置、任務配置以及任務處理流程的配置,配置好的處理模型可以動態發布到組件中、配置好的任務可通過注冊、啟動停止等操作在組件中實現相應的操作。
④Web監控模塊:監控模塊提供一個UI用于監控各進程的分布情況、運行狀態以及任務執行情況,同時可以在UI界面上操作進程的啟停及添加操作,添加操作首先在服務器集群中選擇要啟動進程的服務器節點,然后在該節點上添加進程。
⑤元數據存儲與分布式協調通知模塊:主要用于存儲各個進程的元數據、共享數據以及集群的運行所需的其他基礎數據,負責進程間的通信、RPC遠程調用等。
3系統應用
該系統建成后,已參與多次大型訓練任務保障,在使用過程中,系統運行穩定、處理信息及時,為有效評估訓練效果提供了可靠依據,主要應用界面如圖6所示。

多源異構海量訓練數據的實時綜合處理技術應用于訓練基地的訓練數據綜合處理中心,該中心面向訓練系統整體,提供海量信息接入分發、信息協議適配、外部數據引接、數據集中存儲、數據匯聚整編、數據服務生產及業務綜合集成等高性能服務,基本形成基地軍事訓練數據采集、引接、存儲、管理、加工、應用和更新的完整鏈條,大大提高了訓練效率,并為訓練效果評估提供了及時可靠的數據支撐。
4結束語
通過對多源異構海量數據實時處理技術的研究與應用,為大規模聯合訓練提供了先進的技術保障手段和方法,不僅實現了海情、空情、水文、氣象、指揮指令以及裝備產生的報文、音視頻等數據的實時接入存儲與高效數據整編,而且真正實現了各個復雜業務系統之間的互聯互通以及對數據的實時需求。因此,該技術具有廣泛的應用價值,不僅為各軍兵種開展大規模訓練提供借鑒價值和依據,還為其他技術領域提供相關的參考與幫助。
參考文獻
[1]皮霄林.基于云計算技術的電力大數據預處理屬性簡約方法[J].科技創新導報,2017,14(12):158-159.
[2]姜建華,洪年松,張廣云.一種多源異構數據融合方法及其應用研究[J].電子設計工程,2016,24(12):33-36.
[3]賀雅琪.多源異構數據融合關鍵技術研究及其應用[D].成都:電子科技大學,2018.
[4]耿煥同,黃濤,薛豐昌.多源異構海量數據實時處理平臺研究與應用[J].計算機應用與軟件,2014,31(1) 43-46,61.
[5]朱丹.外側數據實時處理軟件設計與實現[D].大連:大連理工大學,2008.
[6]程豪.基于Hadoop的交通大數據計算應用研究[D].西安:長安大學,2014.