楊榮芳
(中國人民解放軍92493部隊98分隊, 遼寧 葫蘆島 125001)
近年來,由于漁業和航運的發展,在渤海海區內活動的船舶數量多、種類雜,對渤海海區內軍事警戒任務順利開展帶來了一定的影響,海區內情報探測系統通過長時間的人工與自動數據采集工作,積累了大量的歷史情報數據信息資料。隨著圖像、音頻、視頻等類型情報信息的收集能力的補充,海上數據量級將進一步加大,傳統的信息存儲與處理方式已滿足不了正在日益增多且更復雜的信息檢索。當前,目標檢測跟蹤領域引入大數據處理技術,海量歷史情報數據的挖掘獲取知識,基于知識庫進行目標智能檢測與跟蹤,引起廣泛關注且取得了很多研究成果,但與軍事應用還存在較大差距。主要在于當前理論研究大都基于民用情報分析需求,例如港口監控應用、交通智能導引等,未涉及軍事應用需求。對此,本文以渤海海區內海情應用為背景,提出了面向海量數據的海情數據分析總體框架;針對海量數據訪問、情報知識體系構建等關鍵問題,以多源異構數據高效檢索、基于軌跡的目標運動規律與異常檢測、基于模板的目標意圖表示與挖掘等技術作為本文關鍵技術進行探討,為后續深入研究提供支撐,使重新組織的數據能夠服務于軍事情報任務,同時為軍事指揮決策系統提供事實依據。
近年來,我軍情報信息系統建設成果顯著[1]。情報數據具有快速積累、類型多樣、關系復雜等特點,充分挖掘并有效利用這些數據中的潛在價值,在軍事領域中具有重要意義[2-3]。信息采集、傳輸、處理和顯示等環節均已成型,數據工程建設積累了大批基礎性數據,現有情報信息系統的發展存在智能輔助能力滯后的問題,如態勢理解、決策輔助等,只有突破智能輔助技術的瓶頸,才能實現系統能力的階躍式提升。在大量的數據中獲得知識的整個過程,即為數據挖掘[4]。現有渤海海區情報保障主要依賴于實時情報的處理,缺乏對歷史數據潛在價值的有效應用,要提升海情情報實時處理智能化程度,需要在實時處理中引入數據挖掘方法,挖掘歷史數據中隱含的知識,同時將指揮員對行動、環境、目標等日常判斷形成知識,供實時處理系統使用。
海情中心業務需求層次如圖1所示。主要有以下五個方面:
1) 掌握海上目標總體情況。重點在于掌握海上各類目標的總體數量、分類、分布以及變化趨勢。
2) 掌握探測資源的工作情況。重點在于掌握各類探測資源的工作情況以及實際探測能力。
3) 掌握關鍵海域內、海上目標運動情況。獲取目標數量、組成,識別目標行為,分析其活動意圖,以及其總體態勢。
4) 分辨重點目標并掌握其運動情況。重點在于根據目標的屬性、類別或運動特征,識別重點目標及預測其戰術意圖。
5) 發現異常情況及時處置。重點在于監視轄區內海上目標運動異常、行為異常、信號異常等情況。
本文基于以上所明確的預期數據挖掘目標,進行軟件架構設計與關鍵技術分析。
以數據資源組織為基礎,以批量數據處理與挖掘為手段,以數據分析服務為宗旨。根據前面提到的海情業務需求,面向海量數據的海情數據分析軟件技術架構如圖2所示。具體地,以數據為中心,從結構上可分為數據獲取層、數據分析層和數據顯示層,基于數據獲取層提供的基于時空網格的海情數據快速存儲和訪問能力,研究設計海情數據分析軟件,用以數據分析結果予以展示。采用這種軟件架構設計既可以適應現有硬件設施,亦可適應未來分布式數據存儲與計算平臺中,僅需增加分布式數據存儲與計算管理軟件即可,解決因數據量大、數據多源、數據多樣等因素導致的海情數據分析困難的問題。
1) 數據獲取層。基于海情數據分析存儲與計算基礎設施,采用數據整合工具實現對傳統海情關系數據庫數據、文件接口數據以及未來流式數據的批量接入;對數據予以基本的抽取、清洗等預處理工作,并基于剖分網格編碼技術對海情數據進行高效存儲與組織,實現海量海情數據的關聯與整合,形成海情數據分析基礎庫,為后續數據挖掘與分析提供數據支持,同時為應用提供大批量數據快速訪問能力。
數據分析服務支持中間件,通過服務接口向上層應用提供透明、統一、高效的數據和應用服務,支撐上層業務應用快速開發。主要包括數據訪問服務、數據存儲服務、數據分析服務以及數據可視化服務。其中數據分析服務提供通用的數據挖掘算法,滿足客戶數據分析挖掘功能;數據可視化服務,提供圖形、表格等通用可視化方式。
2) 數據分析層。根據用戶需求,基于數據分析支持中間件提供的數據訪問、存儲、統計計算、挖掘方法以及可視化服務。針對海情業務需求,實現目標分類統計、目標特征分析、態勢分析以及傳感器戰場感知能力分析的功能應用,將分析結果存儲于知識庫中,并向顯示軟件推送。
本層軟件為業務核心軟件,其中,海上目標分類統計軟件的功能是根據情報源、時間、空海類別、敵我屬性、國家/地區、重要等條件分類統計系統記錄的海上目標數據,形成某時間段各類型目標統計圖表,輔助用戶掌握當面情況和分析近期變化趨勢,形成轄區目標總量及趨勢知識。傳感器戰場感知能力分析軟件分析系統記錄的傳感器數據,提取傳感器或探測平臺實際能力指標,形成情報源實際感知能力知識。海上目標運動特征分析軟件分析系統記錄的海上目標偵觀察數據,提取海上目標運動特征以及綜合特征,形成目標綜合識別特征知識。海上目標態勢分析軟件結合地理信息、傳感器能力和部署等信息,分析系統記錄的海上目標數據,形成目標活動規律、目標行為和意圖、目標關系和戰術等態勢知識。
3) 數據顯示層。以Web方式向用戶呈現分析結果。
面向海量數據的海情數據分析系統的建設有數據基礎、計算基礎以及數學基礎等三個關鍵因素。其中計算基礎,即圖2中的數據分析分布式存儲與計算設施,目前分布式處理平臺及相關應用已相對成熟,基于Hadoop平臺很多公司開發了系列提供大數據平臺處理服務的產品,能夠為用戶提供處理海量數據的軟硬件基礎環境[5]。而其中的數據基礎與數學基礎則需根據不同應用開展相應的算法設計,相關技術如下。
傳統索引結構的優化,僅能提高小規模數據檢索速度和查詢表鏈接效率。當前海情數據“分別建庫、各自組織、弱關聯”組織模式導致數據查詢提取操作繁瑣、時間消耗大的問題,可考慮依托全球時空剖分網格,建立多源異構數據統一空間編碼模型和時間離散編碼模型。通過帶有時空區位、屬性擴展的結構化編碼體系及剖分索引組織大表,將各類空間數據有機地關聯起來,將傳統數據組織模型中利用坐標或其他數據ID建立的數據與操作間K維關聯模式,轉變為“以剖分網格為參考、以網格編碼為紐帶”的“數據-編碼-操作”三層關聯模式;充分利用數據空間網格編碼二進制、一維、整型的特點,設計基于網格編碼的空間大數據搜索引擎,實現多源異構數據的一體化高效查詢檢索[8]。如圖3所示。
剖分網格通過三次地球擴展,實現整度、整分的四叉樹剖分,形成了一個上至地球(0級)、下至厘米級面元(32級)的較完備多尺度四叉樹網格。將傳統網格全球剖分的浮點數計算直接用2的整數倍完成,提高空間的劃分效率,并且以此設計的網格編碼,從度級、分級到秒級編碼方式,與傳統經緯度的記錄方式具有極高的互換性(經緯度的二進制表達就是剖分的網格編碼),這樣的設計極大地提高了空間關系與位置索引的效率。
時間離散編碼:把時間離散化為不同長短的時間區間(片段),并賦予唯一的二進制編碼,使得時間離散化為有長度的“時間段”。該編碼具有多粒度、可定時、可索引、可計算、自動關聯等優點,構成了大數據管理與應用的時間離散框架。時間離散網格編碼如圖4所示。
了解目標日常活動規律對于目標的檢測和持續跟蹤具有重要參考意義,目標時空軌跡是刻畫目標活動規律的重要信息。若對所有的目標軌跡、軌跡上所有更新點進行分析,一方面會產生大量的分析工作,耗時較長;另一方面過于精細化的軌跡,反而在軌跡分析中,丟失了不同目標之間軌跡共性特征的分析。因此為了提高分析效率,需要利用MDL(最小描述長度準則)方法確定各目標航跡的特征點集,既有效減少航跡點數目,又能保持原始航跡的精確性,使得目標航跡數據精簡[6]。
在海情應用中面臨以某一條目標軌跡為樣本,搜索獲得與該目標類似軌跡,尋求同一目標歷史記錄,并提取目標運動規律的需求。而軌跡相似性的刻畫也面臨諸多選擇,具體如表1所示。數據分析本身的作用是提供用戶更多可供參考的信息,是一個反復迭代的過程,因此在軟件設計中需將相似性度量方法進行綜合考慮提供用戶予以選擇確認。
數學角度對異常最直觀的解釋是:異常是數據中與正常行為模式不符合的模式。盡管導致船舶異常行為的原因有多種,但是所有的原因具有一個共同特征:對分析人員來說“感興趣”,這是船舶異常行為檢測的關鍵特征。
從軍事海情應用出發,異常定義如下:(1)信號異常、航路異常。有民船航路偏離航道、船只運動特征與其類型不符(如速度過大)、船舶軌跡與其歷史運動規律不符。(2)異常進入。有民船抵近、進入軍事警戒區,或抵近海上分界線、別國軍船進入軍事警戒、軍事敏感區或抵近海上分界線。(3)目標異常聚集行為,有別國船只在軍事敏感區域、軍事警戒區域附近的聚集。

表1 軌跡相似性度量類別
現代戰爭作戰樣式靈活多變,敵方目標的行為和意圖隨環境、時間、地點、對象的變化而具有多樣性和模糊性,如何從復雜多變的戰場目標行為中識別敵方的意圖、對意圖進行表示是本技術所要解決的難點。
意圖作戰樣式靈活多變,但很多基本的作戰條例及步驟可能在很長一段時間內都不會有大的改動。如美軍的作戰條例明確規定當有飛機被敵方雷達鎖定以后,要施放干擾,逃避打擊;中距空戰的過程分為發現目標、接敵和攻擊。因此用結構比較固定的模板表示目標意圖具有一定的適應性[7]。
可以用統一的模板表示法來表示目標意圖,模板的組成要素包括:目標主體、目標的行動步驟及彈性約束關系。目標主體明確目標的類型、數量及其他屬性。為了達到一個作戰意圖,可以有多種作戰方案,因此同一個作戰意圖一般都對應于多個模板。由于目標作戰行動具有靈活多變的特點,模板中的目標行動步驟中允許引入子目標,生成子模板來增強模板的通用性。彈性約束關系定義了各個行動步驟間彈性的時空關系。
如圖 5是一個電子偵察具體的模板,作戰目標顯示在模板的頂部,橫向表示時間的推演,每一行對應于一個編隊,各編隊的行動步驟按最典型的時間順序排列在每一行上。在該模板中有執行電子偵察的偵察機編隊、有執行護航任務的戰斗機編隊,通過多個編隊的協同共同完成電子偵察的作戰目標。
通過對大量目標積累的歷史行為數據進行挖據,分析具體意圖與典型行為序列模式的關聯關系,篩選意圖模板關鍵組成要素,建立目標<行為—意圖>表示模板,存入意圖模板知識庫中,為日后對目標的意圖進行識別提供基礎保障,如圖6所示。
本文結合海情中心實際業務需求,以充分挖掘歷史數據中隱含的有價值信息,形成目標特征、目標活動規律、傳感器探測能力等模板和知識為目標,提出一種分布式數據存儲與分析架構,進行軟件功能分解,提出需進一步解決的關鍵技術。該架構以異構數據高校檢索為基礎,從目標的活動規律分析以及行為要素解構出發,逐步挖掘目標間及行為間的關系,迭代形成目標戰術知識模板,以進一步獲取目標意圖,輔助值班值勤人員更好地分析掌握轄區內態勢變化趨勢,為系統形成目標智能情報處理能力提供支撐。
參考文獻:
[1] 武開有.海洋軍事情報信息系統中的數據挖掘技術[J].西安通信學院學報,2013(10):24-26.
[2] 尹承督,賈紅麗,李衛東.大數據在部隊信息資源管理中的應用[J].兵器裝備工程學報,2016(8):118-121.
[3] 陳竺津.大數據在指揮信息系統中的應用探析[J].信息化建設,2012,4(5):29-30.
[4] 李於洪著.數據倉庫與數據挖掘導論[M].北京:經濟科學出版社,2012:181-185.
[5] 翟巖龍,羅壯,楊凱,等.基于Hadoop的高性能海量數據處理平臺研究[J].計算機科學,2013(6):100-103.
[6] 肖瀟,邵哲平,潘家財,紀賢標.基于AIS信息的船舶軌跡聚類模型及應用[J].中國航海,2015(2):82-86.
[7] 姜佰辰,關鍵,周偉,等.海上交通的船舶異常行為挖掘識別分析[J].計算機仿真,2017(6):329-334.
[8] 吳燁,陳犖,熊偉,等.面向高效檢索的多源地理空間數據關聯模型[J].計算機學報,2014(9):1999-2010.