, ,
大數據在軍事價值上是一種新型核心戰斗力要素和軍事變革新引擎[1]。隨著基于網絡信息體系聯合作戰能力的提升,全域作戰能力的需求越來越高,奪取大數據戰略制高點已經成為各主要軍事大國戰略競爭的新焦點。戰略大數據是與戰爭籌劃和戰爭指導相關的、高增長率和多樣化的海量信息資源。如何從開源的具有海量異構屬性的數據中挖掘高價值的情報信息,是信息時代戰略研究、戰略決策亟待解決的基本性問題。
戰略大數據體系是以數據庫服務器為中心、以客戶端或瀏覽器為網絡基礎、以各類軟件工具為服務手段、能為戰略研究提供多樣化服務的多層模型結構,注重戰略數據獲取、存儲、更新及挖掘等功能的實現,為戰略研究的定性分析與定量分析相融合搭設數據管理和挖掘的一體化計算平臺。它著眼于未來信息化戰爭的戰略研究和戰略決策,但面臨著一系列海量、復雜、交叉、多向大數據挑戰。
信息化戰爭演變催生了戰略大數據,信息獲取手段的多元化使數據類型及數據之間相互關系高度復雜。信息來源包括互聯網、新聞媒體以及各類技偵、諜報信息或通過空中偵察獲取的戰場目標及環境信息[2],信息內容涉及各國的政治、經濟、軍事等歷史信息以及武器裝備、軍事力量發展的最新動態,數據存儲結構包含結構化、半結構化和非結構化,表現形式有文本、網頁、音視頻、圖形圖像等。面對數據密集、計算密集以及通訊密集的戰略大數據,要在短時間內甄別真偽、提煉“真金”、綜合分析,進而服務戰略研究,輔助戰略決策,超出了傳統戰略分析方法和手段的能力。
傳統戰略研究大多基于研究機構或個人經驗,根據情況進行形式邏輯歸納及辯證邏輯分析,提出的論點、對策、建議多屬于經驗判斷,缺乏定量分析的數據支撐,缺乏人工智能的定量手段,缺乏從數理邏輯角度分析戰略動態演變的過程,成為制約戰略研究效率和質量的重要因素。
戰略大數據的數據屬性之間不僅是因果關系,更多的是線性或非線性的相關關系[3]。數據呈現多維度、多峰值的復雜模式,數據的復雜性和戰略研究的特殊性,需要諸如模式識別、機器學習、語義分析、自然語言理解、博弈論、軍事戰略理論等眾多領域知識交叉融匯。
戰略研究大數據體系一般從定量化角度分析戰略研究過程,包含了從數據獲取、分類存儲、定向檢索、數據挖掘及統計分析等過程,針對戰略需求進行事件預測、智能推薦、規劃推理、模擬仿真、輔助決策、風險效能評估等任務。
數據資源獲取、導入及動態更新是戰略大數據首先要解決的基礎性問題。主動搜索功能是根據戰略研究需要,從互聯網自動地、迅捷批量地獲取數據,經過自動清洗、分類寫入數據庫,同時提供靈活的數據采集配置模板,可實現自定義的采集時間、采集對象、采集關鍵字等功能,完成包括摘要、發布時間、發布實體、正文等要素的數據采集。其中,對采集數據經過云化ETL處理后寫入數據庫,進行信息初始化、更新及分類,充實完善基礎數據。
高效準確的信息檢索是搜素引擎的基本功能。傳統通用搜索引擎能為用戶提供廣度搜索的海量信息,但存在信息無序化、查詢不準確、語義內涵不精準等問題。戰略研究專業性強、保密程度高,對信息查全率及查準率有較高要求,構建戰略信息垂直檢索系統才能滿足戰略研究人員對高價值信息檢索的需求。通過選擇性抓取非結構化的戰略數據并進行結構化抽取,經過去重、分類、分詞及正則化等預處理工作,對戰略信息進行語義分析及關聯分析、分類分析、聚類分析,定向抽取相關字段,滿足戰略分析高查全率和高準確率的檢索需求。
采用挖掘計算模型輔助戰略分析,是從定性分析向定量分析的拓展。由大數據定律可知,有規律的隨機事件在大重復條件下,呈現出必然的統計特性。因此,基于大數據的戰略判斷,以數理統計和機器學習理論為基礎,通過構造挖掘計算模型為特定目標提供高價值信息。
如2013年Baggott運用數據挖掘模型研究相互感知中不確定性在安全困境形成過程中的作用。該研究采集了1969-1981年中國官方內部討論資料、美國Foreign Relations of the United States(FRUS)數據庫中的文件,以及《紐約時報》關于雙邊外交事件的130余萬條新聞,發現當美國對中國的感知中存在不確定性感知時,將會導致美國對中國持更加積極友善的態度。
針對戰略大數據體系的功能和邏輯,遵循高內聚、低耦合的模塊化原則,按照數據獲取、存儲、檢索、分析等階段設計了5層體系結構,自底向上分別為數據源、獲取層、云存儲層、能力層和應用層,數據流及相關處理自底向上進行(圖1)。
主要包括來自于互聯網的開源數據及局域網或傳感器的數據。這些數據呈現分布式異構模態,主要有結構化、半結構化或非結構化形態。隨著云存儲技術及移動互聯網的廣泛應用,數據量爆發式增長,開源互聯網數據將是戰略大數據的主要數據源。來自于局域網或傳感器的數據,如軍隊基礎情報保障數據(包括基礎戰略情報數據、作戰力量數據、武器裝備數據、作戰環境數據及目標情報數據等)和偵察情報支持數據(包括戰場態勢感知數據、地理空間環境遙感數據、預警探測及目標跟蹤數據等),也是數據源的構成成分。

圖1戰略大數據體系結構設計
對開源數據主要通過主動搜索方式獲取,對傳感器或局域網數據設計標準化接口獲取。對開源數據必須具備支持對表、文件、消息等多種數據的實時增量數據采集(使用flume、消息隊列、OGG等技術)和批量數據分布式采集(SQOOP、FTP VOER HDFS)等能力,對研究對象和目標明確的任務采用網絡爬蟲技術實現信息的主動搜索[4]。在數據獲取層,需要對目標數據進行交換、轉換、裝載、傳輸,必須實施統一、規范、科學的分類和描述。流數據處理面向規模宏大且按次序到達的數據序列,如特定目標遙感數據、各類傳感器網絡數據等。獲取層必須具備支持與主流數據庫的對接能力,包括Oracle、Hive、Gbase、Impala、Aster、Hbase、Mongo等。
本文提出采用Hadoop平臺實現大規模分布式數據資源存儲及并行化計算和非結構化數據處理能力,實現低成本存儲和低延時及高并發的查詢能力。分布式數據庫負責存儲、加工、關聯相關數據,并提供分布式計算,成為數據深度分析和數據挖掘的物質基礎,同時向主數據倉庫輸出高度匯總后的數據。
能力層包含戰略分析必須的各種基礎算法模型,同時映射為各種數據分析能力。對于獲取的數據首先能進行統計基礎分析,從典型的數理統計基礎分析及多維統計分析,到利用機器學習技術開展數據挖掘、知識發現等模型設計,隨后利用數據可視化技術完成與用戶的交互,最終利用評估決策模型為戰略研究提供輔助手段。在能力層主要的技術手段是基于大數據條件下的統計機器學習模型算法的研究及設計,尤其是基于深度學習理論的、面向海量數據的特征提取及表達方法、分類和聚類方法、數據關聯性分析、不確定性分析等。
應用層直接面向終端用戶。從服務方式看,應用層主要包含基礎信息分析、決策評估分析及知識應用3方面。這些應用既能獨立使用,也能與其他應用聯合使用。
戰略大數據體系從信息獲取、存儲、檢索及挖掘計算模型形成完整的信息鏈,可滿足戰略研究需求,但戰略研究復雜、戰略目標眾多、戰略環境多變,致使體系的功能還不能完全滿足戰略研究的需求,模型算法的效率仍有較大提升空間。
戰略研究大數據分析技術,以體系結構設計理念為導引,從數據、算法、策略、應用和系統架構等多維度出發,全面梳理、整合戰略研究流程,初步構建了一個戰略大數據系統。
按照戰略研究信息的類型和需求,戰略大數據系統包括戰略綜合信息系統、戰略態勢環境系統、軍事地理信息系統以及空間目標管理系統(圖2)。其中,戰略綜合信息系統可提供文獻檢索服務;戰略態勢環境系統可提供有關當前國內外各類戰略態勢資訊信息,具有極強的時效性;軍事地理信息系統不僅能實現通用地圖的地理信息查詢、標繪,還能將軍隊編成、武器裝備與地理信息三者結合,構成由軍隊、裝備、基地雙向查詢的鏈式檢索結構;空間目標管理系統以真實物理運動模型模擬各類傳感器運動狀態,提供三維空間可視化工具。
戰略大數據系統的功能設計,首先要保證系統的完備、安全,其次開展對基礎信息、地理信息以及空間目標的管理(圖3)。

圖2 戰略大數據系統邏輯結構

圖3 戰略大數據系統功能結構
信息管理包含基礎信息管理和地理信息管理,基礎信息管理部分對應著戰略綜合信息管理系統和戰略態勢環境系統的部分內容。除綜合信息系統部分內容可以從原有局域網數據庫導入外,其余大部分信息都來源于主題型網絡爬蟲經過云化ETL后寫入云存儲空間的數據。地理信息除基礎地理信息由地圖自帶外,有關軍隊編成、基地、裝備等信息均為由既有的結構化信息導入或爬取。戰略綜合信息系統、戰略態勢環境系統及地理信息管理模塊等3部分最頻繁的操作為信息更新及檢索,信息更新由主動搜索工具Scrapy-Redis完成,經過數據清洗及分類后采用Hadoop分布式系統架構完成大規模存儲及高速計算;信息檢索部分由企業級搜索引擎Elasticsearch完成,可滿足實時、可靠、穩定的全文檢索。
由于數據的復雜性和軍事戰略研究的特殊性,戰略大數據計算挖掘模型需要多領域、多學科交叉共同構建,需要諸如模式識別、機器學習、語義分析、自然語言理解、博弈論、軍事戰略理論等眾多領域知識交叉融匯。
基于Scrapy框架結合Redis組件實現了主題網絡分布式爬取,利用布隆過濾器去重,并利用余弦相似度、樸素貝葉斯算法等實現主題信息預分類,最終寫入MongoDB非關系型數據庫。該搜索系統可由用戶自定義時間、抓取規則,并對采集的數據進行自然語言處理,包括抽取關鍵詞、抽取摘要、抽取實體詞等,且對已抓取信息進行增刪查改并以多種方式輸出,抓取信息經過審核后可批量導入數據庫。該系統設定了數十種目標網站、上百種抓取規則,實現了戰略綜合信息管理系統及戰略態勢環境系統的數據初始化和更新。
利用Django與Elasticsearch實現了基于知識圖譜的語義檢索。ElasticSearch是一個基于Lucene的企業級實時全文搜索服務器,具有實時存儲、搜索PB級結構化或非結構化數據的能力。關注軍事戰略領域信息,基于已有的開源信息,目前已初步構建了數百萬條索引記錄。隨著文本量的逐漸增加,該索引將會以指數級增長。
為提高檢索效率及檢索結果質量,構建了以“核安全態勢”為本體的知識圖譜為ElasticSearch服務。利用商業語料庫結合中科院分詞系統,提取了“核安全態勢”相關概念,同時識別了若干未登錄詞以擴充核領域的分詞詞典,建立了核領域本體的概念及層次結構關系以及核領域本體類屬性[5]。在此基礎上,經過知識融合、實體對齊和消歧,初步構建了一個包含語義信息的核領域知識圖譜。將知識圖譜導入后與ElasticSearch搜索引擎相結合,實現了語義搜索能力。目前,ElasticSearch搜索引擎運用于戰略綜合信息與軍事地理信息2個子系統中,基本能夠實現文本與地理信息的全文快速檢索。
文本大數據分析模型是運用深度學習、邏輯推理等技術,對文本數據進行語義分析、檢索及模型構建,輔助實現對戰略領域關切事件的分析、重要人物思維模式分析、智庫等對政府決策影響力分析等。目前,基于深度學習理論的自然語言處理技術越來越廣泛地應用于海量文本分析,使戰略研究者從大量文本信息中提煉高價值情報成為了可能。本系統利用基于遞歸神經網絡(RNN)的LSTM模型,以及Seq2Seq+Attention機制建立了一個生成式文本摘要。它可對多文檔自動生成理解式摘要,極大地提高了戰略研究者獲取關鍵信息的速度。
在戰略態勢環境系統中,以蔡英文為例,利用文本分析模型進行人物多維度分析。數據采集了蔡英文學習經歷、政治經歷以及2000年以來公開講話稿約50篇,通過構建其政治人物關系圖譜和進行政治主張數據關聯性分析,勾勒出蔡英文是一個集學者、律師、商人三者特性于一身的政客,其親日、親綠、冷戰思維、危機意識和潛在攻擊性特別突出。
本文在分析傳統戰略研究方法和手段無法滿足大數據條件下的戰略深度的基礎上,依據系統設計的物理及邏輯結構設計了一個自底向上的5層體系結構模型。在該體系結構框架下,依據戰略研究過程的不同階段及功能需求設計了一個戰略大數據系統。該系統從信息獲取、存儲、檢索及挖掘計算模型構成了較為完整的信息鏈路,可滿足基本的戰略研究需求。但戰略研究任務艱巨、研究目標數量眾多、研究領域交叉性強、制約條件復雜,致使任務驅動型的挖掘計算模型在數量上不能滿足日益增長的任務需求,模型算法的效率仍有較大提升空間。如何與現有系統融合、實現數據共享、軟件復用等問題都是需要進一步深入研究的。此外,本系統在模型構建、用戶交互等方面還有待引入更多的人工智能技術(如語音識別、機器翻譯、自然語言推理、情感分析等技術),逐步提升系統能力。