李 綱,王施運,毛 進,李白楊
(1.武漢大學信息資源研究中心,武漢 430072;2.武漢大學信息管理學院,武漢 430072)
當前,我國國家安全形勢日益嚴峻,國際安全與國內安全、傳統領域安全與非傳統領域安全問題頻繁發生,嚴重威脅著國家發展和社會穩定[1]。近年來,黨和國家高度重視國家安全問題。2014年4月15日,習近平總書記在主持召開中央國家安全委員會第一次會議時首次提出總體國家安全觀的戰略思想,統籌維護國家政治、經濟、軍事、科技、文化、生態等各方面的安全,給國家安全管理提出了新的要求[2]。
國家安全事件的突發性、事件演化過程的復雜性和不確定性、影響結果的威脅性和深遠性,要求決策者必須在極短的時間內對其做出快速判斷和處置。傳統的“預測-應對”型管理方案,較多依賴于經驗決策和專家咨詢等形式,難以適應高度非常規、復雜化的國家安全事件的應急管理需求。因此,面向國家安全事件的應急管理,需要實現實時、全面的態勢感知,構建更有針對性的“情景-應對”型管理模式[3]。國家安全事件態勢感知的核心是從事件相關的信息內容中挖掘有價值的態勢要素,通過分析形成對當前態勢的總體描述,使各利益相關者加深對當前情景的理解,輔助生成處置決策。在態勢感知基礎上,再結合歷史數據實現態勢推演和預測,為國家安全事件風險預警提供服務。然而,國家安全事件相關數據主要以半結構化和非結構化的形式廣泛分散存在,表現出典型的大數據“4V”(volume,variety,value,velocity)特征及交織性、超維性和協同性等新型特征[4],給國家安全事件信息管理帶來極大的挑戰。面向國家安全事件的應急管理,如何從海量、多源、異構且動態變化的國家安全事件大數據中,深度挖掘出細粒度的知識單元和知識之間的關聯,構建國家安全事件的全景描述,實現國家安全事件的態勢感知,成為國家安全事件信息管理中亟待解決的關鍵問題。
語義網技術的發展,為上述問題的解決提供了新的思路。知識圖譜(knowledge graph)是基于語義網技術發展起來的一種新興知識組織方式[5],通過實體表示細粒度的知識,并揭示實體之間的知識關聯。哈爾濱工業大學的劉挺教授團隊進一步提出事理圖譜,利用謂詞短語來表示事件,并通過有向邊表示事件之間的順承和因果關系,從動態角度揭示事件之間的演化邏輯[6]。針對國家安全事件大數據的復雜特征,需要借助知識圖譜和事理圖譜技術,從多層次、多角度出發,實現國家安全事件信息的相互關聯以及知識的深度揭示,采用知識挖掘技術實現國家安全事件態勢的全面感知與分析,為國家安全事件的管理決策提供服務。
因此,本文面向國家安全事件的態勢感知,從信息組織的角度出發,基于知識圖譜和事理圖譜模型構建了國家安全事件圖譜知識表示模型,描述和揭示了事件、實體及其相互關系,并提出了一套國家安全事件圖譜的構建方法,以實現國家安全事件大數據的序化組織。在此基礎上,探究基于國家安全事件圖譜的態勢狀態提取方法,借助數據分析模型實現國家安全事件的態勢感知,為國家安全事件的處置決策提供情報服務,為構建“情報靈、判斷準、反應快”的國家安全管理體系提供有效的信息與知識保障,從而實現國家安全管理能力的綜合提升。
當前,國家安全領域的信息組織主要依賴于知識庫建設。一些國家針對具體的國家安全領域構建了相應的數據庫和知識庫。例如,英國IHS Jane’s集團下的國家風險安全與軍事能力評估情報中心針對全球250個國家和地區軍事能力和安全環境進行了關鍵分析,形成了國家風險與安全評估模塊、安全資訊模塊等核心數據庫,為用戶的重要安全決策提供支持。
目前,國內尚沒有公開的面向國家安全事件的大型數據庫。但已有許多學者面向突發事件開展了本體知識庫的構建研究。這類知識庫主要分為描述靜態概念的本體知識模型和描述動態事件的本體知識模型。早期的研究多關注基于靜態概念的本體知識模型構建,例如,王能干等[1]構建了突發事件應急服務本體模型;楊月華等[7]通過對突發事件領域的知識信息進行收集,構建了包含事件、級別、階段、應對和資源這五類概念,及其相互關系的突發事件領域本體模型。這類基于概念的本體模型旨在揭示突發事件領域涉及的相關概念及概念間的上下位關系和同義關系,而不關注事物之間的動態變化過程,難以滿足工業界基于事件邏輯關系進行推理的知識需求。因此,事件本體應運而生[8]。事件本體作為一種以事件為核心的知識表示方法,是從事件及其關系的角度對事件的發展演變過程進行描述。朱文躍等[9]提出了基于事件本體的突發事件領域知識建模方法,構建了包含上層事件類、下層事件類以及事件實例的本體結構,可用于描述突發事件中事件類、事件要素以及事件之間的層次和非層次關系。馬雷雷等[10]以自然災害事件要素為核心,構建了自然災害事件領域本體模型,包含自然災害事件中的時空、動作、對象及事件之間的語義關系結構。還有些學者針對具體的自然災害事件,構建了相應的事件本體,如臺風災害領域本體模型[11]、洪澇災害事件信息模型[12]等。
知識圖譜最初是谷歌公司于2012年提出的,初衷是為了改進其搜索引擎的性能[13]。隨著知識圖譜技術不斷發展和完善,逐漸被應用到各個領域和行業中。目前,尚沒有關于直接應用于國家安全事件信息管理的研究,但有部分學者針對突發事件的知識圖譜構建方法進行了探究。杜志強等[14]提出了自上而下和自下而上相結合的自然災害應急知識圖譜構建方法。圍繞自然災害事件、災害應急任務、災害數據以及模型方法四個要素,自上而下構建知識圖譜的模式層;然后,通過數據獲取、知識抽取、融合、存儲等方法,從實際數據中獲取實體間的關聯關系,自下而上構建數據層。李澤荃等[15]探究了基于知識圖譜的災害場景信息融合技術,以臺風“山竹”為例,構建了知識圖譜案例。陶坤旺等[16]對知識圖譜在應急減災領域的應用流程進行了總結,構建了九寨溝地震應急知識圖譜。李攀成[17]對知識圖譜構建技術中的知識融合技術進行研究,實現了公共安全領域中文知識圖譜的構建系統,主要包括數據獲取、知識抽取、知識存儲和知識融合等模塊。這些研究為本文面向國家安全事件的圖譜構建提供了參考。
態勢感知的定義最早由Endsley[18]明確提出,是指“基于一定的時空條件,實現對環境要素的察覺、理解和對未來發展趨勢的預測”。在此定義基礎上,1995年,Endsley[19]將態勢感知引入人的決策制定過程,提出態勢感知模型。態勢感知被劃分為三個階段:態勢察覺(perception)、態勢理解(comprehension)和態勢預測(projection),為態勢感知的應用奠定了理論基礎。態勢感知在涉及安全的相關領域中研究最多,主要包括戰爭、網絡安全、突發事件等場景,尚缺少直接關于國家安全事件態勢感知的相關研究。
在戰場指揮系統中,態勢感知是指對戰場復雜環境形勢的分析評估和預測[20]。崔令飛等[21]從時空大數據平臺構建、時空大數據來源拓展和平臺的優化利用等三個層次,探究了利用時空信息資源圖支撐一體化聯合作戰戰場態勢感知的可行性。楊霄等[22]提出了將物聯網技術應用于戰場綜合態勢感知領域的系統建設思路和方法,有助于我國軍隊高效快速地掌握戰場局勢。
網絡安全態勢感知是近年來關注度較高的一個相關領域。1999年,Bass[23]首次提出在網絡空間中實現態勢感知的構想,由此開始了態勢感知系統在網絡空間的發展應用。網絡安全領域的研究內容,按其態勢感知功能可分為網絡安全態勢要素的提取、網絡安全態勢的評估和網絡安全態勢的預測[24]。在此功能基礎上,國內外相關企業研發了一系列的網絡安全態勢感知系統。國外以FireEye、Mandiant、MITRE、RSA、Lastline等網絡安全公司為代表,國內以360公司、亞信科技、安恒科技、綠盟科技等公司為代表,都推出了網絡安全態勢感知系統[25],為網絡安全的實時監控和風險評估提供了強有力的支撐。
突發事件方面,一些學者開始關注利用社交媒體進行突發事件領域的態勢感知研究。在突發事件場景下,社交媒體中涉及大量的受災地區損失信息、逃生路線、安全信息、失蹤資源[26]、地理信息[27]、捐助信息和警告信息等與突發事件態勢相關的數據[28],能夠為突發事件中事件的災害消解、受害人支持等應急響應工作提供實時、精確的信息支撐[26]。曾大軍等[3]提出了一套整合社會傳感網絡的突發事件大數據應用解決方案,為社交媒體在突發事件態勢感知中的應用場景提供理論指導。Power等[29]利用Twitter的數據構建了ESA(emergency situ‐ation awareness)系統。Salfinger等[30]提出將社會傳感器中的危機信息整合進入態勢感知系統的框架,并提出了系統功能的評估指標體系,對目前已有的九種基于社會傳感器的危機管理態勢感知系統進行了功能性評估,為后續面向危機管理的態勢感知系統研究提供了理論框架。目前已有研究者將社交媒體應用到突發事件的態勢感知中,為態勢信息的全面感知和監控提供數據支撐。但是,社交媒體信息的海量、多源、異構等特征,又會給突發事件的信息組織帶來極大的挑戰。而面向更為重要和復雜的國家安全事件,需要更進一步探究新的信息組織方式。
本文所述國家安全事件是在總體國家安全觀視角下的事件總稱,不局限于國土安全和軍事安全,而是拓展到了經濟安全、文化安全、社會安全、科技安全、網絡安全、生態安全等各個領域。
在傳統的“預測-應對”型應急管理模式中,信息需要通過部門間的層層上報的方式為決策提供服務。人際傳播和線下傳播是傳統應急管理過程中重要信息的主要收集方式。但是,政府安全管理部門對于數據的管理并未實現真正的共享[31],縱向的科層制工作結構和橫向的部門劃分使得數據資源難以統一整合和有效管理。此外,傳統的業務工作流程無法實現數據的實時共享。這就導致面對國家安全數據資源之“大”,政府管理部門對其利用率卻很“小”的問題,數據資源的開發利用嚴重不足,國家安全大數據的價值密度極低,難以滿足應急決策的需求。
隨著互聯網和移動網絡的快速發展,新聞媒體網站以及微博、微信、博客、在線論壇等社交媒體的普及,極大地拓展了社會大眾的信息溝通和實時交互能力,激發了大眾參與國家安全事務的熱情。Web社會媒體這種即時性高、社交性強的信息傳播方式,已被視作一種有效的社會傳感器[3,32]。來自互聯網渠道的國家安全事件大數據能夠在重特大突發事件中發揮重要作用。當災害發生時,來自全國各地描述災情的信息在各種社交媒體平臺上迅速傳播,為政府安全管理者提供全面、實時的態勢要素信息。此外,這些由公眾的日常感觀所產生的信息相對于傳統物理傳感器得到的信息,往往更為直觀易懂,便于分析,能夠在短時間內得到較為可靠的態勢信息[3]。
因此,近年來國家安全事件相關信息的傳播形成了以人際交流等為主的傳統信息傳播渠道和以物聯網、社交媒體、新聞媒體網站、政府網站等為主的互聯網渠道共融的特點。但是,海量的信息廣泛分散在物理環境、人類社會和信息空間中,信息載體各異、傳播渠道分散、數據類型復雜等特征導致不同來源的信息組成的國家安全大數據呈現出無序、多維等特點,難以有效融合,給國家安全事件態勢感知的精準性和態勢分析的有效性帶來了巨大挑戰。
面向國家安全事件的態勢感知需求,需要實現國家安全多源數據的綜合集成與語義融合。因此,本文提出一種融合實體關系圖和事理演化邏輯圖的國家安全事件圖譜,以實現對知識的細粒度、深層次組織。本文所述的國家安全事件圖譜主要具有以下特征:①由模式層(知識表示模型)和數據層構成。其中,模式層提供了對事件、實體、屬性及其關聯關系的語義描述架構,能夠指導國家安全事件相關數據的采集和挑選,實現多源異構數據的語義融合。②事件圖譜的知識表示主要包含兩層邏輯結構,即事件層和實體層。其中,事件層重點關注事件的時空演變狀態和事件的邏輯演化規律。態勢感知要求在時間維上對事件整個生命周期下的狀態進行持續感知,在空間維上對事件相關的整個態勢空間進行監測,不僅包括現實物理世界中的各種對象,也包括虛擬網絡空間中的各種對象集合。由于國家安全事件的特性,需要重點關注事件屬性隨時空的演變情況。此外,國家安全事件的復雜性使得其發展難以通過個人經驗簡單預測,因此,需要整合從領域知識庫以及歷史案例庫中抽象出的事件之間的邏輯演化關系,對事件發展態勢進行推演,為風險預警提供服務。實體層涉及事件相關實體,需要重點關注主體之間的關聯關系和主體的職能匹配。國家安全事件往往涉及大量關系復雜的利益主體,需要理清各主體的需求-能力匹配關系和合作關系等,為資源配置提供服務。
基于事件圖譜,本文提出國家安全事件大數據組織和應用架構,如圖1所示。該系統架構的基本思想:將國家安全事件圖譜應用于實現國家安全事件大數據的集成與組織,為態勢感知提供數據支撐,實現國家安全事件大數據的“數據-知識-服務”轉化路徑。首先,基于專家經驗和歷史數據構建一個國家安全事件圖譜原型,基于模式層的指導,利用分布式數據探針[4]從物理世界、人類社會和信息空間中采集各種態勢相關信息,通過數據處理構建國家安全事件圖譜的數據層,完成國家安全事件大數據從數據到知識的轉化。然后,基于國家安全事件圖譜的數據結構,利用智能化的分析方法構建數據分析模型,實現對態勢情景的察覺和理解功能。在此基礎上,利用當前態勢信息和歷史信息實現態勢推演和預測功能,以識別事件發展過程中的未知風險。面向公眾、組織機構和決策者等不同主體的態勢感知需求,提供直觀、精準而全面的情報服務,完成國家安全事件大數據從知識到服務的轉化。

圖1 國家安全事件大數據的組織與應用架構
本文所述的國家安全事件圖譜是由模式層和數據層構成的。模式層是事件圖譜的知識表示模型,負責提供語法規約,而數據層則是由具體事件、實體實例及其關系等數據組成,從國家安全事件信息內容中解析得來。國家安全事件圖譜的構建主要解決兩個問題:知識表示模型的構建和數據層的自動構建。
為了詳細闡述如何構建事件圖譜表示模型,本文給出了具體實現思路,如圖2所示。首先,給出國家安全事件圖譜的基本定義,設計圖譜的整體邏輯結構;其次,在此基礎上深度解析知識單元之間的邏輯關系,構建國家安全事件的統一知識表示模型;最后,對于初步構建好的圖譜表示模型進行優化,探究其補全和更新機制,構建完整國家安全事件圖譜。

圖2 事件圖譜知識表示模型構建思路
4.1.1 事件圖譜整體邏輯結構
國家安全事件圖譜整體結構包含兩大部分:模式層和數據層(如圖3所示)。圖譜整體結構的描述模型為NSEM={NSEs,Es,Ps,Rs,Is}。其中,NSEs表示國家安全事件類集合;Es表示國家安全事件相關實體類集合;Ps表示國家安全事件相關屬性類集合;Rs表示關系集合;Is表示實例集合。相關概念定義如下。

圖3 國家安全事件圖譜整體結構
定義1國家安全事件NSE(national security event)。參考前人的研究[10],本文將國家安全事件定義為一個四元組,表示為NSE=(A,O,T,L),其中,A表示與國家安全事件相關的一系列動作集合;O表示與國家安全事件相關的對象,包括參與的主體、客體以及相關的對象事物;T和L分別表示事件發生的具體時間和空間。
定義2國家安全事件圖譜中的類。事件類NS‐Es表示與某一個國家安全原子事件NSE相關的所有子事件的集合,繼承事件基類NSE。定義為NSEs=(nse1,nse2,nse3,…,nsen);實體類Es表示與原子事件NSE相關的所有實體集合。在國家安全事件中,一般包括事件涉及的相關者、物資等。定義為Es=(e1,e2,e3,…,en);屬性類Ps表示所有屬性的集合,包括實體的屬性以及事件的屬性,定義為Ps=(p1,p2,p3,…,pn)。
定義3國家安全事件圖譜中的關系Rs。Rs是指與某一個國家安全原子事件NSE相關的事件、實體和屬性之間的關系集合。理論上來說,包括事件與事件之間、實體與實體之間、事件與屬性之間、實體與屬性之間、事件與實體之間的關系。定義為Rs=(r1,r2,r3,…,rn)。
定義4國家安全事件圖譜NSEG(national secu‐rity event graph)。國家安全事件圖譜可表示為一個有向標簽圖,NSEG=(N,L)。其中,N表示國家安全事件圖譜中的頂點,包括實體、事件以及屬性值;L表示國家安全事件圖譜中的邊,L定義為(n1,n2,label),表示兩個頂點n1和n2之間具有label關系。此外,針對事件之間的演化關系,還需要進一步標注事件的轉移概率。
4.1.2 事件圖譜知識表示邏輯
在圖譜整體邏輯結構基礎上,進一步細化知識單元,研究其內在邏輯關聯,形成國家安全事件的知識表示模型。本文融合事理圖譜和知識圖譜,形成既能刻畫事件演化邏輯關系,又能描述事件和實體之間相關關系的國家安全事件圖譜知識表示模型(圖4)。國家安全事件圖譜對于國家安全事件的知識表示主要包含兩層邏輯:一層是通過實體關系圖揭示事件所關聯的各類實體及其關系,實現事件、實體、屬性的統一知識表示;另一層是借助事理圖譜描述事件的動態演化過程,賦予事件與實體之間關系的動態屬性特征。利用這兩層邏輯的表示,形成國家安全事件圖譜的統一知識表示模型。

圖4 國家安全事件圖譜知識表示模型
首先,剖析國家安全事件的主要事件類型,研究事件腳本的描述方法,分析不同類型事件之間的動靜態關系類型,研究基于有向圖的事理演化邏輯圖描述方法。本文參考突發事件的發展演變過程,將國家安全事件的生命周期劃分為事件發生期、演化期和恢復期,結合應急管理過程,將國家安全事件進行分類,主要分為國家安全事件發生類、處置類、影響類和恢復類。各個事件類衍生出許多子事件,事件之間存在順承、因果、上下位等關系。每個事件類繼承國家安全事件基類,即包含對應的時間、空間、對象和動作要素。除此之外,不同的事件類型可能還含有不同的屬性要素。在此基礎上,研究事件涉及實體的關系圖譜描述方法。借助利益相關者分析、工作流分析等手段研究國家安全事件中涉及的人、組織機構、資源等實體類型,定義每類實體的關鍵屬性。
本文結合2019新冠肺炎疫情事件,參考《抗擊新冠肺炎疫情的中國行動》白皮書[33]和《中華人民共和國傳染病防治法》[34],構建了一個融合后的新冠疫情事件圖譜案例(圖5)。為了便于圖譜的可視化,使用事件核心詞表示事件節點,實線主要用于描述事件與事件和實體與實體之間的相關關系,虛線主要用于描述事件與實體以及事件與屬性之間的相關關系。在百度資訊中按照對應關鍵詞進行檢索,得到相關的新聞信息,補全事件的屬性信息。由于人工構建圖譜的精力有限,僅對部分事件進行了實例信息的補全,且沒有基于完整事件信息進行轉移概率計算。
從圖5可以看到新冠疫情發生、發展過程中的部分事件演化關系。例如,由于新冠肺炎的發現,湖北省中西醫結合醫院向武漢市江漢區疾控中心報告不明原因肺炎病例,隨后,國家衛生健康委派出專家組開展現場調查,并成立疫情應對處置領導小組展開防控工作部署;隨著調查的進行,專家組發現了明確的人傳人現象,因此,中央決定對疫情嚴重地區實行隔離/封鎖;封鎖之后,新增病例數慢慢下降。借助事件圖譜,可以幫助人們更清楚地理清事件之間的發展演化關系。

圖5 2019新冠肺炎疫情事件圖譜案例(部分)
4.1.3 圖譜表示模型補全和更新機制
國家安全事件圖譜表示模型的初步構建采用專家構建法,基于專家的經驗知識,分析國家安全事件的主要類和類之間的關系,形成圖譜原型。但是,針對具體的國家安全事件,其事件類、實體類和屬性類存在較大的差異,專家構建法所構建的類目并不完善,因此,需要進一步對表示模型進行補全和更新。本文借鑒文獻[35]中的方法,提出基于數據的圖譜表示模型補全和更新機制(圖6)。首先,通過數據映射,自上而下地實現國家安全事件信息內容中知識單元的語義關聯,構建國家安全事件圖譜數據層。在此基礎上,從具體實例數據出發,結合數據屬性特征,自下而上地對事件、實體、屬性及其關聯關系進行模式歸納,進一步通過語義數據映射模型將之補充到國家安全事件圖譜表示模型中,通過不斷迭代的方式完善國家安全事件圖譜表示模型。

圖6 國家安全事件圖譜更新機制
本文提出的事件圖譜自動構建方法主要是從國家安全事件相關信息內容中自動抽取事件、實體實例及其對應關系,在此基礎上實現知識的融合,構建包含完整態勢要素的統一事件圖譜。圖7展示了事件圖譜的自動構建流程,重點關注事件圖譜構建過程中的知識抽取、知識融合以及知識補全和更新技術。

圖7 國家安全事件圖譜構建流程圖
4.2.1 數據采集與知識抽取
國家安全事件圖譜構建的關鍵是在事件圖譜表示模型的語義指導下,從國家安全事件相關信息中抽取表示模型中的各知識元素,實現表示模型的具象化。首先,采用關鍵詞匹配、余弦相似性計算等方法建立事件與信息條目的關聯模型,在大數據環境中部署分布式數據探針,結合人機交互的方式,不斷補充和確定可靠數據源,從中篩選出跟國家安全事件相關的信息,完成數據采集。國家安全事件的大數據環境主要包括物聯網感知到的物理環境中多模態數據,權威新聞媒體網站,微博、微信等社交媒體網站,政府官方網站公布數據,政府部門間交互性業務數據,以及百度百科、維基百科等開源知識庫中的知識資源等。
然后,對采集到的國家安全事件信息進行知識抽取。針對政府、企業等的結構化數據以及HT‐ML、XML格式的半結構化數據(如百度百科的信息框),借助語義數據映射模型,將數據庫模式語法、XML模式語法向事件圖譜表示模型進行映射,實現結構化數據和半結構化數據的知識抽取。針對新聞網站、社交媒體等包含的非結構化數據,綜合運用事件抽取[36]、事件關系識別[37-38]、實體抽取、實體關系識別[13]等技術,利用序列標注、深度學習、協同訓練等統計模型,從非結構化數據中抽取事件、實體、屬性及其關系。非結構化數據的知識抽取的關鍵在于高質量的訓練語料庫。目前,已有一些針對突發事件的少量標注語料庫,如上海大學語義智能實驗室構建的中文突發事件語料庫CEC(Chinese Emergency Corpus)[39],從互聯網上收集了五類突發事件(包括地震、火災、交通事故、食物中毒等)相關的新聞報道作為原始語料,對文本預處理后進行了事件標注,標注元素主要包括Event(突發事件,用句子表示)、Denoter(觸發詞)、Time(時間)、Location(地點)、Participant(參與者)和Object(對象)。但是目前還沒有針對國家安全事件的通用語料庫。因此,在實際應用過程中,可結合突發事件相關的語料庫對事件的組成要素抽取模型進行訓練。對于沒有標注語料的事件類型,可采用依存句法分析和模式匹配的方法從中抽取候選集合,或應用遠程監督的方法將已有知識庫對應到非結構化數據中,生成大量訓練數據。此外,針對特定的領域,還可自建語料庫。
4.2.2 知識融合
主要分為數據層、事件層和實體層三個層面進行知識融合。首先,采用數據映射技術建立所抽取的事件、實體與表示模型中的事件類和實體類之間的映射關系,實現數據到模式層的語義融合,建立知識之間的語義關聯,進而將多源數據集成一個統一的知識庫。其次,不同數據源中的知識元素可能指代現實世界中的同一存在。因此,在數據映射的基礎上,需要進一步應用事件對齊、事件泛化[40]技術。例如,對事件進行向量表示,將事件元素組中各個元素短語的詞嵌入(通過GloVe[41]等預訓練模型得到的d維向量)拼接成一個向量,作為整個事件表示[42],在向量表示的基礎上借助相似度計算方法,構建事件層面的融合規則和算法,實現事件實例的消歧和統一表示。最后,針對事件相關實體,借助實體對齊[43]和實體鏈接[44]技術,結合上下文信息和word2vec[45]、BERT[46]等語義表示工具,設計實體層面的融合規則和算法,將不同數據源中關于同一實體的不同表達歸并為一個具有全局唯一標識的實體對象,從而實現實體實例的融合。通過三個層面的有效融合,能夠實現知識的統一表示。
4.2.3 知識補全與更新
隨著事物的發展變化,事件相關的信息內容會不斷迭代更新。因此,需要對事件圖譜進行知識補全與更新。根據國家安全事件圖譜的整體結構,其更新包括模式層的更新與數據層的更新。對于模式層,采用基于數據的補全和更新機制;而數據層的補全和更新則需要依據事件的演變規律,迭代更新事件、實體、屬性實例信息。一方面,可將抽取到的實體與已有的高質量知識庫進行映射,補全實體描述信息;另一方面,事件與實體之間的關聯是通過論元角色實現的,從宏觀角度考慮,不同事件、不同信息內容都會帶來不同的論元角色關系,事件圖譜表示模型無法一一列舉齊全,因此,需要借助基于圖的推理、鏈接預測、不一致檢測、路徑計算等知識計算方法進一步挖掘數據中包含的隱性知識,對數據層中的隱含知識進行更新和補全。此外,從動態角度考慮,事件的發展演變又會帶來論元角色關系的動態變化,需要進一步探究融合時空特征的動態挖掘模型,實時更新補全事件圖譜。
本文將國家安全事件態勢感知視為一套態勢分析系統,從系統構建角度提出基于事件圖譜實現國家安全事件態勢感知的路徑,如圖8所示。首先,需要對不同利益相關者的態勢需求進行分析,構建多維度態勢描述框架,完成需求建模;其次,運用信息構建的分析方法將態勢描述框架模型轉化為層次性的多維度態勢描述系統功能,每一態勢描述維度對應一項系統功能,通過定義相應的數據分析任務實現系統功能;最后,需要探究基于事件圖譜的態勢維度狀態提取方法,為系統功能的實現提供信息支撐。

圖8 基于事件圖譜的國家安全事件態勢感知實現路徑
國家安全事件的管理過程涉及多階段、多業務和多主體,不同的主體在決策任務中承擔的工作各不相同,涉及的態勢信息需求也不完全一致。因此,在構建多維度態勢描述體系時,首先,需要對國家安全事件態勢感知的服務對象、業務要求和階段過程進行分析,明確態勢感知所面向的主體維度、業務維度和階段特征;其次,對國家安全事件不同決策主體、不同業務模塊、不同階段過程的態勢感知目標進行分析,針對每一個目標,分析其態勢需求的特征、類型和內容等,識別具體的態勢感知要素。例如,公眾的主要需求是狀態信息,包括事件類型、時間、地點、影響等;組織機構不僅需要事件狀態信息,還需要對應狀態下的處置信息,包括處理流程以及所需的資源等,并且針對災害發生的不同階段,可能需要不同主體之間的協作交互;決策者則是需要把握全局,基于當前的態勢狀態,做出應急處置決策,包括對相關部門的工作部署和資源調度等,此外,還需要考慮事件的發展趨勢,以及對未知風險進行預警。
面向不同過程、不同主體識別出的態勢感知要素可能存在著重復性和不一致性,需要進一步對識別出的態勢感知要素進行分析和整合,消除不一致和沖突,抽象出態勢感知的要素模型;在此基礎上,建立態勢感知維度與態勢感知要素之間的關聯關系,形成一套通用的多維度態勢描述框架。進一步地,從微觀和宏觀層面探究各主體、各工作流程之間的協作、交流方式,分析其信息交流機制,從而確定各態勢要素之間的關聯、轉化機制,建立完整態勢的描述體系。
由于國家安全事件的不同階段、不同主體對態勢信息的需求各異,因此,國家安全事件的態勢分析需要綜合考慮多個維度。根據態勢感知模型,將系統功能劃分為三個維度:察覺、理解和預測。察覺層主要是采用圖挖掘技術和語義匹配的方法,從事件圖譜中找到與當前事件態勢相關的所有節點及其屬性要素;理解層則是針對察覺到的態勢要素信息,采用統計分析模型和規則匹配的方法,形成對當前態勢的理解,包括態勢層級研判(如災害等級的判定)以及異常點發現(如輿情轉折點等),形成對當前態勢的總體描述,并基于歷史經驗規則,輔助生成對應態勢下的應急處置預案,重點包括所需的處置措施,如救援、醫療救治等,以及相應的資源數量;而預測層是基于表示學習、相似度計算、圖挖掘、關聯推理等技術,從事件圖譜中找到與當前事件相似的歷史事件,結合事件圖譜中的演化規律,利用神經網絡、邏輯規則和時間序列預測方法構建態勢預測模型,并運用系統動力學進行情景推演和模擬仿真[47],對事件的可能演變趨勢進行預測,識別事件發展過程中的未知風險。然后,將態勢分析的結果通過功能子系統呈現給不同用戶,主要包括態勢信息的可視化、精準查詢檢索以及面向不同決策主體的輔助預案生成等服務。
國家安全事件態勢涉及的相關要素錯綜復雜,單個態勢維度亦可能涉及事件的多項要素、多項實體等。如何準確、全面地提取態勢要素是進行態勢感知的基礎。然而,國家安全大數據的多源異構、動態變化等特征給態勢要素的提取帶來了很大的困難。傳統的基于安全指標體系的態勢要素提取方法沒有考慮要素之間的關聯性,將給數據融合帶來一定的挑戰[24]。因此,本文提出基于事件圖譜細粒度知識關聯的態勢維度狀態提取方法。首先,針對從各來源獲得的國家安全事件信息內容,通過事件圖譜表示模型的指導,利用表示模型中包含的事件類、實體類、屬性及其相互關系,應用機器學習和深度學習算法,構建分類、聚類、聚合、序列標注等模型,從相關信息內容中抽取事件、事件要素及實體,并識別出事件、實體及屬性之間的關聯關系,實現不同來源、不同模態信息的語義融合。其次,借助事件對齊、事件泛化、實體對齊、實體鏈接等技術實現事件層面和實體層面的融合。最后,通過規則推理,對態勢要素信息進行不一致檢測,消除錯誤信息,并從圖譜中推理出新的知識關聯,挖掘隱性關聯,補充態勢要素狀態。
盡管現有的圖譜構建技術已較為成熟,但是事件圖譜在國家安全場景下的應用仍存在一些問題和挑戰。
(1)事件圖譜自動化構建困難。由于國家安全事件涉及的事件類型繁多,且不同事件類型涉及的信息差異較大,因此,在事件圖譜的模式層構建中仍需要大量專家知識的參與。此外,在數據層的構建方面,雖然已有研究采用機器學習等自動化的方法實現了圖譜的構建過程,但是其精度和可靠性均有待進一步提升。同時,國家安全事件圖譜的自動構建依賴于高質量的事件標注語料,而目前與國家安全事件相關的標注語料極少,并且不同國家安全事件的組成要素各異,因此,未來研究還需在國家安全事件通用語料庫構建上做出努力。
(2)海量、多源信息集成的挑戰。一方面,互聯網時代,信息呈現爆炸式增長。當國家安全事件發生時,互聯網上與事件相關的信息實時產生,海量的信息將給數據的存儲、查詢帶來挑戰,也對事件圖譜的構建造成困難。這方面,需要加強分布式存儲、并行計算等高新技術,在事件圖譜的構建和存儲中的應用。另一方面,國家安全事件的信息來源廣泛,不同來源的信息可能存在重復和不一致的問題,目前在實體對齊、事件同指消解等方面的方法仍有待改進。
(3)態勢感知應用系統的實現復雜性。首先,國家安全事件涉及的主體眾多,對各主體的態勢需求調研難以大規模展開,因此,難以實現全面的系統功能。其次,態勢分析系統的不同維度對數據和分析方法的需求各異。針對不同層次的系統功能,如何找到合理、有效的解決方法仍有待深入探究。例如,針對察覺層,如何從泛濫的態勢信息中快速篩選出全面、可靠的狀態信息;針對理解層,如何選取合適的分析方法對事件的狀態進行理解;針對預測層,許多國家安全事件的演化往往都是非常規的,難以根據歷史案例進行經驗推理,因此,如何從歷史數據中找到相關信息,并結合場景狀態挖掘出事件的時空演變規律、內在機理等。這些問題均需要結合實際的應用需求進行拓展和深化。
本文面向國家安全事件的態勢感知需求,從信息組織視角,提出融合事理圖譜和實體關系圖的國家安全事件圖譜表示模型,并以2019新冠肺炎疫情事件為例,人工構建了一個事件圖譜案例,揭示了部分子事件的演化過程。在此基礎上,本文探究了一套事件圖譜的自動化構建流程,以實現具體國家安全事件的圖譜實例化過程。最后,基于國家安全事件圖譜的信息支撐,結合數據分析技術提出了實現態勢感知的方法路徑,并對實際應用過程中的問題與挑戰進行了總結。
借助本文所提出的國家安全事件圖譜表示模型,能夠實現事件、實體及其相互關系的序化組織和深度揭示,豐富了情報學中信息組織的理論和方法體系。此外,本文對事件圖譜構建方法和技術的探究能夠為國家安全信息管理提供實踐參考,有效提升國家安全信息組織的水平。進一步地,事件圖譜的構建能夠服務于國家安全事件態勢的全面監控與感知。本文探究了基于事件圖譜實現多維態勢感知的方法,能夠滿足不同主體的情報需求,以實現國家安全管理能力的綜合提升。
但是,本文對國家安全事件圖譜的探討側重于理論和方法層面上的分析,未來需要進一步綜合運用各種技術實現面向具體國家安全事件的圖譜原型,利用數據分析方法實現態勢分析系統功能,在實踐過程中對具體實效進行總結和驗證。