王玉虎 劉 偉
1.北京郵電大學人工智能學院 北京 100876
現代戰爭已從機械化、信息化時代發展到智能化時代,已呈現出從計算機智能到感知智能再到認知智能的發展趨勢[1]. 隨著信息技術和人工智能的不斷進步,軍事科技水平不斷提升,可以預見戰爭模式將在未來迎來新一輪變革,作戰態勢呈現出作戰節奏快、反應時間短、兵力部署分散、火力超視距等系統性新特點. 現代戰爭的精準性、快速性和全局性的特點,使得指揮員更難根據人類的思維來規劃作戰.在快節奏、高強度的對抗環境中,指揮員僅靠人力很難深入分析戰場形勢[2]. 過去單純根據指揮員經驗進行決策的方法已經難以適應現代戰爭的需要,利用人工智能輔助作戰決策將是必然趨勢[3].
雖然機器智能在很多方面已經超越人類,但目前的機器智能不足以獨立完成指揮控制決策任務.首先目前的機器智能尚不夠完善. 在面對諸如信息不完全、不確定和開放環境、動態復雜、強對抗、小樣本和具有欺騙性的軍事場景,機器智能還無法與人類智能相提并論,在經驗、反思、直覺等多個方面,人工智能依然難以達到人類的水平[4]. 機器智能可以根據數據作出判斷,但無法像人類一樣思考事物的價值. 在不同的時間和環境,人即使處理相同的事物,也會根據經驗和實時態勢對事實作出不同的價值判斷[5]. 其次在倫理方面,機器智能自主進行軍事指揮控制決策過程必須要有人的參與. 具有自主功能的軍事指揮控制決策系統中,必須要有人的參與且要起到決定性作用,且該機器的所有者或操作員應該為該系統的行為負一切責任,否則機器的自主性將對社會造成有害且深遠的負面影響[6].
基于上述問題中的人機關系現狀,為了在現代戰爭的場景下更好地完成戰場指揮控制任務,提出一種基于人機融合的態勢認知模型,其旨在結合指揮員的人類智能與機器智能的優點,綜合利用機器智能對戰場態勢的快速準確處理能力,和人類智能對態勢的理解推理判斷能力,使人的智能和機器智能合理融合,作出價值性和事實性統一的判斷決策.
人類習慣于模糊性和靈活性的知識表征邏輯及經驗性和直覺性的推理決策,這與機器精確性和固定性的數據結構及公式化推理和邏輯決策機制有很大的不同,如果無法將人機合理地進行融合,兩者反而會互相掣肘,進而降低人機融合戰場態勢認知系統和指揮控制決策的效率. 因此,洞悉人機功能特點是必要的,要在掌握人機各自認知功能特點的基礎上,進行人機協作優化分工和人機融合機制的研究.
人的認知具有綜合認知能力、選擇性和理解性較強等特征,同時也具有統一性差、精確度低等特征. 人認知的具體特點如下:
1)綜合認知能力強. 人在認知外界事物時,常常把具有許多部分或多種屬性的對象看作一定結構的統一整體,也善于將多模態信息進行加工處理融合使用. 在理解態勢環境的過程根據部分信息進行概括性地綜合認知,如指揮員在戰場中掌握了某些區域的作戰情況,就可對整個戰場態勢進行評價概括.人同時也善于認知并整合利用多模態信息,如指揮員可同時處理視頻、音頻和圖表數據等多種信息,并綜合利用這些信息進行下一步的指揮控制.
2)信息認知范圍有限. 相較于機器,人的各種感知器官都具有非常有限的認知范圍. 比如一般人的聽覺范圍是20 Hz~20 kHz,而普通雷達的常用頻率在220 MHz~35 000 MHz. 在現代戰場環境下,視野、各類聲波等各類信息的接受方面,人類各種器官的認知范圍遠不如機器.
3)認知信息模糊性. 人對外界事物的認知具有模糊性,例如人的認知中會產生“比較、非常、相對、很、最”等模糊性的形容. 一方面,這種模糊性會對精準計算帶來難以量化的不利,但另一方面,這種模糊性有利于人對信息進一步的理解和處理.
4)認知精確度低甚至錯覺. 在科學技術發達的現代,人的認知精確度與機器認知的差距可謂天差地別. 相較于機器認知極低的產生錯誤概率,人產生錯覺的概率較高. 人的錯覺是人對外界事物不正確的認知,這是人的主觀認知對客觀世界的歪曲. 在戰場環境中,不論高層指揮控制人員還是底層情報收集人員的錯覺都有可能成為戰場中的致命因素.
5)個體認知差異性大. 面對相似甚至相同的場景和態勢,在接受同樣信息的條件下,不同的人會產生不同的認知結果. 由于不同人的經歷、經驗、知識水平、性格等差異,在同一場景下對相同信息的認知結果會有所不同. 比如不同的指揮員在相同的環境和已知信息條件下會作出不同的指揮決策判斷,這也是本文后續所提及的個性化.
與人相比,機器認知具有精確性強、環境適應性強、范圍廣等特征,同時也具有綜合認知能力差等特征. 機器認知的具體特點如下:
1)綜合認知困難. 機器在認知單一信息時,可以做到測量精確度高、認知范圍廣,但是當面對綜合信息時,機器在多模態數據融合問題上并不便利,因為機器并沒有價值性的對信息的理解和認知能力,即無法篩選出有用信息. 至于戰場感知中對敵方的偽裝、隱蔽和欺騙的識別和模擬人的思維推理認知能力更是機器難以實現的[7].
2)信息認知范圍廣. 機器能夠探測的各類信息范圍遠遠超過人的認知范圍. 比如,對于人所看不到的超出認知的信號,機器傳感器能夠輕易感知探測.隨著科學技術的不斷進步,機器能夠認知的信號范圍會更加廣泛,可以說在現代戰場環境下,機器認知范圍才是對戰方真正的感知范圍,如果一方在戰場受到打擊或干擾失去機器認識,那這一方無異于失去了眼睛和耳朵.
3)認知信息精確性. 通過某種預設的程序算法,幾乎所有通過機器認知獲得的數據都是在某種精度下以數字形式精確存儲的. 由于設備本身的不穩定性或環境因素,機器認知獲取的信息有時也會出現錯誤或異常數據的情況,這種情況可以通過一些算法或人為地將這些不良數據剔除或更正.
4)精確度高、反應速度快. 傳感器可對相關的物理量以一定精確度進行定量檢測,當下各類物理量的測量都已經到達了較高精確度,且會隨著時間愈加進步. 在反應速度上,機器的快速感知能力滿足現代戰爭的需要,這點是人的認知不能比擬的.
5)數據統一性較好. 在相同環境下,探測相同物理量的機器傳感器所獲取的數據是相同或極接近的,不會出現個體差異. 在數據方面,傳感器的設計可以設置某種統一的標準,且由于機器的認知精確性,傳感器所檢測出的數據便于利用且客觀直接,可以通過明確的算法對傳感器的數據進行利用.
綜上所述,總結人機認知特征在各方面的差異如表1 所示.

表1 人機認知特征比較Table 1 Comparison of human and machine cognitive characteristics
自20 世紀60年代以來,信息系統的快速發展促進了人機交互(human-computer interaction,HCI)研究的廣泛發展,旨在設計出具有人機工程學特性的人機界面,如友好性、可用性、透明性等[8]. 這同樣促進了指揮控制系統和模型向著人機交互的方向發展. 近年來,在指揮控制系統人機交互認知行為建模方面,對單方面因素進行建模有以下典型模型:在感知方面的信號檢測模型(signal detection theory,SDT)[9-10],針對認知方面的視覺搜索注意力模型[11]、ITTI 視覺顯著性模型[12]、顯著性努力期望值模型(salience effort expectancy and value,SEEV)[13-14]和美國國家航空航天局任務負荷指數量表(NASA task load index,NASA-TLX)[15-16],針對決策方面,有透鏡模型(lens model,LM)[17-19],針對行為方面,Fitts 法則模型較為典型[20].對多個方面進行建模的有以下典型模型:集成任務網絡的系統分析(security administrator’s integrated network tool,SAINT)、改進的性能研究集成工具(improved performance research integration tool,IMPRINT)[21]、目標算子方法和選擇規則(goals operators methods and selection rules,GOMS)[22]和理性思維的自適應控制(adaptive control of thought-rational,ACT-R)[23]. 在這些方法中,ACT-R和GOMS 與人機交互關系密切,更適合模擬軍事物聯網建模指揮控制系統的人機交互任務. Leong-Hwee提出了基于GOMS 和ACT-R 的CogTool 模型,可以輸出典型任務的完成時間[24-25]. LI 等構建了基于改進的視覺聽覺認知心理運動的軍事物聯網建模指揮控制系統的心理負荷(mental workload,MW)預測模型[26].
可以看出,人機在系統中都發揮著不可或缺的作用,而如何將二者更高效的結合是提高指揮控制系統性能的重點,人機交互指揮控制系統的下一步發展方向是人機融合. 機器在計算、存儲、反應速度等方面具有人類無法比擬的優勢,然而在歸納、學習、推理判斷等方面遠不如人類智能. 為實現既智能又高效的指揮決策,需要結合機器智能和人類智能的優勢,將人的認知屬性和機器計算屬性進行融合. 結合前人提出的混合智能層次化概念框架,以及對人機融合的思考和理解,給出人機融合的概念:人機融合就是研究在給定環境和任務條件下,人機如何分工、交互以及人機數據如何整合的一門學科,如圖1 所示.

圖1 人機融合示意圖Fig.1 Schematic diagram of human-machine fusion
人機融合的目的是互補地將人機兩者的優勢充分合理結合. 在現代軍事對抗環境下,人機融合的意義是在高動態、極復雜、富欺騙、強對抗、小樣本、不確定等戰場條件下,能夠形成快速、準確、有效的戰場態勢認知并完成合適的指揮控制決策. 復雜場景中決策的關鍵在于如何破解人機融合決策的機理. 在多域異構信息和知識中,人在方向性處理方面十分重要,提前縮小問題域的范圍,接著機器就可以更好地發揮其快速、準確和結構化計算的優勢[27]. 機器也可以先把復雜的數據、信息和知識初步劃分到對應的領域,人再根據實時場景做進一步細化. 在不同的場景中,人和機器的數據整合方式也不盡相同,需要將人的決策和機器的決策合理整合,才能夠達到人機融合決策優于僅人決策或機器決策的更優決策效果.
2007年,美國陸軍開發了深綠系統,期待能像深藍系統那樣窮盡敵軍所有可能行動,為指揮員指揮與控制提供輔助決策. 但該項目由于戰場復雜態勢的不確定性導致出現組合爆炸問題而被擱淺. 2014年,美軍制定第三次抵消戰略,實現其在作戰概念、技術創新、組織形態和國防管理等方面的創新突破,以恢復并保持傳統遏制力. 此次戰略抵消重點發展的五大技術領域包括自主學習系統、人機協作系統、人類作戰行動輔助系統、有人/無人作戰編隊和網絡賦能自主武器系統等,均以人工智能為核心. 2018年8月,美國國防部公開新版的《無人系統綜合路線圖(2017—2042)》. 該路線圖聚焦未來全域作戰所需的技術支撐,圍繞互操作性、自主性、安全網絡、人機協同等主題,指導軍用無人機、無人潛航器、無人水面艇、無人地面車輛等的全面發展,加快顛覆性技術的發展和運用,為確保軍種的無人系統發展目標與國防部規劃保持一致提供頂層戰略指南. 同年,美國戰略與預算評估中心發布《未來地面部隊人機編隊》報告,報告闡述的主要內容有:發展未來地面部. 對人機編隊的主要推動因素、可使未來地面部隊在戰爭中獲得競爭優勢的三大人機編隊形式、發展未來人機編隊面臨的主要挑戰,以及通過人機編隊提高未來地面部隊作戰效能的戰略.
在指揮控制決策方面,指揮員的風格千差萬別,能夠實現高效人機協作的智能系統一定是個性化的智能系統. 個性化的智能系統不是簡單的機器對指揮員習慣的適應和遷就,而是應該建立一種有效的人機交互的框架和機制. 系統的輔助建議有可能是對指揮員思路的補充,也有可能與指揮員的指揮風格完全相反,通過不斷實踐獲得反饋,人機融合認知能力獲得迭代發展,最終實現個性化的人機融合認知系統,達到人與機器的最優匹配.
面向戰場智能化、高復雜、強對抗環境下目標識別、威脅估計、行為預測等戰場指揮控制態勢認知問題,本文基于人機認知特點分析、人機融合優化分工與人機數據合理整合、彈性知識庫的知識與數據表征融合、個性化人機交互機制等研究工作,形成有效的知識與數據聯合表征方式,實現多層次信息交互和反饋,為全面提升戰場指揮控制能力和人機融合態勢認知水平建立理論模型. 以人機功能特點和人機融合概念為基礎,構建如圖2 所示基于人機融合的態勢認知機制,其主要包括3 個部分:一是基于人機特點的任務分工;二是基于彈性知識庫的人機交互;三是人機最佳決策生成.

圖2 基于人機融合的態勢認知機制Fig.2 Situation cognition mechanism based on human-machine fusion
在現代戰場環境條件下,基于人機認知特點,通過某種給定機制對任務進行分工,大體上遵從將判斷決策等任務交給指揮員處理,將態勢獲取、輔助計算等任務交給機器處理. 接著通過傳感器對戰場態勢的探測能夠獲得當前作戰環境下的地形、敵我人員以及作戰裝備等部署情況. 作戰輔助決策系統(如彈性知識庫)結合傳感器探測得到的信息、已有的歷史作戰信息和軍事知識、指揮員的輸入信息,對敵我雙方的意圖及態勢發展進行分析,并將戰場態勢及分析結果呈現給指揮員. 輔助決策系統將結合指揮員的戰術指導、指揮員個性化作戰風格、我方當前作戰任務等與指揮員進行個性化人機交互,通過不斷學習指揮員個性化信息以及新知識,以提高人機交互的質量. 在進行一系列人機交互后,作戰輔助決策系統將給出系統計算最優的指揮控制決策. 將指揮員的決策與機器決策同時輸入最佳決策生成方法模塊中,以某種給定的方式進行策略選取. 通過反饋機制,輔助決策系統將此次學到的新知識寫入彈性數據庫,更新個性化知識庫便于下次使用,提高知識的重復利用率.
基于人機功能特點,以往的人因工程學、認知心理學、知識驅動的人工智能和倫理人工智能等學科,在人機分工問題上已有數個經過檢驗的原則和可行的辦法. 本節先對各學科人機分工原則進行簡要介紹,基于這些原則和對戰場態勢實際需要的考慮,選擇了動態調整的分工方法,以確保能夠滿足復雜多變的現代戰場態勢任務分配需求.
在人因工程學方面,宜人性原則是指設計功能分配方案時以人為核心因素,以最大程度上降低人生理和腦力的工作負荷為目標,能使人掌控機器自動化的功能變化[28];單項績效最優原則是指從工作績效的評定出發,若機器執行某項任務的績效高于人,則將此項任務分給機器[29];自動化程度與信任、風險相匹配的原則是指功能分配對應的自動化水平,應當動態地與任務風險(包括任務本身的關鍵性和風險性)及人對機器的信任程度相匹配,該原則提出的出發點是:自動化雖然可以降低人的工作負荷并提高例行性任務的工作績效,但由于人對高能力的自動化有過度信任的傾向,同時會導致人態勢感知能力下降和損失,進而導致人進行自動化系統故障管理的績效下降,因此,在例行性任務績效與故障管理績效的矛盾中存在一個最優的自動化水平程度[30].
在認知心理學方面,區分事實/價值類任務的原則是指單任務按預期結果可以分為事實類、價值類兩類,事實類的任務分給機器,而價值類的任務由人類來承擔,至少要人類來監督決策[31].
在知識驅動人工智能方面,區分單一/綜合類問題的原則是指解決單一類問題的任務分配給機器,解決綜合類問題的任務分配給人. 單一與綜合的劃分可以從數據模態、所需要使用的推理方法等方面去判斷;區分封閉/開放類問題的原則是指解決封閉類問題的任務分給機器,解決開放性問題的任務分給人的原則. 封閉與開放的劃分可以從數據空間、知識空間、問題空間和解空間等方面進行判斷. 在初始分工后,可能存在問題在封閉的數據、知識空間中無解的情況,因此,需要相應的分工動態調整機制,使得任務的執行者可以由機器追溯到人,從更高的目標出發更靈活地解決問題.
在倫理人工智能方面,目標準確表達與價值可評判原則是指當一個任務的目標不能以合理的效用定義并表達給機器,或無法判斷機器執行任務的價值,即評判智能系統做的“對不對”的問題,則應謹慎考慮把這項任務交給機器;透明可控原則是指如果完成任務的智能系統不能做到故障透明和追責透明,即引起的損害有辦法查明原因和可以為價值判斷及對設計者與建設者的問責提供有說服力的解釋,則應謹慎地引入智能系統完成該項任務[32].
基于上述原則,結合表1 所述人機認知特征,認為動態調整分工方法比較適合現代作戰場景指揮控制下的態勢認知系統人機任務分工,原因有兩點:一是此類分工方案的優劣可以通過8 項指標來確切度量[33](工作負荷、工作環境的穩定性、責任和權限的不匹配度、分工方案中的不連貫性、自動化的中斷度、自動化的邊界條件、分工方案對人適應場景變化的限制、任務完成的績效),這為分工任務提供了具體可用的抓手,可以較客觀地分析某次分工的優劣;二是分工初始由強制分配,運行中動態調整完成,這樣可以滿足處理現代戰場復雜多變環境的需求.
動態調整分工辦法中有許多具體計算方法和模型,其中,較成熟的方法有基于決策準則的Sheffield法[34]、基于自動化分類和等級分工方法[35]、基于場景的York 法[36]、Pritchett 法[33]等. Sheffield 法在分配過程中共需要考慮8 組中的100 多項決策準則,其包括人機能力特性,人因工程角度的人員的作業設計等因素,還包括自動化的精度和費用等. 其優點是考慮的因素比較全面,且包含了系統的靜態和動態功能分配過程,同時還考慮了艦艇操作人員之間的功能分配,但缺點是考慮過多、分配粒度過小,導致復雜系統難以實現[37]. 自動化分類和等級設計對獲取、分析、決策、行動4 個過程進行分類并進行自動化程度評級,使任務按照對應的自動化程度運行. York法則是基于場景要素動態地對任務進行分配,以任務的緊急程度和自動化分配方案的效費比等條件給任務進行自動化程度劃分.
Pritchett 法是基于功能分配建模的計算框架,該方法指出一個好的功能分配的需求包含幾個可觀察到的保證度量的方面. 這些指標分為8 類: 1)來自所有來源的工作量/任務負載;2)責任和權威之間的不匹配;3)人工作環境的穩定性;4)功能分配的一致性;5)中斷;6)自動化邊界條件;7)系統成本和性能;8)人適應情景的能力.每種類型都解決了一個重要的功能分配問題,這些指標不僅針對特定問題,而且共同使設計人員能夠為指標之間的權衡進行功能分配.
該方法在實驗中演示了在飛行的進近和到達階段,如何從航空運輸飛行甲板的計算模擬中評估某些功能分配指標. 在任何設計中,都要明確或隱式地檢查全套功能分配. 提出了建立功能分配模型時需要考慮的4 個關鍵因素,包括:
1)跨越實現工作目標所需職能的集體團隊任務工作.
2)分配任務工作職能,創造額外的團隊工作職能的需要. 這導致了智能體之間的協調.
3)能夠預測當分配的功能相互依賴或交錯時出現的緊密耦合代理交互的動態方面.
4)在工程設計中支持功能分配評估.
實驗創建經過選擇的場景,以建立預計會對功能分配施加壓力的非標稱條件. 采取了機會主義的、戰術的和戰略的3 種模式,評估了8 個指標之間的權衡,以確定它們之間存在的潛在權衡和沖突,對航空運輸駕駛艙在下降過程中的工作和動力學的計算模擬揭示了一種權衡,即通過為自動飛行系統分配更多功能來減少機組人員的工作量,以需要更多監控和降低機組人員的能力為代價,預測即將發生的行動,獲得最佳功能分配方案.
隨著機器學習的發展,也可以看到一些新興的通過神經網絡深度學習等機器計算方法用于輔助任務分工. 比如一些算法通過分類的方法進行,這些方法以任務指標作為輸入,自動化等級數值分類或人機二元分類作為輸出,通過一定已有樣本訓練后,該機器學習模型可以根據新任務的指標輸入直接得到任務分配結果;還有一些算法通過聚類算法進行計算,通過對已有人機的任務分配情況,對未知任務按照指標距離的計算進行人機任務分配劃分. 這些機器學習方法存在兩個問題:1)性能表現良好的規模較大的模型訓練需要大量甚至海量樣本,而戰場數據難以支持規模龐大的網絡學習;2)機器學習得到的結果缺乏可解釋性,分工結果缺少依據,若想投入使用,后續仍然需要人的檢驗和反復處理,這導致了不必要的浪費. 對于第1 個問題,機器學習方法可以通過借鑒小樣本學習方法的原理或使用一些小樣本學習模型;對于第2 個問題,則需要機器學習的可解釋性研究進一步發展. 相信隨著機器學習方法的不斷發展,越來越多計算性的問題被交給機器管理,而在機器輔助下人只需要進行價值判斷,這將大幅減少現場指揮員的工作負荷.
面對現代作戰場景,人機交互是人機融合過程中的主要部分,在大多數時候也是最重要的部分. 機器的優勢在于其能夠根據歷史作戰場景,通過其強大的計算能力,對于新的作戰場景能夠實現快速學習,但其學習的知識可能與人類對于作戰場景的理解存在巨大的鴻溝. 人類由于具備完備的軍事理論知識以及豐富的作戰經驗,對于新作戰環境的理解往往更加準確,但也可能忽略一些信息,且人類的信息處理速度相對機器來說比較慢,很可能耽誤最佳戰機. 因而如何做好人機交互部分對于整個系統都至關重要.
一個由歷史作戰場景學習到的知識、現實作戰場景學習到的新知識以及根據指揮員風格、現實作戰任務不斷學習到的新知識等組成的彈性知識庫,對于適應新的作戰場景具有重要的意義. 圖3 為彈性知識庫的架構框圖,其主要有兩部分組成,分別是公共知識庫和個性化知識庫. 其中對于公共知識庫,主要由歷史作戰場景知識和軍事理論知識等公共知識組成;對于個性化知識庫,主要包括不斷根據現實作戰場景學習的新知識以及指揮員根據當前作戰任務和自身的作戰經驗形成的主觀意識知識. 機器將認知到的態勢信息和對當前態勢的預測結果傳遞給指揮員,指揮員根據具體的作戰任務、以往的作戰經驗、自身作戰風格等,對接收到的新知識進行處理,給出戰術指導信息,也可以給出某項具體任務交給機器處理. 機器接收處理指揮員提供的信息,并匯聚公共知識庫的知識和現實世界作戰場景的信息,給出指揮員所需要的新知識. 通過學習最佳決策的反饋,進一步了解指揮員的決策風格和當下態勢所需信息. 重復該過程,對指揮員的風格進行學習,達到人機深度結合,實現指揮員風格的遷移. 通過該個性化人機交互機制,實現機器和人之間相互學習、知識共享,從而作出既能匹配當前作戰任務,也能匹配當前指揮員風格的最佳個性化人機融合態勢認知.

圖3 彈性知識庫架構Fig.3 Flexible knowledge base architecture
該彈性知識庫架構的特點主要有以下兩個方面:一是能夠實現傳感器數據和指揮員及歷史數據的融合;二是能夠實現基于多注意力機制知識遷移的態勢認知.
在傳感器數據和指揮員及歷史數據的融合方面,由圖3 彈性知識庫的架構可知,彈性知識庫表征的關鍵在于彈性知識庫的時空多特征表征. 傳感器數據是多源異構數據,指揮員數據即指揮員的作戰先驗知識和戰術等可表示或轉化為文本數據,軍事理論知識大部分也可表示為文本數據. 因此,傳感器數據、指揮員信息、軍事理論知識按數據類型可分為兩大類:一是多源異構傳感器數據;二是文本數據.因此,可根據數據類型分別進行時空多特征表征. 需要解釋的是,這里的多特征是指語意多特征,例如:作戰環境的地形特征、敵我雙方人員的特征、敵我雙方作戰裝備特征等.
面對多源異構傳感器數據的時空多特征表征問題,通過對作戰環境進行空間建模對于感知作戰地形、敵我人員配置、敵我雙方軍事裝備配置情況等具有重要的意義,由于傳感器獲取的作戰環境數據是時間序列數據,如何在時間和空間維度上充分理解敵我雙方的意圖具有重要的意義.
根據戰場需求采取一系列合適的支持多模態融合計算機視覺方法,一種可行的方案是采用雙流卷積神經網絡對彈性知識庫進行時空多特征表征,如圖4 所示. 對于空間流,基于傳感器獲取的RGB 圖像數據,采用空間流卷積神經網絡進行空間特征表征;對于時間流,基于傳感器獲取的RGB 視頻數據,計算其光流信息,獲取其動態圖像信息,然后基于光流圖像,采用時間流卷積神經網絡進行時間動態信息的表征. 對于其他類型的傳感器數據,采用與視頻數據的同時發生為約束以及共同語義約束進行嵌入.最后融合空間特征以及時間動態特征,獲取魯棒的時空多特征表示,從而完成彈性知識庫的時空多特征表征,以輔助個性化智能決策系統的構建.

圖4 時空多特征表征框圖Fig.4 Space-time multi-feature representation block diagram
面對文本數據的知識表征問題,文本數據主要包括指揮員數據以及軍事理論知識等,這些知識包括了以往指揮員在作戰及決策領域積累的豐富經驗與教訓,同時也是指揮員進行戰場知識表征的重要手段,因此,文本知識的表征對于彈性知識庫的構建,有效的人機交互以及輔助作出最優的作戰決策具有重要意義. 為實現這一目的,如何將人的先驗知識、軍事理論知識等轉化為機器可以理解的語言是知識表征與建模的關鍵.
可以根據戰場需求采取一系列合適的具有戰場語料庫的自然語言處理方法,一種可行的方案是利用某種已經過軍事語料訓練的語義理解系統對文本信息進行處理和理解,然后利用知識圖譜對歷史知識庫進行檢索,給出與當前態勢相符的歷史數據相關信息,并根據當下態勢給指揮員提出預測和決策意見,如圖5 所示.

圖5 文本信息的處理和信息輸出Fig.5 Text information processing and information output
彈性知識庫的另一個特點在于基于多注意力機制知識遷移的態勢認知. 圖6 為基于多注意力機制知識遷移的態勢認知框圖. 對于環境認知部分,機器將通過多源異構傳感器獲取新的作戰場景信息,以多源異構數據的同時發生為約束,對多源異構傳感器數據進行融合,將融合后的新的作戰場景知識傳遞給機器,以供機器對新的作戰場景進行理解. 機器將從場景類別、地形、人員情況、軍事裝備等方面對新的作戰場景進行理解,對敵我雙方的態勢進行分析. 在此過程中通過彈性知識庫的知識共享,機器結合新的作戰場景更好地對新的作戰場景進行理解并獲取新作戰場景的知識. 若獲取到的知識為新知識,則將新知識記憶到彈性知識庫便于下次使用. 通過彈性知識庫的連續知識流動更新機制,該模型實現的系統能夠很好地適應復雜的戰場環境.

圖6 基于多注意機制知識遷移的態勢認知Fig.6 Situation cognition based on knowledge transfer based on multi-attention mechanism
采用多注意機制知識遷移進行認知,可以實現歷史作戰場景或新的作戰場景的知識萃取和知識更新,對于網絡的每一個分支,注意部分任務,通過多損失函數進行反饋,不斷優化網絡的性能. 以精確的認知環境信息,輔助作出最優的作戰決策. 在環境認知的過程中,不斷地與公共知識庫進行信息交換,通過提取歷史作戰舊知識輔助網絡進行新知識的遷移學習,并將網絡學習到新知識記憶到公共知識庫,從而提高彈性知識庫的重復利用以及更新彈性知識庫.通過對新的作戰環境的認知,充分地熟悉地形、敵我人員配置情況、軍事裝備等,并對敵我雙方人員進行姿勢識別. 綜合環境認知獲取的所有信息,對敵我雙方意圖進行理解與分析.
需要指出的是,當前人工智能的決策選取和決策生成能力都不夠成熟,其不可解釋性使得機器的決策生成難以真正運用于軍事決策中的最終判斷.因此,基于現代戰場復雜多變的態勢和需要決策者經驗算計能力的事實,當下人機最佳決策生成的最好方式是在現場指揮員對比人的決策和機器決策后進行最佳決策生成. 因為在場的指揮員是最了解當前戰場態勢信息的人,且經驗豐富的指揮員既可以充分發揮人的智能,也能夠利用機器提供的各類信息,最重要的是人的決策具有可靠性和可解釋性,其既給戰場態勢中的實時復雜對抗需求給予保障,又符合倫理道德等方面的要求. 在心理學上,進行策略評價時,對不同的評價主體而言,評價的結果可能具有較大的差異. 從策略復用的目的出發去評價策略,同類策略中真正會被選擇的是決策者,亦即評價主體認為滿意的策略[38]. 這說明由指揮員自身來作出最佳決策生成是符合應急決策心理學的.
實際上,人機決策生成不外乎兩種方式,一種方式是決策選取即決策評價,另一種方式是融合決策.決策選取實際上就是選取若干個決策中最優的一項,而為了評價哪個決策最優,決策選取問題就會轉變成為決策評價問題,為了評價決策性能,通常會先設定幾個用于評價的指標,然后通過某些數學方法對各類指標賦權后計算一個總體評分,最后選取分數最高者作為最佳決策,此類方法有層次分析法[39]、TOPSIS 法[40]等. 但這類決策評價方法運用于戰場將出現一些問題,首先在于指標難以選取,在不同的戰場態勢條件和任務下評價指標也將不同,而在緊張的時間內很難找到幾個合適的評價指標投入使用;其次在于權重難以衡量,在戰場上很難準確評價某項指標相對于另一項指標重要多少. 第2 種方式融合決策目前研究較少,因為機器欠缺綜合認知能力、價值判斷能力和創造能力,綜合考慮各種決策最后作出新決策是人擅長的領域. 由于決策內容的復雜性,單純地拆分策略后從各項指標選取最優再組成一種融合決策會導致自相矛盾的問題,因此,機器很難實現融合決策,而人則可以借鑒各個決策的優點,甚至以此為靈感想出更好的新決策.
綜上,在現代戰場條件下,人機最佳決策生成的最好方式是在現場指揮員對比人的決策和機器決策后進行最佳決策生成. 這種生成可以是從指揮員決策和機器決策中選取,也可以是指揮員綜合考慮兩者后做出的新決策.
本文基于人機融合思想對現代戰場指揮控制中的態勢認知問題進行建模,模型的組成符合人機融合定義中的3 個主要部分. 在具體實現上,本文利用彈性知識庫框架、動態調整分工等技術路線,搭建起了一套可行的態勢認知模型,使得模型在合理表征指揮控制態勢認知的前提下,結合人與機器的優勢,從而達到指揮控制條件下人與機器的有效協同,增強了現代戰場環境下的指揮控制作戰能力.
在人的思維能得以通過模型的方式完善的表征之前,僅靠當前的各類機器學習技術手段還遠不能勝任復雜多變的戰場指揮控制任務,因此,未來仍需要更完善的人機融合智能理論來應對荊棘密布的前路. 按照本文給出的人機融合概念,更合理的人機分工方法、更先進人機交互手段和更科學的人機數據融合機制,也許能夠成為未來解決問題的關鍵.