劉網定,張國寧,鄭世明
(陸軍指揮學院作戰實驗室,南京 210045)
伴隨著前沿智能科技的飛速發展,越來越多的無人裝備、智能技術應用于戰場,智能化戰爭初露端倪。現有計算機輔助決策通常是基于規則的決策,智能化程度較低,難以適應未來有人/無人作戰新形勢的需求,這就需要突破傳統靠固定規則推理的方法,探求具備自我學習和動態分析預測能力的方法框架,以求自主而準確地判斷戰場態勢并作出行動決策。
從AlphaGo、星際爭霸AI 到AlphaGo Zero,深度強化學習技術在圍棋、游戲、自動駕駛、機器人制造等領域取得不斷進展,使得智能感知與決策可以達到甚至超越人類水平,例如AlphaGo 依靠深度學習把握了圍棋對弈的“直覺”棋感和棋勢,通過強化學習實現了自我學習和優化棋招,擊敗了圍棋世界冠軍李世石。深度強化學習的機制與方法[1-5],借鑒參考了心理學中的行為主義理論,符合人類的分析決策思維方式,這為解決自主感知與決策問題提供了一種技術框架。本文利用深度學習挖掘態勢數據中的隱含特征,全面地抽象到態勢感知;再通過強化學習模仿人對事物的認知方式,在無監督的情況下,通過不斷地試錯,達到對戰場態勢的累積學習,形成正確的戰場認知結論與決策結果。
強化學習受到人和動物學習中試錯法的啟發,智能體如何決策(作出行動)來源于環境的反饋,對于正確的行動,環境會給出獎勵,對于錯誤的行動,環境會給出懲罰,智能體根據環境的反饋來調整自己的決策,通過與環境的不斷交互與反饋,最終能夠得到最優決策方案。……