基于Expectimax 搜索與Double DQN 的非完備信息博弈算法

2021-03-18 08:04:16雷捷維王嘉旸閆天偉

計算機工程 2021年3期

雷捷維，王嘉旸，任航，閆天偉，黃偉

（1.南昌大學信息工程學院，南昌 330031；2.江西農業大學軟件學院，南昌 330000）

0 概述

博弈論是研究具有斗爭或競爭性質現象的數學理論和方法，是經典的研究領域之一。博弈問題存在于人們生活各個方面。例如，商品定價可看作商人和顧客之間的博弈，國家之間的經濟與軍事競爭也可視為博弈問題。現實中博弈問題比較復雜，人們通常將其經過抽象處理轉化為便于研究的游戲模型再加以解決。博弈主要分為完備信息博弈和非完備信息博弈。在完備信息博弈中，玩家可看到全部游戲狀態信息，不存在隱藏信息。例如，圍棋、國際象棋和五子棋等均為完備信息博弈。在非完備信息博弈中，玩家僅可看到自身游戲狀態信息和公共信息，而無法獲取其他游戲信息。例如，麻將、橋牌和德州撲克等均為非完備信息博弈。由于現實中許多博弈問題無法獲取全部信息而被歸類為非完備信息博弈，因此非完備信息博弈問題受到廣泛關注。研究非完備信息博弈，可解決金融競爭［1］、交通疏導［2］、網絡安全［3］和軍事安全［4］等領域的問題。

近年來，關于完備信息博弈和非完備信息博弈的研究在多個應用領域取得突破性進展。在圍棋應用方面，Google 公司DeepMind 團隊開發出AlphaGo、AlphaGoZero 和AlphaZero 等系列圍棋博弈程序，并結合蒙特卡洛樹搜索與深度強化學習算法［5-7］進行實現。2016 年，AlphaGo 以4∶1 擊敗韓國專業圍棋選手李世石引發社會關注。在德州撲克應用方面，2015 年BOWLING 等人［8］在《Science》雜志發表關于CFR+算法的論文，證明該算法已完全解決兩人受限的德州撲克博弈問題。2017 年，阿爾伯塔大學開發出DeepStack系統，結合CFR 算法與多層深度神經網絡（Deep Neural Network，DNN）［9］解決了德州撲克一對一無限注博弈問題。此外，人們還對《星際爭霸II》等多人非合作游戲進行研究，取得眾多研究成果［10-12］。

相關研究顯示，麻將的復雜度要高于圍棋和德州撲克［13］，然而目前關于麻將研究較少，大多數麻將程序僅基于人工經驗進行設計，未結合最新的強化學習等方法。目前麻將程序設計主要采用Expectimax 搜索算法［14-15］。2008 年，林典余［16］根據Expectimax 搜索算法以贏牌最快為原則設計麻將程序LongCat。2015 年，荘立楷［17］提出轉張概念對LongCat進行改進，利用所得麻將程序VeryLongCat進一步提升LongCat的贏牌效率，并贏得該年度臺灣計算機博弈比賽和國際計算機博弈比賽的冠軍。然而在麻將游戲中要想贏牌，除了提高贏牌效率之外，還需提高贏牌得分。目前LongCat 和VeryLongCat 的剪枝策略和估值函數均基于人工先驗知識設計，由于人類經驗中常存在不合理的決定或假設［18-19］，因此設計更合理的剪枝策略和估值函數成為亟待解決的問題。

為解決上述非完備信息博弈問題，本文以麻將為例進行研究。目前麻將程序主要采用Expectimax搜索算法，其計算時間隨著搜索層數的增加呈指數級增長，且其剪枝策略與估值函數基于人工先驗知識設計得到。本文提出一種結合Expectimax 搜索與Double DQN 算法的非完備信息博弈算法，利用Double DQN［20］算法給出的子節點預估得分，為Expectimax 搜索算法設計更合理的估值函數與剪枝策略，并將游戲實際得分作為獎勵訓練Double DQN網絡模型以得到更高得分與勝率。

1 相關理論

1.1 Expectimax 搜索算法

Expectimax搜索樹［14-15］是一種常見的搜索算法，廣泛應用于非完備信息博弈游戲，其結構如圖1所示。在此類游戲中，由于某些信息具有隨機性和隱藏性，因此無法使用傳統的minimax搜索樹算法［21］來解決。針對該問題，Expectimax 搜索算法中設計了max 節點和chance 節點。其中，max 節點和chance 節點的效用值分別是其全部子節點效用值的最大值與加權平均值（即當前節點到達每個子節點的概率）。例如，對于圖1中值為39 的max 節點，39 為其所有子節點（chance 節點）的最大值；對于值為14的chance節點，14為其所有子節點（max節點）的加權平均值，即：14=20×0.4+10×0.6。Expectimax 搜索算法與大多數游戲樹搜索算法類似，也是通過啟發式估值函數計算各節點估值。

圖1 Expectimax 算法的搜索樹結構Fig.1 Search tree structure of Expectimax algorithm

1.2 Double DQN 強化學習算法

強化學習源于智能體對人類學習方式的模仿，是智能體通過與環境交互不斷增強其決策能力的過程。強化學習算法主要包括動態規劃算法［22］、時序差分算法［23］、蒙特卡洛算法［24］和Q 學習算法［25］。這些算法均存在局限性：動態規劃算法雖然數學理論完備，但是其使用條件非常嚴格；時序差分算法可在無法獲取環境全部信息的情況下得到較好效果；蒙特卡洛算法需對當前未知環境進行采樣分析，由于時間與空間具有復雜性，因此其很難應用于解決時序決策問題；Q 學習算法是通過計算每個動作的Q 值進行決策，但是其存在過估計問題。

隨著對強化學習研究的不斷深入，研究人員對Q 學習算法改進后提出深度Q 學習算法DQN［26-27］，該算法與Q 學習算法一樣，也是通過計算每個動作的Q 值進行決策，仍存在過估計問題。為解決該問題，研究人員在DQN 基礎上提出雙重深度Q 學習算法Double DQN［20］。

DQN 算法具有原始網絡和目標網絡兩個神經網絡，雖然其結構相同，但是權重更新不同步。DQN算法的權重更新使用均方誤差（Mean Squared Error，MSE）定義損失函數，其表達式如下：

其中，a為執行動作，Rt+1為獎勵分數，St為當前游戲狀態信息，St+1為下一個游戲狀態信息，θ為網絡權重，γ為折扣因子，Q(S，a)為狀態S下執行動作a的估值。

由于Q 學習算法和DQN 算法中Max 操作使用相同值選擇和衡量一個動作，可能選擇估計值過高的動作導致過估計問題。為此，Double DQN 算法對動作的選擇和衡量進行解耦，將式（2）改寫為以下形式：

2 本文算法

2.1 基于Expectimax 搜索的麻將決策過程

由于麻將游戲過程中存在發牌隨機性等不確定因素，因此其規則比較復雜。在麻將游戲中，玩家可通過捉牌、吃牌、碰牌和杠牌等方式獲得一張牌，隨后需再打出一張牌，后續重復上述步驟，直到游戲結束為止。如果將吃牌、碰牌和杠牌視為特殊的捉牌，則麻將中所有動作均可用序列<捉牌，打牌，捉牌，打牌…>來表示。其中，捉牌動作記錄捉牌玩家的用戶ID 以及捉哪張牌等信息，打牌動作記錄打牌玩家的用戶ID 以及打哪張牌等信息。

假設A、B、C 和D 代表4 名玩家，其中A 為當前玩家，B、C、D 為其他玩家。如果A 捉牌“9 萬”后打牌“6 萬”，B 碰牌“3 萬”后打牌“7 筒”，A 碰牌“7 筒”后打牌“1 萬”，那么上述動作序列可表示為。

實際上，如果在決策中考慮所有玩家的動作，則Expectimax 算法的搜索樹很大，從而無法在有限時間內做出決策。為解決該問題，通常將整個游戲博弈過程進行抽象處理，僅考慮當前玩家的捉牌與打牌動作，并以此構建Expectimax 算法的搜索樹。此外，為進一步簡化搜索樹，將吃牌、碰牌和杠牌也作為特殊的捉牌，則上述動作序列表示為。

通過上述方法，本文將麻將游戲過程簡化為捉牌和打牌兩個動作。結合Expectimax 搜索算法，將捉牌動作看作chance 節點，打牌動作看作max 節點。例如，假設當前玩家手中持有的牌（以下稱為手牌）為1 萬、2 萬、4 萬、9 萬和9 萬，那么基于Expectimax算法的麻將搜索樹結構如圖2 所示。