999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向智能博弈游戲的卷積神經(jīng)網(wǎng)絡(luò)估值方法

2020-07-13 12:56:32許華虎談廣云
關(guān)鍵詞:模型

唐 杰 許華虎 談廣云

1(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院 上海 200444)2(杭州浮云科技網(wǎng)絡(luò)有限公司 浙江 杭州 310000)

0 引 言

人工智能研究界中,機(jī)器博弈是一個(gè)廣受關(guān)注的領(lǐng)域。機(jī)器博弈具有一組有限的定義良好的規(guī)則,研究它們可以方便地測(cè)試新的方法,從而準(zhǔn)確地衡量新方法的好壞程度。測(cè)試是通過(guò)比較許多與基于其他方法的程序博弈或與人類選手博弈的結(jié)果來(lái)完成的,這意味著機(jī)器博弈擁有一個(gè)定義良好的用于測(cè)量其發(fā)展進(jìn)程的度量標(biāo)準(zhǔn)[1],進(jìn)而可以更精確地判斷該解決方案是否是解決給定問(wèn)題的最佳解決方案。此外,機(jī)器博弈具有娛樂性,并且對(duì)娛樂行業(yè)的重要性日益增加,這一事實(shí)促進(jìn)了人們對(duì)該領(lǐng)域的進(jìn)一步研究。

機(jī)器博弈研究已經(jīng)取得了許多顯著的成果,比如著名的深藍(lán)計(jì)算機(jī),這是第一臺(tái)擊敗人類象棋冠軍的計(jì)算機(jī)[2]。然而,對(duì)于非完備信息博弈,尚未取得這樣的成功。因?yàn)檫@類博弈的狀態(tài)并不完全可見,意味著存在隱藏的變量/特征。因此,在這類博弈中做出決策更加困難,必須對(duì)缺失數(shù)據(jù)做出預(yù)測(cè),這使得獲得最佳解決方案幾乎不可能。

撲克是一款具有這種性質(zhì)的非常受歡迎的博弈游戲,因?yàn)橥婕也恢缹?duì)手的手牌。計(jì)算機(jī)撲克的研究在過(guò)去幾年一直很活躍。人們開發(fā)了一些撲克智能程序,但它們都沒有達(dá)到類似于專業(yè)人類玩家的水平。為了克服在先前開發(fā)智能程序過(guò)程中出現(xiàn)的問(wèn)題,本文提出了一個(gè)新的思路。該方法試圖利用現(xiàn)在很火的卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)人類專家經(jīng)驗(yàn)進(jìn)而讓程序接近或者達(dá)到專業(yè)人類玩家的水平。

1 背 景

撲克是數(shù)百款具有相似規(guī)則游戲的通用名稱。計(jì)算機(jī)撲克研究的重點(diǎn)就是撲克的一種變體——德州撲克,它可能是當(dāng)今最受歡迎的撲克游戲。德州撲克具有使新開發(fā)的方法能夠以較少的成本便能運(yùn)用在其他種類撲克上的特性。

這個(gè)游戲是基于玩家打賭他們現(xiàn)在的手牌比對(duì)手的手牌要強(qiáng)的想法。整個(gè)游戲中的所有賭注都放在彩池里,游戲結(jié)束時(shí),手牌排名最高的玩家獲勝。或者,也可以通過(guò)強(qiáng)迫對(duì)手下注他們不愿意比賽來(lái)贏得比賽。因此,由于對(duì)手的牌是隱藏的,用一只得分較低的手牌贏得比賽是有可能的,這是通過(guò)虛張聲勢(shì)——說(shuō)服對(duì)手自己的手牌是排名最高的一只。

1.1 手牌得分等級(jí)

德州撲克中,玩家的手牌指的是由定義玩家得分的5張撲克牌組成的牌組。在游戲的任何階段,手牌等級(jí)都是由2張底牌和5張公共牌的組合可能得到的最高得分給出的。可能的手牌等級(jí)排行是(從強(qiáng)到弱):同花順(同一花色,順序的牌),四條(四張同一點(diǎn)數(shù)的牌),滿堂紅(三張同一點(diǎn)數(shù)的牌,加一對(duì)其他點(diǎn)數(shù)的牌),同花(五張同一花色的牌),順子(五張順連的牌),三條(三張點(diǎn)相同的牌),兩對(duì)(兩張點(diǎn)數(shù)相同的牌,加另外兩張點(diǎn)數(shù)相同的牌),一對(duì)(兩張點(diǎn)數(shù)相同的牌),高牌(不屬于上面任何一種牌型的牌,由不連續(xù)不同花的牌組成,以點(diǎn)數(shù)決定大小)。

1.2 德州撲克的規(guī)則

德州撲克采用52張撲克牌(除去兩張王牌),游戲玩家人數(shù)限制在2~9人。在牌局開始時(shí),荷官會(huì)給每個(gè)玩家發(fā)2張“底牌”(只有個(gè)人看到),桌面上會(huì)分三次陸續(xù)發(fā)出3張、1張、1張(共5張)的公共牌,在經(jīng)過(guò)四輪的“加注”、“跟注”和“棄牌”等押注圈操作后,若牌局存在至少兩名玩家仍然沒有棄牌的情況下,進(jìn)入“攤牌”階段,在自己的2張底牌和5張公共牌中挑選5張卡牌形成牌組,按照牌型大小規(guī)則分出勝負(fù),贏家拿下“彩池”中全部籌碼。

1.3 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)代表由卷積層、最大池層和完全連接層的各種組合組成的前饋神經(jīng)網(wǎng)絡(luò),并通過(guò)在相鄰層神經(jīng)元之間實(shí)施局部連接模式來(lái)利用空間局部相關(guān)性。卷積層與最大聚集層交替,模擬哺乳動(dòng)物視覺皮層中復(fù)雜和簡(jiǎn)單細(xì)胞的性質(zhì)[3]。CNN由一對(duì)或多對(duì)卷積和最大池層組成,最終以完全連接的神經(jīng)網(wǎng)絡(luò)結(jié)束。典型的卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示[4]。

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

在普通的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)中,一個(gè)神經(jīng)元與下一層的所有神經(jīng)元相連。CNN不同于普通神經(jīng)網(wǎng)絡(luò),因?yàn)榫矸e層的神經(jīng)元僅根據(jù)相對(duì)位置稀疏地與下一層的神經(jīng)元相連。在完全連接的DNN中,每個(gè)隱藏節(jié)點(diǎn)的輸入都是通過(guò)將整個(gè)輸入乘以該層中的權(quán)重來(lái)計(jì)算的。然而,在CNN中,每個(gè)隱藏層節(jié)點(diǎn)的輸入都是通過(guò)將部分的局部輸入與權(quán)重相乘來(lái)計(jì)算的。然后在整個(gè)輸入空間中共享權(quán)重,如圖1所示。屬于同一層的神經(jīng)元具有相同的權(quán)重。權(quán)重分配是CNN中的一個(gè)關(guān)鍵原則,因?yàn)樗兄跍p少訓(xùn)練參數(shù)的總數(shù),并產(chǎn)生更有效的訓(xùn)練和模型。卷積層之后通常是池化層。

池的作用是使特征在位置上保持不變,并通過(guò)池函數(shù)概括出卷積層中多個(gè)神經(jīng)元的輸出。典型的池函數(shù)是max pooling。max pooling將輸入數(shù)據(jù)劃分為一組不重疊的窗口,并為每個(gè)子區(qū)域輸出最大值,降低上層的計(jì)算復(fù)雜性,并提供一種形式的轉(zhuǎn)換不變性。為了用于分類,CNN的計(jì)算鏈以一個(gè)完全連接的網(wǎng)絡(luò)結(jié)束,該網(wǎng)絡(luò)集成了下面層所有特征圖中所有位置的信息。

2 相關(guān)工作

構(gòu)建計(jì)算機(jī)撲克程序的第一種方法是基于規(guī)則的方法,它涉及到為給定的游戲狀態(tài)指定應(yīng)該采取的操作[1]。以下方法基于模擬技術(shù)[1,5,7],即生成隨機(jī)實(shí)例以獲得統(tǒng)計(jì)平均值并決定操作。這些方法指導(dǎo)產(chǎn)生了能夠擊敗弱小的人類對(duì)手的智能程序。

1951年Johanson[8]在其《非均衡博弈》博士論文中提出納什均衡理論。自此,計(jì)算機(jī)撲克研究開始有重大突破,基于納什均衡的方法出現(xiàn)了:最佳響應(yīng)[10]、受限納什響應(yīng)[1,11]和數(shù)據(jù)偏向響應(yīng)[12]。目前,最好的計(jì)算機(jī)撲克程序Polaris[12]使用這些方法的混合。

其他最近的方法是基于模式匹配[13-14]和蒙特卡洛樹搜索算法[14-15]。

與本文方法密切相關(guān)的成功工作是文獻(xiàn)[16]。它為另一個(gè)撲克牌變種——斗地主提供了深度學(xué)習(xí)方法。這種方法是從地主的角度出發(fā)使用卷積神經(jīng)網(wǎng)絡(luò)從一定數(shù)量的歷史卡片信息的基礎(chǔ)上,提取出地主的主要特征,并對(duì)農(nóng)民的手牌做出合理的預(yù)測(cè)。還有Clark等[17]針對(duì)圍棋問(wèn)題提出的一種方法。

盡管取得了所有的突破,但目前還沒有一種已知的方法能使智能程序在與人類玩家博弈時(shí)取得很好的成績(jī)。

3 基于卷積神經(jīng)網(wǎng)絡(luò)的估值算法

縱觀近幾年關(guān)于博弈問(wèn)題的研究,發(fā)現(xiàn)多數(shù)的研究者使用淺層人工神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)對(duì)手在博弈中的決策行為以此來(lái)建立對(duì)手模型,從而規(guī)避非完備信息博弈問(wèn)題中搜索空間過(guò)大以及部分信息不可獲取的難題。本文提出的方法是利用現(xiàn)在流行的卷積神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)博弈專家的博弈策略,使得估值算法模型得到的估值更加精確和可信。

3.1 網(wǎng)絡(luò)輸入的建模方法

如何對(duì)德州撲克棋局狀態(tài)建模使之能夠作為卷積神經(jīng)網(wǎng)絡(luò)的輸入是一大挑戰(zhàn)。與處理圖像問(wèn)題不同,圖像本身就是一個(gè)三維的矩陣,可以直接作為神經(jīng)網(wǎng)絡(luò)的輸入,但是德州撲克的棋局狀態(tài)則不同。因此,我們必須對(duì)其進(jìn)行建模,轉(zhuǎn)換成可以直接輸入的形式。

每副撲克牌不包括大小王共有52張牌,分為4種不同花色,分別是黑桃(Spade)、紅桃(Heart)、方塊(Diamond)、梅(Club),每種花色有13張牌,分別是2、3、4、5、6、7、8、9、10、J、Q、K、A,可以用一個(gè)4×13的矩陣來(lái)表示每一張牌。但在實(shí)際工程中,為了方便卷積層做卷積,我們將這個(gè)矩陣用0填充擴(kuò)充成一個(gè)17×17的矩陣。

如圖2所示,在一個(gè)三維矩陣的[1,1,8]和[2,1,7]位置填充1,其他位置均為0,這代表牌局開始時(shí),玩家拿到的手牌是黑桃8和黑桃9。

圖2 玩家底牌矩陣模型

阿爾伯塔大學(xué)的邁克爾·鮑林教授和他的團(tuán)隊(duì)曾經(jīng)對(duì)影響撲克決策的因素展開過(guò)研究。研究發(fā)現(xiàn),自己手牌的牌值大小、當(dāng)前場(chǎng)上的公共牌、對(duì)手的動(dòng)作序列(比如是跟注和加注等行為)、當(dāng)前的博弈階段、自己對(duì)對(duì)手手牌的牌值估計(jì)、下注金額等因素都會(huì)對(duì)博弈的決策產(chǎn)生或多或少的影響。本文綜合考慮了上述的情況,最終得到一個(gè)16×17×17的三維矩陣作為CNN網(wǎng)絡(luò)的輸入。

表1顯示了二人德州撲克局面信息建模所得的矩陣的具體信息。

表1 二人德州撲克局面信息矩陣建模詳情

3.2 估值算法

博弈是一個(gè)狀態(tài)不斷變化的過(guò)程。實(shí)際的博弈過(guò)程中,第i層博弈局面的估值應(yīng)該是基于第i-1層博弈局面的估值,因此它們的估值應(yīng)該是相差不大的。基于以上的假設(shè)可以推出以下結(jié)論:

設(shè)S1,S2,S3,…,Sn是博弈初始狀態(tài)到終局狀態(tài)的狀態(tài)序列,其中S1代表博弈開始的時(shí)候的狀態(tài),Sn代表博弈結(jié)束時(shí)刻的狀態(tài)。E(x)為博弈局面的估值函數(shù),即t時(shí)刻的估值就是E(St)。在實(shí)際的博弈過(guò)程中,博弈體很難做到對(duì)所有的中間局面進(jìn)行準(zhǔn)確的估值,但可以輕松地確定終局時(shí)刻的博弈局面估值。例如可以設(shè)博弈終局時(shí)刻的估值為:

E(Sn)=1 代表獲勝

(1)

E(Sn)=0 代表失敗

(2)

第i層博弈局面的估值應(yīng)該是基于第i-1的。因此,在距離終局的前一時(shí)刻的Sn-1的估值可以由下式求出:

E(Sn-1)=γ·E(Sn)

(3)

雖然相鄰兩個(gè)狀態(tài)的估值相差不大,但也并非是完全相同,因此可以在式中加入一個(gè)參數(shù)γ滿足γ∈(0,1),用來(lái)調(diào)整不同的博弈局面的估值。將該公式進(jìn)行推廣,可以得到:

E(St-1)=γ·E(St)t=2,3,4,…,n

(4)

對(duì)于人工神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),在博弈終局時(shí)刻的期望輸出可以用式(1)或式(2)來(lái)表示,在前面的各個(gè)時(shí)刻,則可以通過(guò)式(3)計(jì)算出來(lái)。

本文認(rèn)為學(xué)習(xí)二維模式(花色和牌值)來(lái)代表?yè)淇耸呛苡杏玫摹D像識(shí)別的成功方法建議使用卷積濾波器識(shí)別二維圖像中的對(duì)象。在文獻(xiàn)[18-20]的啟發(fā)下,本文搭建了一個(gè)CNN模型,稱為Poker-CNN。文獻(xiàn)[20]采用的深度學(xué)習(xí)模型中所使用的估值網(wǎng)絡(luò)完全沒有做任何局部死活/對(duì)殺分析,純粹是用暴力訓(xùn)練法訓(xùn)練出一個(gè)相當(dāng)不錯(cuò)的估值網(wǎng)絡(luò)(需要三千萬(wàn)局自我對(duì)局),而本文提出的估值算法模型考慮了局面因素,能很好地降低網(wǎng)絡(luò)訓(xùn)練所需時(shí)間。

3.1節(jié)中已經(jīng)說(shuō)明了影響撲克決策的種種因素,并對(duì)這些因素進(jìn)行建模最終得到一個(gè)16×17×17的三維矩陣作為輸入。網(wǎng)絡(luò)的輸出層則應(yīng)該包含3個(gè)節(jié)點(diǎn),分別對(duì)應(yīng)博弈過(guò)程中玩家可以做出的3種選擇:棄牌、跟牌和加注。

網(wǎng)絡(luò)中設(shè)置三個(gè)卷積層:第一個(gè)隱層設(shè)有32個(gè)5×5的卷積核,步長(zhǎng)為2;第二個(gè)隱層設(shè)有64個(gè)3×3的卷積核,步長(zhǎng)為2;第三個(gè)隱層設(shè)有64個(gè)2×2的卷積核,步長(zhǎng)為1。與圍棋類似,矩陣中1的位置精確地代表手牌牌值的大小,因此我們必須要保留位置信息,所以本文也舍棄了傳統(tǒng)CNN模型中的pooling層。其后再接一個(gè)大小為256×1的全連接層,網(wǎng)絡(luò)的最后一層有三個(gè)節(jié)點(diǎn)。最后將加權(quán)輸出輸入到Softmax激活函數(shù)再歸一化,以輸出棄牌、跟牌和加注三種行為的概率。網(wǎng)絡(luò)的最終結(jié)構(gòu)如圖3所示。

圖3 Poker-CNN模型

本文使用ReLU(Rectified Linear Unit)作為卷積層的激活函數(shù)。函數(shù)形式如下:

(5)

因?yàn)榫W(wǎng)絡(luò)的輸入矩陣是非常稀疏的,所以本文選用在稀疏矩陣中應(yīng)用較多的Adagrad梯度下降算法。

設(shè)定評(píng)價(jià)函數(shù)為E(Si)=max(Y1,Y2,Y3),它的涵義是取Y1、Y2、Y3三個(gè)輸出值中的最大值。針對(duì)德州撲克,不同的值可以用來(lái)代表玩家跟注、加注和棄牌這三個(gè)不同動(dòng)作。神經(jīng)網(wǎng)絡(luò)模型采用的是MSRA初始化方法,因?yàn)镸SRA可以加快網(wǎng)絡(luò)的收斂。

假設(shè)終局局面的狀態(tài)為Sn,首先根據(jù)Sn調(diào)整一次網(wǎng)絡(luò)的誤差,然后再根據(jù)終局前一時(shí)刻Sn-1的估值,計(jì)算誤差來(lái)調(diào)整網(wǎng)絡(luò)權(quán)值,逐步反向向前計(jì)算,直到學(xué)習(xí)過(guò)程結(jié)束。可見,由于要獲得終局時(shí)刻實(shí)際的網(wǎng)絡(luò)輸出,估值算法訓(xùn)練需要在一次完整的比賽記錄之上進(jìn)行。

(6)

可以通過(guò)的卷積神經(jīng)網(wǎng)絡(luò)的不斷學(xué)習(xí)(即修改期望值)來(lái)減小該誤差,綜上所述,可以得出估值算法訓(xùn)練的幾個(gè)主要步驟:

(3) 按照經(jīng)驗(yàn)初步設(shè)置系數(shù)γ和學(xué)習(xí)速率α(訓(xùn)練過(guò)程中可以修改)。

(4) 依次計(jì)算出隱藏層的輸出Cp、實(shí)際輸出Yn、期望輸出Yp的修正量并通過(guò)反向傳播更新網(wǎng)絡(luò)連接權(quán)值。

(5) 檢測(cè)學(xué)習(xí)過(guò)程是否結(jié)束。若結(jié)束則轉(zhuǎn)向步驟9;反之,則繼續(xù)執(zhí)行。

(8) 設(shè)p=p-1,轉(zhuǎn)步驟4。

(9) 結(jié)束。

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)環(huán)境

表2說(shuō)明了本文實(shí)驗(yàn)的硬件環(huán)境。

表2 實(shí)驗(yàn)環(huán)境

4.2 實(shí)驗(yàn)數(shù)據(jù)

美國(guó)人工智能會(huì)議(AAAI)或國(guó)際人工智能聯(lián)合會(huì)議(IJCAI)每年都會(huì)舉辦世界計(jì)算機(jī)撲克大賽,該比賽吸引了各國(guó)的高校及研究機(jī)構(gòu)參賽。他們中的一些競(jìng)賽程序具有很高的智能,達(dá)到了接近人類大師的程度。

每年比賽的所有比賽數(shù)據(jù)日志記錄,賽事官網(wǎng)都會(huì)保留下來(lái)并放在http://www.computerpokercompetition.org/downloads/competitions/供大家下載使用。本文下載了2017年世界計(jì)算機(jī)撲克大賽共2 809 000條二人限制型博弈比賽數(shù)據(jù)作為網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集。

典型的比賽數(shù)據(jù)如下所示:

STATE:0:cc/cc/cr200c/cr400f:7c4s|2hQh/Ac5h3c/4h/8h:-200|200:Slumbot_ 2pn_ 2017|SimpleRule_ 2pn_ 2017

STATE:1:f:JsTc|5s2d:50|-50:SimpleRule_ 2pn_ 2017|Slumbot_ 2pn_ 2017

STATE:2:cr300c/cc/cr2300f:TcTs|4d5c/5s2dAc/7h:-300|300:Slumbot_ 2pn_ 2017|SimpleRule_ 2pn_ 2017

一條數(shù)據(jù)表示一局比賽所有的局面狀態(tài)信息,例如每輪發(fā)的牌以及每輪博弈雙方采取的行動(dòng)以及最后的輸贏情況。圖4簡(jiǎn)要解釋了數(shù)據(jù)中各項(xiàng)的具體含義。

圖4 歷史比賽數(shù)據(jù)格式

對(duì)這些日志數(shù)據(jù)進(jìn)行清洗,然后寫成16×17×17三維矩陣的形式,最后給卷積神經(jīng)網(wǎng)絡(luò)作為網(wǎng)絡(luò)的輸入訓(xùn)練該模型。

4.3 結(jié)果分析

4.3.1算法預(yù)測(cè)準(zhǔn)確率分析

本文從數(shù)據(jù)集中隨機(jī)抽取200 000條數(shù)據(jù)作為訓(xùn)練集,再在剩余的數(shù)據(jù)中隨機(jī)抽取40 000條數(shù)據(jù)作為測(cè)試集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。將訓(xùn)練集分成4個(gè)子集,每個(gè)子集50 000條數(shù)據(jù),對(duì)網(wǎng)路作交叉訓(xùn)練。選取下式作為結(jié)果的準(zhǔn)確率計(jì)算方法:

(7)

圖5 估值算法的準(zhǔn)確率

4.3.2智能體博弈結(jié)果分析

本文搭建了一個(gè)如圖6所示的智能體博弈系統(tǒng),該系統(tǒng)通過(guò)Socket通信,服務(wù)器相當(dāng)于發(fā)牌員,負(fù)責(zé)發(fā)牌給智能體、判定輸贏等。

圖6 智能博弈系統(tǒng)

牌局初始化階段,每個(gè)智能體通過(guò)特定端口接入到服務(wù)器。牌局正式開始后服務(wù)器會(huì)把牌局各個(gè)階段的信息發(fā)送給雙方,比如手牌、公共牌、對(duì)手是跟牌還是棄牌以及最后的輸贏信息。同時(shí),服務(wù)器會(huì)生成該局對(duì)戰(zhàn)日志放在log文件夾下。

進(jìn)行對(duì)比測(cè)試的其他智能體包括:ACPC官方提供的智能體、基于對(duì)手建模算法的智能體[21](獲得了2013年ACPC二人限制性德州撲克第四名),以及基于CFR算法和對(duì)手建模的智能體[22](獲得2016年ACPC二人非限制性德州撲克第四名)。

為減少實(shí)驗(yàn)誤差,所有比賽都采用相同的種子,相同的種子玩家獲得的牌也是相同的,即輸贏完全取決于玩家的策略。

通過(guò)分析計(jì)算系統(tǒng)日志文件中各智能體的勝負(fù)以及輸贏籌碼數(shù),可以得到圖7所示結(jié)果。圖7給出了本文的智能體與其他3個(gè)不同的對(duì)手進(jìn)行博弈時(shí),每局博弈獲得的平均獎(jiǎng)勵(lì)(各局的平均獎(jiǎng)勵(lì)用現(xiàn)在手中的總籌碼除以當(dāng)前的局?jǐn)?shù)表示)。

圖7 實(shí)驗(yàn)智能體與其他智能體對(duì)弈每局獲得的平均收益

5 結(jié) 語(yǔ)

一個(gè)完整的非完備信息博弈系統(tǒng),主要包括五個(gè)部分:博弈系統(tǒng)的表示方法、搜索引擎、估值算法、規(guī)則解釋器、通信系統(tǒng)。估值算法主要作用是評(píng)估博弈中每一步的好壞程度,因此估值算法是機(jī)器博弈程序的核心與關(guān)鍵。本文主要以德州撲克的二人限制型博弈作為研究對(duì)象。首先對(duì)牌局的狀態(tài)進(jìn)行建模,結(jié)合阿爾伯特大學(xué)團(tuán)隊(duì)對(duì)影響德州撲克博弈決策因素的研究,最終得到一個(gè)16×17×17的三維矩陣作為估值算法的輸入。估值算法模型的核心是卷積神經(jīng)網(wǎng)絡(luò),結(jié)合文獻(xiàn)[20]的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)思想與文獻(xiàn)[18-19]的研究結(jié)論最終得到具體的卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),并用人類大師歷史博弈記錄來(lái)訓(xùn)練該模型。最后將基于該模型的博弈程序與前人開發(fā)的博弈程序進(jìn)行博弈,實(shí)驗(yàn)結(jié)果顯示該模型擁有更高的收益。該估值算法模型為大規(guī)模機(jī)器博弈系統(tǒng)的實(shí)現(xiàn)提供了一個(gè)可行的方法,同時(shí)為將算法拓展到現(xiàn)實(shí)生活提供了可能。

雖然基于人類大師經(jīng)驗(yàn)的深度神經(jīng)網(wǎng)絡(luò)估值算法模型取得不錯(cuò)的成績(jī),但是該模型還是要依賴人類的專家知識(shí),并且德州撲克每輪的決策與上一輪的決策有關(guān),也就是說(shuō)決策具有時(shí)序性,因此網(wǎng)絡(luò)模型應(yīng)該具備記憶性,而本文提出的網(wǎng)絡(luò)模型沒有解決這個(gè)問(wèn)題。克服以上兩點(diǎn)是下一步研究工作的重點(diǎn),可以考慮采用強(qiáng)化學(xué)習(xí)[23]來(lái)減少對(duì)于人類經(jīng)驗(yàn)的依賴以及在不減少模型估值準(zhǔn)確率的情況下改善網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)可以結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)或者是長(zhǎng)短期記憶網(wǎng)絡(luò)使網(wǎng)絡(luò)模型具備記憶性,從而進(jìn)一步提高博弈程序的性能。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧亚日韩Av| 五月天综合网亚洲综合天堂网| 色婷婷久久| 国产无遮挡猛进猛出免费软件| 欧美在线导航| 久久久久88色偷偷| 亚洲va在线观看| 日韩精品无码一级毛片免费| 国产AV无码专区亚洲精品网站| 成人午夜视频网站| 亚洲成网站| 毛片久久网站小视频| 一区二区三区精品视频在线观看| 99精品欧美一区| 亚洲精品无码在线播放网站| 欧美一区福利| 国内精品伊人久久久久7777人 | 91精品啪在线观看国产91| 国产精品美女免费视频大全| 成人免费黄色小视频| 人妻一本久道久久综合久久鬼色| 国产一级在线播放| 精品国产三级在线观看| 欧美精品亚洲精品日韩专区| 亚洲天天更新| 日韩精品专区免费无码aⅴ| 2021亚洲精品不卡a| 亚洲精品第五页| 亚洲视频一区在线| 亚洲日本www| 亚洲天堂视频在线观看免费| 精品精品国产高清A毛片| 免费在线a视频| 国产毛片高清一级国语| 人妻21p大胆| 国产成人综合网在线观看| 在线永久免费观看的毛片| 国产三区二区| 亚洲日韩图片专区第1页| 午夜啪啪福利| 久久男人视频| 国产丰满大乳无码免费播放| 激情爆乳一区二区| 夜精品a一区二区三区| 亚洲欧美日韩动漫| 欧美日韩亚洲国产| 色偷偷男人的天堂亚洲av| 国产成人精品综合| 99视频在线观看免费| 国产成人亚洲无码淙合青草| 91成人精品视频| 免费国产一级 片内射老| 欧美a在线| 欧美成人精品一级在线观看| 久久中文字幕av不卡一区二区| 综合色区亚洲熟妇在线| 美女无遮挡被啪啪到高潮免费| 国产精品一线天| 国产视频一二三区| 亚洲第一视频网站| 青青操视频在线| 日韩精品一区二区深田咏美| 免费看a毛片| 国内精自视频品线一二区| 一级看片免费视频| 国产精品亚洲五月天高清| 亚洲av成人无码网站在线观看| 97se亚洲综合在线天天| 国产97公开成人免费视频| 婷婷久久综合九色综合88| 国产精品刺激对白在线| 欧美亚洲国产精品久久蜜芽| 亚洲国产成熟视频在线多多| 国产免费网址| 亚洲国产精品日韩欧美一区| 欧美中出一区二区| 欧美 亚洲 日韩 国产| 久久国产毛片| 综合久久五月天| 久久国产精品影院| 婷婷色狠狠干| 免费99精品国产自在现线|