999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的海克斯棋博弈算法研究與實現

2020-07-04 02:27:37張芃芃孟坤楊震棟
智能計算機與應用 2020年3期

張芃芃 孟坤 楊震棟

摘要:本文旨在研究如何將強化學習模型合理地應用在海克斯棋博弈算法中,并給出程序實現方案。以蒙特卡洛樹搜索生成數據集訓練卷積神經網絡的方式,使得模型能夠在不斷自我對弈的過程中,修正自身選擇動作的策略,更新模型參數,從而達到提升棋力的目的。實驗結果表明,通過強化學習算法能夠準確地評估海克斯棋的局面,并有效地選擇有利的落子位置,使得海克斯棋博弈系統獲得高質量的決策能力。

關鍵詞: 強化學習; 蒙特卡洛樹搜索; 海克斯棋; 計算機博弈

【Abstract】 The purpose of this paper is to study how to apply reinforcement learning model to the algorithm of Hex game reasonably, and give the program implementation scheme. In this way, the convolution neural network can be trained by using the data set generated by the Monte Carlo tree search, so that the model can enhance chess skills by modifying the strategy of its own choice of action and updating the model parameters in the process of continuous self playing. The experimental results show that the reinforcement learning algorithm can accurately evaluate the situation of Hex game, and effectively select a favorable moves, so that Hex game system gains high-quality decision-making ability.

【Key words】 ?reinforcement learning; Monte-Carlo tree search; Hex game; computer game

0 引 言

隨著人工智能的興起,人們對計算機博弈的研究日趨深入,計算機博弈算法也已越來越多地被應用在各棋種上。海克斯棋是近年來比較流行的計算機博弈棋種之一,現已成為中國大學生計算機博弈大賽的競技項目[1]。其規則很簡單:博弈的雙方依次在菱形的棋盤上落子,當任意一方最先將自己的兩條邊界用己方的棋子連接起來,則該方獲勝。

強化學習也稱增強學習[2],是一類在自身智能體不斷摸索和嘗試的過程中,依靠環境帶來的反饋更新自身決策方式的機器學習算法。當智能體模型做出某種動作后產生了有利的狀態,則對模型進行獎勵,反之則進行懲罰。以此不斷迭代,最終使模型具有高質量的決策能力。本文將強化學習模型合理地應用在海克斯棋博弈算法中,使得模型能夠通過不斷自我對弈,提升棋力。

1 強化學習模型算法設計

海克斯棋是一種完全信息博弈,能夠通過模擬大量對局來學習優良的落子選擇方法。受AlphaGo Fan[3]和AlphaGo Zero[4]的算法啟發,在模型的核心部分使用價值-策略網絡二合一的卷積神經網絡,使其輸入原始棋盤,輸出該局面輸贏概率作為價值評估,同時輸出每個落子位置獲勝的概率分布作為策略評估。首先采取隨機落子的方式,使用蒙特卡洛樹搜索[5]生成大量對局樣本,用監督學習的方式,根據最后的勝負結果、棋面狀態以及走法的模擬來訓練神經網絡。以局面最終輸贏訓練價值網絡的同時,用局面每個落子位置獲勝頻率分布訓練策略網絡。然后將這個模型加入到新建立的對手池中,并在從對手池中隨機選擇一個模型和最新模型進行對弈的過程中,同樣通過蒙特卡洛樹搜索模擬生成對局,從而產生對弈數據,對神經網絡進行訓練。并在將訓練完成的模型加入到對手池中后,再利用新的模型繼續模擬對弈,繼而持續進行從對手池中選擇模型對弈的過程,以此迭代出一個效果最佳的模型。

1.1 神經網絡的設計

使用神經網絡的目的在于能夠對于給定的海克斯棋局面做出準確估價的同時,給出最佳的落子位置。因此選擇多輸出的卷積神經網絡,使其同時具有價值輸出和策略輸出。

對于一個大小為11×11的海克斯棋局面來講可以抽象成一個11×11×2的三維張量,作為模型的輸入。其中,最低的維度用來區分棋盤上每一個位置的落子情況。考慮到3×3大小的卷積核剛好能夠覆蓋到任何一個方向上的雙橋[6],使得神經網絡能夠描述和考慮對局面影響較大的特定布局模式。因此在樣本輸入網絡后,首先通過一個含有32個3×3卷積核的卷積層,再依次通過2個含有64個3×3卷積核的卷積層,然后通過一個含有96個3×3卷積核的卷積層,接著通過含有128個神經元的全連接層,最后通過一個神經元輸出價值評估,通過一個含有121個神經元的全連接層輸出策略評估。另外,所有的卷積層均使用線性整流函數作為激活函數,以保證在訓練過程中誤差反向傳播的高效進行。神經網絡結構圖如圖1所示。

1.4 自我對弈的訓練過程

模型決策效果的提升主要依賴于自我對弈生成數據集來訓練網絡的過程,這需要維護一個對手池,用來存放模型的歷代版本。由于不同模型僅在網絡參數上存在區別,因此在對手池中存放模型等價于存放網絡參數。故首先將監督學習訓練完成的網絡參數放入對手池中,每次從中隨機選取一個網絡參數組成模型后作為最新加入對手池的網絡參數所組成模型的對手,進行多次雙循環對弈,將對弈過程中的局面用其勝負結果標注其價值,并使用蒙特卡洛樹搜索獲得其策略標簽。再用新生成的數據集訓練當前的網絡,以此獲得新一代的網絡參數,并放入對手池中,繼續自我對弈。模型自我對弈過程的數據流圖如圖3所示。

主站蜘蛛池模板: 尤物亚洲最大AV无码网站| 喷潮白浆直流在线播放| 久久一日本道色综合久久| 精品国产一二三区| 黄网站欧美内射| 国产第四页| 欧美成人午夜视频免看| 久久国产精品电影| 手机在线看片不卡中文字幕| 亚欧美国产综合| 国产一级α片| 中文字幕中文字字幕码一二区| 国产日韩欧美一区二区三区在线| 中文字幕资源站| 国产欧美精品专区一区二区| 日韩AV手机在线观看蜜芽| 91精品专区| 国产女人在线观看| 日韩免费毛片视频| 久久永久免费人妻精品| 91麻豆精品国产高清在线| 成人福利在线观看| 亚洲视频在线观看免费视频| 麻豆精品在线播放| 欧美成人一级| 精品视频福利| 久久久久青草大香线综合精品| 99精品久久精品| 69综合网| 亚洲天堂777| 日本国产一区在线观看| 一级毛片中文字幕| 青草视频网站在线观看| 国产导航在线| a级毛片免费在线观看| 四虎国产在线观看| 玩两个丰满老熟女久久网| 亚洲一区网站| 国产福利2021最新在线观看| 又粗又大又爽又紧免费视频| 国产精品久久久久久久伊一| 日韩精品视频久久| 在线观看91精品国产剧情免费| h网站在线播放| 国产第一页免费浮力影院| www.av男人.com| 精品人妻系列无码专区久久| 国产成人亚洲欧美激情| 精品偷拍一区二区| 日韩欧美中文亚洲高清在线| 国产玖玖视频| 88av在线| 人妻无码中文字幕一区二区三区| 精品国产成人av免费| 免费看美女自慰的网站| 免费无遮挡AV| 亚洲男人的天堂久久香蕉网| 日韩人妻少妇一区二区| 亚洲日本中文综合在线| 亚洲欧美在线综合图区| 成人字幕网视频在线观看| 久久成人免费| 久久亚洲AⅤ无码精品午夜麻豆| 麻豆精品在线播放| 99在线免费播放| 欧美一区二区啪啪| 久久夜夜视频| 日韩欧美国产另类| jizz国产在线| 国产欧美性爱网| 亚洲Av激情网五月天| 狠狠五月天中文字幕| 一本一道波多野结衣av黑人在线| 伊人激情久久综合中文字幕| 久无码久无码av无码| 国产在线97| 久久伊人色| 五月丁香伊人啪啪手机免费观看| 国产成人精品免费视频大全五级 | 亚洲精品欧美重口| 亚洲日本中文字幕天堂网| 一本色道久久88|