AlphaGo進化：3天100:0碾壓舊版不使用人類知識

2017-11-27 00:28:33

中國經貿聚焦 2017年11期

關鍵詞：人類

當地時間10月18日，谷歌人工智能團隊DeepMind團隊在國際學術期刊《自然》上發表論文，宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導的情況下學習，其水平超過此前所有AlphaGo（阿爾法狗），僅用3天就碾壓了此前擊敗李世石的舊阿爾法狗。

AlphaGo Zero僅擁有4個TPU，零人類經驗，所以，它的名字叫作零（Zero），Nature這篇論文——《Mastering the game of Go without human knowledge》中，DeepMind展示新版本圍棋程序AlphaGo Zero在數百萬局自我對弈后，隨著程序訓練的進行，獨立發現了人類用幾千年才總結出來的圍棋規則，還建立了新的戰略?！蹲匀弧窞樵撜撐呐浒l兩篇評論文章，一篇來自計算機科學家，一篇來自圍棋選手。

今年5月烏鎮大會上，中國棋手、世界冠軍柯潔9段以0：3不敵AlphaGo。隨后DeepMind創始人得米斯·哈薩比斯（ DemisHassabis）宣布，AlphaGo將永久退出競技舞臺，不再進行比賽。

同時哈薩比斯表示：“我們計劃在今年稍晚時候發布最后一篇學術論文，詳細介紹我們在算法效率上所取得的一系列進展，以及應用在其他更全面領域中的可能性。就像第一篇 AlphaGo 論文一樣，我們希望更多的開發者能夠接過接力棒，利用這些全新的進展開發出屬于自己的強大圍棋程序?！?/p>

DeepMind如約在Nature發布了這篇論文《Mastering the game of Go without human knowledge》。

論文中，DeepMind展示了AlphaGo Zero一種新的強化學習方式，通過自我對弈學習AlphaGo Zero 成為自己的老師。這個學習系統從一個對圍棋游戲完全沒有任何知識的神經網絡開始。然后，通過將這個神經網絡與一種強大的搜索算法相結合，它就可以自己和自己下棋了。

在它自我對弈的過程中，神經網絡被調整、更新，以預測下一個落子位置以及對局的最終贏家。這個更新后的神經網絡又將與搜索算法重新組合，進而創建一個新的、更強大的 AlphaGo Zero 版本，再次重復這個過程。在每一次迭代中，系統的性能都得到一點兒的提高，自我對弈的質量也在提高，這就使得神經網絡的預測越來越準確，得到更加強大的 AlphaGo Zero版本。

這種技術比上一版本的 AlphaGo 更強大，因為它不再受限于人類知識的局限。在進行了3天的自我訓練后，AlphaGo Zero在100局比賽中以100：0擊敗了上一版本的 AlphaGo——而上一版本的 AlphaGo 擊敗了曾18次獲得圍棋世界冠軍的韓國九段棋士李世石。經過 40 天的自我訓練后，AlphaGo Zero 變得更加強大，超越了“Master”版本的 AlphaGo——Master 曾擊敗世界上最優秀的棋士、世界第一的柯潔。endprint

AlphaGo進化：3天100:0碾壓舊版 不使用人類知識

AlphaGo進化：3天100:0碾壓舊版不使用人類知識