當(dāng)?shù)貢r(shí)間10月18日,谷歌人工智能團(tuán)隊(duì)DeepMind團(tuán)隊(duì)在國(guó)際學(xué)術(shù)期刊《自然》上發(fā)表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒(méi)有人類指導(dǎo)的情況下學(xué)習(xí),其水平超過(guò)此前所有AlphaGo(阿爾法狗),僅用3天就碾壓了此前擊敗李世石的舊阿爾法狗。
AlphaGo Zero僅擁有4個(gè)TPU,零人類經(jīng)驗(yàn),所以,它的名字叫作零(Zero),Nature這篇論文——《Mastering the game of Go without human knowledge》中,DeepMind展示新版本圍棋程序AlphaGo Zero在數(shù)百萬(wàn)局自我對(duì)弈后,隨著程序訓(xùn)練的進(jìn)行,獨(dú)立發(fā)現(xiàn)了人類用幾千年才總結(jié)出來(lái)的圍棋規(guī)則,還建立了新的戰(zhàn)略。《自然》為該論文配發(fā)兩篇評(píng)論文章,一篇來(lái)自計(jì)算機(jī)科學(xué)家,一篇來(lái)自圍棋選手。
今年5月烏鎮(zhèn)大會(huì)上,中國(guó)棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨后DeepMind創(chuàng)始人得米斯·哈薩比斯( DemisHassabis)宣布,AlphaGo將永久退出競(jìng)技舞臺(tái),不再進(jìn)行比賽。
同時(shí)哈薩比斯表示:“我們計(jì)劃在今年稍晚時(shí)候發(fā)布最后一篇學(xué)術(shù)論文,詳細(xì)介紹我們?cè)谒惴ㄐ噬纤〉玫囊幌盗羞M(jìn)展,以及應(yīng)用在其他更全面領(lǐng)域中的可能性。就像第一篇 AlphaGo 論文一樣,我們希望更多的開(kāi)發(fā)者能夠接過(guò)接力棒,利用這些全新的進(jìn)展開(kāi)發(fā)出屬于自己的強(qiáng)大圍棋程序。”
DeepMind如約在Nature發(fā)布了這篇論文《Mastering the game of Go without human knowledge》。
論文中,DeepMind展示了AlphaGo Zero一種新的強(qiáng)化學(xué)習(xí)方式,通過(guò)自我對(duì)弈學(xué)習(xí)AlphaGo Zero 成為自己的老師。這個(gè)學(xué)習(xí)系統(tǒng)從一個(gè)對(duì)圍棋游戲完全沒(méi)有任何知識(shí)的神經(jīng)網(wǎng)絡(luò)開(kāi)始。然后,通過(guò)將這個(gè)神經(jīng)網(wǎng)絡(luò)與一種強(qiáng)大的搜索算法相結(jié)合,它就可以自己和自己下棋了。
在它自我對(duì)弈的過(guò)程中,神經(jīng)網(wǎng)絡(luò)被調(diào)整、更新,以預(yù)測(cè)下一個(gè)落子位置以及對(duì)局的最終贏家。這個(gè)更新后的神經(jīng)網(wǎng)絡(luò)又將與搜索算法重新組合,進(jìn)而創(chuàng)建一個(gè)新的、更強(qiáng)大的 AlphaGo Zero 版本,再次重復(fù)這個(gè)過(guò)程。在每一次迭代中,系統(tǒng)的性能都得到一點(diǎn)兒的提高,自我對(duì)弈的質(zhì)量也在提高,這就使得神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)越來(lái)越準(zhǔn)確,得到更加強(qiáng)大的 AlphaGo Zero版本。
這種技術(shù)比上一版本的 AlphaGo 更強(qiáng)大,因?yàn)樗辉偈芟抻谌祟愔R(shí)的局限。在進(jìn)行了3天的自我訓(xùn)練后,AlphaGo Zero在100局比賽中以100:0擊敗了上一版本的 AlphaGo——而上一版本的 AlphaGo 擊敗了曾18次獲得圍棋世界冠軍的韓國(guó)九段棋士李世石。經(jīng)過(guò) 40 天的自我訓(xùn)練后,AlphaGo Zero 變得更加強(qiáng)大,超越了“Master”版本的 AlphaGo——Master 曾擊敗世界上最優(yōu)秀的棋士、世界第一的柯潔。endprint