●黃珊

大衛·席爾瓦
近日,2019 年ACM(國際計算機學會)計算獎頒出,由于在計算機游戲領域取得突破性進展,“AlphaGo 之父”、DeepMind 首席科學家、倫敦大學學院教授大衛·席爾瓦獲得最新一屆的ACM 計算獎。
大衛·席爾瓦是深度學習領域的先驅人物,他在人工智能領域的一系列成績中,又以他帶領打造的AlphaGo 最為人所知。大衛·席爾瓦通過巧妙地結合深度學習、強化學習、蒙特卡洛搜索樹和大規模計算的思想,開發了AlphaGo 算法,AlphaGo 由此戰勝了頂尖的人類棋手,更是被公認為人工智能(AI)研究的一個里程碑。
根據ACM 官方報道,最初,AlphaGo 會經過來自人類專業棋手經驗的小范圍訓練,然后,它會通過強化學習來不斷改善性能。AlphaGo 之后,大衛·席爾瓦和他的團隊創造了更新穎的方法,來實現更高的性能和通用性,AlphaZero 就此誕生。與AlphaGo 不同,AlphaZero 完全通過與自己玩游戲來進行學習,不需要任何人類數據或先驗知識(游戲規則除外)。而且,AlphaZero 同時在國際象棋、將棋和圍棋游戲中有超過人類的表現,證明了其AI算法的通用性。
早在大衛·席爾瓦于艾伯塔大學(University of Alberta)攻讀博士學位時,他就開始探索開發一種可以掌握圍棋智慧的計算機程序,這也成為了他后續一直在專注的研究興趣。在2013 年的NeurIPS 會議上,席爾瓦展示了一種算法,它可以在雅達利游戲中展現達到人類水平的技巧。這個程序學會了在游戲過程中僅僅通過觀察像素和分數來玩游戲。
2015 年,大衛·席爾瓦和他的同事發布開創性論文“Human Level Control Through Deep Reinforcement Learning ”,在這個研究中,他們將強化學習與人工神經網絡相結合,論文發表在《自然》雜志上,且至今被引用近1 萬次,對該領域產生了巨大影響?!?br>