御風
2017年5月,千年水鄉烏鎮迎來了一場舉世矚目的圍棋峰會,世界第一的中國九段棋手柯潔以0︰3輸給了阿爾法狗。中國圍棋協會向阿爾法狗授予中國職業九段稱號,這是中國迄今為止最年輕的九段。早些時候,聶衛平曾評價阿爾法狗的圍棋水平相當于職業圍棋二十段。
阿爾法狗是什么?它是由英國谷歌深度學習部門開發出來的圍棋人工智能程序,是迄今為止最強大的圍棋棋手,讓我們看看它是如何下圍棋的。
圍棋的難在于如何分析看似無限的信息與可能。在一局圍棋中,平均每一步圍棋的下法大約有200種可能,棋盤上可能出現的局面總數遠大于宇宙中原子的總數。要想通過暴力、直接手段預測所有情況,并從中篩選出最優走法的思路并不可行。阿爾法狗在圍棋中取勝的秘訣有三個:深度神經網絡、監督/強化學習、蒙特卡羅樹搜索。
深度神經網絡是一種模擬人類思維方式的計算機神經網絡,它可以通過大量數據信息,尋找到最合適的解決方式和算法。阿爾法狗包含兩種深度神經網絡:數值網絡和策略網絡。數值網絡是對于盤面優勢的判斷機制,它計算預測每種不同下法帶來的勝率變化。如果在試走兩三步棋后,發現勝率不足,就會放棄這個走法,改試其他可能。這使得阿爾法狗能夠明晰局勢判斷,左右全局“戰略”,拋棄不合適的路線,可有效減少分析深度;而策略網絡則是學習人類的棋譜,通過分析數十萬個棋譜,選出20個勝率最高的下一步走法。這使得阿爾法狗能夠優化每一步落子,減少失誤,有效地減少分析廣度。兩者結合,使阿爾法狗在有限時間內做出更多棋步運算,從而不需要過于龐大的計算也能夠走出精妙的棋局。
監督學習和強化學習是機器學習方式的兩種不同種類。監督學習是指機器通過人類輸入信息進行學習;強化學習是指機器對自身收集環境中的相關信息作出判斷,并成為自己的“經驗”,這有些類似于人類的思維方式。在初始階段,阿爾法狗收集大量棋局數據,學習人類棋手的下法,形成自己的判斷。之后,在自己與自己不計其數的模擬對弈,以及每一次與人類棋手的對弈中,阿爾法狗都能根據結果總結分析生成新范式,實現自我下棋技能的提升。
蒙特卡洛樹是一種搜索算法。人工智能在利用它進行決策時,會從根結點開始不斷選擇分支子結點,通過不斷決策使游戲局勢向人工智能預測的最優點移動,直到模擬游戲勝利。人工智能每一次的選擇都會同時產生多個可能,它會進行仿真運算,推斷出可能的結果,再選擇出最優方案。
依靠這三大“武器”,阿爾法狗成為目前人類制造出來的最優秀的圍棋“棋手”。
不過,比賽結果出來后,除了對阿爾法狗的贊揚外,也有另外一種聲音。有一些人,甚至包括科技界的大佬,認為阿爾法狗和人類比賽其實并沒有太大意義,就好像開著汽車和人賽跑一樣,失去了比賽的樂趣。事實上,從競技的角度上來講,阿爾法狗的獲勝意義也許不大,但從科學技術這個角度來說,它卻有著深遠意義:阿爾法狗的誕生意味著人們對人工智能的探索已經到達了一個新階段,而阿爾法狗的學習模式,將被推廣到各種已知領域,譬如面孔識別、語音識別等,并且將來也許還能在其他未探索領域中,帶來顛覆性的革命。