邱元陽
備受關(guān)注的世紀(jì)“人機大戰(zhàn)”終于落下帷幕,谷歌公司研發(fā)的圍棋程序AlphaGo經(jīng)過五番棋的激戰(zhàn),以4比1完勝圍棋世界冠軍韓國職業(yè)九段棋手李世石。
在AlphaGo贏得第一局的比賽時,就激起了人們熱烈的討論,因為很多從事人工智能研究的“技術(shù)派”也對電腦圍棋程序戰(zhàn)勝人類棋手沒有足夠的信心。但第一局的結(jié)果仍然讓人震驚,因為在五個月前,AlphaGo的棋力水平也只是達(dá)到戰(zhàn)勝職業(yè)二段棋手的程度,人們吃驚的是它的棋藝水平提高的速度。
與20年前深藍(lán)在國際象棋人機大戰(zhàn)中戰(zhàn)勝世界冠軍卡斯帕羅夫不同,AlphaGo并非僅僅依賴強悍的計算能力和龐大的棋譜數(shù)據(jù)庫取勝,而是具有深度學(xué)習(xí)的能力,能在實戰(zhàn)和練習(xí)中不斷學(xué)習(xí)和積累經(jīng)驗,這已經(jīng)非常類似于人類棋手的成長過程了,不過它成長的速度非常之快。
普通大眾會認(rèn)為,機器人獲勝是因為它內(nèi)部存儲有極為豐富的棋譜,以及很多一流棋手的經(jīng)驗,再配合它強大的邏輯判斷能力,是一群人對一個人的戰(zhàn)斗,是機器計算對人腦計算的碾軋,結(jié)果是必然的。這樣的歸納未免有些草率和簡單,完全無視機器學(xué)習(xí)在程序中的作用。
機器學(xué)習(xí)(Machine Learning,ML)是一種讓計算機在事先沒有明確的程序的情況下做出正確反應(yīng)的能力,是計算機模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身性能的一種方法,是人工智能的核心,也是使計算機具有智能的根本途徑。但是它仍然主要是使用歸納、綜合而不是演繹的方式來進行學(xué)習(xí)。
早在1959年,塞繆爾的下棋程序就具有了學(xué)習(xí)能力,能在不斷對弈中改善自己的棋藝。這個程序已經(jīng)涉及到了關(guān)于學(xué)習(xí)的令人頭疼的哲學(xué)問題,此后就有各種各樣的棋類程序誕生,演繹出一個又一個電腦程序戰(zhàn)勝人類棋手的傳說,不斷刷新博弈難度的記錄。
而圍棋,因為棋盤的復(fù)雜性(大約10的172次方種狀態(tài),是計算機不可能窮盡的天文數(shù)字),則被看作是“人類智力的最后防線”,是僅存的人類能夠擊敗電腦的完全信息博弈游戲。AlphaGo的獲勝,宣告了機器學(xué)習(xí)的重大突破。
AlphaGo是一套為圍棋優(yōu)化的深度學(xué)習(xí)引擎,它使用了神經(jīng)網(wǎng)絡(luò)和蒙特卡羅算法,可以讓機器充分學(xué)習(xí),并能在不斷自我對決中提升水平。
深度學(xué)習(xí)(Deep Learning)的概念在10年前就已提出,又叫深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks),是機器學(xué)習(xí)研究中的一個新領(lǐng)域,通過建立模擬人腦進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦機制來解釋數(shù)據(jù)。深度學(xué)習(xí)提出了一種讓計算機自動學(xué)習(xí)出模式特征的方法,有深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等不同的機器學(xué)習(xí)模型,但都需要大量的并行計算。非監(jiān)督貪心逐層訓(xùn)練算法可以解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題,卷積神經(jīng)網(wǎng)絡(luò)可以利用空間相對關(guān)系減少參數(shù)數(shù)目以提高訓(xùn)練性能,這些特點正適合用于復(fù)雜的博弈程序。
但是,在具有不確定性的對決中,即使深度學(xué)習(xí)也發(fā)揮不了作用,無法幫助程序來確定對手的狀態(tài)。
學(xué)習(xí)還不等同于思維,目前的人工智能還不可能具有思維、情感、道德等特點,明顯區(qū)別于人的智能。人們對于人工智能的倫理擔(dān)憂和控制擔(dān)憂還為時過早。
也許若干年后,進行人機大戰(zhàn)就是很可笑的事了,因為可能那時機器的強悍程度是人根本無法相比的。當(dāng)然,這不是機器的進步,而是人的進步。