岑舟
要擊敗《星際爭(zhēng)霸》玩家,AlphaGo要學(xué)的東西還很多
人工智能AlphaGo與職業(yè)棋手李世石的五番棋子最終以4:1結(jié)束,前三場(chǎng)AI早早鎖定了勝局,之后人類為了尋找平衡感,紛紛邀請(qǐng)AI斗地主、打麻將。
真的挑戰(zhàn)來自于電子競(jìng)技,AlphaGo的開發(fā)公司Deep Mind已經(jīng)準(zhǔn)備把下一個(gè)挑戰(zhàn)人類的項(xiàng)目定位為《星際爭(zhēng)霸》。 其實(shí)早在2011年3月,DeepMind創(chuàng)始人Demis Hassabis就曾在一次演說中提出了想要用AI智能挑戰(zhàn)《星際爭(zhēng)霸》的目標(biāo)。
Demis Hassabis提出了開發(fā)出一種可以智能演算游戲玩法的智能機(jī)器,他把RTS(即時(shí)戰(zhàn)略游戲)的經(jīng)典之作《星際爭(zhēng)霸》當(dāng)做首要挑戰(zhàn)目標(biāo)。當(dāng)然,這并非易事,包括《星際爭(zhēng)霸》在內(nèi)的RTS游戲中需要大量的操作、局勢(shì)判斷等復(fù)雜因素,這也是開發(fā)的首要最大困難。
盡管單機(jī)游戲里的電腦玩家也被稱為“AI”,但AlphaGo這樣級(jí)別的對(duì)手一旦出現(xiàn)在《星際爭(zhēng)霸》戰(zhàn)局上,將遠(yuǎn)遠(yuǎn)比七個(gè)“極難的電腦”恐怖得多,因?yàn)橛螒蚶锏碾娔X玩家僅僅是通過加資源作弊變得強(qiáng)大,而真正強(qiáng)大的AI胸有韜略,卻從來不會(huì)心理崩潰。
不過曾經(jīng)被稱為“星際第一人”的“教主”Flash近日公開表示若真與這樣的AI對(duì)戰(zhàn),自己也可以取得勝利。
韓媒報(bào)道,F(xiàn)lash在接受SBS的采訪時(shí)表示,自己可以戰(zhàn)勝AI。他認(rèn)為星際和圍棋不一樣,下圍棋的時(shí)候,你可以看到對(duì)手具體下到了哪里,然后再來尋找對(duì)策。但是打星際,你不會(huì)時(shí)刻知道對(duì)手在干什么。
同樣向人工智能發(fā)出宣戰(zhàn)的還有前《星際爭(zhēng)霸》職業(yè)選手“暴風(fēng)蟲族”Yellow,他在個(gè)人ins上說,最近到處都在談AlphaGo,如果以后要挑戰(zhàn)星際,就讓我上去,給大家展示一下人類的完勝。Yellow認(rèn)為,《星際爭(zhēng)霸》這個(gè)游戲眼睛看到的并非全部,還必須得了解玩家視線之外發(fā)生的一切。
《星際爭(zhēng)霸》、《星際爭(zhēng)霸2》以及《魔獸爭(zhēng)霸3》可以說是全球最具競(jìng)技性的三大RTS游戲,而《星際爭(zhēng)霸》系列也被稱為史上最難駕馭的RTS游戲。在三部作品中,游戲內(nèi)置的AI對(duì)手?jǐn)?shù)《星際爭(zhēng)霸2》最為智能,作為暴雪最近一個(gè)開發(fā)的RTS游戲,《星際爭(zhēng)霸2》的AI對(duì)抗在其資料片三部曲中的第二部《蟲群之心》中有了一次大幅的改進(jìn)和優(yōu)化。玩家可以自行選擇AI對(duì)手的戰(zhàn)術(shù)、風(fēng)格,如將AI設(shè)置為以空軍為主戰(zhàn)單位、前期壓制為主要戰(zhàn)術(shù)的風(fēng)格,這不但使玩家在對(duì)抗AI時(shí)擁有了更多的玩法和趣味,也讓RTS游戲的智能性有了大幅的進(jìn)步。
然而,相比真正的人類對(duì)手,目前《星際爭(zhēng)霸2》的AI仍然會(huì)有不足。它仍然需要靠固定的演算方法和你進(jìn)行對(duì)抗,對(duì)于審視局勢(shì)、更高級(jí)的判斷以及更靈活的應(yīng)變性操作和人類對(duì)手的相似性仍有很大差別。并且與AlphaGo不同,現(xiàn)在《星際爭(zhēng)霸2》中的最高難度AI雖然對(duì)于新手玩家是一個(gè)難以突破的對(duì)手,但對(duì)于職業(yè)的《星際爭(zhēng)霸2》選手甚至業(yè)余高水平玩家來說,最高難度的AI依然可以輕松擊敗。
其實(shí)無論Demis Hassabis還是AlphaGo都和游戲淵源頗深,因此這次Demis Hassabis提出挑戰(zhàn)《星際爭(zhēng)霸》其實(shí)并不令人感到多么意外。
Demis Hassabis獲得過5次智力奧林匹克冠軍,也是一位國際象棋神童,最終以兩科優(yōu)等成績(jī)獲得劍橋大學(xué)計(jì)算機(jī)科學(xué)學(xué)位,他創(chuàng)造了第一款包含人工智能的視頻游戲《主題公園》,然后創(chuàng)建了視頻游戲公司Elixir1,之后離開游戲產(chǎn)業(yè)深造神經(jīng)科學(xué)的博士學(xué)位,最終于2010年創(chuàng)立Deepmind團(tuán)隊(duì),今天人們說中國的公司為什么投資開發(fā)AI的很少,跟學(xué)科背景有關(guān)只懂編程而不懂腦科學(xué)的人根本沒有辦法涉足AI的設(shè)計(jì)。
Hassabis不斷用人工智能在各種游戲上擊敗最聰明的人類。他曾經(jīng)說:“可以說創(chuàng)立Deepmind一直以來是我的最終目的,我用了近20年籌劃這個(gè)事情,如果你從一個(gè)最終我將要從事人工智能研究的角度審視我的經(jīng)歷,你會(huì)發(fā)現(xiàn)我的每一步選擇都是朝向人工智能的,熟悉我的Bullfrog員工都知道,我寫的所有游戲的核心都是與人工智能相關(guān)的?!?/p>
“在16歲的時(shí)候?qū)憽吨黝}公園》游戲的時(shí)候我第一次意識(shí)到人工智能的前景不可估量。這款游戲十分暢銷,說明玩家享受其中,因?yàn)槿斯ぶ悄苁仲N合玩家的心意。因此我繼續(xù)在游戲領(lǐng)域進(jìn)行拓展,然而在2000年的時(shí)候我感覺到我們已經(jīng)在‘從后門偷偷逼近人工智能研究的路上走到了盡頭,因?yàn)椴还茉趺礃幽愕淖罱K目標(biāo)都只是做出一款游戲,所以我轉(zhuǎn)而去學(xué)習(xí)神經(jīng)科學(xué),以期在人工智能領(lǐng)域有所進(jìn)展。”Hassabis說。
盡管用人工智能進(jìn)行游戲?qū)?zhàn)是宣發(fā)推廣的策略,Deepmind團(tuán)隊(duì)最終希望將人工智能用于更多主流的項(xiàng)目當(dāng)中。Hassabis表示游戲僅僅是提供測(cè)試平臺(tái)用來測(cè)試我們的算法。換句話說,所有的游戲玩家都會(huì)讓AI變得更兇猛,更厲害。
在AlphaGo學(xué)會(huì)下圍棋之前,它其實(shí)在玩游戲上已經(jīng)超越了很多人類。
2015年,Deep Mind公布了AlphaGo前身的學(xué)習(xí)成果。那時(shí)候它的名字還叫“自己學(xué)習(xí)游戲規(guī)則的人工智能”。谷歌在沒有給予任何游戲相關(guān)情報(bào)和規(guī)則指示的情況下,讓AI玩了49款規(guī)則不同的游戲,其中29款的成績(jī)明顯高于人類玩家水平。
但大多數(shù)的電子游戲的AI仍然非常蠢,尤其是他們扮演游戲中的隊(duì)友的時(shí)候,能不能讓AlphaGo來擔(dān)當(dāng)游戲里的敵人或者隊(duì)友,讓游戲變得更真實(shí)、更刺激呢?
技術(shù)上沒有任何門檻,但無論游戲廠商經(jīng)常會(huì)將AI多么多么狡猾作為賣點(diǎn),游戲里的隊(duì)友仍然呆笨無比,再狡猾的敵人也是有規(guī)律可循。即便是在以難度可怕而著稱的游戲《黑暗之魂》中,玩家在多次受挫后總能發(fā)現(xiàn)敵人的規(guī)律進(jìn)而想出破解之道。
加拿大阿爾伯塔大學(xué)的計(jì)算機(jī)科學(xué)博士Dave Churchill曾經(jīng)解釋過:“游戲業(yè)界排斥現(xiàn)代AI技術(shù)的最大原因是開發(fā)者不想在這上面浪費(fèi)運(yùn)算能力。”他解釋說:“游戲設(shè)計(jì)師會(huì)竭盡全力推動(dòng)視覺效果發(fā)展,但在AI設(shè)計(jì)上他們可能只會(huì)用上1%的技能。”
特效撩人故事性感人們就會(huì)購買游戲,至于玩起來發(fā)現(xiàn)AI低劣,那已經(jīng)是購買之后的事了。
除此之外,Churchill還表示,游戲AI的目的性更強(qiáng)也是開發(fā)者“偷懶”的原因。當(dāng)玩家躲進(jìn)掩體里,AI就會(huì)選擇投擲手雷或沖上來包抄。AI敵人唯一的目的就是干掉玩家,所以這種“if-then”式的邏輯非常管用,看上去也還像那么回事。比起敵人來,隊(duì)友AI的任務(wù)要寬泛得多,它們沒有需要針對(duì)的目標(biāo),犯傻似乎也就在情理之中了。
至于讓游戲更有挑戰(zhàn),開發(fā)復(fù)雜的AI要花好多錢,不如把敵人的血量和防御調(diào)高,把玩家的生命恢復(fù)能力降低,或者干脆只讓主角找到一半的子彈,改改參數(shù),根本不用花錢。
AlphaGo強(qiáng)大運(yùn)算能力是1202個(gè)CPU和176個(gè) GPU堆起來的,它們加起來的能耗遠(yuǎn)超200000W,一般的人家里的電腦帶不動(dòng)不說,就算小區(qū)里有條強(qiáng)悍不跳閘的線路,電表一小時(shí)走200度—好多售電卡一次才賣2000度電。
此外AlphaGo的強(qiáng)大也體現(xiàn)在學(xué)習(xí)能力方面,就AlphaGo學(xué)習(xí)圍棋來說,AlphaGo有兩種學(xué)習(xí)功能,第一種是根據(jù)高手棋譜的學(xué)習(xí),第二種是自我對(duì)弈,自我學(xué)習(xí)。如果你讓AlphaGo加入到你的電子游戲里,他可能要在你上班或者上課的時(shí)候自己?jiǎn)翁鬊OSS,好等你晚上回來配合你作戰(zhàn)。
和隊(duì)友相比,還是砸館者的角色更適合阿爾法,從圍棋轉(zhuǎn)進(jìn)RTS游戲,他還需要學(xué)不少的東西。
兵種克制、基本套路之類的基礎(chǔ)問題自然是首先需要植入的,這也是許多人類玩家在入門時(shí)需要掌握的基礎(chǔ)。若真想開發(fā)出足以與頂級(jí)職業(yè)選手抗衡的人工智能,則必須要讓AI理解一場(chǎng)《星際爭(zhēng)霸》游戲的“意義”。
這是人工智能發(fā)展最大的困難,在《星際爭(zhēng)霸》中,讓AI理解一場(chǎng)游戲的意義可以包括“為什么要運(yùn)營”、“為什么要使用這個(gè)戰(zhàn)術(shù)”之類的問題,從而引導(dǎo)AI電腦做出“何時(shí)該補(bǔ)農(nóng)民、何時(shí)該進(jìn)攻”的判斷。
許多玩家在討論未來人工智能時(shí),往往會(huì)提出它們可以完成類似“50個(gè)槍兵完美散開躲毒爆”的操作,再強(qiáng)悍的微操高手也無法勝過未來的AI。
但如果只是用這樣狹隘的思路去設(shè)定未來我們要對(duì)抗的人工智能,則失去了創(chuàng)造他們的意義。相信未來我們創(chuàng)造人工智能的更大目的還是為了創(chuàng)造出一個(gè)“擬人化到極限”的虛擬對(duì)手,而不是創(chuàng)造一個(gè)神一般的虛擬對(duì)手。
所以,未來一個(gè)理想的《星際爭(zhēng)霸》人工智能,應(yīng)該是一個(gè)可以利用人類的思維邏輯、人類的操作能力擊敗你的對(duì)手,不用微操贏你也能讓你輸?shù)眯姆诜?/p>
輸給人類玩家還可以學(xué)習(xí)和訓(xùn)練,看高手視頻、反復(fù)練習(xí)開局等等,但AlphaGo的學(xué)習(xí)能力已經(jīng)讓人類目瞪口呆了—他可以不休息反復(fù)學(xué)習(xí),而人類還要吃飯、睡覺和娛樂。
在《星際爭(zhēng)霸》這個(gè)項(xiàng)目上,人類也許無法打敗AlphaGo,但人類的了不起之處在于,他們可以開發(fā)出算法更優(yōu)的AI打敗AlphaGo。
你應(yīng)該開發(fā)出更快的火車來超越之前的火車,而不是吃藥打針,憋著和火車跑出一個(gè)勝負(fù)來。