999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

戰勝人類頂尖棋手的AlphaGo究竟有多聰明?

2016-05-14 08:41:58張澤玲
中學生天地(A版) 2016年6期
關鍵詞:程序人類模型

張澤玲

2016年3月9日至15日,韓國九段棋手李世石與谷歌計算機AlphaGo在韓國首爾進行了一次舉世矚目的人機大戰。經過5場艱難的對弈,AlphaGo以4∶1的比分取得勝利,而幾個月前,它還只能戰勝職業圍棋二段選手樊麾。AlphaGo戰勝了人類頂尖棋手,且進步速度如此之快,這不禁讓人擔心:這樣下去,它豈不是要像《終結者》中的“天網”和《黑客帝國》中的“母體”一樣,可以統治地球奴役人類了?

AlphaGo真的有這么無敵嗎?它的出現,對人類而言究竟是福還是禍呢?

拋開所有高大上的描述,AlphaGo本質上只是一段很長很長的程序代碼。人類眼中的下圍棋,在它眼里只是不停地按照代碼設定做計算。人類棋手下棋時要計算每一步棋該怎樣走,走這一步是優勢還是劣勢,同樣,AlphaGo也在做類似的計算。而支撐它進行計算的是四個程序設置:策略網絡、估值網絡、快速部署和蒙特卡洛樹搜索。要想知道AlphaGo是怎樣學棋、下棋的,我們就得好好說說這四個程序設置了。

AlphaGo的策略網絡,由監督學習和強化學習兩種機器學習方法搭建。聽上去有些高深?別急,平時刷題不止、考試不斷的你一定深有體會。

所謂的監督學習,是我們給程序一個訓練集,其中一部分稱為例子,相當于習題;一部分稱為目標,相當于答案。然后設定一個函數模型,讓程序不斷把訓練集的例子代入函數模型,算答案,對答案。如果答案不對,程序就去調整這個函數模型里的某些參數,再重復之前的過程,直到能得出較高的正確率。接著再給程序一個測試集,相當于考試。如果程序對測試集里的例子算出的答案正確率也比較高,表明訓練成功。

對于AlphaGo來說,訓練集是人類在KGS圍棋對戰平臺上下過的數萬局棋譜,其中,“例子”是給定一步以后下一步該走什么,“答案”是人類走法中較多人走的且效果不錯的那步,函數模型是模擬人類大腦的“深度卷積神經網絡”。這里的“神經網絡”指的是一類算法結構,本質是一簇互相關聯的函數;“深度”指的是“神經網絡”有好多層,每層負責學習不同的知識點;“卷積”則是一類數學方法,在神經網絡中處理一些函數之間的關系和提煉輸入數據里的有效信息。要想完全弄清楚“卷積”,大學的時候你可得好好學習高等數學哦。

接下來的強化學習,有點像平時老師讓我們用學到的知識去解決某些答案并不確定的實際問題。在監督學習的過程中,AlphaGo只是參照人類的走法大致學會了預測下一步,那么下棋的效果究竟會怎么樣呢?于是我們讓兩個策略網絡互相下棋并不斷調整,看哪邊下贏了就保留勝方的模式和參數,這樣下過3000萬盤后,AlphaGo便通過這樣“左右互搏”的方式提高了策略網絡的“實戰能力”,避免只會照貓畫虎模仿人類。

估值網絡與策略網絡中強化學習的過程差不多,只不過在這里AlphaGo學的不是預測下一步怎么走,而是學習評估此刻棋盤上自己下在不同地方最終獲勝的概率。

快速部署又是什么呢?雖然AlphaGo已經學習了很多東西,下棋的時候還是會遇到卡殼的情形,這個時候總不能干瞪眼發愣吧?于是,AlphaGo會根據經驗“猜”一步——按照正確率不太高的一個函數模型進行快速計算,然后結合估值網絡得出的獲勝概率分布和蒙特卡洛樹搜索得到的信息判定下一步該怎么下。

最后要說的是蒙特卡洛樹搜索。“蒙特卡洛”并不是人名,而是一個地名。該方法的發明人之一斯塔尼斯拉夫·烏拉姆的叔叔經常在蒙特卡洛賭場輸錢,賭博和這類方法都依賴概率,因此得名。它的功能是從當前一步參照估值網絡和快速部署所給的信息,去評估搜索接下來的幾步,再把搜索的結果傳回給策略網絡和估值網絡。這個過程的流程圖就像不斷分叉的樹干,選擇哪一個分支深入搜索下去則是靠一定的概率,因此被稱為“蒙特卡洛樹搜索”。

總的來說,AlphaGo跟人類下棋時,策略網絡和快速部署負責評估下一步不同走法的好壞,估值網絡負責估算當前盤面的獲勝概率分布,蒙特卡洛樹搜索負責結合前三者幫助找到最佳的那一步。當然,這只是粗略的分工,在AlphaGo的實際運行中,這四種程序設置是互相交叉協作的。

在跟李世石九段對決中,由于比賽規則里有時間限制,AlphaGo還額外增加了一部分程序設置用于控制時間。面對復雜度高的局面,AlphaGo的計算量會顯著增加,一樣會出現人類棋手的“長考”現象。為避免在一步棋中耗費太多時間,時間控制部分的程序就要權衡每步棋的時間分布。

這么看來,AlphaGo學習和下棋的過程真是比我們上課復雜枯燥多了——所有內容都是對數據的處理和計算。而且,因為只接受了“下圍棋”的訓練,AlphaGo只會下圍棋,別的什么也不會。如果沒有開發人員去調試AlphaGo的代碼,修改函數模型,給予新的訓練,AlphaGo就學不到新技能,逞不了什么威風。目前,AlphaGo更像是一條聰明的獵犬,必須要人類的牽引和訓練才能進步。即便有壞人企圖利用人工智能干壞事,情形也跟當下黑客入侵我們的電腦手機類似,自有負責信息安全的專家們去制止,更何況,人工智能的科學家們早在設計之初就把這些安全因素考慮進去了,目前最“聰明”的AlphaGo也還在科學家們的牢牢掌控之中呢。

從另一個角度看,AlphaGo的成功是因為它模仿了人類的思考方式和學習能力,這也讓我們認識到了人是多么神奇的存在,認識人類自身又是一個多么廣闊的領域。我們“日用而不知”的能力,包含了多少復雜的道理?這些天然的饋贈,我們不更應該好好珍惜、好好利用嗎?

猜你喜歡
程序人類模型
一半模型
人類能否一覺到未來?
重要模型『一線三等角』
人類第一殺手
好孩子畫報(2020年5期)2020-06-27 14:08:05
重尾非線性自回歸模型自加權M-估計的漸近分布
1100億個人類的清明
試論我國未決羈押程序的立法完善
人大建設(2019年12期)2019-05-21 02:55:44
“程序猿”的生活什么樣
英國與歐盟正式啟動“離婚”程序程序
環球時報(2017-03-30)2017-03-30 06:44:45
3D打印中的模型分割與打包
主站蜘蛛池模板: 最新国产在线| 午夜激情婷婷| 欧美成人综合视频| 国产av色站网站| 玩两个丰满老熟女久久网| 呦系列视频一区二区三区| 精品在线免费播放| 黑人巨大精品欧美一区二区区| 精品無碼一區在線觀看 | 欧美激情视频一区| 欧美啪啪视频免码| 99久久性生片| 国产精品无码翘臀在线看纯欲| 亚洲无码免费黄色网址| 国产精品无码制服丝袜| 久久精品娱乐亚洲领先| 亚洲三级影院| 亚洲无码A视频在线| 国产麻豆aⅴ精品无码| 91热爆在线| 国产一区成人| 国产成年女人特黄特色毛片免| 98超碰在线观看| 精品国产成人国产在线| 亚洲精品久综合蜜| 亚洲欧洲日韩久久狠狠爱| 综合网久久| a级毛片在线免费观看| 国产女人18毛片水真多1| 91精品国产一区| 77777亚洲午夜久久多人| 91精品久久久久久无码人妻| 国产区免费| 一本一本大道香蕉久在线播放| 国产精品网址你懂的| 亚洲日产2021三区在线| 原味小视频在线www国产| vvvv98国产成人综合青青| 第九色区aⅴ天堂久久香| 亚洲av无码牛牛影视在线二区| 99免费视频观看| 国产成人一区| 国产精品乱偷免费视频| 欧美一级夜夜爽www| 欧美精品影院| 亚洲另类第一页| 99久久亚洲精品影院| 国产激情在线视频| 日韩亚洲综合在线| 丝袜国产一区| 美女无遮挡拍拍拍免费视频| 91人人妻人人做人人爽男同| 精品国产一二三区| 免费一级毛片不卡在线播放| 国产一级毛片网站| 国产综合精品一区二区| 欧美不卡在线视频| 亚洲天堂日韩在线| 无码免费的亚洲视频| 国产96在线 | 久久久噜噜噜| 免费国产在线精品一区| 99视频在线免费| 人妖无码第一页| 无遮挡国产高潮视频免费观看| 这里只有精品在线播放| 久久99热66这里只有精品一| 2020久久国产综合精品swag| 日本人妻丰满熟妇区| 伊人久久福利中文字幕| 亚洲中文精品人人永久免费| 欧美另类第一页| 香蕉国产精品视频| 国产成人乱无码视频| 久久综合丝袜长腿丝袜| 亚洲精品第五页| 国产熟睡乱子伦视频网站| 国产高清在线丝袜精品一区| 国产H片无码不卡在线视频| 国产亚洲精| 免费观看欧美性一级| 青青青视频免费一区二区|