新AlphaGo有多厲害?100:0把李世乭版秒成渣
發(fā)帖時(shí)間:2025-11-23 22:00:55
導(dǎo)讀:新的有多AlphaGo Zero使用了一種全新的強(qiáng)化學(xué)習(xí)方式,從0基礎(chǔ)的厲害神經(jīng)網(wǎng)絡(luò)開始,與搜索算法結(jié)合,把李版秒武漢江漢找小姐服務(wù)全國(guó)附近約小姐上門電vx《1662-044-1662》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)不斷進(jìn)化調(diào)整、世乭迭代升級(jí)。成渣AlphaGo Zero的有多不同之處在于:除了黑白棋子,沒有其他人類教給AlphaGo Zero怎么下棋。厲害而之前的把李版秒AlphaGo包含少量人工設(shè)計(jì)的特征。
“它最終超越了我們所有預(yù)期”。世乭
DeepMind團(tuán)隊(duì)又放驚天消息。成渣
簡(jiǎn)單地說(shuō),有多AlphaGo又有了重大進(jìn)步。厲害DeepMind把這個(gè)新版本的把李版秒圍棋AI稱為AlphaGo Zero。之所以這樣命名,世乭是成渣因?yàn)檫@個(gè)AI完全從零開始,自我學(xué)習(xí)下圍棋,完全脫離人類知識(shí)。
以前其他版本的AlphaGo,都經(jīng)過人類知識(shí)的訓(xùn)練,它們被告知人類高手如何下棋。武漢江漢找小姐服務(wù)全國(guó)附近約小姐上門電vx《1662-044-1662》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)而最新發(fā)布的AlphaGo Zero使用了更多原理和算法,從0開始,使用隨機(jī)招式,40天后成為圍棋界的絕世高手。真真正正的自學(xué)成才。
新的AlphaGo Zero使用了一種全新的強(qiáng)化學(xué)習(xí)方式,從0基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)開始,與搜索算法結(jié)合,不斷進(jìn)化調(diào)整、迭代升級(jí)。AlphaGo Zero的不同之處在于:
除了黑白棋子,沒有其他人類教給AlphaGo Zero怎么下棋。而之前的AlphaGo包含少量人工設(shè)計(jì)的特征。
AlphaGo Zero只用了一個(gè)神經(jīng)網(wǎng)絡(luò),而不是兩個(gè)。以前AlphaGo是由“策略網(wǎng)絡(luò)”和“價(jià)值網(wǎng)絡(luò)”來(lái)共同確定如何落子。
AlphaGo Zero依賴神經(jīng)網(wǎng)絡(luò)來(lái)評(píng)估落子位置,而不使用rollouts——這是其他圍棋程序使用的快速、隨機(jī)游戲,用來(lái)預(yù)測(cè)哪一方會(huì)獲勝。
創(chuàng)新工場(chǎng)AI工程院副院長(zhǎng)王詠剛用“大道至簡(jiǎn)”四個(gè)字評(píng)價(jià)新版的AlphaGo Zero。
上述種種,讓AlphaGo Zero異常強(qiáng)大。
“人們一般認(rèn)為機(jī)器學(xué)習(xí)就是關(guān)于大數(shù)據(jù)和海量計(jì)算,但是DeepMind通過AlphaGo Zero的案例發(fā)現(xiàn),算法比計(jì)算或者數(shù)據(jù)可用性更重要”,AlphaGo團(tuán)隊(duì)負(fù)責(zé)人席爾瓦(Dave Silver)介紹說(shuō),AlphaGo Zero的計(jì)算,比之前的AlphaGo減少了一個(gè)數(shù)量級(jí)。
如上圖所示,AlphaGo Zero也只用了4個(gè)TPU。
AlphaGo Zero到底多厲害,且看官方公布的成績(jī)單:
3小時(shí)后,AlphaGo Zero成功入門圍棋。
僅僅36小時(shí)后,AlphaGo Zero就摸索出所有基本而且重要的圍棋知識(shí),以100:0的戰(zhàn)績(jī),碾壓了當(dāng)年擊敗李世乭的AlphaGo v18版本。
21天后,AlphaGo Zero達(dá)到了Master的水平。這也就是年初在網(wǎng)上60連勝橫掃圍棋界的版本。Master后來(lái)?yè)魯×丝聺崱?br>
40天后,AlphaGo Zero對(duì)戰(zhàn)Master的勝率達(dá)到90%。也就是說(shuō),AlphaGo Zero成為寂寞無(wú)敵的最強(qiáng)圍棋AI。
DeepMind主要作者之一的黃士杰博士總結(jié):AlphaGo Zero完全從零開始,初始階段甚至?xí)钫嫜圩詺?。AlphaGo Zero自學(xué)而成的圍棋知識(shí),例如打劫、征子、棋形、布局先下在角等等,都與人類的圍棋觀念一致。
“間接呼應(yīng)了人類幾千年依賴圍棋研究的價(jià)值”,黃士杰寫道。
技術(shù)細(xì)節(jié)
DeepMind的最新研究成果,已經(jīng)全文發(fā)布在《自然》雜志上。這也是第二篇在《自然》雜志上發(fā)表的AlphaGo論文。
論文摘要
人工智能的長(zhǎng)期目標(biāo)是創(chuàng)造一個(gè)會(huì)學(xué)習(xí)的算法,能在特定領(lǐng)域中從一塊白板開始,超越人類。最近,AlphaGo成為第一個(gè)在圍棋游戲中打敗世界冠軍的程序。AlphaGo中的樹搜索使用深度神經(jīng)網(wǎng)絡(luò)來(lái)評(píng)估位置、選擇落子。這些神經(jīng)網(wǎng)絡(luò)用人類專家的棋譜來(lái)進(jìn)行監(jiān)督學(xué)習(xí)的訓(xùn)練,并通過自我對(duì)弈來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)。本文介紹了一種僅基于強(qiáng)化學(xué)習(xí)的方法,除了游戲規(guī)則之外,沒有人類的數(shù)據(jù)、指導(dǎo)或者領(lǐng)域知識(shí)。AlphaGo成了它自己的老師:一個(gè)被訓(xùn)練來(lái)預(yù)測(cè)AlphaGo自己落子選擇以及對(duì)弈結(jié)果的神經(jīng)網(wǎng)絡(luò)。這個(gè)神經(jīng)網(wǎng)絡(luò)提高了樹搜索的強(qiáng)度,提高了落子質(zhì)量、增強(qiáng)了自我對(duì)弈迭代的能力。從一塊白板開始,我們的新程序AlphaGo Zero的表現(xiàn)超越了人類,并以100-10擊敗了以前曾打敗世界冠軍的AlphaGo版本。
AlphaGo Zero的強(qiáng)化學(xué)習(xí)
上面提到AlphaGo使用了一個(gè)神經(jīng)網(wǎng)絡(luò),這是怎么做到的?
DeepMind使用了一個(gè)新的神經(jīng)網(wǎng)絡(luò)fθ,θ是參數(shù)。這個(gè)神經(jīng)網(wǎng)絡(luò)將原始棋盤表征s(落子位置和過程)作為輸入,輸出落子概率(p, v)= fθ(s)。這里的落子概率向量p表示下一步的概率,而v是一個(gè)標(biāo)量估值,衡量當(dāng)前落子位置s獲勝的概率。
這個(gè)神經(jīng)網(wǎng)絡(luò)把之前AlphaGo所使用的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),整合成一個(gè)單獨(dú)的架構(gòu)。其中包含很多基于卷積神經(jīng)網(wǎng)絡(luò)的殘差模塊。
AlphaGo Zero的神經(jīng)網(wǎng)絡(luò),使用新的強(qiáng)化學(xué)習(xí)算法,自我對(duì)弈進(jìn)行訓(xùn)練。在每個(gè)落子位置s,神經(jīng)網(wǎng)絡(luò)fθ指導(dǎo)進(jìn)行MCTS(蒙特卡洛樹)搜索。MCTS搜索給出每一步的落子概率π。通常這種方式會(huì)選出更有效的落子方式。
因此,MCTS可以被看作是一個(gè)強(qiáng)大的策略提升operator。這個(gè)系統(tǒng)通過搜索進(jìn)行自我對(duì)弈,使用增強(qiáng)的MCTS策略決定如何落子,然后把獲勝z作為價(jià)值樣本。
這個(gè)強(qiáng)化學(xué)習(xí)算法的主要理念,實(shí)在策略迭代過程中,反復(fù)使用這些這些搜索operator:神經(jīng)網(wǎng)絡(luò)的參數(shù)不斷更新,讓落子概率和價(jià)值(P,v)=fθ(s)越來(lái)越接近改善后的搜索概率和自我對(duì)弈贏家(π, z)。這些新參數(shù)也被用于下一次的自我對(duì)弈迭代,讓搜索變得更強(qiáng)大。整個(gè)過程如下圖所示。
上圖解釋了AlphaGo Zero中的自我對(duì)弈強(qiáng)化學(xué)習(xí)。圖a展示了程序的自我對(duì)弈過程。程序在從s1到st的棋局中進(jìn)行自我對(duì)弈,在任意位置st,程序會(huì)用最新的神經(jīng)網(wǎng)絡(luò)fθ來(lái)執(zhí)行MCTS αθ,根據(jù)MCTS計(jì)算出的搜索概率at?πt選擇落子位置,根據(jù)游戲規(guī)則來(lái)決定最終位置sT,并計(jì)算出勝者z。
圖b展示了AlphaGo Zero中的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,神經(jīng)網(wǎng)絡(luò)以棋盤位置st為輸入,將它和參數(shù)θ通過多層CNN傳遞,輸出向量Pt和張量值vt,Pt表示幾步之后可能的局面,vt表示st位置上當(dāng)前玩家的勝率。為了將Pt和搜索概率πt的相似度最大化,并最小化vt和游戲?qū)嶋H勝者z之間的誤差,神經(jīng)網(wǎng)絡(luò)的參數(shù)θ會(huì)不斷更新,更新后的參數(shù)會(huì)用到如圖a所示的下一次自我對(duì)弈迭代中。
AlpaGo Zero中的MCTS結(jié)構(gòu)如上圖所示,從圖a顯示的選擇步驟可以看出,每次模擬都會(huì)通過選擇最大行為價(jià)值Q的邊緣,加上置信區(qū)間上限U來(lái)遍歷樹,U取決于存儲(chǔ)先驗(yàn)概率P和訪問次數(shù)N。
圖b顯示,葉節(jié)點(diǎn)擴(kuò)展和相關(guān)位置s的評(píng)估都是通過神經(jīng)網(wǎng)絡(luò)(P(s, ·),V(s)) = fθ(s)實(shí)現(xiàn)的,P的向量值存儲(chǔ)在s的出口邊緣。
圖c顯示了更新行為價(jià)值Q以追蹤該行為下面子樹中所有評(píng)估V的平均值。
圖d顯示,搜索完成后,搜索概率π返回,與N1/τ成比例,其中N是從根狀態(tài)每次移動(dòng)的訪問次數(shù),τ是控制溫度的參數(shù)。
從零開始的訓(xùn)練
DeepMind在論文中表示,應(yīng)用了強(qiáng)化學(xué)習(xí)的pipeline來(lái)訓(xùn)練AlphaGo Zero,訓(xùn)練從完全隨機(jī)的行為開始,并在沒有認(rèn)為干預(yù)的情況下持續(xù)3天。
訓(xùn)練過程中,生成了490萬(wàn)盤自我博弈對(duì)局,每個(gè)MCTS使用1600次模擬,相當(dāng)于每下一步思考0.4秒。下圖顯示了在自我對(duì)弈強(qiáng)化學(xué)習(xí)期間,AlphaGo Zero的表現(xiàn)。整個(gè)訓(xùn)練過程中,沒有出現(xiàn)震蕩或者災(zāi)難性遺忘的困擾。
令人驚訝的是,AlphaGo Zero在訓(xùn)練36小時(shí)后,表現(xiàn)就優(yōu)于擊敗李世乭的版本AlphaGo Lee。當(dāng)年那個(gè)版本經(jīng)過了數(shù)月的訓(xùn)練。AlphaGo Zero使用了4個(gè)TPU,而擊敗李世乭的AlphaGo使用了48個(gè)TPU。
下圖就是AlphaGo Zero和AlphaGo Lee的神經(jīng)網(wǎng)絡(luò)架構(gòu)比較。