free性欧美人与dog,成年免费视频黄网站zxgk,久热国产精品视频一区二区三区,.欧美精品一区二区三区,国产人与zoxxxx另类

這是迄今為止,AlphaGo算法最清晰的解讀!

導(dǎo)讀2016年DeepMind團(tuán)隊(duì)(google旗下)的AlphaGo(一個(gè)圍棋的AI)以4:1戰(zhàn)勝頂尖人類職業(yè)棋手李世石。她到底是怎么下棋的?AlphaGo在面對(duì)當(dāng)前棋局時(shí),她會(huì)模擬(推演棋局)N次,選取“模擬”次數(shù)最多的走法,這就是AlphaGo認(rèn)為的最優(yōu)走法。例如圖中,所有沒(méi)有落子的地方都是可能下子的,但在模擬中,右下那步走了79%次,就選那一步了,就那么簡(jiǎn)單。后面你會(huì)發(fā)現(xiàn),“模擬”次數(shù)“最多”的走法就是統(tǒng)計(jì)上“最優(yōu)”的走法。1、啥是模擬?模擬就是AlphaGo自己和自己下棋,相當(dāng)于棋手在腦袋...

2016年DeepMind團(tuán)隊(duì)(google旗下)的AlphaGo(一個(gè)圍棋的AI)以4:1戰(zhàn)勝頂尖人類職業(yè)棋手李世石。她到底是怎么下棋的?

AlphaGo在面對(duì)當(dāng)前棋局時(shí),她會(huì)模擬(推演棋局)N次,選取“模擬”次數(shù)最多的走法,這就是AlphaGo認(rèn)為的最優(yōu)走法。

例如圖中,所有沒(méi)有落子的地方都是可能下子的,但在模擬中,右下那步走了79%次,就選那一步了,就那么簡(jiǎn)單。后面你會(huì)發(fā)現(xiàn),“模擬”次數(shù)“最多”的走法就是統(tǒng)計(jì)上“最優(yōu)”的走法。

1、啥是模擬?

模擬就是AlphaGo自己和自己下棋,相當(dāng)于棋手在腦袋中的推演,就是棋手說(shuō)的“計(jì)算”。

AlphaGo面對(duì)當(dāng)前局面,會(huì)用某種(下面會(huì)講)策略,自己和自己下。其中有兩種策略:往后下幾步(提前終止,因?yàn)锳lphaGo有一定判斷形勢(shì)的能力);或者一直下到終局(終局形勢(shì)判斷相對(duì)簡(jiǎn)單,對(duì)于棋手簡(jiǎn)單,對(duì)于機(jī)器還有一定難度,但是這個(gè)問(wèn)題已經(jīng)基本解決)。對(duì)于棋手來(lái)說(shuō)就是推演棋局。

AlphaGo會(huì)模擬多次,“不止一次”。越來(lái)越多的模擬會(huì)使AlphaGo的推演“越來(lái)越深”(一開(kāi)始就1步,后來(lái)可能是幾十步),對(duì)當(dāng)前局面的判斷“越來(lái)越準(zhǔn)”(因?yàn)樗懒撕竺婢置孀兓慕Y(jié)果,她會(huì)追溯到前面的局面,更新對(duì)前面局面的判斷),使后面的模擬“越來(lái)越強(qiáng)”(更接近于正解,她后面模擬出來(lái)的著法會(huì)越來(lái)越強(qiáng))。怎么做到的?看她怎么模擬的。

注意,這里的模擬是下棋(線上)時(shí)的模擬,后面還會(huì)有個(gè)學(xué)習(xí)時(shí)的模擬,不要混淆了。

2、AlphaGo怎么模擬的?

每次模擬中,AlphaGo自己和自己下。每步中由一個(gè)函數(shù)決定該下哪一步。函數(shù)中包括了以下幾個(gè)方面:這個(gè)局面大概該怎么下(選點(diǎn):policy net),下這步會(huì)導(dǎo)致什么樣的局面,我贏得概率是多少(形勢(shì)判斷:value net 和rollout小模擬),鼓勵(lì)探索沒(méi)模擬過(guò)的招法。這些英文名詞后面會(huì)有解釋。

模擬完一次后,AlphaGo會(huì)記住模擬到棋局,比如幾步以后的棋局。并且計(jì)算這時(shí)policy,value。因?yàn)檫@時(shí)已經(jīng)更接近終局了,這時(shí)的值會(huì)更加準(zhǔn)確(相對(duì)于前面的模擬或局面)。AlphaGo還會(huì)用這些更準(zhǔn)的值更新這個(gè)函數(shù),函數(shù)值就越來(lái)越準(zhǔn)了,所以模擬的每一步越來(lái)越接近正解(最優(yōu)的下法),整個(gè)模擬越來(lái)越接近黑白雙方的最優(yōu)下法(主變化,principle variation),就像圍棋書上的正解圖一樣。到此為止,你已經(jīng)大概了解AlphaGo她怎么工作的了,下面只是一些細(xì)節(jié)和數(shù)學(xué)了。

3、那個(gè)函數(shù)是啥,好神奇?

這個(gè)函數(shù),分為兩個(gè)部分。

Q是action value, u是bonus。Q其實(shí)就是模擬多次以后,AlphaGo計(jì)算走a這步贏的概率,其中會(huì)有對(duì)未來(lái)棋局的模擬(大模擬中的小模擬),和估計(jì)。u中包括兩個(gè)部分。一方面根據(jù)局面(棋形)大概判斷應(yīng)該有那幾步可以走,另一方面懲罰模擬過(guò)多的招法,鼓勵(lì)探索其他招法,不要老模擬一步,忽略了其他更優(yōu)的招法。

4、Q(action value)具體是什么?

Q看上去有點(diǎn)復(fù)雜,其實(shí)就是模擬N次以后,AlphaGo認(rèn)為她模擬這步贏得平均概率。

分母N是模擬這步棋的次數(shù)。

分子是每次模擬贏的概率(V)的加和。

其中V又包括兩部分,value net對(duì)形勢(shì)的判斷。和一個(gè)快速模擬到終局,她贏的概率。

value net是說(shuō)她看這個(gè)這個(gè)局面,就要判斷贏的概率,“不準(zhǔn)”往下幾步想了。value net下面詳細(xì)講。

快速模擬是說(shuō)她看這個(gè)這個(gè)局面,自己和自己下完,看看黑白誰(shuí)贏的概率高??焖倌M是我們這個(gè)大模擬中的一個(gè)小模擬。

Q就是看當(dāng)下(value net),也看未來(lái)(快速模擬),來(lái)決定怎么模擬(對(duì)人來(lái)說(shuō)就是往哪里想,對(duì)于棋手就是思考哪些可能的著法),下棋方(模擬中下棋方黑白都是AlphaGo)下那一步贏的概率高,從而決定模擬下那一步。

5、u(bonus)具體是啥?

u中包括兩個(gè)部分。

分子是AlphaGo根據(jù)當(dāng)前局面判斷(policy net),不模擬,比如棋手根據(jù)棋形大概知道應(yīng)該有哪幾步可以走。

分母是模擬到現(xiàn)在走當(dāng)前步的累加,越大下次模擬越不會(huì)走這了。

一句話,(Q+u)就是決定模擬中,下棋方會(huì)走(模擬)哪里。

到此,我們大概了解了AlphaGo的兩大神器:value net(形勢(shì)判斷:模擬中,我走這步,我贏的概率是多少)和policy net(選點(diǎn):模擬中,這個(gè)局面我走那幾步最強(qiáng))。下面會(huì)揭開(kāi)他們神秘的面紗。

6、為什么選模擬次數(shù)最多的一步?

根據(jù)以上的函數(shù)可知,模擬次數(shù)最多一步,其實(shí)就是在多次模擬中,AlphaGo認(rèn)為那一步最可能贏的次數(shù)的累加(或平均,除以總模擬次數(shù))。

7、為什么要分為policy net(選點(diǎn))和value net(形勢(shì)判斷)呢,選點(diǎn)和形勢(shì)判斷不是一個(gè)東西嗎?

確實(shí),選點(diǎn)和形勢(shì)判斷是互相嵌套的。首先,圍棋的形勢(shì)判斷是非常困難的。在圍棋直播中我們經(jīng)??吹剑殬I(yè)9段也不能準(zhǔn)確判斷當(dāng)前局面,除非地域已經(jīng)確定,沒(méi)有什么可以繼續(xù)戰(zhàn)斗的地方,一般也就是接近終局(官子階段)。即使職業(yè)棋手,選點(diǎn)和判斷也是定性的成分偏多,定量的成分偏少。以前說(shuō)中國(guó)頂級(jí)棋手古力能推演到50步,已經(jīng)非常強(qiáng)了。

再說(shuō)嵌套問(wèn)題,準(zhǔn)確的定量的選點(diǎn)和判斷,就要計(jì)算(對(duì)于棋手是在腦子里推演,對(duì)于機(jī)器就是模擬)才行。在推演中,我選點(diǎn)走那步?jīng)Q定于,走這步后我贏的概率,而這個(gè)概率又決定于對(duì)手走那一步(我會(huì)假設(shè)對(duì)手弈出她最強(qiáng)的一步,對(duì)我最不利),對(duì)手走那一步?jīng)Q定于,她走那步后,她對(duì)形勢(shì)的判斷要對(duì)她最好,這又取決于我的下下步(第3步了)走哪里(對(duì)手她也會(huì)假設(shè)我會(huì)下出對(duì)她最不利的一步,自然對(duì)我最優(yōu)),從而不斷的嵌套,這個(gè)“死結(jié)”要到終局(或者接近)才能解開(kāi)(終局形勢(shì)判斷比較簡(jiǎn)單)。所以不到終局,判斷形勢(shì)是非常困難的,即使職業(yè)的9段也不行。這就是圍棋比象棋難的關(guān)鍵所在,它沒(méi)有簡(jiǎn)單的形勢(shì)判斷的方法,而象棋有。

要回答這個(gè)問(wèn)題7還要看下面了。

8、AlphaGo是怎么打開(kāi)這個(gè)死結(jié)的?

AlphaGo沒(méi)有進(jìn)行直接的形勢(shì)判斷,就是沒(méi)有直接學(xué)習(xí)value net,而是先做一個(gè)選點(diǎn)(policy net)程序。選點(diǎn)可以認(rèn)為是一個(gè)時(shí)序(走棋)的一個(gè)局部問(wèn)題,就是從當(dāng)前局面大概判斷,有哪幾步可能走,暫時(shí)不需要推演(那是模擬的工作)。棋手的選點(diǎn)是會(huì)推演的,這里的基礎(chǔ)policy net是不推演的,前已經(jīng)看到AlphaGo線上模擬中選點(diǎn)(Q+u)是有推演的。

所以policy net是用在“每次模擬”中,搜索雙方可能的著法,而最優(yōu)步的判斷是“N次模擬”的任務(wù),policy net不管。此外policy net還用來(lái)訓(xùn)練value net,也就是說(shuō),value net是從policy net 來(lái)的,先有policy 才有value。

選點(diǎn)(policy net)能成立嗎?如果不成立,也是沒(méi)用。

9、第一神器policy net怎么工作的?

先大概看下這個(gè)圖?,F(xiàn)在輪到黑棋下,圖上的數(shù)字是AlphaGo認(rèn)為黑棋應(yīng)該下這步的概率。我們還發(fā)現(xiàn),只有幾步(2步在這個(gè)圖中)的概率比較大,其他步可能性都很小。這就像職業(yè)棋手了。學(xué)圍棋的人知道,初學(xué)者會(huì)覺(jué)得那里都可以走,就是policy(選點(diǎn))不行,沒(méi)有選擇性。隨著棋力增長(zhǎng),選擇的范圍在縮小。職業(yè)棋手就會(huì)鎖定幾個(gè)最有可能的走法,然后去推演以后的變化。

AlphaGo通過(guò)學(xué)習(xí),預(yù)測(cè)職業(yè)選手的著法有57%的準(zhǔn)確率。提醒一下,這還是AlphaGo“一眼”看上去的效果,她沒(méi)開(kāi)始推演(模擬)呢。而且她沒(méi)預(yù)測(cè)對(duì)的著法不一定比職業(yè)棋手差。

policy net怎么學(xué)習(xí)的,學(xué)啥???

首先,policy net是一個(gè)模型。它的輸入時(shí)當(dāng)前的棋局(19*19的棋盤,每個(gè)位置有3種狀態(tài),黑,白,空),輸出是最可能(最優(yōu))的著法,每個(gè)空位都有一個(gè)概率(可能性)。幸運(yùn)的是,著法不像形勢(shì)判斷那么無(wú)跡可尋。我們?nèi)艘呀?jīng)下了千年的棋。policy net先向職業(yè)選手學(xué)習(xí),她從KGS圍棋服務(wù)器,學(xué)習(xí)了3000萬(wàn)個(gè)局面的下一步怎么走。也就是說(shuō),大概職業(yè)選手怎么走,AlphaGo她已經(jīng)了然于胸。學(xué)習(xí)的目的是,她不是單純的記住這個(gè)局面,而是相似的局面也會(huì)了。當(dāng)學(xué)習(xí)的局面足夠多時(shí),幾乎所有局面她都會(huì)了。這種學(xué)習(xí)我們叫做“監(jiān)督學(xué)習(xí)”(supervised learning)。以前的職業(yè)棋手的棋譜,就是她的老師(監(jiān)督)。

AlphaGo強(qiáng)的原因之一是policy net這個(gè)模型是通過(guò)深度學(xué)習(xí)(deep learning)完成的。深度學(xué)習(xí)是近幾年興起的模擬人腦的機(jī)器學(xué)習(xí)方法。它使AlphaGo學(xué)習(xí)到的policy更加準(zhǔn)確。以前的AI都沒(méi)有那么強(qiáng)的學(xué)習(xí)能力。

更加厲害的是,AlphaGo從職業(yè)棋手學(xué)完后,感覺(jué)沒(méi)什么可以從職業(yè)棋手學(xué)的了。為了超越老師和自己,獨(dú)孤求敗的她只能自己左右互搏,通過(guò)自己下自己,找到更好的policy。比如說(shuō),她從監(jiān)督學(xué)習(xí)學(xué)到了一個(gè)policy,P0。

AlphaGo會(huì)例外做一個(gè)模型P1。P1一開(kāi)始和P0一樣(模型參數(shù)相同)。稍微改變P1的參數(shù),然后讓P1和P0下,比如,黑用P1,白用P0選點(diǎn),直到下完(終局)。模擬多次后,如果P1比P0強(qiáng)(贏的多),則P1就用新參數(shù),否則,重新再原來(lái)基礎(chǔ)上改變參數(shù)。我們會(huì)得到比P0強(qiáng)一點(diǎn)點(diǎn)的P1。注意,選點(diǎn)是按照policy的概率的,所以每次模擬是不同的。多次學(xué)習(xí)后AlphaGo會(huì)不斷超越自己,越來(lái)越強(qiáng)。這種學(xué)習(xí)我們叫做增強(qiáng)學(xué)習(xí)(reinforcement learning)。它沒(méi)有直接的監(jiān)督信息,而是把模型發(fā)在環(huán)境中(下棋),通過(guò)和環(huán)境的互相作用,環(huán)境對(duì)模型完成任務(wù)的好壞給于反饋(贏棋還是輸),從而模型改變自己(更新參數(shù)),更好的完成任務(wù)(贏棋)。增強(qiáng)學(xué)習(xí)后,AlphaGo在80%的棋局中戰(zhàn)勝以前的自己。

最后,AlphaGo還有一個(gè)mini的policy net,叫rollout。它是用來(lái)上面所說(shuō)的模擬中,快速模擬的終局的。它的輸入比正常policy net小,它的模型也小,所以它的耗時(shí)是2微妙,而一個(gè)policy要3毫秒。它沒(méi)有policy準(zhǔn),但是它快。

總結(jié)一下policy。它是用來(lái)預(yù)測(cè)下一步“大概”該走哪里。它使用了深度學(xué)習(xí),監(jiān)督學(xué)習(xí),增強(qiáng)學(xué)習(xí)等方法。它主要用于每次模擬中的bonus的先驗(yàn)(我大概該怎么走),和value net的學(xué)習(xí)(后面的重點(diǎn))。

如果單純用policy預(yù)測(cè)的著法來(lái)作為最優(yōu)著法,不通過(guò)value net的計(jì)算和上面說(shuō)的模擬,對(duì)職業(yè)棋手那是不行的。但是,單純用policy預(yù)測(cè)已經(jīng)足夠打敗以前的圍棋AI(大約有業(yè)余5段實(shí)力)了。這說(shuō)明了上面3種學(xué)習(xí)方法的強(qiáng)大威力。

AlphaGo就看了一眼,還沒(méi)有推演,你們就敗了。policy net為解開(kāi)那個(gè)死結(jié)走出了第一步,下面我們就講講這第二個(gè)“神器”:value net。

10、第二神器value net怎么工作的?

前面說(shuō)了,形勢(shì)判斷是什么無(wú)跡可尋,就連職業(yè)9段也做不到。有了policy net,整個(gè)世界都不一樣了。AlphaGo她的靈魂核心就在下面這個(gè)公式里。

V*(s)=Vp*(s)約等于Vp(s)。

s是棋盤的狀態(tài),就是前面說(shuō)的19*19,每個(gè)交叉3種狀態(tài)。

V是對(duì)這個(gè)狀態(tài)的評(píng)估,就是說(shuō)黑贏的概率是多少。

V*是這個(gè)評(píng)估的真值。

p*是正解(產(chǎn)生正解的policy)

p是AlphaGo前面所說(shuō)學(xué)到的最強(qiáng)的policy net。

如果模擬以后每步都是正解p*,其結(jié)果就是V*,這解釋了等號(hào)。

如果你知道V*這個(gè)函數(shù),在當(dāng)前局面,你要對(duì)走下一步(圍棋平均有250種可能性)后的狀態(tài)s進(jìn)行評(píng)估,選最大的V*走就行。圍棋就完美解決了。但是,前面說(shuō)了,V*不存在。同樣p*也不存在(理論上存在,實(shí)際因?yàn)樗阉骺臻g太大,計(jì)算量太大找不到。在5*5的棋盤中下棋可以做到)。

AlphaGo天才般的用最強(qiáng)poilicy,p來(lái)近似正解p*,從而可以用p的模擬Vp來(lái)近似V*。即使Vp只是一個(gè)近似,但已經(jīng)比現(xiàn)在的職業(yè)9段好了。想想她的p是從職業(yè)選手的著法學(xué)來(lái)的,就是你能想到的棋她都想到了。而且她還在不斷使的p更準(zhǔn)。頂尖職業(yè)棋手就想以后的20-40步,還會(huì)出錯(cuò)(錯(cuò)覺(jué))。AlphaGo是模擬到終局,還極少出錯(cuò)。天哪,這人還怎么下。

圍棋問(wèn)題實(shí)際是一個(gè)樹(shù)搜索的問(wèn)題,當(dāng)前局面是樹(shù)根,樹(shù)根長(zhǎng)出分支來(lái)(下步有多少可能性,棋盤上的空處都是可能的),這是樹(shù)的廣度,樹(shù)不斷生長(zhǎng)(推演,模擬),直到葉子節(jié)點(diǎn)(終局,或者后面的局面)。樹(shù)根到葉子,分了多少次枝(推演的步數(shù))是樹(shù)的深度。樹(shù)的平均廣度,深度越大,搜索越難,要的計(jì)算越多。圍棋平均廣度是250,深度150,象棋平均廣度是35,深度80。如果要遍歷圍棋樹(shù),要搜索250的150次方,是不實(shí)際的。這也是圍棋比象棋復(fù)雜的多的原因之一。但更重要的原因前面講了:是象棋有比較簡(jiǎn)單的手工可以做出的value函數(shù)。比如,吃王(將)得正無(wú)窮分,吃車得100分,等等。1997年打敗當(dāng)時(shí)國(guó)際象棋世界冠軍的DeepBlue就是人手工設(shè)計(jì)的value。而圍棋的value比象棋難太多了。手工根本沒(méi)法搞。又只能靠深度學(xué)習(xí)了。

在講value的原理前,先看看定性看看value的結(jié)果。如圖,這是AlphaGo用value net預(yù)測(cè)的走下一步,她贏的概率??盏牡胤蕉急凰{(lán)色標(biāo)示了,越深說(shuō)明AlphaGo贏的概率越高。這和我們學(xué)的棋理是相符的,在沒(méi)有戰(zhàn)斗時(shí),1,2線(靠邊的地方)和中間的概率都低,因?yàn)樗鼈冃什桓?。而且大多?shù)地方的概率都接近50%。所以說(shuō)贏棋難,輸棋也很難。這當(dāng)然排除雙方激烈戰(zhàn)斗的情況。

這里講講怎么通過(guò)policy net 得到value net。有了policy,value就不是那么難以捉摸了,死結(jié)打開(kāi)了。AlphaGo可以模擬(自己和自己下,黑白都用最強(qiáng)的policy),直到終局。注意,這里的模擬和最初說(shuō)的模擬有點(diǎn)不同。最初的模擬是AlphaGo在下棋(線上)中用的,用來(lái)預(yù)測(cè)。這里的模擬是她還在學(xué)習(xí)(線下)呢。終局時(shí)V*(誰(shuí)贏)就比較容易判斷了。當(dāng)然,對(duì)機(jī)器來(lái)說(shuō)也不是那么容易的,但相對(duì)于中局來(lái)說(shuō)是天淵之別。

value net也是一個(gè)監(jiān)督的深度學(xué)習(xí)的模型。多次的模擬的結(jié)果(誰(shuí)贏)為它提供監(jiān)督信息。它的模型結(jié)構(gòu)和policy net相似,但是學(xué)的目標(biāo)不同。policy是下步走哪里,value是走這后贏的概率。

總結(jié)一下,value net預(yù)測(cè)下一走這后,贏的概率。本身無(wú)法得到。但是通過(guò)用最強(qiáng)policy來(lái)近似正解,該policy的模擬來(lái)近似主變化(就圍棋書上那個(gè),假設(shè)書上是對(duì)的),模擬的結(jié)果來(lái)近似準(zhǔn)確的形勢(shì)判斷V*。value net用監(jiān)督的深度學(xué)習(xí)去學(xué)模擬的得到的結(jié)果。value net主要用于模擬(在線,下棋的時(shí)候)時(shí),計(jì)算Q值,就是平均的形勢(shì)判斷。

再回顧一下模擬,模擬的每一步是兼顧:模擬到現(xiàn)在平均的形勢(shì)判斷value net,快速rollout模擬到終局的形勢(shì)判斷,根據(jù)當(dāng)前形勢(shì)的選點(diǎn)policy,和懲罰過(guò)多的模擬同一個(gè)下法(鼓勵(lì)探索)等方面。經(jīng)過(guò)多次模擬,樹(shù)會(huì)搜索的越來(lái)越廣,越來(lái)越深。由于其回溯的機(jī)制,Q值越來(lái)越準(zhǔn),下面的搜索會(huì)越來(lái)越強(qiáng)。因?yàn)槊看蔚腝值,都是當(dāng)前模擬認(rèn)為的最優(yōu)(排除鼓勵(lì)探索,多次后會(huì)抵消),模擬最多的下法(樹(shù)分支)就是整個(gè)模擬中累積認(rèn)為最優(yōu)的下法。

到此為止,AlphaGo她神秘的面紗已經(jīng)揭開(kāi)。她的基本框架見(jiàn)下圖。下棋時(shí)的線上過(guò)程是圖中紅箭頭。線下的準(zhǔn)備工作(學(xué)習(xí)過(guò)程)是藍(lán)箭頭。。再串一下。AlphaGo下棋(線上)靠模擬,每次模擬要選下那一步,不是簡(jiǎn)單的選點(diǎn)policy就完了,而是要參考以前模擬的形勢(shì)判斷,包括:value net和快速模擬(小模擬)到終局,鼓勵(lì)探索,policy(先驗(yàn)),就是(Q+u),它比單純的policy準(zhǔn)。她選擇模擬最多的下法(就是平均最優(yōu))。這是線上,下著棋了。之前(線下),她要訓(xùn)練好policy模型,rollout模型和value 模型。其中,policy,rollout可以從棋譜,和自己下棋中學(xué)到。value可以從用學(xué)好的policy下棋的模擬結(jié)果監(jiān)督學(xué)到。從而完美解決value學(xué)不到的問(wèn)題和policy和value互相嵌套的死結(jié)。從棋譜直接學(xué)value net現(xiàn)在還不行。

11、AlphaGo用到哪些技術(shù)?

AlphaGo在樹(shù)搜索的框架下使用了深度學(xué)習(xí),監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)等方法。

以前最強(qiáng)的圍棋AI使用蒙特卡洛樹(shù)搜索的方法。蒙特卡洛算法通過(guò)某種“實(shí)驗(yàn)”的方法,等到一個(gè)隨機(jī)變量的估計(jì),從而得到一個(gè)問(wèn)題的解。這種實(shí)驗(yàn)可以是計(jì)算機(jī)的模擬。讓我們看看蒙特卡洛樹(shù)搜索怎么模擬的。算法會(huì)找兩個(gè)圍棋傻子(計(jì)算機(jī)),他們只知道那里可以下棋(空白處,和非打劫剛提子處),他們最終下到終局。好了,這就可以判斷誰(shuí)贏了。算法就通過(guò)模擬M(M>>N)盤,看黑贏的概率。可以看到這明顯的不合理。因?yàn)槊坎绞莵y下的。有些棋根本就不可能。即使如此,這個(gè)算法可以達(dá)到業(yè)余5段左右水平。

AlphaGo可不是亂下,她是學(xué)了職業(yè)棋手著法的。所以AlphaGo的搜索叫beam search(只搜索幾條線,而不是掃一片)。前面也可以看到AlphaGo認(rèn)為的可能著法就幾種可能性,而不是隨機(jī)的250種。這就是從250的150次方到幾(<10)的n(n<<150,可以提前終止搜索,因?yàn)橛衯alue net)次方,的計(jì)算量降低。雖然AlphaGo每次模擬的時(shí)間更長(zhǎng)(因?yàn)橐疃饶P偷念A(yù)測(cè)policy和value,不是亂下),但是AlphaGo的模擬次數(shù)可以更少,是蒙特卡洛樹(shù)搜索的1/15000。就是說(shuō)AlphaGo的搜索更有目的性了,她大概知道該走哪里。解說(shuō)說(shuō)她下棋更像人了。我會(huì)說(shuō)她下棋更像職業(yè)棋手,甚至超過(guò)職業(yè)棋手。線下的學(xué)習(xí)使得她的行為(模擬)有了極強(qiáng)的目的性,從而完成最終目標(biāo)(贏棋)。

12、什么是打劫?

打劫,是指黑白雙方都把對(duì)方的棋子圍住,這種局面下,如果輪白下,可以吃掉一個(gè)黑子;如果輪黑下,同樣可以吃掉一個(gè)白子。因?yàn)槿绱送鶑?fù)就形成循環(huán)無(wú)解,所以圍棋禁止“同形重復(fù)”。根據(jù)規(guī)則規(guī)定“提”一子后,對(duì)方在可以回提的情況下不能馬上回提,要先在別處下一著,待對(duì)方應(yīng)一手之后再回“提”。如圖中的情況:

打劫因?yàn)榉磸?fù)走同一個(gè)點(diǎn),會(huì)使搜索樹(shù)的深度加大,而且因?yàn)槠渌恢媒俨艜?huì)影響劫的輸贏,劫才之間又相互影響,有可能打劫中又產(chǎn)生新的劫??傊?,打劫規(guī)則會(huì)使圍棋的復(fù)雜度加大。

因?yàn)榍皟删制鍥](méi)有下出打劫,有人會(huì)懷疑DeepMind和李世石有不打劫協(xié)議。在后面的棋局中,AlphaGo確實(shí)下出了主動(dòng)打劫。而且從算法層面看,打劫也不會(huì)是她的模擬框架崩潰(可能會(huì)有一些小麻煩)。

13、遇強(qiáng)則強(qiáng),遇弱則弱?

AlphaGo的表現(xiàn)似乎是遇強(qiáng)則強(qiáng),遇弱則弱。這可能是由于她的學(xué)習(xí)監(jiān)督信息決定的。policy和value學(xué)習(xí)時(shí),和rollout模擬時(shí),最后的結(jié)果是誰(shuí)贏(的概率),而不是誰(shuí)贏“多少”(贏幾目)。所以在AlphaGo領(lǐng)先時(shí)(幾乎已經(jīng)是常態(tài)了),她不會(huì)下出過(guò)分的棋,她只要保證最后贏就行了,而不是像人一樣要贏的多,贏的漂亮。即使有殺大龍(一大塊棋)的機(jī)會(huì),她也不一定殺,而是走溫和的棋,讓你無(wú)疾而終。估計(jì)只有在AlphaGo判斷她大大落后的時(shí)候,她才會(huì)冒險(xiǎn)走過(guò)分的棋(這好像不常見(jiàn))。

14、AlphaGo下棋為什么花錢?

AlphaGo有單機(jī)版,多機(jī)(分布式)。分布式明顯比單機(jī)強(qiáng)。去年的分布式有40個(gè)搜索線程,1202個(gè)CPU,176個(gè)GPU(顯卡)。和李世石下棋時(shí)可能更多。這么多機(jī)器的運(yùn)作和維護(hù)就是燒錢。

15、AlphaGo有漏洞嗎?

AlphaGo解決的是一個(gè)樹(shù)搜索問(wèn)題,并不是遍歷所有著法的可能性,她的著法只是接近正解,不是一定正解。

最簡(jiǎn)單的人戰(zhàn)勝AlphaGo的方法就是改規(guī)則,比如擴(kuò)大棋盤。人類能比較簡(jiǎn)單的適應(yīng),搜索空間增大,AlphaGo不一定能適應(yīng)。

就現(xiàn)有狀況來(lái)說(shuō),棋手可以主要攻擊AlphaGo模擬中的著法選擇函數(shù)a。比如盡量下全局互相牽扯的棋(多劫,多塊死活),就是盡量是中盤局面復(fù)雜,不要搞一道本(一條路走到底)局部的著法,當(dāng)然,這對(duì)職業(yè)選手也不簡(jiǎn)單。

16、AlphaGo有哪些技術(shù)突破,使她能戰(zhàn)勝人類頂尖棋手?

⑴繼承了蒙特卡洛樹(shù)搜索的框架進(jìn)行模擬。

⑵在學(xué)習(xí)policy中使用了監(jiān)督學(xué)習(xí),有效的利用現(xiàn)有的棋手的棋譜,學(xué)到了他們的選點(diǎn)策略。

⑶在學(xué)習(xí)policy中使用了增強(qiáng)學(xué)習(xí),從左右互搏中提高自己。

⑷利用policy net(選點(diǎn)模型)近似正解,用policy net的對(duì)弈的結(jié)果模擬正解對(duì)弈的結(jié)果,即正確的形勢(shì)判斷,從而打破形勢(shì)判斷和選點(diǎn)相互嵌套的死結(jié)。就是先學(xué)policy,再學(xué)value。

⑸在學(xué)習(xí)policy, value, rollout中使用深度學(xué)習(xí)模型。深度學(xué)習(xí)有非常強(qiáng)的學(xué)習(xí)能力。使得選點(diǎn)和形勢(shì)判斷前所未有的準(zhǔn)(對(duì)比蒙特卡洛是隨機(jī)選點(diǎn),現(xiàn)在是職業(yè)棋手幫她選點(diǎn)了)。因?yàn)樵诿看文M中用到了這兩個(gè)“準(zhǔn)”,使得在樹(shù)搜索(就是推演)的過(guò)程更有目的性(樹(shù)大量減枝,只模擬比較優(yōu)良的下法)

⑹當(dāng)然還有機(jī)器一貫的優(yōu)勢(shì),不疲勞,不受心理情緒影響,不會(huì)錯(cuò)的記憶力等等。

為你推薦
資訊專欄
熱門視頻
相關(guān)推薦
AlphaGo的神奇全靠它,詳解人工神經(jīng)網(wǎng)絡(luò)! 谷雨節(jié)氣常識(shí)中祭海習(xí)俗的意義,講究的是什么? 華為手機(jī)如何調(diào)夜間模式 手機(jī)wifi限速如何設(shè)置,如何解除wifi網(wǎng)速 100m寬帶速度速度很慢是什么原因 lol難以獲取玩家信息如何解決 饑荒巖石巢穴如何用 使用釘釘上直播課后如何查看學(xué)生的聽(tīng)課情況 關(guān)于南瓜先生2九龍城寨第三章城北圖文攻略 關(guān)于c語(yǔ)言三個(gè)數(shù)求最大值_輸入三個(gè)數(shù)求最大值c語(yǔ)言 如何在電腦上用韓劇tv 微信怎么設(shè)置獨(dú)立密碼 如何連接網(wǎng)絡(luò)機(jī)頂盒與電視? win10沒(méi)響度均衡如何解決 steam如何隱身玩游戲 如何隱藏正在游戲狀態(tài) office 2013最新激活密鑰 及破解激活方法 刺激戰(zhàn)場(chǎng)訓(xùn)練場(chǎng)煙霧彈在什么地方找到 怎么處理程序運(yùn)行時(shí)經(jīng)常出現(xiàn)程序未響應(yīng)的問(wèn)題? 剪映如何調(diào)整視頻比例 如何查看手機(jī)以前安裝過(guò)的應(yīng)用 100:0,新AlphaGo放棄了人類? 通用AlphaGo誕生?MuZero在多種棋類游戲中超越人類 人機(jī)大戰(zhàn)四周年:圍棋界發(fā)生了哪些巨變? 暑去秋來(lái),秋燥來(lái)襲,養(yǎng)生從“每天多睡1小時(shí)”開(kāi)始 處暑到,要變天,12個(gè)養(yǎng)生常識(shí)幫你踩下秋涼急剎車~ 處暑養(yǎng)生:常吃一湯二粥三瓜,謹(jǐn)記四注意五坑! 舌尖上的處暑:蓮藕、南瓜、馬蹄、銀耳,每樣都能做出新意 處暑送鴨,無(wú)病各家,經(jīng)典老鴨湯配方獻(xiàn)上 油膩了一個(gè)夏天,8款處暑養(yǎng)生食譜幫助你清理腸胃 明日處暑!這些防秋燥美食保你滋潤(rùn)一整個(gè)秋天~ 今天處暑用這個(gè)方子告別夏天!補(bǔ)對(duì)了不長(zhǎng)肉,還健康 天氣干燥,晝熱夜涼,寒露清秋,教你這樣保持心懷暖陽(yáng) 寒露養(yǎng)生4步曲,從衣食住行4方面令你安度“多事之秋” “白露身不露,寒露腳不露” 看中醫(yī)傳承下來(lái)的時(shí)令養(yǎng)生 長(zhǎng)壽老人養(yǎng)生經(jīng)驗(yàn):寒露前后吃八寶粥、八寶茶、八寶飯 寒露養(yǎng)生,除了保暖防寒,養(yǎng)陰潤(rùn)燥也要注重精神愉悅 寒露少吃一種瓜,多吃四種白,為過(guò)冬打好身體基礎(chǔ) 美寒露美食養(yǎng)生,這道清燉羊肉千萬(wàn)別錯(cuò)過(guò) 寶媽寒露節(jié)氣食譜,清甜爽滑,還強(qiáng)身暖胃,寶寶增強(qiáng)體質(zhì)就靠它 只知平安夜送蘋果,知道蘋果要當(dāng)晚吃掉嗎?
Top