free性欧美人与dog,成年免费视频黄网站zxgk,久热国产精品视频一区二区三区,.欧美精品一区二区三区,国产人与zoxxxx另类

通用AlphaGo誕生?MuZero在多種棋類游戲中超越人類

導(dǎo)讀DeepMind的一項研究提出了MuZero算法,該算法在不具備任何底層動態(tài)知識的情況下,通過結(jié)合基于樹的搜索和學(xué)得模型,在雅達(dá)利2600游戲中達(dá)到了SOTA表現(xiàn),在國際象棋、日本將棋和圍棋的精確規(guī)劃任務(wù)中可以匹敵AlphaZero,甚至超過了提前得知規(guī)則的圍棋版AlphaZero。MuZero 算法在國際象棋、日本將棋、圍棋和雅達(dá)利(Atari)游戲訓(xùn)練中的評估結(jié)果。橫坐標(biāo)表示訓(xùn)練步驟數(shù)量,縱坐標(biāo)表示 Elo評分。黃色線代表 AlphaZero(在雅達(dá)利游戲中代表人類表現(xiàn)),藍(lán)色線代表 MuZ...

DeepMind的一項研究提出了MuZero算法,該算法在不具備任何底層動態(tài)知識的情況下,通過結(jié)合基于樹的搜索和學(xué)得模型,在雅達(dá)利2600游戲中達(dá)到了SOTA表現(xiàn),在國際象棋、日本將棋和圍棋的精確規(guī)劃任務(wù)中可以匹敵AlphaZero,甚至超過了提前得知規(guī)則的圍棋版AlphaZero。

MuZero 算法在國際象棋、日本將棋、圍棋和雅達(dá)利(Atari)游戲訓(xùn)練中的評估結(jié)果。橫坐標(biāo)表示訓(xùn)練步驟數(shù)量,縱坐標(biāo)表示 Elo評分。線代表 AlphaZero(在雅達(dá)利游戲中代表人類表現(xiàn)),藍(lán)色線代表 MuZero。

基于前向搜索的規(guī)劃算法已經(jīng)在 AI 領(lǐng)域取得了很大的成功。在圍棋、國際象棋、西洋跳棋、撲克等游戲中,人類世界冠軍一次次被算法打敗。此外,規(guī)劃算法也已經(jīng)在物流、化學(xué)合成等諸多現(xiàn)實世界領(lǐng)域中產(chǎn)生影響。然而,這些規(guī)劃算法都依賴于環(huán)境的動態(tài)變化,如游戲規(guī)則或精確的模擬器,導(dǎo)致它們在機(jī)器人學(xué)、工業(yè)控制、智能助理等領(lǐng)域中的應(yīng)用受到。

基于模型的強(qiáng)化學(xué)習(xí)旨在通過以下步驟解決這一問題:首先學(xué)習(xí)一個環(huán)境動態(tài)模型,然后根據(jù)所學(xué)模型進(jìn)行規(guī)劃。一般來說,這些模型要么著眼于重建真實的環(huán)境狀態(tài),要么著眼于完整觀察結(jié)果的序列。然而,之前的研究在視覺上豐富的領(lǐng)域還遠(yuǎn)遠(yuǎn)沒有達(dá)到 SOTA 水準(zhǔn),如雅達(dá)利 2600 游戲。

最受歡迎的方法是基于無模型強(qiáng)化學(xué)習(xí)的方法,即直接從智能體與環(huán)境的交互中估計優(yōu)化策略和/或價值函數(shù)。但在那些需要精確和復(fù)雜前向搜索的領(lǐng)域(如圍棋、國際象棋),這種無模型的算法要遠(yuǎn)遠(yuǎn)落后于 SOTA。

研究者在57個不同的雅達(dá)利游戲中評估了MuZero,發(fā)現(xiàn)該模型在雅達(dá)利2600游戲中達(dá)到了SOTA表現(xiàn)。此外,他們還在不給出游戲規(guī)則的情況下,在國際象棋、日本將棋和圍棋中對MuZero模型進(jìn)行了評估,發(fā)現(xiàn)該模型可以匹敵AlphaZero超越人類的表現(xiàn)。而且,在該實驗中,其前輩AlphaZero提前獲知了規(guī)則。

MuZero 算法概覽

MuZero 基于 AlphaZero 強(qiáng)大的搜索和基于搜索的策略迭代算法,但又將一個學(xué)習(xí)好的模型整合到了訓(xùn)練步驟中。MuZero 還將 AlphaZero 擴(kuò)展到了一個更加廣泛的環(huán)境集合,包含單個智能體域和中間時間步上的非零獎勵。

該算法的主要思路是預(yù)測那些與規(guī)劃直接相關(guān)的未來行為(如下圖 1 所示)。模型將接收到的觀察結(jié)果(如圍棋棋盤圖像或雅達(dá)利游戲截圖)作為輸入,然后將其轉(zhuǎn)換為一個隱藏狀態(tài)。接下來,通過一個循環(huán)過程來迭代更新該隱藏狀態(tài),該循環(huán)過程接收前一個隱藏狀態(tài)和假設(shè)的下一步操作。

在每一個步驟上,模型會預(yù)測策略(如玩的動作)、價值函數(shù)(如預(yù)測的贏家)以及即時獎勵。對模型進(jìn)行端到端訓(xùn)練的唯一目標(biāo)是準(zhǔn)確估計這三個重要的量,以匹配改進(jìn)的策略估計和通過搜索及觀察到的獎勵生成的值。

對于隱藏的狀態(tài),沒有直接的約束和要求來捕獲重建原始觀察結(jié)果所需的信息,大大減少了模型維護(hù)和預(yù)測的信息量;也沒有要求隱藏狀態(tài)匹配環(huán)境中未知、真實的狀態(tài);更沒有針對狀態(tài)語義的其他約束。

相反,隱藏狀態(tài)能夠地以任何與預(yù)測當(dāng)前和未來值和策略相關(guān)的方式來表示狀態(tài)。直觀地說,智能體可以在內(nèi)部創(chuàng)建規(guī)則和動態(tài),以實現(xiàn)最精確的規(guī)劃。

圖 1:用一個訓(xùn)練好的模型進(jìn)行規(guī)劃、行動和訓(xùn)練。(A)MuZero 利用其模型進(jìn)行規(guī)劃的方式;(B)MuZero 在環(huán)境中發(fā)生作用的方式;(C)MuZero 訓(xùn)練其模型的方式。

MuZero 算法詳解

研究者對 MuZero 算法進(jìn)行了更詳細(xì)的解讀。在每個時間步 t 上、以過往觀察結(jié)果 O_1, …, O_t 和未來行為 a_t+1, …, a_t+k 為條件、通過一個具有參數(shù)θ的模型?_θ,為每個 k=1…K 步進(jìn)行預(yù)測。該模型預(yù)測三種未來數(shù)量:策略

?

、價值函數(shù)

?

和即時獎勵

?

,其中 u. 表示觀察到的正確獎勵,π表示用來選擇實時行動的策略,γ表示環(huán)境的貼現(xiàn)函數(shù)(discount function)。

在每個時間步 t 上,MuZero 模型由表征函數(shù)、動態(tài)函數(shù)和預(yù)測函數(shù)聯(lián)合表征。在本文中,研究者對動態(tài)函數(shù)進(jìn)行了確切的表征。策略和價值函數(shù)則通過預(yù)測函數(shù)

?

并根據(jù)內(nèi)部狀態(tài) s^k 來計算,這與 AlphaZero 的聯(lián)合策略和價值網(wǎng)絡(luò)相似。

給定這樣一個模型,則有可能在基于過往觀察結(jié)果 O_1, …, O_t 的情況下查找基于假設(shè)的未來軌跡 a^1, …, a^k。例如,一個簡單的搜索可以輕松地選擇最大化價值函數(shù)的 k 步動作序列。更普遍地說,我們或許可以將任何 MDP(馬爾科夫決策過程)規(guī)劃算法應(yīng)用于由動態(tài)函數(shù)推導(dǎo)出的內(nèi)部獎勵和狀態(tài)空間。

對于每個假設(shè)的時間步 k,模型的所有參數(shù)接受聯(lián)合訓(xùn)練,從而在 k 個實際的時間步后,對策略、價值和獎勵與它們各自對應(yīng)的目標(biāo)值進(jìn)行精確的匹配。與 AlphaZero 相似,提升后的策略目標(biāo)通過蒙特卡洛樹(MCTS)搜索生成。第一個目標(biāo)是最小化預(yù)測策略 p^k_t 和搜索策略π_t+k 之間的誤差;第二個目標(biāo)是最小化預(yù)測值 v^k_t 和價值目標(biāo) z_t+k 之間的誤差;第三個目標(biāo)是最小化預(yù)測獎勵 r^k_t 和觀察到的獎勵 u_t+k 之間的誤差。最后添加 L2 正則化項,得出以下總損失:

?

實驗結(jié)果

在實驗中,研究者將 MuZero 算法應(yīng)用于圍棋、國際象棋和日本將棋等經(jīng)典棋盤游戲中,作為挑戰(zhàn)規(guī)劃問題的基準(zhǔn);同時又應(yīng)用于雅達(dá)利游戲環(huán)境中的 57 個游戲,作為視覺復(fù)雜強(qiáng)化學(xué)習(xí)領(lǐng)域的基準(zhǔn)。

下圖 2 展示了 MuZero 算法在每個游戲訓(xùn)練中的性能。在圍棋游戲中,盡管搜索樹中每個節(jié)點的計算量小于 AlphaZero,但 MuZero 的性能依然略微超過 AlphaZero。這表明 MuZero 可能在搜索樹中緩存自身計算,并利用動態(tài)模型的每個附加應(yīng)用來對位置產(chǎn)生更深的理解。

?

圖 2:MuZero 算法分別在國際象棋、日本將棋、圍棋和雅達(dá)利游戲訓(xùn)練中的評估結(jié)果。在國際象棋、日本將棋和圍棋游戲中,橫坐標(biāo)表示訓(xùn)練步驟數(shù)量,縱坐標(biāo)表示 Elo 評分。

?

表 1:雅達(dá)利游戲中 MuZero 與先前智能體的對比。研究者分別展示了大規(guī)模(表上部分)和小規(guī)模(表下部分)數(shù)據(jù)設(shè)置下 MuZero 與其他智能體的對比結(jié)果,表明 MuZero 在平均分、得分中位數(shù)、Env. Frames、訓(xùn)練時間和訓(xùn)練步驟五項評估指標(biāo)(紅框)取得了新的 SOTA 結(jié)果。

為了了解 MuZero 中模型的作用,研究者還重點在圍棋和吃豆人雅達(dá)利游戲中進(jìn)行了以下幾項實驗。他們首先在圍棋的典型規(guī)劃問題上測試了規(guī)劃的可擴(kuò)展性(下圖 3A)。此外,他們還研究了所有雅達(dá)利游戲中規(guī)劃的可擴(kuò)展性(下圖 3B)。接著,他們將自己基于模型的學(xué)習(xí)算法與其他相似的無模型學(xué)習(xí)算法進(jìn)行了比較(下圖 3C)。

?

圖 3:MuZero 在圍棋、57 個雅達(dá)利游戲、吃豆人游戲上的評估結(jié)果。

(原文來自機(jī)器之心編輯部,論文鏈接:網(wǎng)頁鏈接)

為你推薦
資訊專欄
熱門視頻
相關(guān)推薦
100:0,新AlphaGo放棄了人類? 這是迄今為止,AlphaGo算法最清晰的解讀! AlphaGo的神奇全靠它,詳解人工神經(jīng)網(wǎng)絡(luò)! 谷雨節(jié)氣常識中祭海習(xí)俗的意義,講究的是什么? 華為手機(jī)如何調(diào)夜間模式 手機(jī)wifi限速如何設(shè)置,如何解除wifi網(wǎng)速 100m寬帶速度速度很慢是什么原因 lol難以獲取玩家信息如何解決 饑荒巖石巢穴如何用 使用釘釘上直播課后如何查看學(xué)生的聽課情況 關(guān)于南瓜先生2九龍城寨第三章城北圖文攻略 關(guān)于c語言三個數(shù)求最大值_輸入三個數(shù)求最大值c語言 如何在電腦上用韓劇tv 微信怎么設(shè)置獨(dú)立密碼 如何連接網(wǎng)絡(luò)機(jī)頂盒與電視? win10沒響度均衡如何解決 steam如何隱身玩游戲 如何隱藏正在游戲狀態(tài) office 2013最新激活密鑰 及破解激活方法 刺激戰(zhàn)場訓(xùn)練場煙霧彈在什么地方找到 怎么處理程序運(yùn)行時經(jīng)常出現(xiàn)程序未響應(yīng)的問題? 人機(jī)大戰(zhàn)四周年:圍棋界發(fā)生了哪些巨變? 暑去秋來,秋燥來襲,養(yǎng)生從“每天多睡1小時”開始 處暑到,要變天,12個養(yǎng)生常識幫你踩下秋涼急剎車~ 處暑養(yǎng)生:常吃一湯二粥三瓜,謹(jǐn)記四注意五坑! 舌尖上的處暑:蓮藕、南瓜、馬蹄、銀耳,每樣都能做出新意 處暑送鴨,無病各家,經(jīng)典老鴨湯配方獻(xiàn)上 油膩了一個夏天,8款處暑養(yǎng)生食譜幫助你清理腸胃 明日處暑!這些防秋燥美食保你滋潤一整個秋天~ 今天處暑用這個方子告別夏天!補(bǔ)對了不長肉,還健康 天氣干燥,晝熱夜涼,寒露清秋,教你這樣保持心懷暖陽 寒露養(yǎng)生4步曲,從衣食住行4方面令你安度“多事之秋” “白露身不露,寒露腳不露” 看中醫(yī)傳承下來的時令養(yǎng)生 長壽老人養(yǎng)生經(jīng)驗:寒露前后吃八寶粥、八寶茶、八寶飯 寒露養(yǎng)生,除了保暖防寒,養(yǎng)陰潤燥也要注重精神愉悅 寒露少吃一種瓜,多吃四種白,為過冬打好身體基礎(chǔ) 美寒露美食養(yǎng)生,這道清燉羊肉千萬別錯過 寶媽寒露節(jié)氣食譜,清甜爽滑,還強(qiáng)身暖胃,寶寶增強(qiáng)體質(zhì)就靠它 只知平安夜送蘋果,知道蘋果要當(dāng)晚吃掉嗎? 圣誕頌歌《平安夜》的誕生地是哪里?! 平安夜的習(xí)俗大全,平安夜都可以參加哪些習(xí)俗?
Top