内容一览:强化学习是多学科畛域的穿插产物,其本质是实现主动决策且可做间断决策。本文将介绍 DeepMind 最新研发成绩:扩充强化学习利用范畴的通用算法 DreamerV3。
关键词:强化学习 DeepMind 通用算法
北京工夫 1 月 12 日,DeepMind 官网推特发文,正式官宣 DreamerV3,这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据,就能从头开始收集钻石的通用算法,解决了 AI 畛域中的又一重要挑战。
DeepMind 在推特官宣 DreamerV3
强化学习扩大成问题,倒退还需通用算法强化学习使得计算机能够通过互动解决某一工作,如 AlphaGo 在围棋比赛中战败人类,OpenAI Five 在 Dota 2 中战败业余人类玩家。
OpenAI Five 在较量中战败人类玩家研发团队与人类玩家合照
然而,要想将算法利用于新的利用场景,如从棋盘游戏转到视频游戏或机器人工作,就须要工程师一直开发专门的算法 (specialized algorithms),如间断管制、稠密处分、图像输出以及 spatial environments 等。
这要求大量的专业知识和计算资源来微调算法,极大妨碍了模型的扩大。创立无需调优就能学习把握新 domain 的通用算法,成为扩充强化学习利用范畴、解决决策问题的重要途径。
由此,由 DeepMind 和多伦多大学联结研发的 DreamerV3 应运而生。
DreamerV3:基于世界模型的通用算法
DreamerV3 是一种基于世界模型 (World Model) 的通用和可扩大的算法,能在固定超参数的前提下,利用于宽泛域 (domain),比专门的算法更杰出。
这些 domain 包含间断动作 (continuous action) 和离散动作 (discrete action),视觉输出和低维输出,2D 世界和 3D 世界,不同的数据估算、处分频率和处分尺度等。
DreamerV3 通用算法与专门算法性能比照 DreamerV3 由 3 个从回放教训 (replayed experience) 中同时训练,且不共享梯度的神经网络组成:
1、world model:预测潜在动作的将来后果
2、critic:判断每种状况的 value
3、actor:学习如何使有价值的状况成为可能
DreamerV3 的训练过程
如上图所示,world model 将 sensory input 编码为一个离散表征 zt。zt 由一个具备 recurrent state ht 的序列模型预测得出,并给出动作 at。input 被重构为学习信号 (learning signal) 进而 shape 表征。
actor 和 critic 从 world model 预测的形象表征 trajectory 中学习。为了更好地适应跨域工作,这些组件须要适应不同的信号强度 (signal magnitudes),并在其指标中持重地均衡 terms。
工程师在超过 150 个固定参数的工作上对 DreamerV3 进行了测试,并与文献中记录的最佳办法进行比拟,试验表明,DreamerV3 对于不同 domain 的工作,均具备较高通用性和可扩展性。
基准概览所有 agent 都是在 NVIDIA V100 GPU 上训练 DreamerV3 在 7 个基准测试中都获得了优异成绩,并在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建设了新的 SOTA 程度。
然而 DreamerV3 依然具备肯定的局限性,例如当 environment steps 在 1 亿以内时,算法并不能像人类玩家一样,在所有场景中都捡到钻石,而是偶然捡到。
站在伟人的肩膀上,回顾 Dreamer 家族发展史
一代目:Dreamer
公布工夫:2019 年 12 月
参加机构:多伦多大学、DeepMind、Google Brain
论文地址:https://arxiv.org/pdf/1912.01…
算法简介:
Dreamer 是一个强化学习 agent,能够仅通过 latent imagination 从图像中解决 long-horizon 工作。
它基于模型预测的反向流传,来利用 world model 实现高效的行为学习。在 20 个极具挑战性的视觉管制工作中,Dreamer 在数据效率、计算工夫和最终性能方面均超过了过后的支流办法。
Dreamer 与过后支流办法的性能比拟 Dreamer 继承了 PlaNet 的数据效率,同时超过了过后最好的 model-free agent 的渐近性能 (asymptotic performance)。5×106 个 environment step 后,Dreamer 在各个工作中的均匀性能达到了 823,而 PlaNet 仅为 332,最高的 model-free D4PG agent 在 108 步之后为 786。
二代目:DreamerV2
公布工夫:2020 年 10 月
参加机构:Google Research、DeepMind、多伦多大学
论文地址:https://arxiv.org/pdf/2010.02…
算法简介:DreamerV2 是一个强化学习 agent,能够从 world model 紧凑隐空间 (compact latent space) 的预测中学习行为。
注:该 world model 应用离散表征,并且与策略离开训练。
DreamerV2 是第一个通过在独自训练的 world model 中学习行为,在 Atari 基准的 55 项工作中达到人类程度的 agent。在雷同的计算估算和 wall-clock time 状况下,DreamerV2 达到了 2 亿帧,超过了顶级 single-GPU agents IQN 及 Rainbow 的最终性能。
此外,DreamerV2 也实用于有间断动作的工作,它学习了一个简单的类人型机器人的 world model,只通过像素输出就解决了站立和行走问题。
玩家在 Atari 基准 55 个游戏的正则化中位数得分
推特网友评论区带头玩梗
对于 DreamerV3 的诞生,不少网友也在 DeepMind 推特留言区抖起了伶俐。
解放人类,再也不必玩「我的世界」了。
别光顾着玩游戏了,干点正事儿吧!@DeepMind 和 CEO Demis Hassabis
「我的世界」终极 BOSS 末影龙瑟瑟发抖中。
近年来,游戏「我的世界」已成为强化学习钻研的一个焦点,围绕在「我的世界」中进行钻石收集的国内比赛曾经举办屡次。
在没有人类数据的状况下解决这一挑战,被宽泛认为是人工智能的一个里程碑,因为在这个程序生成的凋谢世界环境 (open-world environment) 中,处分稀少、摸索艰难、时间跨度长,这些阻碍的存在使得先前的办法都须要基于人类数据或教程。
DreamerV3 是第一个从 0 开始在「我的世界」中齐全自学收集钻石的算法,它使得强化学习的利用范畴进一步扩充,正如网友们所说,DreamerV3 曾经是个成熟的通用算法了,该学会本人挂机降级打怪,跟终极 BOSS 末影龙对线了!