关于机器学习:DeepMind-发布强化学习通用算法-DreamerV3AI-成精自学捡钻石

内容一览：强化学习是多学科畛域的穿插产物，其本质是实现主动决策且可做间断决策。本文将介绍 DeepMind 最新研发成绩：扩充强化学习利用范畴的通用算法 DreamerV3。
关键词：强化学习 DeepMind 通用算法

北京工夫 1 月 12 日，DeepMind 官网推特发文，正式官宣 DreamerV3，这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据，就能从头开始收集钻石的通用算法，解决了 AI 畛域中的又一重要挑战。

强化学习扩大成问题，倒退还需通用算法强化学习使得计算机能够通过互动解决某一工作，如 AlphaGo 在围棋比赛中战败人类，OpenAI Five 在 Dota 2 中战败业余人类玩家。

OpenAI Five 在较量中战败人类玩家研发团队与人类玩家合照

然而，要想将算法利用于新的利用场景，如从棋盘游戏转到视频游戏或机器人工作，就须要工程师一直开发专门的算法 (specialized algorithms)，如间断管制、稠密处分、图像输出以及 spatial environments 等。

这要求大量的专业知识和计算资源来微调算法，极大妨碍了模型的扩大。创立无需调优就能学习把握新 domain 的通用算法，成为扩充强化学习利用范畴、解决决策问题的重要途径。

由此，由 DeepMind 和多伦多大学联结研发的 DreamerV3 应运而生。

DreamerV3 是一种基于世界模型 (World Model) 的通用和可扩大的算法，能在固定超参数的前提下，利用于宽泛域 (domain)，比专门的算法更杰出。

这些 domain 包含间断动作 (continuous action) 和离散动作 (discrete action)，视觉输出和低维输出，2D 世界和 3D 世界，不同的数据估算、处分频率和处分尺度等。

DreamerV3 通用算法与专门算法性能比照 DreamerV3 由 3 个从回放教训 (replayed experience) 中同时训练，且不共享梯度的神经网络组成：
1、world model：预测潜在动作的将来后果
2、critic：判断每种状况的 value
3、actor：学习如何使有价值的状况成为可能

DreamerV3 的训练过程

如上图所示，world model 将 sensory input 编码为一个离散表征 zt。zt 由一个具备 recurrent state ht 的序列模型预测得出，并给出动作 at。input 被重构为学习信号 (learning signal) 进而 shape 表征。

actor 和 critic 从 world model 预测的形象表征 trajectory 中学习。为了更好地适应跨域工作，这些组件须要适应不同的信号强度 (signal magnitudes)，并在其指标中持重地均衡 terms。

工程师在超过 150 个固定参数的工作上对 DreamerV3 进行了测试，并与文献中记录的最佳办法进行比拟，试验表明，DreamerV3 对于不同 domain 的工作，均具备较高通用性和可扩展性。

基准概览所有 agent 都是在 NVIDIA V100 GPU 上训练 DreamerV3 在 7 个基准测试中都获得了优异成绩，并在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建设了新的 SOTA 程度。

然而 DreamerV3 依然具备肯定的局限性，例如当 environment steps 在 1 亿以内时，算法并不能像人类玩家一样，在所有场景中都捡到钻石，而是偶然捡到。

站在伟人的肩膀上，回顾 Dreamer 家族发展史

公布工夫：2019 年 12 月
参加机构：多伦多大学、DeepMind、Google Brain
论文地址：https://arxiv.org/pdf/1912.01…
算法简介：

Dreamer 是一个强化学习 agent，能够仅通过 latent imagination 从图像中解决 long-horizon 工作。

它基于模型预测的反向流传，来利用 world model 实现高效的行为学习。在 20 个极具挑战性的视觉管制工作中，Dreamer 在数据效率、计算工夫和最终性能方面均超过了过后的支流办法。

Dreamer 与过后支流办法的性能比拟 Dreamer 继承了 PlaNet 的数据效率，同时超过了过后最好的 model-free agent 的渐近性能 (asymptotic performance)。5×106 个 environment step 后，Dreamer 在各个工作中的均匀性能达到了 823，而 PlaNet 仅为 332，最高的 model-free D4PG agent 在 108 步之后为 786。

公布工夫：2020 年 10 月
参加机构：Google Research、DeepMind、多伦多大学
论文地址：https://arxiv.org/pdf/2010.02…
算法简介：DreamerV2 是一个强化学习 agent，能够从 world model 紧凑隐空间 (compact latent space) 的预测中学习行为。

注：该 world model 应用离散表征，并且与策略离开训练。

DreamerV2 是第一个通过在独自训练的 world model 中学习行为，在 Atari 基准的 55 项工作中达到人类程度的 agent。在雷同的计算估算和 wall-clock time 状况下，DreamerV2 达到了 2 亿帧，超过了顶级 single-GPU agents IQN 及 Rainbow 的最终性能。

此外，DreamerV2 也实用于有间断动作的工作，它学习了一个简单的类人型机器人的 world model，只通过像素输出就解决了站立和行走问题。

玩家在 Atari 基准 55 个游戏的正则化中位数得分

对于 DreamerV3 的诞生，不少网友也在 DeepMind 推特留言区抖起了伶俐。

解放人类，再也不必玩「我的世界」了。

别光顾着玩游戏了，干点正事儿吧！@DeepMind 和 CEO Demis Hassabis

近年来，游戏「我的世界」已成为强化学习钻研的一个焦点，围绕在「我的世界」中进行钻石收集的国内比赛曾经举办屡次。

在没有人类数据的状况下解决这一挑战，被宽泛认为是人工智能的一个里程碑，因为在这个程序生成的凋谢世界环境 (open-world environment) 中，处分稀少、摸索艰难、时间跨度长，这些阻碍的存在使得先前的办法都须要基于人类数据或教程。

DreamerV3 是第一个从 0 开始在「我的世界」中齐全自学收集钻石的算法，它使得强化学习的利用范畴进一步扩充，正如网友们所说，DreamerV3 曾经是个成熟的通用算法了，该学会本人挂机降级打怪，跟终极 BOSS 末影龙对线了！

关于机器学习:DeepMind-发布强化学习通用算法-DreamerV3AI-成精自学捡钻石

DeepMind 在推特官宣 DreamerV3

DreamerV3：基于世界模型的通用算法

一代目：Dreamer

二代目：DreamerV2

推特网友评论区带头玩梗

「我的世界」终极 BOSS 末影龙瑟瑟发抖中。