DeepMind-发布-Acme-框架用于强化学习算法开发的分布式框架

技术编辑：芒果果丨发自思否编辑部
SegmentFault 思否报道丨公众号：SegmentFault

DeepMind 发布了 Acme 框架，该框架旨在通过使 AI 驱动的代理可以执行各种规模的运行来简化强化学习算法的开发。

Acme 背后的工程师和研究人员共同撰写了一篇关于这项工作的技术论文，根据他们的说法，Acme 可以用来创建比以前的方法具有更大并行性的代理。

Acme 是用于培训强化学习代理的开发套件，该套件试图解决复杂性和规模问题，其组件用于构建从算法和策略到学习者的各种抽象级别代理。

有人认为，这样做可以让想法快速迭代，并在生产过程中对这些想法进行评估，主要是通过培训循环、强迫性日志记录和检查点。

在 Acme 内部，参与者与环境紧密互动，观察环境产生观察结果，并采取相应的行动，将其反馈到环境中。在观察了随之而来的过度之后，行为者有机会更新自己的状态。这通常与其行动选择政策又短，这些政策决定了他们为应对环境而采取的行动。

一种特殊类型的 Acme actor 包括演示和学习两个部分，它们被称为“代理”，其状态更新是由学习器组件中的一些步骤触发的。也就是说，参与主体在很大程度上会将他们的行动选择放到自己的行动组成部分。

强化学习技术让代理人与环境互动，声称他们自己的训练数据，并在电子游戏、机器人技术、自动驾驶机器人出租车等领域取得了突破。

相关技术最近的进展归因于所使用的训练数据量的增加，进行了新的系统设计，使代理人与环境实例相互作用，以迅速积累经验。

DeepMind 断言，将算法的单进程原型扩展到分布式系统通常需要重新实现相关的代理，这就是 Acme 框架的用武之地。

Acme 提供了一个数据集模块，位于参与者和学习者组件之间，并由 DeepMind 本周发布的称为 Reverb 的低级存储系统提供支持。

此外，该框架还建立了一个用于插入 Reverb 的通用接口，从而实现了不同风格的预处理以及正在进行的观测数据聚合。

行动、学习和存储组件在 Acme 内的不同线程或过程中划分，这具有两个好处：环境交互与学习过程异步发生，并且数据生成加速。在其他地方，Acme 的速率限制允许从学习到行动执行所需的速率，只要流程保持在一定的定义公差内，就可以不受阻碍地运行。

例如，如果一个进程由于网络问题或资源不足而开始落后于另一个进程，则速率限制器将组织落后者，而另一个则追赶上来。

除了这些工具和资源，Acme 还附带了一组示例代理，作为其各自的强化学习算法以及强大的研究基准的实现。

DeepMind 表示，未来可能会有更多这样的服务。研究人员表示：“通过提供这些，我们希望 Acme 将帮助改善强化学习中的可再现性，并为学术研究社区提供简单的构建新代理的能力。此外，我们的基线应该提供更多的标准来衡量该领域的进展。”

评论