乐趣区

关于人工智能:机器人自主学习新进展百度飞桨发布四足机器人控制强化学习新算法

近日,百度强化学习团队公布了四足机器人管制上的最新研究进展,采纳自进化的步态生成器与强化学习联结训练,从零开始学习并把握多种静止步态,一套算法解决包含独木桥、跳隔板、钻洞穴等多种场景管制难题。百度已开源全副仿真环境和训练代码,并公开相干论文。

.mp4)

▲ 残缺仿真成果和真机视频

足式机器人的管制始终是机器人管制畛域的钻研热点,因为相比于常见的轮式机器人,足式机器人能够像人类一样灵便地逾越阻碍,极大地扩大机器人的流动边界。波士顿能源(Boston Dynamics)此前对外公布了其商用的第一款四足机器人 Spot,然而相干的控制算法始终没有对外披露。而市面上商业产品采纳的控制算法,大部分基于麻省理工学院(MIT)开源的第三代的四足控制算法,须要依赖大量专家教训。

近日,百度强化学习团队联结小度机器人团队,基于飞桨机器人控制算法框架 PaddleRobotics,公布了四足机器人管制的最新进展。该算法首次提出基于自进化的步态生成器来疏导强化学习训练,通过自主学习,机器人能摸索出正当的步态并穿梭各种各样的高难度场景。

这个算法到底有多厉害,先来一睹为快。

\
▲ 图一、四足机器人步态展现

注:演示真机为宇树四足机器人产品

咱们能够看到,图中四足机器人无论是走独木桥,还是高低楼梯,都走的非常持重。特地是在独木板场景,机器人学会了先把双腿步距放大,以小碎步的形式安稳地穿过了独木板。这些步态都是基于强化学习自主学习失去,并没有通过任何的畛域内专家常识进行疏导。那么这些行走步态是如何训练进去的呢?

在解读之前,咱们先回顾下当下三种支流的四足控制算法。

第一个方向是开环的步态生成器,即提前布局好每条腿的行走轨迹,而后周期性地输入管制信号以驱动机器人行走起来。这种形式能够让专家依据教训以及理论环境去设计四足机器人的行走形式,然而毛病是往往须要大量的调试工夫以及畛域内的专家常识。

第二个方向是基于模型预测的控制算法(MPC),这类办法也是 MIT 之前开源的次要算法。算法对环境进行建模后,在每个工夫步求解优化问题以找到最优的管制信号。这类办法的问题是其成果依赖于环境模型的建模准确度,并且在理论部署过程中须要消耗比拟大的算力去求解最优的管制信号。

第三个方向是基于学习的控制算法。后面提到的办法都是提前设计好控制器间接部署到机器人上的,并没有体现出机器人自主学习的过程。这个方向的大部分工作是基于机器自主学习,通过收集机器人在环境中的体现数据,调整机器学习模型中的参数,以更好地管制四足机器人实现工作。

百度这次公布的工作是基于强化学习的控制算法。强化学习利用在四足机器人畛域并不是新的技术,然而之前发表的强化学习工作大部分都只能穿梭一些比较简单的场景,在高难度的场景,比方通过独木板、跳隔板中,体现并不好。次要的起因是四足机器人中简单的非线性控制系统使得强化学习摸索起来十分困难,机器人常常还没走几步就摔倒了,很难从零开始学习到无效的步态。为了解决强化学习在四足管制上遇到的问题,百度团队首次提出基于自进化步态生成器的强化学习框架。

\
▲ 图二、ETG-RL 架构

该框架的概览图如上图,算法的管制信号由两局部组成:一个开环的步态生成器以及基于强化学习的神经网络。步态生成器能够提供步态先验来疏导强化学习进行训练。以往的工作个别采纳一个固定的步态生成器,这种形式只能生成一种固定的步态,没法针对环境进行特定的适配。特地是当预置的生成器并不适宜环境的状况下,反而会影响强化学习局部的学习效果。

针对这些问题,百度首次提出在轨迹空间间接进行搜寻的自进化步态生成器优化形式。

相比在参数空间进行搜寻的形式,它能够更高效地搜寻到正当的轨迹,因为在参数层面进行扰动很可能生成齐全不合理的轨迹,并且搜寻的参数量也大很多。强化学习局部的训练通过目前支流的 SAC 间断控制算法进行参数更新,在优化过程中,强化学习的策略网络须要输入正当的管制信号去联合开环的管制信号,以取得更高的处分。须要留神的是,该框架在更新过程中,是采纳交替训练的形式,即独立更新步态生成器以及神经网络。这次要的起因是其中一个模块的更新会导致机器人的行为公布发生变化,不利于训练的稳定性。最初,为了晋升样本的无效利用率,该框架还复用了进化算法在优化步态生成器的数据,将其增加到强化学习的训练数据中。

\
▲ 图三、试验场景(仿真 + 真机)

接下来看文章中的试验局部。如上图所示,百度基于开源的 pybullet 构建了 9 个试验场景,包含了高低楼梯、斜坡、穿梭不规整地形、独木板、洞穴、跳跃隔板等场景。其算法成果与经典的开环控制器、强化学习算法相比,晋升相当大。能够看到百度提出的框架(绿色曲线)遥遥领先于别的算法,并且是惟一一个能实现所有工作的算法。残缺的仿真成果以及真机视频能够参考文章结尾。

\
▲ 图四、试验后果

百度的工作展现出,基于自主学习的办法在四足机器人管制上具备齐全代替甚至超过经典算法的后劲,有可能成为强化学习和进化学习在简单非线性零碎中开始大规模落地和实用化的契机。

这不是百度在机器人方向上做的第一个强化学习工作,早在 18 年,他们就尝试将人工干预引入到强化学习中,以推动强化学习利用在在四轴飞行器管制等高风险的硬件场景。将来,置信强化学习会是四足机器人管制畛域重要的技术突破口,无效推动足状态机器人走进咱们的日常生活中。

该模型和训练方法同步开源于飞桨机器人算法库 PaddleRobotics 和强化学习框架 PARL;其中四足机器人和简单地形仿真也凋谢于飞桨强化学习环境集 RLSchool, 以便于更多该畛域的专家和工程师比照钻研。

论文:https://arxiv.org/abs/2109.06409

强化学习框架 PARL:https://github.com/PaddlePadd…

开源仿真环境 RLSchool:https://github.com/PaddlePadd…

飞桨机器人控制算法框架 PaddleRobotics:https://github.com/PaddlePadd…

点击“此处”,理解更多信息~

百度 AI 开发者社区 https://ai.baidu.com/forum,为全国各地开发者提供一个交换、分享、答疑解惑的平台,让开发者在研发路上不再“孤军奋战”,通过一直地交换与探讨找出更好的技术解决方案。如果你想尝试各种人工智能技术、开辟利用场景,赶快退出百度 AI 社区,你对 AI 的所有畅想,在这里都能够实现!

退出移动版