关于百度:yyds用飞桨玩明日方舟

每个游戏玩家都有一个梦，心愿本人在虚拟世界中成为万众瞩目、无所不能的英雄。而后…而后…闹钟响了梦醒了，又到了挤地铁下班的工夫。

不过，在这个我的项目中，我将带大家临时忘却事实的懊恼，用飞桨深度强化学习框架 PARL 来实现这个“英雄梦”！先放效果图：

常识回顾

大家是不是急不可待了呢？且慢，要实现《明日方舟》游戏的深度强化学习，还是先让我带大家回顾一下深度强化学习算法历史。DQN 是深度强化学习算法开山之作，在经典街机游戏上获得了十分好的成果。它应用了 ReplyMemory 来存储和回放教训，这是 Off-policy 类型算法的罕用技巧。然而，DQN 在应答手机游戏时，能力就不够看了。于是我把眼光投向了更为弱小的算法 — A3C。

A3C 算法与 DQN 不同，它设计了异步多线程的 Actor-Critic，每个 Agent 在本人的线程中运行，而后全局共享学习到的网络参数。这样，每时每刻都能有大量的交互数据，并且这些多线程采集到的数据没有关联性（关联性问题：请参考 DDQN 算法原理）。因而，A3C 算法通过“异步多线程 + 共享全局参数”达到了和 ReplyMemory 相似的成果。而且，它既有大量数据能够解决训练过程不稳固问题，同时又解决了参数关联性的问题。

在经典算法 PG 中，咱们的 Agent 又被称为 Actor，Actor 对于一个特定的工作，都有本人的一个策略 π。策略 π 通常用一个神经网络示意，其参数为 θ。从一个特定的状态 State 登程，始终到工作的完结，被称为一个残缺的 Episode。在每一步，咱们都能取得一个处分 r，一个残缺的工作所取得的最终处分被称为 R。

如果咱们用 Q 函数来预估将来的累积处分，同时创立一个 Critic 网络来计算 Q 函数值，那么咱们就失去了 Actor-Critic 办法。

Q 函数在 A3C 里的次要作用是减少一个基线，使得反馈有正有负，这里的基线通常用状态价值函数 V 来示意。然而，当咱们利用这样的办法，则须要同时计算 Q 函数和 V 函数，这并不容易。Q 函数能够用“Step t+ 1 的 V 函数”加上“从 Step t 到 Step t+ 1 的 r”来代替。这样，咱们就能够失去用 V 来示意的 Q 值计算，咱们个别称为 Advantage（劣势函数），此时的 Critic 网络变为计算劣势函数 A 的网络。

A3C 是 Asynchronous Advantage Actor-Critic 的缩写，中文翻译为异步的劣势动作评估算法。其中，Advantage 就是指劣势函数 A。因而，从名字这里咱们能够解读进去 A3C 本质就是求解 πθ 网络和 Aπ(s, a)网络。

在 A3C 算法论文中，论文作者比照了四种算法——异步 Sarsa、异步 Q -Learning、DQN 和 A3C。论文发表后，各路算法大神验证一个问题——是异步更新让算法体现优于其余算法？。后果十分乏味：多线程是 A3C 算法快的起因，然而”异步更新“反而是它的毛病。于是，科学家提出同步更新算法 A2C（Advantage Actor-Critic），让它能够更无效利用 CPU 资源。

PS：算法大神照样被打脸，啪啪啪！

在上面局部，我会先对 PARL 库内置的 A2C 算法进行简略解读，这样大家在看我的项目实际局部时，就能少浏览一些代码。

Learner
这个类有意思的中央是，PARL 库用了 A3C 的名字。起因是 A2C 和 A3C 是同源算法。它们实现上的次要区别是 step 函数（前面会讲到）。

create_actors
这段代码有意思的中央是，它把本人连贯到了 XPARL 集群，而后去执行 run_remote_sample。浏览过 DQN 源码的同学应该很好了解，它的意思就是在独立过程运行“取样”。

step 函数
step 函数是 A2C 算法中最重要、独特的函数，作用是同步期待更新操作。因为 A2C 算法会同步期待所有 Agent（Actor) 实现一轮训练后，把 π 网络的参数 θ 同步上来，更新全局的 π 网络参数。

Actor 函数
注解 @parl.remote_class 表明 Actor 类是在独立的本机过程中执行（因为 A2C 是利用本机多 CPU）。通过两行命令部署了 PARL 分布式集群，Actor 理论是在近程 server 中运行了。

留神，Actor 的 init 办法中保留了 env 数组，用同样的参数实例化了模型，用同样的模型实例化了算法并作为参数传入到了 Agent 中。

大家还要关注的点是，每个 Actor 对应一个 Agent。

sample 函数
Actor 中的 sample 函数会调用 Agent 的 sample 函数和 Agent 的 value 函数来别离更新本地的 π 网络和 v 网络，最终返回 sample_data 给核心节点。

sample_data 的数据结构：

其中，劣势函数的的计算如下：

VectorEnv 函数
这个类是 PARL 对 env 环境的封装。咱们的模仿真机环境，也采纳了同样的定义，次要是为了同时跑多个环境，减少并行计算的效率，如下所示：

模拟器的源数据是由此类中的 step 办法批量返回。

实战编程

1. 游戏模拟器编写 & 训练
新建《明日方舟》模拟器我的项目：
ArKnight_A2C_Simulator
因为《明日方舟》是手机网络游戏，数据生产速度切实太慢了！！！为了进步训练速度，须要本人开发模拟器。用模拟器后速度可晋升 50-100 倍。

批改 Learner 的初始化办法：

定义新的 env.py：

批改 Actor：

定义训练用的模仿环境：

在模拟器中通过大概 10 万个 steps，模型的 loss 就收敛了。

2. 编写状态推理引擎
新建我的项目 ARKNIGHT_CLASSIFY，应用残差神经网络对《明日方舟》中的次要游戏界面做了预约义。利用这个引擎，在真机部署的时候能够推断出以后游戏的 state，用于计算 reward 和 game over 这两个重要参数。

3. 评估强化学习模型
在深度强化学习中，成果评估十分重要，因为咱们要晓得算法从数据中学到了什么？咱们在第一步中失去了模型，在第二步中失去了真机环境下的 reward 和 game over 函数。那么咱们就要在真机环境中去测试。

能够看到，我只用了 2 步，算法就胜利达到了设定的终止状态[965]。新建部署我的项目 ArKnight_A2C，把模型导入，成果如下：

4. 模型和状态推理引擎部署到真机
定义真机环境：

这里的游戏状态推断引擎，就是 ARKNIGHT_CLASSIFY 我的项目输入的推理模型。有了状态的推理值，代码中的 reward 和 game over 就能够和真机环境匹配上。同时，用 AdbUtil 类来执行实在动作，就能够操作真机执行算法动作。

在这个文章中，我给大家展现了如何构建明日方舟的交互环境，以及如何通过 PARL 疾速调用 A3C 算法实现并行训练，整体实现起来简略易懂。

看到这儿，大家是不是急不可待地想要本人入手尝试！

“英雄们”，快用飞桨去实现你们的美梦吧，yyds（永远滴神）！

欲知详情，请戳 PARL 开源链接：

https://github.com/PaddlePaddle/PARL

如果您想具体理解更多飞桨的相干内容，请参阅以下文档。

·飞桨官网地址·

https://www.paddlepaddle.org.cn/

·飞桨开源框架我的项目地址·

GitHub: https://github.com/PaddlePaddle/Paddle

Gitee: https://gitee.com/paddlepaddle/Paddle

·飞桨深度强化学习框架我的项目地址·
https://github.com/PaddlePaddle/PARL

关于百度:yyds用飞桨玩明日方舟

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）