关于人工智能:AI-大战-AI一个深度强化学习多智能体竞赛系统

37次阅读

共计 2834 个字符，预计需要花费 8 分钟才能阅读完成。

小伙伴们快看过去！这是一款全新打造的 ⚔️ AI vs. AI ⚔️——深度强化学习多智能体比赛零碎。

这个工具托管在 Space 上，容许咱们创立多智能体比赛。它蕴含三个元素:

一个带匹配算法的 Space，应用后台任务运行模型战斗。
一个蕴含后果的 Dataset。
一个获取匹配历史后果和显示模型 LEO 的 Leaderboard。

而后，当用户将一个训练好的模型推到 Hub 时，它会获取评估和排名。得益于此，咱们能够在多智能体环境中对你的智能体与其余智能体进行评估。

除了作为一个托管多智能体比赛的有用工具，咱们认为这个工具在多智能体设置中能够成为一个 强壮的评估技术。通过与许多策略反抗，你的智能体将依据宽泛的行为进行评估。这应该能让你很好地理解你的策略的品质。

让咱们看看它在咱们的第一个比赛托管: SoccerTwos Challenge 上是如何工作的。

AI vs. AI 是一个在 Hugging Face 上开发的开源工具，对多智能体环境下强化学习模型的强度进行排名。

其思维是通过让模型之间继续较量，并应用比赛结果来评估它们与所有其余模型相比的体现，从而在不须要经典指标的状况下理解它们的策略品质，从而取得 对技能的绝对掂量，而不是主观掂量。

对于一个给定的工作或环境，提交的智能体越多，评分就越有代表性。

为了在一个竞争的环境里基于比赛结果取得评分，咱们决定依据 ELO 评分零碎进行排名。

游戏的核心理念是，在较量完结后，单方玩家的评分都会依据比赛结果和他们在较量前的评分进行更新。当一个领有高评分的用户战胜一个领有低排名的用户时，他们便不会取得太多分数。同样，在这种状况下，输家也不会损失很多分。

相同地，如果一个低评级的玩家击败了一个高评级的玩家，这将对他们的评级产生更显著的影响。

在咱们的环境中，咱们尽量放弃零碎的简略性，不依据玩家的初始评分来扭转取得或失去的数量。因而，收益和损失总是齐全相同的 (例如 +10 / -10)，均匀 ELO 评分将放弃在初始评分不变。抉择一个 1200 ELO 评分启动齐全是任意的。

如果你想理解更多对于 ELO 的信息并且查看一些计算示例，咱们在深度强化学习课程里写了一个解释。

应用此评级，能够 主动在具备可比照强度的模型之间进行匹配。你能够有多种办法来创立匹配零碎，但在这里咱们决定放弃它相当简略，同时保障较量的多样性最小，并放弃大多数较量的对手评分相当靠近。

以下是该算法的工作原理:

从 Hub 上收集所有可用的模型。新模型取得初始 1200 的评分，其余的模型放弃在以前较量中失去或失去的评分。
从所有这些模型创立一个队列。
从队列中弹出第一个元素 (模型)，而后从 n 个模型中随机抽取另一个与第一个模型评级最靠近的模型。
通过在环境中 (例如一个 Unity 可执行文件) 加载这两个模型来模仿这个较量，并收集后果。对于这个实现，咱们将后果发送到 Hub 上的 Hug Face Dataset。
依据收到的后果和 ELO 公式计算两个模型的新评分。
持续两个两个地弹出模型并模仿较量，直到队列中只有一个或零个模型。
保留后果评分，回到步骤 1。

为了继续运行这个配对过程，咱们应用 收费的 Hug Face Spaces 硬件和一个 Scheduler 来作为后台任务继续运行这个配对过程。

Space 还用于获取每个以及较量过的模型的 ELO 评分，并显示一个排行榜，每个人都能够查看模型的进度。

该过程通常应用几个 Hugging Face Datasets 来提供数据持久性 (这里是匹配历史和模型评分)。

因为这个过程也保留了较量的历史，因而能够准确地看到任意给定模型的后果。例如，这能够让你查看为什么你的模型与另一个模型格斗，最显著的是应用另一个演示 Space 来可视化匹配，就像这个。

目前，这个试验是在 MLAgent 环境 SoccerTwos 下进行的，用于 Hugging Face 深度强化学习课程 ，然而，这个过程和实现通常是 环境无关的，能够用来收费评估宽泛的对抗性多智能体设置。

当然，须要再次揭示的是，此评估是提交的智能体实力之间的绝对评分，评分自身 与其余指标相比没有主观意义。它只示意一个模型与模型池中其余模型绝对的好坏。尽管如此，如果有足够大且多样化的模型池 (以及足够多的较量)，这种评估将成为示意模型个别性能的牢靠办法。

这个挑战是咱们收费的深度强化学习课程的第 7 单元。它开始于 2 月 1 日，打算于 4 月 30 日完结。

如果你感兴趣，你不用加入课程就能够退出这个较量。你能够在这里开始

在这个单元，读者通过训练一个 2 vs 2 足球队 学习多智能体强化学习 (MARL) 的根底。

用到的环境是 Unity ML-Agents 团队制作的。这个较量的指标是简略的: 你的队伍须要进一个球。要做到这一点，他们须要击败对手的团队，并与队友单干。

除了排行榜，咱们创立了一个 Space 演示，人们能够抉择两个队伍并可视化它们的较量。

这个试验停顿顺利，因为咱们曾经在排行榜上有 48 个模型了。

咱们也发明了一个叫做 ai-vs-ai-competition 的 discord 频道，人们能够与别人交换并分享倡议。

因为咱们开发的这个工具是 环境无关的，在将来咱们想用 PettingZoo 举办更多的挑战赛和多智能体环境。如果你有一些想做的环境或者挑战赛，不要犹豫，与咱们分割。

在将来，咱们将用咱们发明的工具和环境来举办多个多智能体较量，例如 SnowballFight。

除了称为一个举办多智能体较量的有用工具，咱们思考这个工具也能够在多智能体设置中成为 一项强壮的评估技术: 通过与许多策略反抗，你的智能体将依据宽泛的行为进行评估，并且你将很好地理解你的策略的品质。

保持联系的最佳形式是退出咱们的 Discord 与咱们和社区进行交换。

援用

援用: 如果你发现这对你的学术工作是有用的，请思考援用咱们的工作:

Cochet, Simonini, "Introducing AI vs. AI a deep reinforcement learning multi-agents competition system", Hugging Face Blog, 2023.

BibTeX 援用:

@article{cochet-simonini2023,
  author = {Cochet, Carl and Simonini, Thomas},
  title = {Introducing AI vs. AI a deep reinforcement learning multi-agents competition system},
  journal = {Hugging Face Blog},
  year = {2023},
  note = {https://huggingface.co/blog/aivsai},
}