共计 2834 个字符,预计需要花费 8 分钟才能阅读完成。
小伙伴们快看过去!这是一款全新打造的 ⚔️ AI vs. AI ⚔️——深度强化学习多智能体比赛零碎。
这个工具托管在 Space 上,容许咱们创立多智能体比赛。它蕴含三个元素:
- 一个带匹配算法的 Space,应用后台任务运行模型战斗。
- 一个蕴含后果的 Dataset。
- 一个获取匹配历史后果和显示模型 LEO 的 Leaderboard。
而后,当用户将一个训练好的模型推到 Hub 时,它会获取评估和排名。得益于此,咱们能够在多智能体环境中对你的智能体与其余智能体进行评估。
除了作为一个托管多智能体比赛的有用工具,咱们认为这个工具在多智能体设置中能够成为一个 强壮的评估技术。通过与许多策略反抗,你的智能体将依据宽泛的行为进行评估。这应该能让你很好地理解你的策略的品质。
让咱们看看它在咱们的第一个比赛托管: SoccerTwos Challenge 上是如何工作的。
AI vs. AI 是怎么工作的?
AI vs. AI 是一个在 Hugging Face 上开发的开源工具,对多智能体环境下强化学习模型的强度进行排名。
其思维是通过让模型之间继续较量,并应用比赛结果来评估它们与所有其余模型相比的体现,从而在不须要经典指标的状况下理解它们的策略品质,从而取得 对技能的绝对掂量,而不是主观掂量。
对于一个给定的工作或环境,提交的智能体越多,评分就越有代表性。
为了在一个竞争的环境里基于比赛结果取得评分,咱们决定依据 ELO 评分零碎进行排名。
游戏的核心理念是,在较量完结后,单方玩家的评分都会依据比赛结果和他们在较量前的评分进行更新。当一个领有高评分的用户战胜一个领有低排名的用户时,他们便不会取得太多分数。同样,在这种状况下,输家也不会损失很多分。
相同地,如果一个低评级的玩家击败了一个高评级的玩家,这将对他们的评级产生更显著的影响。
在咱们的环境中,咱们尽量放弃零碎的简略性,不依据玩家的初始评分来扭转取得或失去的数量。因而,收益和损失总是齐全相同的 (例如 +10 / -10),均匀 ELO 评分将放弃在初始评分不变。抉择一个 1200 ELO 评分启动齐全是任意的。
如果你想理解更多对于 ELO 的信息并且查看一些计算示例,咱们在 深度强化学习课程 里写了一个解释。
应用此评级,能够 主动在具备可比照强度的模型之间进行匹配。你能够有多种办法来创立匹配零碎,但在这里咱们决定放弃它相当简略,同时保障较量的多样性最小,并放弃大多数较量的对手评分相当靠近。
以下是该算法的工作原理:
- 从 Hub 上收集所有可用的模型。新模型取得初始 1200 的评分,其余的模型放弃在以前较量中失去或失去的评分。
- 从所有这些模型创立一个队列。
- 从队列中弹出第一个元素 (模型),而后从 n 个模型中随机抽取另一个与第一个模型评级最靠近的模型。
- 通过在环境中 (例如一个 Unity 可执行文件) 加载这两个模型来模仿这个较量,并收集后果。对于这个实现,咱们将后果发送到 Hub 上的 Hug Face Dataset。
- 依据收到的后果和 ELO 公式计算两个模型的新评分。
- 持续两个两个地弹出模型并模仿较量,直到队列中只有一个或零个模型。
- 保留后果评分,回到步骤 1。
为了继续运行这个配对过程,咱们应用 收费的 Hug Face Spaces 硬件和一个 Scheduler 来作为后台任务继续运行这个配对过程。
Space 还用于获取每个以及较量过的模型的 ELO 评分,并显示一个排行榜,每个人都能够查看模型的进度。
该过程通常应用几个 Hugging Face Datasets 来提供数据持久性 (这里是匹配历史和模型评分)。
因为这个过程也保留了较量的历史,因而能够准确地看到任意给定模型的后果。例如,这能够让你查看为什么你的模型与另一个模型格斗,最显著的是应用另一个演示 Space 来可视化匹配,就像 这个。
目前,这个试验是在 MLAgent 环境 SoccerTwos 下进行的,用于 Hugging Face 深度强化学习课程 ,然而,这个过程和实现通常是 环境无关的,能够用来收费评估宽泛的对抗性多智能体设置。
当然,须要再次揭示的是,此评估是提交的智能体实力之间的绝对评分,评分自身 与其余指标相比没有主观意义。它只示意一个模型与模型池中其余模型绝对的好坏。尽管如此,如果有足够大且多样化的模型池 (以及足够多的较量),这种评估将成为示意模型个别性能的牢靠办法。
咱们的第一个 AI vs. AI 挑战试验: SoccerTwos Challenge ⚽
这个挑战是咱们收费的深度强化学习课程的第 7 单元。它开始于 2 月 1 日,打算于 4 月 30 日完结。
如果你感兴趣,你不用加入课程就能够退出这个较量。你能够在 这里 开始
在这个单元,读者通过训练一个 2 vs 2 足球队 学习多智能体强化学习 (MARL) 的根底。
用到的环境是 Unity ML-Agents 团队制作的。这个较量的指标是简略的: 你的队伍须要进一个球。要做到这一点,他们须要击败对手的团队,并与队友单干。
除了排行榜,咱们创立了一个 Space 演示,人们能够 抉择两个队伍并可视化它们的较量。
这个试验停顿顺利,因为咱们曾经在 排行榜 上有 48 个模型了。
咱们也发明了一个叫做 ai-vs-ai-competition 的 discord 频道,人们能够与别人交换并分享倡议。
论断,以及下一步
因为咱们开发的这个工具是 环境无关的,在将来咱们想用 PettingZoo 举办更多的挑战赛和多智能体环境。如果你有一些想做的环境或者挑战赛,不要犹豫,与咱们分割。
在将来,咱们将用咱们发明的工具和环境来举办多个多智能体较量,例如 SnowballFight。
除了称为一个举办多智能体较量的有用工具,咱们思考这个工具也能够在多智能体设置中成为 一项强壮的评估技术: 通过与许多策略反抗,你的智能体将依据宽泛的行为进行评估,并且你将很好地理解你的策略的品质。
保持联系的最佳形式是退出咱们的 Discord 与咱们和社区进行交换。
援用
援用: 如果你发现这对你的学术工作是有用的,请思考援用咱们的工作:
Cochet, Simonini, "Introducing AI vs. AI a deep reinforcement learning multi-agents competition system", Hugging Face Blog, 2023.
BibTeX 援用:
@article{cochet-simonini2023,
author = {Cochet, Carl and Simonini, Thomas},
title = {Introducing AI vs. AI a deep reinforcement learning multi-agents competition system},
journal = {Hugging Face Blog},
year = {2023},
note = {https://huggingface.co/blog/aivsai},
}
英文原文: https://huggingface.co/blog/aivsai
作者: Carl Cochet、Thomas Simonini
译者: AIboy1993 (李旭东)
审校、排版: zhongdongy (阿东)