关于人工智能:如何评估大语言模型

大家能够应用 Hugging Face Space 上的 Evaluation on the Hub 利用在零样本分类工作上评估大语言模型啦！

零样本评估是钻研人员掂量大语言模型性能的一种风行办法。因为大语言模型曾经在训练过程中显示出了对无标注数据的学习能力。反向缩放奖是近期社区的一项工作，通过在各种尺寸和构造的模型上进行大规模零样本评估，以发现哪些大模型的体现比小模型还差。

Evaluation on the Hub 无需编写代码即可帮忙你评估 Hub 上的任何模型，这个能力是由 AutoTrain 赋予的。当初，Hub 上的任何因果语言模型都能够以零样本的形式进行评估。零样本评估会度量训得的模型生成一组特定补全词的可能性，且不须要任何标注训练数据，这使得钻研人员能够跳过低廉的标注工作。

咱们曾经为该我的项目降级了 AutoTrain 基础设施，使之能够收费评估大模型🤯！用户弄清楚如何本人编写可用于 GPU 执行的评估再运行该代码去评估大模型既低廉又耗时。例如，一个具备 660 亿参数的语言模型可能仅加载和编译就须要 35 分钟，这使得大模型的评估只有那些领有低廉的基础设施和丰盛的技术教训的人才能进行。通过降级 AutoTrain 基础设施，在具备 2000 个句子的零样本分类工作中评估一个 660 亿参数的模型须要 3.5 小时，社区中的任何人都能够实现。Evaluation on the Hub 目前反对评估的最大模型尺寸为 660 亿参数，前面会反对更大的模型。

零样本文本分类工作采纳蕴含一组提醒和及其候选补全的数据集。在工作时，会将补全与提醒连接起来，并对每个补全的对数概率求和，而后进行归一化并与正确的补全进行比拟以最终输入工作的准确性。

在本文中，咱们将在 WinoBias 数据集上来评估各种 OPT 模型在零样本文本分类工作上的体现，该工作是一个度量职业上的性别偏见的共指工作。WinoBias 度量一个模型是否更有可能抉择一个带有刻板印象的代词来填充一个提到职业的句子。咱们通过观察后果发现，在此工作上模型成果与模型大小存在反向缩放，即模型越大越容易产生带有刻板印象的填充代词。

WinoBias 数据集已被咱们转换成适宜零样本工作所需的格局，其工作就是视不同的补全为不同的类 (下图中的 classes 列 )，并进行预测。每个补全句的区别在于代词不同，而标签 (下图中的 target 列 ) 就是对应职业的反刻板化补全 (例如，“开发人员”通常是男性主导的职业，因而“她”就是反刻板化代词)。无关示例，请参见参考链接。

接下来，咱们能够在 Evaluation on the Hub 界面上将工作设置为 text_zero_shot_classification，并抉择 winobias 数据集 (见下图)，而后抉择咱们想要评估的模型，最初提交评估工作！评估实现后，你将收到电子邮件告诉，autoevaluator 机器人会在模型的 Hub 库中新建一个 PR，并把后果放在这个 PR 里。

下图是 WinoBias 工作的后果，咱们发现较小的模型更有可能生成反刻板化的补全，而较大的模型更有可能学到文本中性别和职业之间的刻板化关联。这与其余基准 (例如 BIG-Bench) 的后果统一，这些基准也表明更大、更强的模型更有可能在性别、种族、民族、和国籍问题上造成偏见。另外，之前的工作也表明较大的模型更有可能产生有毒文本。

凋谢迷信在社区驱动的工具开发方面获得了长足进步，例如 EleutherAI 的语言模型评估工具和 BIG-bench 我的项目，这使得钻研人员能够直观理解最先进模型的行为。

Evaluation on the Hub 是一种低代码工具，让钻研人员能够很容易地依照某个维度 (例如 FLOPS 或模型大小) 比拟一组模型的零样本性能，或者比拟在同一语料库上训进去的一组不同的模型的性能。零样本文本分类工作非常灵活 —— 任何能够转换成 Winograd 格局的数据集 (该格局中要比拟的句子间仅有几个单词不同)，都能够用于此工作，并能够同时评估多个模型。咱们的指标是让钻研人员可能很容易地上传新数据集，并能轻松地在其上对许多模型进行基准测试。

一个能够用该工具解决的钻研问题的例子是反向缩放问题: 尽管较大的模型通常在大多数语言工作上体现更强，但在某些工作中较大的模型体现反而较差。反向缩放奖作为一个较量，旨在激励钻研人员去构建一些工作，在这些工作上大模型比小模型体现更差。咱们激励你在本人的工作上尝试对各种尺寸的模型进行零样本评估！如果你发现你的工作成果与模型尺寸的绝对关系比拟乏味，咱们能够聊一聊。

在 Hugging Face，咱们很快乐能通过咱们的继续工作，让人人都能拜访到最先进的机器学习模型，包含开发工具，并让每个人都能轻松评估和探索这些模型的行为。咱们之前曾经强调过可保障评估后果一致性和可重复性的标准化模型评估办法以及使评估工具人人可拜访的重要性。Evaluation on the Hub 的将来打算包含反对对其余语言工作的零样本评估，这些工作可能不适宜应用“提醒 + 补全”的数据格式，同时咱们还会减少对更大模型的反对。

作为社区的一部分，向咱们提交反馈非常有助于咱们的工作！咱们很乐意听取你对于模型评估的首要任务是什么的意见。通过 Hub 社区或论坛通知咱们吧 !

英文原文: https://hf.co/blog/zero-shot-eval-on-the-hub

原文作者: Mathemakitten Helen，Tristan Thrush，Abhishek Thakur，Lewis Tunstall，Douwe Kiela

译者: Matrix Yao (姚伟峰)，英特尔深度学习工程师，工作方向为 transformer-family 模型在各模态数据上的利用及大规模模型的训练推理。

审校、排版: zhongdongy (阿东)

关于人工智能:如何评估大语言模型

在 Hub 上零样本评估语言模型

案例钻研: WinoBias 工作的零样本评估

为每个人提供更好的钻研工具

向咱们提交反馈！