关于人工智能:如何评估大型语言模型LLM

编者按：近期简直每隔一段时间，就有新的大语言模型公布，然而当下依然没有一个通用的规范来评估这些大型语言模型的品质，咱们急需一个牢靠的、综合的LLM评估框架。
本文阐明了为什么咱们须要一个全面的大模型评估框架，并介绍了市面上这些现有的评估框架，同时指出这些框架存在的问题，最初阐明如何评估大型语言模型（LLM），评估时应该思考哪些因素。
以下是译文，Enjoy!

作者 | Gyan Prakash Tripathi

编译 | 岳扬

01 简介 Introduction

随着ChatGPT和其余大型语言模型（LLMs）的公布，可用模型数量大量减少，当初简直每天都有新的LLMs公布。尽管如此，当下依然没有一个通用的规范来评估这些大型语言模型的品质。本文将回顾现有的大型语言模型（LLMs）和基于LLMs的体系化评估框架。此外，咱们还将尝试剖析LLMs哪些因素应该受到评估。

Source: Cobus Greyling

02 为什么急需一个全面的LLMs评估框架？

在某项技术倒退的晚期阶段，大家很容易确定哪些地方须要改良。然而，随着技术提高和各种新的代替计划呈现，咱们越来越难确定哪种计划抉择最好。因而，领有一个牢靠的评估框架来精确评判LLMs的品质变得十分重要。

对于LLMs，当下迫切需要一个真正的评估框架。这种框架可用于以下三种形式评估LLMs：

可能帮忙管理机构和其余相干机构评估模型的安全性、准确性、可靠性或可用性问题。
目前，这些大型科技公司仿佛在自觉地争先恐后公布LLMs，许多公司只是在其产品上附加免责申明来试图撇清责任。因而制订一个全面的评估框架将有助于这些公司更负责任地公布这些模型。
如果领有一个全面的评估框架，可能帮忙这些LLMs的用户确定在哪里以及如何微调这些大模型，并使他们分明应该应用哪些额定的数据来实现部署。

在接下来的内容中，咱们将会回顾以后的模型评估模式。

03 现有的LLMs评估框架有哪些？

评估大语言模型来确定它们在各种利用中的品质和实用性是比拟重要的。市面上曾经存在多个评估LLMs的框架，然而没有一个框架足够全面，能够笼罩所有自然语言解决工作。让咱们看一下这些现有的支流评估框架。

框架名称	评估时思考的因素	框架链接
Big Bench	泛化能力	https://github.com/google/BIG-bench
GLUE Benchmark	语法、释义、文本类似度、推理、文本关联性、解决代词援用问题的能力	https://gluebenchmark.com/
SuperGLUE Benchmark	自然语言了解、推理，了解训练数据之外的简单句子，连贯和标准的自然语言生成，与人对话，常识推理（日常场景、社会规范和常规），信息检索，浏览了解	https://super.gluebenchmark.com/
OpenAI Moderation API	过滤无害或不平安的内容	https://platform.openai.com/docs/api-reference/moderations
MMLU	跨各种工作和畛域的语言了解	https://github.com/hendrycks/test
EleutherAI LM Eval	在最小水平的微调状况下，应用小样本进行评估，并可能在多种工作施展性能的能力。	https://github.com/EleutherAI/lm-evaluation-harness
OpenAI Evals	https://github.com/EleutherAI/lm-evaluation-harness 文本生成的准确性，多样性，一致性，鲁棒性，可转移性，效率，公平性	https://github.com/openai/evals
Adversarial NLI (ANLI)	鲁棒性，泛化性，对推理的连贯性解释，在相似示例中推理的一致性，资源应用方面的效率（内存应用、推理工夫和训练工夫）	https://github.com/facebookresearch/anli
LIT (Language Interpretability Tool)	以用户定义的指标进行评估的平台。理解其劣势、劣势和潜在的偏见	https://pair-code.github.io/lit/
ParlAI	准确率，F1分数，困惑度（模型在预测序列中下一个单词的体现），按相关性，流畅性和连贯性等规范进行人工评估，速度和资源利用率，鲁棒性（评估模型在不同条件下的体现，如噪声输出、反抗攻打或不同程度的数据品质），泛化性	https://github.com/facebookresearch/ParlAI
CoQA	了解文本段落并答复呈现在对话中的一系列互相关联的问题。	https://stanfordnlp.github.io/coqa/
LAMBADA	预测一段文本的最初一个词。	https://zenodo.org/record/2630551#.ZFUKS-zML0p
HellaSwag	推理能力	https://rowanzellers.com/hellaswag/
LogiQA	逻辑推理能力	https://github.com/lgw863/LogiQA-dataset
MultiNLI	理解不同体裁的句子之间的关系	https://cims.nyu.edu/~sbowman/multinli/
SQUAD	浏览了解工作	https://rajpurkar.github.io/SQuAD-explorer/

04 现有评估框架存在的问题

上述评估大型语言模型的办法各有其劣势。然而，有几个重要因素使得以上这些办法仿佛都并不足够欠缺：

以上任何一个框架都没有将安全性作为评估因素思考在内。只管“OpenAI Moderation API”在某种程度上波及这个问题，但这并不足够。
上述框架在评估模型因素方面是扩散的。它们中没有一个因素是足够全面综合的。

在下一节中，咱们将尝试列出所有应该在一个综合的评估框架中存在的重要因素。

05 在评估LLMs时应思考哪些因素？

通过审查现有的大模型评估框架存在的问题之后，下一步是确定在评估大型语言模型（LLMs）的品质时应思考哪些因素。咱们听取12名数据迷信业余人员的意见，这12名专家对LLMs的工作原理和工作能力有肯定的理解，并且他们已经尝试过测试多个LLMs。该考察旨在依据他们的了解列出所有重要因素，并在此基础之上评估LLMs的品质。

最终，咱们发现有几个关键因素应该被思考：

1. 真实性

LLMs生成的后果准确性至关重要。包含事实的正确性以及推理和解决方案的准确性。

2. 速度

模型产生后果的速度很重要，特地是当大模型须要部署到要害性能（critical use cases）时。尽管在某些状况下速度较慢的大模型可能能够可承受，但这些rapid action团队须要速度更快的模型。

3. 正确的语法和可读性

LLMs必须以具备可读性的格局生成自然语言。确保正确、适合的语法和句子构造至关重要。

4. 没有偏见

LLMs必须不受与性别、种族和其余因素相干的社会偏见影响。

5. 回溯答复的参考起源

理解模型答复的起源对于咱们来说是十分必要的，以便咱们能够反复查看其 basis。如果没有这个，LLMs的性能将始终是一个黑匣子。

6. 平安和责任

AI模型的平安保障是必要的。只管大多数公司正在致力使这些大模型平安，但依然有显着的改良空间。

7. 了解上下文

当人类向AI聊天机器人征询无关集体生存的倡议时，重要的是该模型须要基于特定的条件提供更好的解决方案。在不同的上下文中提出同样的问题可能会有不同的答案。

8. 文本操作

LLMs须要可能执行根本的文本操作，如文本分类、翻译、摘要等。

9. 智商

智商是用来评判人类智力的一项指标，也能够利用于机器。

10. 情商

情商是人类智力的另一方面，也可利用于LLMs。具备更高情商的模型将更平安地被应用。

11. 具备多功能

模型能够涵盖的畛域和语言数量是另一个重要因素，能够用于将模型分类为通用AI或特定畛域的AI。

12. 实时更新

一个可能实时进行信息更新的模型能够做出更大范畴的奉献，产生更好的后果。

13. 老本

开发和运维老本也应该思考在内。

14. 一致性

雷同或相似的提醒应该产生雷同或简直雷同的响应，否则确保部署于商业环境的品质将会很艰难。

15. 提醒工程的须要水平

须要应用多少具体和结构化的提醒工程能力获得最佳响应，也能够用来比拟两个模型。

06 总结

大型语言模型（LLMs）的倒退彻底改变了自然语言解决畛域。然而，当下仍需一个全面性的和标准化的评估框架来评估这些模型的品质。现有的框架提供了有价值的参考，但它们不足全面性和标准化，并且没有将平安作为评估因素。

牢靠的评估框架应该思考诸如真实性、速度、正确的语法和可读性、没有偏见、回溯答复的参考起源、平安和责任、了解上下文、文本操作、智商、情商、具备多功能和实时更新等因素。开发这样的框架将帮忙这些公司更负责任地公布LLMs，并可能确保其品质、可用性和安全性。与相干机构和专家单干，建设一个实在和全面的LLMs评估框架是非常有必要的。

END

本文经原作者受权，由Baihai IDP编译。如需转载译文，请分割获取受权。

原文链接：

https://www.analyticsvidhya.com/blog/2023/05/how-to-evaluate-...

目录