关于人工智能:大语言模型-新的摩尔定律

译者按 : 最近一段时间，ChatGPT 作为一个景象级利用迅速蹿红，也带动了对其背地的大语言模型 (LLM) 的探讨，这些探讨甚至出了 AI 技术圈，颇有些到了街谈巷议的水平。在 AI 技术圈，对于 LLM 和小模型的探讨在此之前曾经继续了不短的工夫，处于不同生态地位和产业环节的人都有表白本人的观点，其中不少是有抵触的。

大模型的研究者和大公司出于不同的动机站位 LLM，研究者出于对 LLM 的突现能力 (emergent ability) 的好奇和对 LLM 对 NLP 畛域能力边界的拓展、而大公司可能更多出自于商业利益考量；而社区和中小公司犹犹豫豫在小模型的站位上彷徨，一方面是因为对 LLM 最终训练、推理和数据老本的望而生畏，一方面也是对大模型可能增强大公司数据霸权的隐隐担心。但探讨，尤其是公开通明的探讨，总是坏事，让大家可能听到不同的声音，才有可能最终收敛至更正当的计划。

咱们选译的这篇文章来自于 2021 年 10 月的 Hugging Face 博客，作者在那个工夫点站位的是小模型，一年多当前的 2023 年作者的观点有没有扭转咱们不得而知，但开卷有益，理解作者过后思考的那些点，把那些正当的点纳入本人的思考体系，并联合新的停顿最终作出本人的判断可能才是最终目标。

不久前，微软和 Nvidia 推出了 Megatron-Turing NLG 530B，一种基于 Transformer 的模型，被誉为是“世界上最大且最强的生成语言模型”。

毫无疑问，此项成绩对于机器学习工程来讲是一场令人印象粗浅的能力展现，表明咱们的工程能力曾经可能训练如此微小的模型。然而，咱们应该为这种超级模型的趋势感到兴奋吗？我集体偏向于否定的答复。我将在通过本文论述我的理由。

钻研人员预计，人脑均匀蕴含 860 亿个神经元和 100 万亿个突触。能够必定的是，这外面并非所有的神经元和突触都用于语言。乏味的是，GPT-4 预计有大概 100 万亿个参数 …… 尽管这个类比很粗略，但难道咱们不应该狐疑一下构建与人脑大小相当的语言模型长期来讲是否是最佳计划？

当然，咱们的大脑是一个了不起的器官，它通过数百万年的进化而产生，而深度学习模型仅有几十年的历史。不过，咱们的直觉通知咱们: 有些货色无奈计算 (这是个双关语，:))。

如你所料，在宏大的文本数据集上训练一个 5300 亿参数的模型须要相当多的基础设施。事实上，Microsoft 和 Nvidia 应用了数百台 DGX A100 GPU 服务器，每台 19 万 9 千美元。如果再把网络设备、托管老本等因素思考进去的话，任何想要重现该试验的组织或集体都必须破费近 1 亿美元。来根薯条压压惊？

说真的，有哪些组织有那种值得破费 1 亿美元来构建深度学习基础设施的业务？再少点，又有哪些组织有那种能够值得破费 1000 万美元基础设施的业务？很少。既然很少，那么请问，这些模型为谁而生呢？

只管训练大模型须要卓越的工程能力，但在 GPU 上训练深度学习模型自身却是一种蛮力技术。依据规格表，每台 DGX 服务器可耗费高达 6.5 千瓦的功率。同时，数据中心 (或服务器机柜) 至多须要同样多的冷却能力。除非你是史塔克家族的人 (Starks)，须要在冬天让临冬城 (Winterfell) 放弃和煦，否则你必须解决散热问题。

此外，随着公众对气象和社会责任问题意识的加强，还须要思考碳脚印问题。依据马萨诸塞大学 2019 年的一项钻研，“在 GPU 上训练一次 BERT 产生的碳脚印大抵与一次跨美航行相当”。

BERT-Large 有 3.4 亿个参数。咱们能够通过此推断 Megatron-Turing 的碳脚印大抵如何……意识我的人都晓得，我并不是一个热血环保主义者。尽管如此，这些数字也不容忽视。

我对 Megatron-Turing NLG 530B 和接下来可能会呈现的模型巨兽感到兴奋吗？不。我认为值得减少老本、复杂性以及碳脚印去换取 (绝对较小的) 测试基准上的改良吗？不。我认为构建和推广这些宏大的模型能帮忙组织了解和利用机器学习吗？不。

我想晓得这所有有什么意义。为了迷信而迷信？好的老营销策略？技术至上？可能每个都有一点。如果是这些意义的话，我就不奉陪了。

相同，我更专一于实用且可操作的技术，大家都能够应用这些技术来构建高质量的机器学习解决方案。

在绝大多数状况下，你不须要自定义模型架构。兴许你会想要本人定制一个模型架构 (这是另一回事)，但请留神此处猛兽出没，仅限资深玩家！

一个好的终点是寻找曾经针对你要解决的工作预训练过的模型 (例如，英文文本摘要)。

而后，你应该疾速尝试一些模型，用它们来预测你本人的数据。如果指标成果不错，那么打完出工！如果还须要更高一点的准确率，你应该思考对模型进行微调 (稍后会具体介绍)。

在评估模型时，你应该从那些精度满足要求的模型中抉择尺寸最小的那个。它预测得更快，并且须要更少的硬件资源来进行训练和推理。勤俭须要从一开始就做起。

这其实也不算什么新招。计算机视觉从业者会记得 SqueezeNet 2017 年问世时，与 AlexNet 相比，模型尺寸缩小了 50 倍，而准确率却与 AlexNet 相当甚至更高。多聪慧！

自然语言解决社区也在致力于应用迁徙学习技术缩减模型尺寸，如应用常识蒸馏技术。DistilBERT 兴许是其中最广为人知的工作。与原始 BERT 模型相比，它保留了 97% 的语言理解能力，同时尺寸放大了 40%，速度进步了 60%。你能够 Hugging Face 尝试一下 DistilBERT。同样的办法也曾经利用于其余模型，例如 Facebook 的 BART，你能够在 Hugging Face 尝试 DistilBART。

Big Science 我的项目的最新模型也令人印象粗浅。上面这张来自于论文的图表明，他们的 T0 模型在许多工作上都优于 GPT-3，同时尺寸小 16 倍。你能够 Hugging Face 尝试 T0。

咱们须要更多的此类钻研！

如果你须要特化一个模型，你不应该从头开始训练它。相同，你应该对其进行微调，也就是说，仅针对你本人的数据训练几个回合。如果你短少数据，兴许这些数据集中的某个能够帮忙你入门。

猜对了，这是进行迁徙学习的另一种形式，它会帮忙你节俭所有！

收集、存储、清理和标注的数据更少，
更快的试验和迭代，
生产过程所需的资源更少。

换句话说: 节省时间，节俭金钱，节俭硬件资源，援救世界！

如果你须要教程，Hugging Face 课程能够帮忙你立刻入门。

不论你是否喜爱它们，事实是云公司懂得如何构建高效的基础设施。可持续性钻研表明，基于云的基础设施比其余代替计划更节能减排: 请参阅 AWS、Azure 和 Google。Earth.org 声称尽管云基础设施并不完满，“[它] 比代替计划更节能，并促成了环境友好的服务及经济增长。”

在易用性、灵活性和随用随付方面，云必定有很多劣势。它也比你设想的更环保。如果你的 GPU 不够用，为什么不尝试在 AWS 的机器学习托管服务 Amazon SageMaker 上微调你的 Hugging Face 模型？咱们为你筹备了大量示例。

从编译器到虚拟机，软件工程师长期以来始终在应用可能针对任何运行硬件主动优化代码的工具。

然而，机器学习社区仍在这个课题上苦苦挣扎，这是有充沛理由的。优化模型的尺寸和速度是一项极其简单的工作，其中波及以下技术:

专用硬件加速: 如训练减速硬件 (Graphcore、Habana)、推理减速硬件 (Google TPU，AWS Inferentia)。
剪枝: 删除对预测后果影响很小或没有影响的模型参数。
交融: 合并模型层 (例如，卷积和激活)。
量化: 以较小的位深存储模型参数 (例如，应用 8 位而不是 32 位)

侥幸的是，自动化工具开始呈现，例如 Optimum 开源库和 Infinity，Infinity 是一个最低能以 1 毫秒的提早提供 Transformers 推理能力的容器化解决方案。

在过来的几年里，大语言模型的尺寸均匀每年增长 10 倍。这开始看起来像另一个摩尔定律。

这条路似曾相识，咱们应该晓得这条路迟早会遇到收益递加、成本增加、复杂性等问题以及新的危险。指数的终局往往不是会很好。还记得 Meltdown and Spectre 吗？咱们想晓得人工智能的 Meltdown and Spectre 会是什么吗？

英文原文: https://hf.co/blog/large-lang…

原作者: Julien Simon

译者: Matrix Yao (姚伟峰)，英特尔深度学习工程师，工作方向为 transformer-family 模型在各模态数据上的利用及大规模模型的训练推理。

审校、排版: zhongdongy (阿东)

关于人工智能:大语言模型-新的摩尔定律

这是你的深度学习大脑

深度学习，深度销金窟？

GPU 集群的热

所以呢？

应用预训练模型

应用较小的模型

微调模型

应用云基础设施

优化你的模型

论断