MosaicML 正在推出其第二个开源大型语言模型(LLM),称为 MPT-30B,这是继五月份首次推出的较小的 MPT-7B 模型之后。
为了探讨新模型及其对开发人员的意义,我采访了 MosaicML 联结创始人兼首席执行官 Naveen Rao。他之前的守业公司是 Nervana,这是一家深度学习公司,于 2016 年被英特尔收买,所以他最近在人工智能行业并不重要。
顾名思义,MPT-30B 是一个 300 亿参数模型。该公司宣称它在品质上超过了 OpenAI 的 GPT-3,只管其参数数量约为 1 /6(GPT- 3 有 1750 亿个)。“这意味着 MPT-30B 更容易在本地硬件上运行,并且部署推理的老本要低得多,”该公司示意。
MosaicML vs. LLaMA 和 Falcon
MPT-30B 比其余模型(包含 GPT-3,LLaMA 和 Falcon(每个 2,000 个令牌)在更长的序列(最多 8,000 个令牌)上进行训练。依据 MosaicML 的说法,“它旨在在实践中解决更长的序列,使其非常适合数据密集型企业应用程序。
实际上,这意味着用户能够输出更长的提醒。事实上,MosaicML 之前的 7B 参数模型带有一个微调选项,称为 MPT-7B-StoryWriter-65k+,具备微小的 65,000“上下文长度”。
“更长的上下文 [长度] 意味着更灵便的用法,”Rao 说。“咱们将有微调的版本,特地适宜写散文——写更长的输入。
MosaicML 平台; 通过其公司博客
Rao 想要强调的另一个区别是它的注意力机制。当谷歌在 2017 年发表其驰名的对于变压器技术的论文《注意力是你所须要的所有》(Attention Is All You Need)时,它指出,“多头自我留神”是为 AI 提供冲破的训练机制(OpenAI 随后借用这一见解来构建 GPT)。
“注意力是变压器模型的外在局部,”Rao 解释道。“这实际上使他们可能看到一个句子,一个段落或整个文本语料库的分割。
Rao 通知我,MosaicML 应用了一种名为“闪光注意力”的技术,这是 2022 年一篇学术论文的主题。
“它使你可能更快地进行推理和训练 – Falcon 和 LLaMA 都没有这个,”他说。“因而,从计算的角度来看,咱们的办法实际上效率更高。
Rao 补充说,新模型更适宜企业应用,因为它“大小适合”以“适应理论硬件的限度”。他指出,深度学习 GPU 通常应用 40-80 千兆字节的内存。依据 Rao 的说法,开源的 Falcon LLM 正在与这种限度作奋斗。
“奇怪的是,他们公布的猎鹰模型是一个 400 亿参数模型。这不太适宜 80 GB GPU,因为它正好靠在边缘。
他补充说,它本人的 300 亿个参数模型更小,以便更好地针对 GPU 进行优化。“它并没有真正侵害咱们的性能,它将让你十分轻松地适应 80-gGPU,”他说。
Rao 宣称其新的 30B 参数模型在性能上也优于 LLaMA 和 Falcon。
“因为咱们的效率办法,咱们实际上训练的计算比 LLaMA 和 Falcon 少。所以训练实际上要便宜得多。但咱们基本上是平价的。这取决于评估指标——比方,对于编码,这个模型实际上比这两个模型做得更好。在其余事件上,状况更糟。
当然,LLaMA 和 Falcon 背地的人可能会对此提出异议。然而很难独立验证 MosaicML 的说法,因为 Rao 谈到的三个开源 LLM 我的项目(MosaicML,LLaMA 或 Falcon)都没有应用斯坦福大学的 HELM 措施进行测试。
MosaicML vs. OpenAI
那么 MosaicML 的模型与 OpenAI 的 GPT- 4 相比如何呢?Rao 抵赖 GPT-4 在大多数方面的能力方面都更胜一筹。然而,他重申,MosaicML 的模型提供了更长的上下文长度,这容许独特的用例 – 例如生成 F. Scott Fitzgerald 的驰名小说“了不起的盖茨比”的序幕。(题外话:作为一名前英国文学业余的学生,这是我最不想从法学硕士那里失去的货色!
Rao 说,像 GPT- 4 这样的大型模型的次要挑战是运行它们的高老本,这使得大多数企业都不切实际。MosaicML 还专一于为具备特定数据(包含敏感数据)的公司提供服务,以微调其特定行业的模型。
在用例方面,Rao 解释说,医疗保健和银行业等行业能够从 MosaicML 解释和汇总大量数据的能力中受害。例如,在医学畛域,该模型能够解释实验室后果,并通过剖析各种输出来提供对患者病史的见解。
Rao 强调了开源模型在这些场景中的重要性,因为衰弱(或实际上是财务)数据的实质须要在防火墙前面进行平安解决,而不是通过 API 将其发送给 OpenAI 之类的公司。
开发人员如何应用 MosaicML
我问开发人员如何开始应用 MosaicML 的平台。Rao 答复说,MosaicML 提供了各种抉择,具体取决于开发人员的需要和专业知识。对于简略的集成,他们提供了一个相似于其余公司(如 OpenAI)的 API,容许开发人员轻松地将 MosaicML 的模型整合到他们的前端应用程序中。他宣称,与其余提供商的相似规模的模型相比,MosaicML 的模型更具老本效益。
开发人员还能够抉择通过应用本人的数据对其进行微调来自定义 MosaicML 模型。他们能够下载模型、进行批改,并应用自定义版本创立本人的 API。
对于领有大量数据的高级开发人员,Rao 示意,MosaicML 的工具可用于从头开始预训练自定义模型,并应用 MosaicML 的平台为它们提供服务。
而后我问了 MosaicML 与风行的第三方工具(如 LangChain)的兼容性。
“你通过 LangChain 取得的所有工具都能够与咱们的 API 一起应用,”他答复道。“真正酷的是,您能够在与咱们一起构建的自定义模型之上应用这些工具。因而,咱们基本上在定制方面为开发人员提供了令人难以置信的能力——甚至领有整个模型。您进入该模型的所有数据(权重,所有内容)都归您所有,因而能够齐全自定义。这就是咱们实现的指标。有了这些 API 提供商(如 OpenAI),你失去的是你所失去的——零定制。
团队开源
只管在咱们的采访中谈到了 LLaMA 和 Falcon,但最终 Rao 认为他们都在同一个团队中 – 而像 OpenAI 这样的专有平台才是真正的竞争对手。
“这使势力回到了企业开发人员手中,”他说,对于开源 LLM,“将所有这些放在一个集中的中央,在那里你能够失去你失去的货色,这是一个很大的负面后果。
他还保持认为,开源 LLM 正在“放大与这些闭源模型的差距”。他抵赖,兴许还没有齐全,但他认为凋谢的 LLM 曾经“逾越了这些模型实际上十分有用的门槛”。
MosaicML 推出 30B 模型 – 承受 LLaMA,Falcon 和 GPT 的帖子首先呈现在 The New Stack 上。