关于人工智能:MosaicML-推出-30B-模型-挑战-LLaMAFalcon-和-GPT

MosaicML正在推出其第二个开源大型语言模型（LLM），称为MPT-30B，这是继五月份首次推出的较小的MPT-7B模型之后。

为了探讨新模型及其对开发人员的意义，我采访了MosaicML联结创始人兼首席执行官Naveen Rao。他之前的守业公司是Nervana，这是一家深度学习公司，于2016年被英特尔收买，所以他最近在人工智能行业并不重要。

顾名思义，MPT-30B是一个300亿参数模型。该公司宣称它在品质上超过了OpenAI的GPT-3，只管其参数数量约为1/6（GPT-3有1750亿个）。“这意味着MPT-30B更容易在本地硬件上运行，并且部署推理的老本要低得多，”该公司示意。

MosaicML vs. LLaMA 和 Falcon

MPT-30B比其余模型（包含GPT-3，LLaMA和Falcon（每个2，000个令牌）在更长的序列（最多8，000个令牌）上进行训练。依据MosaicML的说法，“它旨在在实践中解决更长的序列，使其非常适合数据密集型企业应用程序。

实际上，这意味着用户能够输出更长的提醒。事实上，MosaicML之前的7B参数模型带有一个微调选项，称为MPT-7B-StoryWriter-65k+，具备微小的65，000“上下文长度”。

“更长的上下文[长度]意味着更灵便的用法，”Rao说。“咱们将有微调的版本，特地适宜写散文——写更长的输入。

MosaicML平台;通过其公司博客

Rao想要强调的另一个区别是它的注意力机制。当谷歌在2017年发表其驰名的对于变压器技术的论文《注意力是你所须要的所有》（Attention Is All You Need）时，它指出，“多头自我留神”是为AI提供冲破的训练机制（OpenAI随后借用这一见解来构建GPT）。

“注意力是变压器模型的外在局部，”Rao解释道。“这实际上使他们可能看到一个句子，一个段落或整个文本语料库的分割。

Rao 通知我，MosaicML 应用了一种名为“闪光注意力”的技术，这是 2022 年一篇学术论文的主题。

“它使你可能更快地进行推理和训练 – Falcon和LLaMA都没有这个，”他说。“因而，从计算的角度来看，咱们的办法实际上效率更高。

Rao补充说，新模型更适宜企业应用，因为它“大小适合”以“适应理论硬件的限度”。他指出，深度学习GPU通常应用40-80千兆字节的内存。依据Rao的说法，开源的Falcon LLM正在与这种限度作奋斗。

“奇怪的是，他们公布的猎鹰模型是一个400亿参数模型。这不太适宜 80 GB GPU，因为它正好靠在边缘。

他补充说，它本人的300亿个参数模型更小，以便更好地针对GPU进行优化。“它并没有真正侵害咱们的性能，它将让你十分轻松地适应80-gGPU，”他说。

Rao宣称其新的30B参数模型在性能上也优于LLaMA和Falcon。

“因为咱们的效率办法，咱们实际上训练的计算比LLaMA和Falcon少。所以训练实际上要便宜得多。但咱们基本上是平价的。这取决于评估指标——比方，对于编码，这个模型实际上比这两个模型做得更好。在其余事件上，状况更糟。

当然，LLaMA和Falcon背地的人可能会对此提出异议。然而很难独立验证MosaicML的说法，因为Rao谈到的三个开源LLM我的项目（MosaicML，LLaMA或Falcon）都没有应用斯坦福大学的HELM措施进行测试。

MosaicML vs. OpenAI

那么MosaicML的模型与OpenAI的GPT-4相比如何呢？Rao 抵赖 GPT-4 在大多数方面的能力方面都更胜一筹。然而，他重申，MosaicML的模型提供了更长的上下文长度，这容许独特的用例 – 例如生成F. Scott Fitzgerald的驰名小说“了不起的盖茨比”的序幕。（题外话：作为一名前英国文学业余的学生，这是我最不想从法学硕士那里失去的货色！

Rao说，像GPT-4这样的大型模型的次要挑战是运行它们的高老本，这使得大多数企业都不切实际。MosaicML还专一于为具备特定数据（包含敏感数据）的公司提供服务，以微调其特定行业的模型。

在用例方面，Rao解释说，医疗保健和银行业等行业能够从MosaicML解释和汇总大量数据的能力中受害。例如，在医学畛域，该模型能够解释实验室后果，并通过剖析各种输出来提供对患者病史的见解。

Rao强调了开源模型在这些场景中的重要性，因为衰弱（或实际上是财务）数据的实质须要在防火墙前面进行平安解决，而不是通过API将其发送给OpenAI之类的公司。

开发人员如何应用 MosaicML

我问开发人员如何开始应用MosaicML的平台。Rao答复说，MosaicML提供了各种抉择，具体取决于开发人员的需要和专业知识。对于简略的集成，他们提供了一个相似于其余公司（如OpenAI）的API，容许开发人员轻松地将MosaicML的模型整合到他们的前端应用程序中。他宣称，与其余提供商的相似规模的模型相比，MosaicML的模型更具老本效益。

开发人员还能够抉择通过应用本人的数据对其进行微调来自定义 MosaicML 模型。他们能够下载模型、进行批改，并应用自定义版本创立本人的 API。

对于领有大量数据的高级开发人员，Rao示意，MosaicML的工具可用于从头开始预训练自定义模型，并应用MosaicML的平台为它们提供服务。

而后我问了MosaicML与风行的第三方工具（如LangChain）的兼容性。

“你通过LangChain取得的所有工具都能够与咱们的API一起应用，”他答复道。“真正酷的是，您能够在与咱们一起构建的自定义模型之上应用这些工具。因而，咱们基本上在定制方面为开发人员提供了令人难以置信的能力——甚至领有整个模型。您进入该模型的所有数据（权重，所有内容）都归您所有，因而能够齐全自定义。这就是咱们实现的指标。有了这些API提供商（如OpenAI），你失去的是你所失去的——零定制。

团队开源

只管在咱们的采访中谈到了LLaMA和Falcon，但最终Rao认为他们都在同一个团队中 – 而像OpenAI这样的专有平台才是真正的竞争对手。

“这使势力回到了企业开发人员手中，”他说，对于开源LLM，“将所有这些放在一个集中的中央，在那里你能够失去你失去的货色，这是一个很大的负面后果。

他还保持认为，开源LLM正在“放大与这些闭源模型的差距”。他抵赖，兴许还没有齐全，但他认为凋谢的LLM曾经“逾越了这些模型实际上十分有用的门槛”。

MosaicML推出30B模型 – 承受LLaMA，Falcon和GPT的帖子首先呈现在The New Stack上。

关于人工智能:MosaicML-推出-30B-模型-挑战-LLaMAFalcon-和-GPT

MosaicML vs. LLaMA 和 Falcon

MosaicML vs. OpenAI

开发人员如何应用 MosaicML

团队开源

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:MosaicML-推出-30B-模型-挑战-LLaMAFalcon-和-GPT

MosaicML vs. LLaMA 和 Falcon

MosaicML vs. OpenAI

开发人员如何应用 MosaicML

团队开源

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复