关于人工智能:开源大型语言模型llm总结

大型语言模型（LLM）是人工智能畛域中的一个重要钻研方向，在 ChatGPT 之后，它经验了疾速的倒退。这些倒退次要波及以下几个方面：

模型规模的增长：LLM 的规模越来越大，参数数量显著减少。这种扩大使得模型可能解决更简单、更长的输出序列，并生成更精确、更具连贯性的输入。同时，更大规模的模型还可能涵盖更宽泛的常识和语言上下文，提供更全面的答复和解决方案。
畛域专精化：LLM 在不同畛域的专精化失去了进一步的倒退。钻研人员通过对特定畛域的训练数据进行更多的优化，使得模型在特定畛域的问答、文本生成等工作中体现更杰出。这使得 LLM 可能为特定行业或业余畛域提供更精准的反对和征询。
晋升对语义了解和推理能力：钻研人员致力于进步 LLM 对语义了解和推理的能力。通过引入更多的上下文信息、关联常识和逻辑推理机制，LLM 可能更好地了解简单问题，进行推理和剖析，并给出更深刻、精确的答复。
模型训练的效率和速度晋升：钻研人员提出了一系列技术来进步 LLM 的训练效率和推理速度。例如，采纳分布式训练方法，利用多台计算机进行并行训练，放慢模型收敛速度。此外，还有一些压缩和减速技术，能够在放弃性能的同时缩小模型的计算资源耗费。
了解和应答偏见：LLM 的倒退也关注了如何更好地了解和应对模型中的偏见。钻研人员致力解决模型在生成后果时可能存在的性别、种族、文化等偏见问题，以确保模型的输入更加公正和中立。

本文将总结目前能见到的所有开源的大语言模型。

Falcon-40B- instruct 是 TII 基于 Falcon-40B 构建的 40B 参数因果解码器模型，在 Baize 上进行微调。

位于阿布扎比的技术创新研究所 (TII) 发表了其开源大型语言模型(LLM)——Falcon-40B。Falcon-40B 领有 400 亿个参数，是阿联酋首个大型人工智能模型，表明了该国在人工智能畛域的雄心以及推动翻新和钻研的承诺。

与大多数 llm(通常只向非商业用户提供拜访)不同，Falcon-40B 对钻研和商业用途都凋谢。TII 还将模型的权重蕴含在开源包中，这将加强模型的性能并容许更无效的微调。

自 2023 年 3 月亮相以来，Falcon-40B 的体现令人印象粗浅。当应用斯坦福大学的 HELM 工具进行基准测试时，与 OpenAI 的 GPT-3、DeepMind 的 Chinchilla AI 和谷歌的 PaLM-62B 等其余出名模型相比，它应用的训练计算能力更少。

Vicuna 是一个开源聊天机器人，通过从 ShareGPT 收集的用户共享对话进行训练。应用 GPT- 4 作为评判的初步评估显示，Vicuna-13B 的品质达到了 OpenAI ChatGPT 和 Google Bard 的 90% 以上，训练 Vicuna-13B 的费用约为 300 美元。代码和权重以及在线演示都是公开的，可供非商业用途。

在对 Vicuna 与 70K 用户共享的 ChatGPT 对话进行微调后，咱们发现与 Alpaca 相比，Vicuna 可能生成更具体和构造良好的答案，品质与 ChatGPT 相当。

Vicuna 是通过微调 LLaMA 根底模型创立的，该模型应用了从 ShareGPT 收集的大概 70K 用户共享对话和公共 api。

训练也有以下改良。

内存优化: 将最大上下文长度从 512 扩大到 2048，通过利用梯度检查点和 flash attention 解决内存压力。

多轮对话: 调整训练损失以思考多轮对话，并仅依据聊天机器人的输入计算微调损失。

通过 Spot 实例降低成本: 应用 SkyPilot 治理的 spot 来降低成本，利用更便宜的 spot 实例来主动复原抢占和主动区域切换。这个解决方案将训练 7B 模型的老本从 500 美元削减到 140 美元左右，将训练 13B 模型的老本从 1000 美元左右削减到 300 美元左右。

Alpaca，在 Meta 的 LLaMA 7B 模型上进行了微调。应用 text-davinci-003 以自领导的形式生成 52K 指令追随 LLaMA 模型。在评估集上，Alpaca 体现出许多与 OpenAI 的 text- davincic -003 类似的行为，但然而他却十分的小，且易于地复制。

下图阐明了 Alpaca 是如何训练的。

应用 HuggingFace 的训练框架对 LLaMA 模型进行了微调，利用了齐全分片数据并行和混合准确训练等技术。在 8 台 80GB 的 a100 上微调 7B LLaMA 模型花了 3 个小时，在大多数云计算提供商那里，a100 的老本不到 100 美元。

LLaMA(Large Language Model Meta AI)，一个最先进的根底大型语言模型，旨在帮忙钻研人员推动他们在人工智能这一子畛域的工作。

与其余大型语言模型一样，LLaMA 的工作形式是将单词序列作为输出，并预测下一个单词以递归地生成文本。从应用人数最多的 20 种语言中抉择了文本，重点关注那些带有拉丁和西里尔字母的语言

在大多数基准测试中，LLaMA- 13b 优于 GPT-3(175B)，而 LLaMA- 13b 优于 GPT-3(175B)，而 65B 与 Chinchilla-70B 和 PaLM-540B 相似。

gpt – j6b 是应用 Ben Wang 的 Mesh Transformer JAX 训练的 Transformer 模型。“GPT-J”示意模型的类别，“6B”示意可训练参数的个数。模型共 28 层，模型维数为 4096，前馈维数为 16384。模型维度被分成 16 个头，每个头的维度为 256。该模型应用 50257 的标记化词汇表进行训练，应用与 GPT-2/GPT- 3 雷同的 bp 集。该模型由 EleutherAI 公布。GPT- J 的外围性能是获取一串文本并预测下一个令牌。

GPT- J 是在 Pile 上训练的，这是一个已知蕴含亵渎、猥亵和其余粗犷语言的数据集。所以 GPT- J 可能会产生社会上不可承受的文本。

Databricks 的 Dolly-V2-12B，一个在 Databricks 机器学习平台上训练的大型语言模型。基于 Pythia-12B, Dolly 承受了约 15k 条指令 / 响应调优记录，这些记录是由 Databricks 员工在基于 InstructGPT 论文畛域中生成的，包含头脑风暴、分类、关闭 QA、生成、信息提取、凋谢 QA 和总结。

大型语言模型在 ChatGPT 当前经验了疾速的倒退。这些倒退包含模型规模的减少、畛域专精化、语义了解和推理能力的晋升、训练效率和速度的进步，以及对偏见的了解和应答等方面。除了以上 6 个比拟好的开源大语言模型外，还有各种不同版本，所以 HuggingFace 创立了一个排行榜（leaderboard）

有趣味的能够看看：

https://avoid.overfit.cn/post/a4da1098db9d4bf4b00365b28c201db9

作者：Varun Mathur

关于人工智能:开源大型语言模型llm总结

Falcon-40B-Instruct

Vicuna

Alpaca

LLaMA

GPT J

Dolly

总结