大型语言模型(LLM)是人工智能畛域中的一个重要钻研方向,在ChatGPT之后,它经验了疾速的倒退。这些倒退次要波及以下几个方面:

  1. 模型规模的增长:LLM的规模越来越大,参数数量显著减少。这种扩大使得模型可能解决更简单、更长的输出序列,并生成更精确、更具连贯性的输入。同时,更大规模的模型还可能涵盖更宽泛的常识和语言上下文,提供更全面的答复和解决方案。
  2. 畛域专精化:LLM在不同畛域的专精化失去了进一步的倒退。钻研人员通过对特定畛域的训练数据进行更多的优化,使得模型在特定畛域的问答、文本生成等工作中体现更杰出。这使得LLM可能为特定行业或业余畛域提供更精准的反对和征询。
  3. 晋升对语义了解和推理能力:钻研人员致力于进步LLM对语义了解和推理的能力。通过引入更多的上下文信息、关联常识和逻辑推理机制,LLM可能更好地了解简单问题,进行推理和剖析,并给出更深刻、精确的答复。
  4. 模型训练的效率和速度晋升:钻研人员提出了一系列技术来进步LLM的训练效率和推理速度。例如,采纳分布式训练方法,利用多台计算机进行并行训练,放慢模型收敛速度。此外,还有一些压缩和减速技术,能够在放弃性能的同时缩小模型的计算资源耗费。
  5. 了解和应答偏见:LLM的倒退也关注了如何更好地了解和应对模型中的偏见。钻研人员致力解决模型在生成后果时可能存在的性别、种族、文化等偏见问题,以确保模型的输入更加公正和中立。

本文将总结目前能见到的所有开源的大语言模型。

Falcon-40B-Instruct

Falcon-40B- instruct是TII基于Falcon-40B构建的40B参数因果解码器模型,在Baize上进行微调。

位于阿布扎比的技术创新研究所(TII)发表了其开源大型语言模型(LLM)——Falcon-40B。Falcon-40B领有400亿个参数,是阿联酋首个大型人工智能模型,表明了该国在人工智能畛域的雄心以及推动翻新和钻研的承诺。

与大多数llm(通常只向非商业用户提供拜访)不同,Falcon-40B对钻研和商业用途都凋谢。TII还将模型的权重蕴含在开源包中,这将加强模型的性能并容许更无效的微调。

自2023年3月亮相以来,Falcon-40B的体现令人印象粗浅。当应用斯坦福大学的HELM工具进行基准测试时,与OpenAI的GPT-3、DeepMind的Chinchilla AI和谷歌的PaLM-62B等其余出名模型相比,它应用的训练计算能力更少。

Vicuna

Vicuna是一个开源聊天机器人,通过从ShareGPT收集的用户共享对话进行训练。应用GPT-4作为评判的初步评估显示,Vicuna-13B的品质达到了OpenAI ChatGPT和Google Bard的90%以上,训练Vicuna-13B的费用约为300美元。代码和权重以及在线演示都是公开的,可供非商业用途。

在对Vicuna与70K用户共享的ChatGPT对话进行微调后,咱们发现与Alpaca相比,Vicuna可能生成更具体和构造良好的答案,品质与ChatGPT相当。

Vicuna是通过微调LLaMA根底模型创立的,该模型应用了从ShareGPT收集的大概70K用户共享对话和公共api。

训练也有以下改良。

内存优化:将最大上下文长度从512扩大到2048,通过利用梯度检查点和flash attention解决内存压力。

多轮对话:调整训练损失以思考多轮对话,并仅依据聊天机器人的输入计算微调损失。

通过Spot实例降低成本:应用SkyPilot治理的spot来降低成本,利用更便宜的spot实例来主动复原抢占和主动区域切换。这个解决方案将训练7B模型的老本从500美元削减到140美元左右,将训练13B模型的老本从1000美元左右削减到300美元左右。

Alpaca

Alpaca,在Meta的LLaMA 7B模型上进行了微调。应用text-davinci-003以自领导的形式生成52K指令追随LLaMA 模型。在评估集上,Alpaca体现出许多与OpenAI的text- davincic -003类似的行为,但然而他却十分的小,且易于地复制。

下图阐明了Alpaca是如何训练的。

应用HuggingFace的训练框架对LLaMA模型进行了微调,利用了齐全分片数据并行和混合准确训练等技术。在8台80GB的a100上微调7B LLaMA模型花了3个小时,在大多数云计算提供商那里,a100的老本不到100美元。

LLaMA

LLaMA(Large Language Model Meta AI),一个最先进的根底大型语言模型,旨在帮忙钻研人员推动他们在人工智能这一子畛域的工作。

与其余大型语言模型一样,LLaMA的工作形式是将单词序列作为输出,并预测下一个单词以递归地生成文本。从应用人数最多的20种语言中抉择了文本,重点关注那些带有拉丁和西里尔字母的语言

在大多数基准测试中,LLaMA- 13b优于GPT-3(175B),而LLaMA- 13b优于GPT-3(175B),而65B与Chinchilla-70B和PaLM-540B相似。

GPT J

gpt - j6b是应用Ben Wang的Mesh Transformer JAX训练的Transformer 模型。“GPT-J”示意模型的类别,“6B”示意可训练参数的个数。模型共28层,模型维数为4096,前馈维数为16384。模型维度被分成16个头,每个头的维度为256。该模型应用50257的标记化词汇表进行训练,应用与GPT-2/GPT-3雷同的bp集。该模型由EleutherAI公布。GPT-J的外围性能是获取一串文本并预测下一个令牌。

GPT-J是在Pile上训练的,这是一个已知蕴含亵渎、猥亵和其余粗犷语言的数据集。所以GPT-J可能会产生社会上不可承受的文本。

Dolly

Databricks的Dolly-V2-12B,一个在Databricks机器学习平台上训练的大型语言模型。基于Pythia-12B, Dolly承受了约15k条指令/响应调优记录,这些记录是由Databricks员工在基于InstructGPT论文畛域中生成的,包含头脑风暴、分类、关闭QA、生成、信息提取、凋谢QA和总结。

总结

大型语言模型在ChatGPT当前经验了疾速的倒退。这些倒退包含模型规模的减少、畛域专精化、语义了解和推理能力的晋升、训练效率和速度的进步,以及对偏见的了解和应答等方面。除了以上6个比拟好的开源大语言模型外,还有各种不同版本,所以HuggingFace创立了一个排行榜(leaderboard)

有趣味的能够看看:

https://avoid.overfit.cn/post/a4da1098db9d4bf4b00365b28c201db9

作者:Varun Mathur