关于人工智能:触手可及的-GPT-LLaMA

67次阅读

共计 1685 个字符，预计需要花费 5 分钟才能阅读完成。

出品人：Towhee 技术团队

最近几个月 ChatGPT 的呈现引起宽泛的关注和探讨，它在许多畛域中的体现都超过了人类的程度。它能够生成人类级别的语言，并且可能在不同的工作中学习和适应，让人们对人工智能的将来充斥了心愿和神往。

ChatGPT 之所以体现如此杰出，得依附于 ChatGPT 所依赖的底层模型（GPT 系列），过后 GPT-3 的 few-shot 能力就曾经开始让人们震惊于 in-context learning 居然能够领有这么强的学习能力，有种种证据表明，GPT 曾经万事俱备（学习到了大量常识），只欠东风（不足适合的形式将其 prompt 进去）。

然而 OpenAI 对于 GPT-2 之后的模型就不再开源，NLP 学术界如果没有一个能力足够强，足够高效，而且能受到宽泛认可的大模型底座，那只能看着这波大模型新的浪潮望洋兴叹。

尽管也有一些开源的大模型（例如 OPT，BLOOM），但真的大模型大家也跑不动。其实大家想要的还是小的大模型，好在沉迷于元宇宙已久的 Meta 推出了 LLaMA（美洲驼）[1] 系列模型来补上了这个缺口，该系列模型有四个版本（7B，13B，33B，65B），而且都是在超过 trillions tokens 的公开数据集上训练的，能够说就是为了 benchmark 而生的。

（训练所应用的数据集）

从模型的构造上来说，LLaMA 应用了这些年的大模型改良技术:

1）应用 pre-normalization（GPT-3）来进步模型训练的稳定性
2）应用 SwiGLU 激活函数代替 ReLU（PaLM）
3）应用 Rotary Embeddings 来代替相对地位 embeddings（GPTNeo）

应用这种模型，Meta 用了 2048 块 A100 在 1.4T 的 token 上训练 65-B 版本的模型，花了大概 21 天。

（LLaMA 与其余类似类型的大模型在数据集上的比拟）

接下来文章花了很多篇幅进行了各种工作上的比照，但从上表来看，作为大型语言模型，LLaMA 还是和各种不开源的大模型是处于同一个程度的，尤其是 7B 和 13B 两个模型体现出了惊人的性价比，毫无疑问的会成为作为学术圈内各种上游试验的闪亮明星。

当初斯坦福大学的 tatsu-lab 实验室当初利用了开源的 LLaMA 给出了残缺的上游 finetune 计划，即 stanford alpaca（羊驼）[2]。stanford alpaca 我的项目应用 ChatGPT 生成了 52k 的训练数据，只 finetune 了 7B 模型，就达到了相似 ChatGPT 的成果，因为有了 ChatGPT 提供的高质量问答式监督数据，整个工作流十分的直观。配合着应用着 bitsandbytes 来进行 int8 减速 LLaMA 的我的项目 [3]，就能够端到端的实现一个个人版的 ChatGPT。

另一条线是应用更经济的 finetune 计划，就是近期也在 finetune stable-diffusion 中大红大紫的 LoRA 开发的 alpaca-lora[4]，这个我的项目能够在一块 RTX 4090 上 finetune 几小时就能够失去一个和 stanford alpaca 相比的模型，能够说是真正的旧时王谢堂前燕，飞入寻常百姓家。曾经有多个语言版本的 alpaca-lora 曾经在社区中被分享。而 LoRA 对于大模型小数据的良好体现让这个计划也显示出了很大的后劲。

（钢铁侠与 alpaca）

LLaMA 让能够与 GPT 相比的能力能够宽泛的被遍及，而且社区内曾经认可了应用 LLaMA 进行开发的后劲，也让经费没有工业界那么富余的学术界能够充沛参加这一次 AI 重大的时机。随着针对 LLaMA 训练和推理效率的一直优化，兴许人人都能够领有一个像钢铁侠中的 JARVIS 一样的定制化的 AI 助理。

[1]https://github.com/facebookresearch/llama
[2]https://github.com/tatsu-lab/stanford_alpaca
[3]https://github.com/tloen/llama-int8
[4]https://github.com/tloen/alpaca-lora

本文由 mdnice 多平台公布

正文完