关于人工智能:触手可及的-GPT-LLaMA

46次阅读

共计 1685 个字符,预计需要花费 5 分钟才能阅读完成。

出品人:Towhee 技术团队

最近几个月 ChatGPT 的呈现引起宽泛的关注和探讨,它在许多畛域中的体现都超过了人类的程度。它能够生成人类级别的语言,并且可能在不同的工作中学习和适应,让人们对人工智能的将来充斥了心愿和神往。

ChatGPT 之所以体现如此杰出,得依附于 ChatGPT 所依赖的底层模型(GPT 系列),过后 GPT-3 的 few-shot 能力就曾经开始让人们震惊于 in-context learning 居然能够领有这么强的学习能力,有种种证据表明,GPT 曾经万事俱备(学习到了大量常识),只欠东风(不足适合的形式将其 prompt 进去)。

然而 OpenAI 对于 GPT-2 之后的模型就不再开源,NLP 学术界如果没有一个能力足够强,足够高效,而且能受到宽泛认可的大模型底座,那只能看着这波大模型新的浪潮望洋兴叹。

尽管也有一些开源的大模型(例如 OPT,BLOOM),但真的大模型大家也跑不动。其实大家想要的还是小的大模型,好在沉迷于元宇宙已久的 Meta 推出了 LLaMA(美洲驼)[1] 系列模型来补上了这个缺口,该系列模型有四个版本(7B,13B,33B,65B),而且都是在超过 trillions tokens 的公开数据集上训练的,能够说就是为了 benchmark 而生的。

(训练所应用的数据集)

从模型的构造上来说,LLaMA 应用了这些年的大模型改良技术:

1)应用 pre-normalization(GPT-3)来进步模型训练的稳定性
2)应用 SwiGLU 激活函数代替 ReLU(PaLM)
3)应用 Rotary Embeddings 来代替相对地位 embeddings(GPTNeo)

应用这种模型,Meta 用了 2048 块 A100 在 1.4T 的 token 上训练 65-B 版本的模型,花了大概 21 天。

(LLaMA 与其余类似类型的大模型在数据集上的比拟)

接下来文章花了很多篇幅进行了各种工作上的比照,但从上表来看,作为大型语言模型,LLaMA 还是和各种不开源的大模型是处于同一个程度的,尤其是 7B 和 13B 两个模型体现出了惊人的性价比,毫无疑问的会成为作为学术圈内各种上游试验的闪亮明星。

当初斯坦福大学的 tatsu-lab 实验室当初利用了开源的 LLaMA 给出了残缺的上游 finetune 计划,即 stanford alpaca(羊驼)[2]。stanford alpaca 我的项目应用 ChatGPT 生成了 52k 的训练数据,只 finetune 了 7B 模型,就达到了相似 ChatGPT 的成果,因为有了 ChatGPT 提供的高质量问答式监督数据,整个工作流十分的直观。配合着应用着 bitsandbytes 来进行 int8 减速 LLaMA 的我的项目 [3],就能够端到端的实现一个个人版的 ChatGPT。

另一条线是应用更经济的 finetune 计划,就是近期也在 finetune stable-diffusion 中大红大紫的 LoRA 开发的 alpaca-lora[4],这个我的项目能够在一块 RTX 4090 上 finetune 几小时就能够失去一个和 stanford alpaca 相比的模型,能够说是真正的旧时王谢堂前燕,飞入寻常百姓家。曾经有多个语言版本的 alpaca-lora 曾经在社区中被分享。而 LoRA 对于大模型小数据的良好体现让这个计划也显示出了很大的后劲。

(钢铁侠与 alpaca)

LLaMA 让能够与 GPT 相比的能力能够宽泛的被遍及,而且社区内曾经认可了应用 LLaMA 进行开发的后劲,也让经费没有工业界那么富余的学术界能够充沛参加这一次 AI 重大的时机。随着针对 LLaMA 训练和推理效率的一直优化,兴许人人都能够领有一个像钢铁侠中的 JARVIS 一样的定制化的 AI 助理。

[1]https://github.com/facebookresearch/llama
[2]https://github.com/tatsu-lab/stanford_alpaca
[3]https://github.com/tloen/llama-int8
[4]https://github.com/tloen/alpaca-lora

本文由 mdnice 多平台公布

正文完
 0