引言
咱们很快乐地发表由 Technology Innovation Institute (TII) 训练的开源大模型 Falcon 180B 登陆 Hugging Face! Falcon 180B 为开源大模型建立了全新的标杆。作为以后最大的开源大模型,有 180B 参数并且是在在 3.5 万亿 token 的 TII RefinedWeb 数据集上进行训练,这也是目前开源模型里最长的单波段预训练。
你能够在 Hugging Face Hub 中查阅模型以及其 Space 利用。
模型:
https://hf.co/tiiuae/falcon-180B
https://hf.co/tiiuae/falcon-180B-chat
Space 利用地址:
https://hf.co/spaces/tiiuae/falcon-180b-demo
从体现能力上来看,Falcon 180B 在自然语言工作上的体现非常优良。它在开源模型排行榜 (预训练) 上名落孙山,并可与 PaLM-2 等专有模型相差无几。尽管目前还很难给出明确的排名,但它被认为与 PaLM-2 Large 并驾齐驱,这也使得它成为目前公开的能力最强的 LLM 之一。
咱们将在本篇博客中通过评测后果来探讨 Falcon 180B 的劣势所在,并展现如何应用该模型。
Falcon 180B 是什么?
从架构维度来看,Falcon 180B 是 Falcon 40B 的降级版本,并在其根底上进行了翻新,比方利用 Multi-Query Attention 等来进步模型的可扩展性。能够通过回顾 Falcon 40B 的博客 Falcon 40B 来理解其架构。Falcon 180B 是应用 Amazon SageMaker 在多达 4096 个 GPU 上同时对 3.5 万亿个 token 进行训练,总共破费了约 7,000,000 个 GPU 计算时,这意味着 Falcon 180B 的规模是 Llama 2 的 2.5 倍,而训练所需的计算量是 Llama 2 的 4 倍。
其训练数据次要来自 RefinedWeb 数据集 (大概占 85%),此外,它还在对话、技术论文和一小部分代码 (约占 3%) 等通过整顿的混合数据的根底上进行了训练。这个预训练数据集足够大,即便是 3.5 万亿个标记也只占不到一个期间 (epoch)。
已公布的 聊天模型 在对话和指令数据集上进行了微调,混合了 Open-Platypus、UltraChat 和 Airoboros 数据集。
‼️ 商业用途: Falcon 180b 可用于商业用途,但条件十分严格,不包含任何“托管用处”。如果您有趣味将其用于商业用途,咱们建议您查看 许可证 并征询您的法律团队。
Falcon 180B 的劣势是什么?
Falcon 180B 是以后最好的开源大模型。在 MMLU 上 的体现超过了 Llama 2 70B 和 OpenAI 的 GPT-3.5。在 HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC 及 ReCoRD 上与谷歌的 PaLM 2-Large 并驾齐驱。
它在 Hugging Face 开源大模型榜单上以 68.74 的问题被认为是以后评分最高的开放式大模型,评分超过了 Meta 的 LlaMA 2 (67.35)。
Model | Size | Leaderboard score | Commercial use or license | Pretraining length |
---|---|---|---|---|
Falcon | 180B | 68.74 | 🟠 | 3,500B |
Llama 2 | 70B | 67.35 | 🟠 | 2,000B |
LLaMA | 65B | 64.23 | 🔴 | 1,400B |
Falcon | 40B | 61.48 | 🟢 | 1,000B |
MPT | 30B | 56.15 | 🟢 | 1,000B |
如何应用 Falcon 180B?
从 Transfomers 4.33 开始,Falcon 180B 能够在 Hugging Face 生态中应用和下载。
Demo
你能够在 这个 Hugging Face Space 或以下场景中体验 Falcon 180B 的 demo。
硬件要求
类型 | 品种 | 最低要求 | 配置示例 | |
---|---|---|---|---|
Falcon 180B | Training | Full fine-tuning | 5120GB | 8x 8x A100 80GB |
Falcon 180B | Training | LoRA with ZeRO-3 | 1280GB | 2x 8x A100 80GB |
Falcon 180B | Training | QLoRA | 160GB | 2x A100 80GB |
Falcon 180B | Inference | BF16/FP16 | 640GB | 8x A100 80GB |
Falcon 180B | Inference | GPTQ/int4 | 320GB | 8x A100 40GB |
Prompt 格局
其根底模型没有 Prompt 格局,因为它并不是一个对话型大模型也不是通过指令进行的训练,所以它并不会以对话模式回应。预训练模型是微调的绝佳平台,但或者你不该间接应用。其对话模型则设有一个简略的对话模式。
System: Add an optional system prompt here
User: This is the user input
Falcon: This is what the model generates
User: This might be a second turn input
Falcon: and so on
Transformers
随着 Transfomers 4.33 公布,你能够在 Hugging Face 上应用 Falcon 180B 并且借助 HF 生态里的所有工具,比方:
训练和推理脚本及示例
平安文件格式 (safetensor)
与 bitsandbytes (4 位量化)、PEFT (参数高效微调) 和 GPTQ 等工具集成
辅助生成 (也称为“揣测解码”)
RoPE 扩大反对更大的上下文长度
丰盛而弱小的生成参数
在应用这个模型之前,你须要承受它的许可证和应用条款。请确保你曾经登录了本人的 Hugging Face 账号,并装置了最新版本的 transformers:
pip install --upgrade transformers
huggingface-cli login
bfloat16
以下是如何在 bfloat16
中应用根底模型的办法。Falcon 180B 是一个大型模型,所以请留神它的硬件要求。
from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch
model_id = "tiiuae/falcon-180B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
prompt = "My name is Pedro, I live in"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
output = model.generate(input_ids=inputs["input_ids"],
attention_mask=inputs["attention_mask"],
do_sample=True,
temperature=0.6,
top_p=0.9,
max_new_tokens=50,
)
output = output[0].to("cpu")
print(tokenizer.decode(output)
这可能会产生如下输入后果:
My name is Pedro, I live in Portugal and I am 25 years old. I am a graphic designer, but I am also passionate about photography and video.
I love to travel and I am always looking for new adventures. I love to meet new people and explore new places.
应用 8 位和 4 位的 bitsandbytes
Falcon 180B 的 8 位和 4 位量化版本在评估方面与 bfloat16
简直没有差异!这对推理来说是个好消息,因为你能够释怀地应用量化版本来升高硬件要求。请记住,在 8 位版本进行推理要比 4 位版本快得多。
要应用量化,你须要装置“bitsandbytes”库,并在加载模型时启用相应的标记:
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
**load_in_8bit=True,**
device_map="auto",
)
对话模型
如上所述,为跟踪对话而微调的模型版本应用了十分间接的训练模板。咱们必须遵循同样的模式能力运行聊天式推理。作为参考,你能够看看聊天演示中的 format_prompt
函数:
def format_prompt(message, history, system_prompt):
prompt = ""
if system_prompt:
prompt += f"System: {system_prompt}\n"
for user_prompt, bot_response in history:
prompt += f"User: {user_prompt}\n"
prompt += f"Falcon: {bot_response}\n"
prompt += f"User: {message}\nFalcon:"
return prompt
如你所见,用户的交互和模型的回应后面都有 User:
和 Falcon:
分隔符。咱们将它们连贯在一起,造成一个蕴含整个对话历史的提醒。咱们能够提供一个零碎提醒来调整生成格调。
其余资源
- 模型页面
- Space 利用
- Falcon 180B 已登陆 Hugging Face 生态系统 (本文)
- 官网布告
鸣谢
在咱们的生态中公布并继续反对与评估这样一个模型离不开泛滥社区成员的奉献,这其中包含 Clémentine 和 Eleuther Evaluation Harness 对 LLM 的评估; Loubna 与 BigCode 对代码的评估; Nicolas 对推理方面的反对; Lysandre、Matt、Daniel、Amy、Joao 和 Arthur 将 Falcon 集成到 transformers 中。感激 Baptiste 和 Patrick 编写开源示例。感激 Thom、Lewis、TheBloke、Nouamane 和 Tim Dettmers 大力奉献让这些能公布。最初,感激 HF Cluster 为运行 LLM 推理和一个开源收费的模型 demo 提供的大力支持。