共计 1350 个字符,预计需要花费 4 分钟才能阅读完成。
大语言模型 (Large Language Model, LLM),旨在了解和生成人类语言。在大量文本数据上进行训练,可执行宽泛的工作,包含文本总结、翻译、情感剖析等等。往年爆火出圈的 ChatGPT 即为一个大语言模型,而 LIama-2 的呈现又为 LLM 市场带来了一些「震撼」。
Llama-2 模型
7 月 18 日,Meta 与微软联手公布了 收费、可间接商用 的 LLM 模型——Llama2。Facebook 人工智能研究院首席科学家、图灵奖得主 Yann LeCun 示意:“This is going to change the landscape of the LLM market”,给足了用户神秘感。
Llama-2 是一组通过预训练和微调的生成文本模型,参数范畴从 70 亿到 700 亿。通过微调的 LLM,称为 Llama-2-Chat。在官网形容中 Llama-2-Chat 在大多数基准测试中都 优于 开源聊天模型,与 ChatGPT 和 PaLM 等一些风行的关闭源代码模型 并驾齐驱 。[1] 与此同时,使用者能够间接向 AWS、Hugging Face 申请来取得模型的下载链接。
与此同时,最近大火的 AI agent 也能够利用在 Llama-2 上。AI Agent 艰深来讲就是 LLM(大语言模型)Agent。LLM Agent 能够被了解为一种智能助手,能够连贯泛滥数据源,并通过 API 与环境进行交互。相当于一个能够自行执行工作的机器人。AI agent 能够应用各种工具来帮忙你实现工作。咱们甚至能够设计和创立本人的自定义工具,让 agent 更好的服务咱们的工作。
Llama-2 Notebook
无需期待,在本期中,咱们为你带来了轻松上手的 Llama-2-7B 大语言模型以及联合 Langchain 打造 AI agent 的 两篇 Notebook。
应用公有部署的 LLM,一方面无需期待网络提早,不受供应商的申请或频率限度,享受更晦涩的对话体验;另一方面,你能够通过微调来基本上定制你的模型角色,以进步模型的准确性和相关性,并无效地爱护了你的数据。
这篇 Notebook 中无需读者下载模型、设置参数,只需点击一键运行,一分钟就能胜利部署,并应用在线对话框与你的 Llama2 模型对话。点击下方图片,即刻感触专属于你的「AI 助手」:
与此同时,在上面这篇 Notebook 中咱们将会应用 Langchain 与 Llama-2-7B 相结合打造一个 AI agent,用户能够通过设置工具的性能形容来批改 agent 的性能,以实现更定制化的性能:
Tips|大语言模型的诞生之路
训练大语言模型的过程通常分为两个次要步骤:预训练和微调。
- 在预训练阶段,模型会从一个微小的、多样化的数据集中进行学习,这个数据集通常蕴含来自不同起源的数十亿个词汇,例如网站、书籍和文章。这个阶段容许模型学习个别的语言模式和表征。
- 在微调阶段,模型会在与指标工作或畛域相干的更具体、更小的数据集上进行进一步的训练。这有助于模型微调其了解,并适应工作的特殊要求。
图|近年来现有大型语言模型(大于 10B)的工夫图(黄色局部为开源模型)
Source: https://arxiv.org/abs/2303.18223
Reference
[1] https://huggingface.co/meta-llama/Llama-2-13b-chat-hf