关于算法:LLaMA模型微调版本-Vicuna-和-Stable-Vicuna-解读

7次阅读

共计 1266 个字符,预计需要花费 4 分钟才能阅读完成。

Vicuna 和 StableVicuna 都是 LLaMA 的微调版本,均遵循 CC BY-NC-SA-4.0 协定,性能方面 Stable 版本更好些。

CC BY-NC-SA-4.0 是一种常识共享许可协定,其全称为 ” 署名 - 非商业性应用 - 雷同形式共享 4.0 国内 ”。

即 用的时候要署名原作者,不能商用,上游应用也必须是雷同的共享准则。

Vicuna

Vicuna(小羊驼、骆马)是 LLaMA 的指令微调版本模型,来自 UC 伯克利,代表模型为 Vicuna-13B。

  • 博客:Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality
  • 我的项目代码:https://github.com/lm-sys/FastChat
  • 评估办法 Paper:https://arxiv.org/pdf/2306.05685.pdf

训练过程

用 ShareGPT 网站的用户分享的 ChatGPT 对话记录,70k 条对话数据对 LLaMA 进行监督品质微调训练,性能超过了 LLaMa 和 Stanford Alpaca,达到了与 ChatGPT 类似的程度。

  1. 从 ShareGPT 上扒了 70k 对话语料,将 HTML 数据转化为 markdown 并对不适合、低质量的样本进行了过滤,同时对比拟长的数据进行了切分,来适应模型的上下文长度;
  2. 用 Alpaca 的代码进行多轮对话训练,应用 8 -A100,基于 Pytorch FSDP 训练框架训一天;

    1. 多轮对话训练:工作还是 next token prediction,同时 loss 只计算文本中 chatbot 输入的局部;
    2. 显存优化:将最大上下文长度从 alpac 的 512 调整为 2048,而后用 gradient checkpointing 和 flash attention 进行了显存节俭。
    3. 省钱:作者应用 SkyPilot 的算力计算的,就应用了 SkyPilot managed spot 来降低成本,利用更便宜的 spot 实例来主动复原抢占和主动区域切换。13B 模型能从 $1K 节俭到 $300。
  3. 在评估模型方面,之前的评估形式对当初的对话模型不再实用了,作者用 MT-Betch 一个多轮对话数据集ChatBot Arena(聊天机器人竞技场)的众包平台 进行评估。众包平台上是实在的用户来进行打分,另外因为 GPT- 4 是基于强化学习与人类反馈(RLHF)训练进去的模型,具备较好的与人对齐的能力,所以作者用 GPT- 4 也代替人 对其余模型进行评判,从而节省成本。具体可作者论文 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena。

现有有余

  1. 推理能力、数学能力有余;
  2. 自我感知能力不够、幻觉问题依然存在;
  3. 模型自身可能存在潜在的偏见(比方某些舆论不正确,毕竟数据集决定了模型的立场)

Stable Vicuna

Stable Vicuna: https://github.com/Stability-AI/StableLM

基于 Vicuna-13B v0 的 RLHF 微调版本,由 StabilityAI 公布。没有训练细节纰漏,但应该比 Vicuna 要更优一些。

正文完
 0