Vicuna和StableVicuna都是LLaMA的微调版本,均遵循CC BY-NC-SA-4.0协定,性能方面Stable版本更好些。

CC BY-NC-SA-4.0是一种常识共享许可协定,其全称为"署名-非商业性应用-雷同形式共享 4.0 国内"。

即 用的时候要署名原作者,不能商用,上游应用也必须是雷同的共享准则。

Vicuna

Vicuna(小羊驼、骆马)是LLaMA的指令微调版本模型,来自UC伯克利,代表模型为Vicuna-13B。

  • 博客:Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality
  • 我的项目代码:https://github.com/lm-sys/FastChat
  • 评估办法Paper:https://arxiv.org/pdf/2306.05685.pdf

训练过程

用ShareGPT网站的用户分享的ChatGPT对话记录,70k条对话数据对 LLaMA进行监督品质微调训练,性能超过了LLaMa和Stanford Alpaca,达到了与ChatGPT类似的程度。

  1. 从ShareGPT上扒了70k对话语料,将HTML数据转化为markdown并对不适合、低质量的样本进行了过滤,同时对比拟长的数据进行了切分,来适应模型的上下文长度;
  2. 用Alpaca的代码进行多轮对话训练,应用8-A100,基于Pytorch FSDP训练框架训一天;

    1. 多轮对话训练:工作还是next token prediction,同时loss只计算文本中chatbot输入的局部;
    2. 显存优化:将最大上下文长度从alpac的512调整为2048,而后用 gradient checkpointing 和 flash attention 进行了显存节俭。
    3. 省钱:作者应用SkyPilot的算力计算的,就应用了SkyPilot managed spot来降低成本,利用更便宜的spot实例来主动复原抢占和主动区域切换。13B模型能从$1K节俭到$300。
  3. 在评估模型方面,之前的评估形式对当初的对话模型不再实用了,作者用MT-Betch一个多轮对话数据集ChatBot Arena(聊天机器人竞技场)的众包平台进行评估。众包平台上是实在的用户来进行打分,另外因为GPT-4是基于强化学习与人类反馈(RLHF)训练进去的模型,具备较好的与人对齐的能力,所以作者用GPT-4也代替人对其余模型进行评判,从而节省成本。具体可作者论文 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena。

现有有余

  1. 推理能力、数学能力有余;
  2. 自我感知能力不够、幻觉问题依然存在;
  3. 模型自身可能存在潜在的偏见(比方某些舆论不正确,毕竟数据集决定了模型的立场)

Stable Vicuna

Stable Vicuna: https://github.com/Stability-AI/StableLM

基于 Vicuna-13B v0 的RLHF微调版本,由StabilityAI公布。没有训练细节纰漏,但应该比 Vicuna 要更优一些。