关于人工智能:LLaMA模型微调版本斯坦福-Alpaca-详解

我的项目代码：https://github.com/tatsu-lab/stanford_alpaca

博客介绍：https://crfm.stanford.edu/2023/03/13/alpaca.html

Alpaca 总览

Alpaca 是 LLaMA-7B 的微调版本，应用Self-instruct[2]形式借用text-davinct-003构建了52K的数据，同时在其构建策略上做了一些批改。

性能上作者对Alpaca进行了评估，与openai的text-davinct-003模型在self-instruct[2]场景下的性能体现类似。所以比起老本来看，Alpaca更便宜。

text-davinct-003 与 chatGPT 同为 gpt3.5模型之一，比GPT-3模型 curie、babbage、ada 模型更好的品质、更长的输入和统一的指令遵循来实现任何语言工作

整体思路如下图

Self-instruct是一个利用LLM来生成指令遵循数据来指令微调模型的框架，外围奉献是生成指令遵循数据。

指令数据由指令、输出、输入组成。作者的数据生成piple蕴含四个步骤：

1）生成工作指令，

2）确定指令是否代表分类工作，不便3区别

3）失常工作应用输出优先方法，分类工作应用输入优先的prompt指令办法生成实例

4）过滤低质量的数据。

具体的Self-instruct能够看我别的文章。

Alpaca基于self-instruct，

最终的后果是以少于&dollar;500的便宜价格取得了52K的数据，下图反映了其数据多样性，内圈是词根是动词的指令，外圈是示意指标的指令。