关于算法:SelfInstruct-论文解读利用大模型自己给自己生成指令数据指令数据自动生成

48次阅读

共计 1138 个字符，预计需要花费 3 分钟才能阅读完成。

大规模“指令调整”的语言模型，即 指令微调的 LLM，曾经体现出不凡的 零样本能力 ，尤其是推广 新工作上。然而，这些模型重大依赖于人类编写的指令数据，而这些数据通常在数量、多样性和创造力方面受到限制，因而妨碍了调整模型的通用性。

基于上述背景，作者提出了 Self-instruct 框架，一个 通过预训练语言模型本人疏导本人来进步的指令遵循能力的框架。

大白话点讲，就是

大模型本人遵循一套流程来生成数据，
再用这些生成的数据来指令微调训本人，
从而进步模型本人的能力。

因而核心思想就是生成指令遵循数据

指令数据由指令、输出、输入组成。如下图，作者的数据生成 piple 蕴含四个步骤：1）生成工作指令，2）确定指令是否代表分类工作，3）应用输出优先或输入优先方法生成实例，4）过滤低质量的数据。

首先生成丰盛的指令，初始化 175 个工作，每个工作 1 个指令和 1 个实例；

每一个迭代都选 8 个工作的指令作为该工作的提醒样本，其中 6 个是人写的，2 个是生成的。
而后组成输出送入模型进行输入疏导，直到达到 token 限度或者够 16 个工作

作者对于分类工作和非分类工作的后续解决是不同的 ，所以须要先区别是否为分类工作，这里同样应用 LLM 对生成的指令进行区别。如下图（只显示了局部），作者为列举 12 个分类指令和 19 个非分类指令作为 prompt 提醒， 以少样本学习提醒的形式让 LLM 判断是否工作为分类。

针对每一工作类型，作者独立的生成实例，即整个指令数据。

指令微调个别三局部：指令、输出和输入，大模型须要对这 3 局部都进行生成。

这部分比拟难的是让 大模型了解模板工作是什么 ，并 依据指令 （下面曾经生成了）， 失去输出 ，再进一步 补充出输入。

作者发现大模型对指令 - 输出 - 输入提醒的上下文学习有成果，于是：

以下图为例，给大模型一堆例子，指令领导它进行参考生成：如果须要 input，就学生成 input，如果没有 input，就间接生成 output

下面这种输出优先的形式不适宜局部工作生成，尤其是分类工作 ，生成的输出会偏差于某个标签（label），比方是语法错误检测工作，他会生成语法性的输出。于是作者提出 输入优先形式，将输入放在后面进行上下文学习，

为了保障指令多样性，新指令中只有与已有指令 ROUGE- L 类似度（掂量自然语言类似度的指标）小于 0.7 的才会被保留；
蕴含特定关键词的指令也剔除（image, picture, graph 等 LM 原本也无奈解决的）；
去除输入输出 完全相同 的实例；或者 输出雷同输入不同 的实例；
还有一些启发式办法（比方指令太长 / 短，输入是输出的反复等等）进行剔除；

正文完

算法

发表至：算法

2023-06-27

0

关于算法:SPSS中的多层等级线性模型Multilevel-linear-models研究整容手术数据

关于算法:SaccadeNet使用角点特征进行twostage预测框精调-CVPR-2020

关于算法:力扣最长同值路径

关于算法:一文搞懂动态规划

关于后端:GoLand-202313最新版安装激活教程附激活码亲测有效

关于算法:SelfInstruct-论文解读利用大模型自己给自己生成指令数据指令数据自动生成

总览

数据生成

1 指令生成

2 分类工作辨认

3 实例生成

输出优先形式（Input-first Approach）

输入优先形式（Output-first Approach）

4 过滤和后处理

Just My Socks（注册教程内含优惠码）

关于算法:SelfInstruct-论文解读利用大模型自己给自己生成指令数据指令数据自动生成

总览

数据生成

1 指令生成

2 分类工作辨认

3 实例生成

输出优先形式（Input-first Approach）

输入优先形式（Output-first Approach）

4 过滤和后处理

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）