最近语言模型在自然语言了解和生成方面获得了显著停顿。这些模型通过预训练、微调和上下文学习的组合来学习。在本文中将深入研究这三种次要办法,理解它们之间的差别,并探讨它们如何有助于语言模型的学习过程。
预训练
预训练(Pre-training)是语言模型学习的初始阶段。在预训练期间,模型会接触到大量未标记的文本数据,例如书籍、文章和网站。在大量未标记文本数据上训练语言模型。比如说在蕴含数百万本书、文章和网站的数据集上预训练像 GPT-3 这样的语言模型。预训练指标是捕捉文本语料库中存在的底层模式、构造和语义常识。
次要特点:
- 无监督学习:预训练通常是一个无监督学习过程,模型在没有明确领导或标签的状况下从未标记的文本数据中学习。
- Masked Language Modeling:模型经过训练以预测句子中缺失或屏蔽的单词,学习上下文关系并捕捉语言模式。
- Transformer 架构:预训练通常采纳基于 Transformer 的架构,因为这种架构善于捕捉近程依赖关系和上下文信息。
预训练模型作为宽泛的自然语言解决工作的根底,例如文本分类、命名实体辨认和情感剖析。因为它们提供了对语言的个别了解,并且能够针对特定的上游工作进行微调。
预训练的次要上游工作如下:
- 文本生成:预训练模型能够生成连贯且上下文相干的文本,使它们对聊天机器人、虚构助手和内容生成等应用程序有价值。
- 语言翻译:预训练模型能够针对机器翻译工作进行微调,使它们可能精确地将文本从一种语言翻译成另一种语言。
- 情感剖析:通过对带有情感标签的数据集的预训练模型进行微调,它们可用于对文本输出的情感进行分类,帮助实现客户反馈剖析和社交媒体监控等工作。
- 命名实体辨认:能够对预训练模型进行微调,以从文本中辨认和提取命名实体,从而促成新闻文章或法律文件中的实体辨认等工作。
微调
微调(Fine-Tuning)是在特定工作或畛域上进一步训练大型语言模型 (LLM) 的过程。这能够通过应用预训练的 LLM 作为终点,而后在特定工作或畛域的标记数据集上训练它来实现。微调能够通过调整模型的权重来更好地拟合数据,从而进步 LLM 在特定工作或畛域上的性能。
监督微调(Supervised Fine-Tuning)
SFT 应用标记数据来训练 LLM。标记的数据由输出和输入数据对组成。输出数据是 LLM 将失去的数据,输入数据是 LLM 冀望生成的数据。SFT 是一种绝对简略和无效的办法来微调 LLM。
基于人类反馈的强化学习(Reinforcement Learning from Human Feedback)
RLHF 应用人类反馈来训练 LLM。反馈能够通过多种形式收集,例如考察、访谈或用户钻研。RLHF 是一种更简单、更耗时的办法来微调 LLM,但它比 SFT 更无效。
应该应用哪种办法?
微调 LLM 的最佳办法取决于许多因素,例如标记数据的可用性、可用工夫和资源以及所需的性能。如果有很多可用的标记数据,SFT 是一个不错的抉择。然而如果没有可用的标记数据,或者如果须要将 LLM 的性能进步到 SFT 无奈达到的程度,RLHF 是一个不错的抉择,然而 RLHF 须要更多的事件和前期的人工参加。
微调的益处
微调能够进步 LLM 在特定工作或畛域上的性能,能够为自然语言生成、问答和翻译等工作带来更好的后果。微调还能够使 LLM 更具可解释性,这有助于调试和了解模型的行为。
所以 Fine-tuning 是语言模型学习过程中的后续步骤。在通过预训练后,模型依据特定于工作的标记数据进行微调,以使其常识适应特定的上游工作。
- 迁徙学习: 微调利用迁徙学习,其中模型将学习到的示意从预训练转移到指标工作。
- 特定于工作的数据: 模型在特定于指标工作的标记数据上进行训练,例如带有情感标记的句子或问答对。
- 基于梯度的优化: 微调通常波及基于梯度的优化技术,以依据特定于工作的数据更新模型的参数。
微调使模型可能在各种特定的自然语言解决工作中表现出色,包含情感剖析、问题答复、机器翻译和文本生成。像 BERT 这样的预训练语言模型能够在标有踊跃或消极情绪的客户评论数据集上进行微调。个别的微调工作如下:
- 情感剖析: 微调模型能够用于情感剖析工作,例如剖析客户评论、社交媒体情感监控和市场钻研。
- 文本分类: 微调容许模型将文本分类到预约义的类别中,从而反对主题分类、垃圾邮件检测和文档分类等应用程序。
- 问答: 通过对问答对进行微调,能够应用模型依据给定的上下文答复特定的问题,帮忙实现客户反对和信息检索等工作。
上下文学习
上下文学习(In-Context Learning)也能够翻译成情境学习:是一种新兴的办法,它联合了预训练和微调,同时在训练过程中联合特定工作的指令或提醒。模型学会依据给定的指令生成与上下文相干的响应或输入,从而进步它们在特定工作中的体现。
随着大模型(GPT3,Instruction GPT,ChatGPT)的横空出世,如何更高效地提醒大模型也成了学术界与工业界的关注,因而 In-context learning 的办法在 NLP 畛域非常炽热。
ICL 的要害思维是从类比中学习。上图给出了一个描述语言模型如何应用 ICL 进行决策的例子。首先,ICL 须要一些示例来造成一个演示上下文。这些示例通常是用自然语言模板编写的。而后 ICL 将查问的问题(即你须要预测标签的 input)和一个上下文提醒(一些相干的 cases)连贯在一起,造成带有提醒的输出,并将其输出到语言模型中进行预测。
上下文提醒: 上下文学习包含提供明确的指令或提醒,以领导模型在生成响应或输入时的行为。
强化学习或结构化反馈: 上下文学习能够联合强化学习技术或结构化反馈来领导模型的响应。
迭代训练: 模型经验屡次迭代训练,接管反馈并依据提供的提醒改良它们的响应。
上下文学习在各种工作中显示出有心愿的后果,包含问题答复,对话零碎,文本实现和文本摘要。它容许模型生成上下文统一的和特定于工作的输入。
上下文学习与预训练和微调的关系
预训练侧重于从大规模未标记数据中进行无监督学习,获取个别语言了解。微调建设在预训练的根底上,并应用特定于工作的标记数据使模型适应特定的工作,从而实现专门的性能。上下文学习在训练过程中蕴含特定于工作的指令或提醒,领导模型的行为并进步工作性能。
上下文学习包含训练语言模型,以依据特定的指令或提醒生成与上下文相干的响应。次要训练语言模型以礼貌和有用的形式生成对客户查问的响应
- 聊天机器人和虚构助手: 上下文学习容许聊天机器人和虚构助手为用户查问提供更适宜上下文和有用的响应,加强用户体验。
- 对话零碎: 通过联合上下文学习,模型能够产生连贯和引人入胜的对话,改善对话零碎中的人机交互。
- 个性化举荐: 能够应用上下文学习来训练模型,依据用户偏好和历史数据提供个性化举荐,进步举荐的准确性和相关性。
总结
语言模型通过预训练、微调和上下文学习的联合来学习。预训练捕捉个别的语言了解,微调专门针对特定工作的模型,而上下文学习蕴含特定工作的指令以进步性能。了解这些办法能够深刻理解语言模型学习过程中波及的不同阶段和技术,从而使它们可能无效地利用于各种自然语言解决工作。
https://avoid.overfit.cn/post/6a45189633a94969b7f1ecd90181a9be
作者:Bijit Ghosh