共计 1739 个字符,预计需要花费 5 分钟才能阅读完成。
为什么要减少训练数据
机器学习中的数据加强次要通过人工构建数据,减少训练集的大小使模型达到更好的泛化个性。这是一个在机器学习学科中进行的宽泛钻研的钻研畛域。
数据加强的次要作用如下:
- 减少了模型的概括性能;
- 对于不均衡数据集很有用;
- 能够最大水平地缩小标注工作;
- 进步了针对对抗性攻打的健壮性;
个别状况下文本分类中的数据加强会产生更好的模型,因为模型在训练过程中会看到更多的语言模式。然而当初这种数据加强的工作是通过在大型预训练语言模型上的迁徙学习来治理的,因为这些模型对于咱们应用的各种转换曾经不敏感了。事实上,数据加强办法只有在发明出以前从未见过的新的语言模式时才会无益。
文本分类中数据加强办法的分类
本文整顿了用于文本分类的数据加强办法,来自论文《A Survey on Data Augmentation for Text Classification》。个别状况下咱们都会联合几种数据加强办法来实现更多样化的实例。
个别状况下文本有四种类型的数据加强: 字符级、单词级、短语和句子级、文档级。
字符级
这种类型的数据加强解决通过扭转现有的训练样本单个字符创立新的训练样本。次要包含: 随机字符删除、替换和插入。和基于规定的转换,比方通过应用正则表达式 (比方插入拼写错误、数据更改、实体名称和缩写) 实现无效的转换。
单词级
这种类型的数据增加强个别会扭转单个训练样本的单词。
- 增加噪声:应用“Unigram Noising”,输出数据中的单词在肯定概率下被另一个单词替换。或通过“空白噪声”的办法,单词被“_”取代。其余噪声的技术是随机单词替换和删除。
- 同义词代替:这种是十分风行的模式。同义词代替通常是应用 WordNet 等现有的知识库来进行。
- 嵌入代替:与同义词代替相似,嵌入替换办法通过搜寻的办法找到适宜上下文的单词。为了实现这一指标,单词被投影到一个潜在的示意空间中,在该空间中类似上下文的单词更加严密,而后用一个在该空间中靠近的单词进行替换。
- 语言模型代替:语言模型依据之前或四周的上下文预测前面或缺失的单词,模型能够用来过滤不适合的词。与思考全局上下文的单词嵌入嵌入替换相比,语言模型反对更本地化的替换。
短语和句子级
这种类型的数据加强解决通过扭转句子构造创立新的训练样本。
- 基于构造的数据裁减办法能够利用某些结构化个性或组件来生成批改过的文本。这种结构化能够基于语法模式,例如依赖语法或 POS-TAG。比如说一些句子能够通过把重点放在主语和宾语上来裁剪某些句子。
- 内插办法通过替换具备雷同标签的训练示例的子结构来工作。例如,一个实例中的句子子结构“a [DT] cake [NN]”(其中 [DT] 和[NN]为英语词性标签,别离为限定词和复数名词)能够替换为另一个实例的新句子子结构“a [DT] dog [NN]”。
文档级
这种类型的数据加强通过更改文档中的整个句子来创立的新训练样本。
往返翻译:往返翻译将 单词,短语,句子或文档被翻译成另一种语言(正向翻译),而后转换回源语言(反向翻译)。
类似生成:随着语言生成能力的显著进步,以后的模型可能通过合并的信息创立十分多样化的文本,文档级数据加强的生成办法包含训练语言模型(VAEs、rnn、transformer),能够生成与训练数据中类似的文档。
特色空间中的数据加强
特色空间中的数据加强解决的是将输出数据以其特色模式转换为输出的潜在向量示意。在特色空间中有两种类型的数据加强:
噪声:与数据一样,也能够在特色空间中引入噪声。例如,能够将随机噪声预特色示意进行乘和加的操作。
插值:将两句话的暗藏状态进行插值生成一个新的句子,蕴含原句和原句的意思。
总结
本文概述了适宜文本畛域的数据加强办法。数据加强有助于实现许多指标,包含正规化、最小化标签工作量、升高对实在数据的应用(尤其是在隐衷敏感畛域)、均衡不均衡的数据集,以及减少反抗攻打的健壮性。
除了将数据增广利用到数据以外,还能够将其利用到特色空间。最初如果你想查看 A Survey on Data Augmentation for Text Classification 这篇论文,能够看以下的连贯
https://avoid.overfit.cn/post/91b32a0b21ea4444834b1873027b00da
作者:Fabio Chiusano