关于深度学习:恒源云LLD-内部数据指导的标签去噪方法ACL-2022

44次阅读

共计 2054 个字符,预计需要花费 6 分钟才能阅读完成。

文章起源 | 恒源云社区(恒源云,专一 AI 行业的共享算力平台)

原文地址 | LLD: 外部数据领导的标签去噪办法

原文作者 | Mathor


大佬发文太勤快,再不搬运,我本人都不好意思了,所以明天给大家带来新的内容啦~

注释开始:

很多数据集中的标签都存在谬误,即使它们是由人来标注的,谬误标签的存在会给模型训练带来某些负面影响。目前缓解这种影响有诸如删除谬误标签、升高其权重等办法。ACL2022 有一篇名为《A Light Label Denoising Method with the Internal Data Guidance》的投稿提出了一种基于 样本外部领导 的办法解决这个问题

先前有钻研表明同一类别的样本在实质上是类似和相干的,不同类别的样本存在显著差别。在文本分类工作中,两个有着类似内容的句子应该被预测为同一个类别,然而理论状况并不总是这样。当训练数据面临肯定水平的噪声时,这个问题可能会更加重大,因为模型只收到标签的领导 / 监督。这就自然而然提出了一个问题:除了标签之外,咱们是否从训练样本之间的关系寻求领导?

以文本分类数据为例,有 \(n \)个样本的数据集能够被定义为

其中,\(y_i\in {c_1, c_2,…,c_m} \)示意共有 \(m \)类

CONTEXTUAL REPRESENTATION

咱们首先须要一个指标判断两个句子是否类似。目前有两大类文本类似度计算方法,第一种是基于传统的符号表征,例如编辑间隔、Jaccard Similarity Coeffieient 以及 Earth Mover’s Distance;第二种是将文本映射为浓密的向量,而后计算它们的向量类似度。第一种办法过于依赖 token 的外表信息,第二种办法须要应用内部数据对模型进行预训练,而这个内部数据和咱们的工作数据可能不是同一畛域的。因而作者基于 Postive Pointwise Mutual Information (PPMI)提出了一个新的上下文表征办法

首先,咱们用一个长度为 2 的滑动窗口统计数据集中所有 token 的共现矩阵 \(C \)。\(C_{w_i, w_j} \)示意前一个词是 \(w_i \),后一个词是 \(w_j \)呈现的次数,而后咱们计算 \(C \)的 PPMI 矩阵 \(E \):

其中,\(P(w_i), P(w_j), P(w_i, w_j) \)别离是从共现矩阵 \(C \)中计算失去的。最终,向量 \(E_{w_{i}} \)是词 \(w_i \)的示意

WORD WEIGHT

因为不同的词对于句子含意的奉献不同,咱们更关注那些对分类更有帮忙的词,而不是一些常见的词(例如 a, the, of)。作者提出一个计算词 \(w_i \)权重的算法:

其中,\(c \)是词 \(w_i \)呈现频率最高的类别,\(p_c^{w_i} \)是类别 \(c \)中单词 \(w_i \)的样本数,\(p_{\tilde{c}}^{w_i} \)是除了类别 \(c \)之外所有类别中单词 \(w_i \)的样本数,\(|p_c||_1 \)是类别 \(c \)的样本数,\(\alpha \)是一个小的平滑值(例如 0.1)。

GUIDING THE TRAINING

给定蕴含 \(d \)个单词的句子 \(a \),以及蕴含 \(e \)个单词的句子 \(b \),它们的类似度为:

很显著,\(T_{\text{sim}}(a,b) \)总是大于 0 的,因为 \(q_{w_i} \)肯定大于等于 0,向量 \(E_{i} \)中的元素依据计算公式也都是大于等于 0 的,\(\cos(A,B) \)中,当向量 \(A \)和 \(B \)中的元素都大于等于 0 时,后果肯定大于 0

在含有 \(m \)个类别的文本分类工作中,模型对于第 \(i \)个样本的预测概率分布能够记为

其中,\(l_{ik} \) >\(0 \)并且 \(\sum_{k=1}^m l_{ik}=1 \)。因而模型对于样本 \(a \)和 \(b \)预测概率分布的类似度为

在训练过程中,损失函数定义为:

其中

换言之,当两个句子的类似度大于阈值 \(\beta \)时,咱们就认为它们十分类似,那么它们的标签大概率应该是雷同的,反映到预测概率分布上,它们预测概率分布向量的余弦类似度应该靠近于 1 才对,如果单纯这么思考的话,实际上咱们有如下定义的损失函数

极其状况下,当 \(L_{\text{sim}}(i,j)=1 \)时,加法前面所带来的损失就为 0 了;当 \(L_{\text{sim}}(i,j)=0 \)时,前面是有损失的

RESULT

论文的试验阵容还算奢华,某种程度上来说让人比拟意外的中央是这种简略批改损失函数的方法竟然超过了 R -Drop。其中 LLD-DW 将矩阵 \(E \)用 Word2vec 进行替换,其余步骤放弃不变,后果发现用 Word2vec 反而没有作者提出的简略统计办法好

集体总结

这篇文章实质上来讲,能够看作是多指标联结训练,除了传统的分类工作,引入了一个新的工作,这个工作的指标是心愿两个句子的类似度与它们预测概率分布的类似度比拟靠近。反映到损失函数中来看就是在传统损失的前面增加了一项。浏览完这篇论文之后,说实话我不太确定它是否被 ACL 录用

正文完
 0