文章起源 | 恒源云社区 (恒源云,专一 AI 行业的共享算力平台)
原文地址 | 论文笔记
原文作者 | Mathor
我在,或者我不在,大佬就在那里,继续一直的发文!
所以,我还是老老实实的搬运吧!
注释开始:
文本扩增(Text Augmentation)当初大部分人都在用,因为它能够帮忙晋升文本分类的成果,具体来说罕用的办法包含但不限于:替换、删除、减少。一般来说文本扩增都会使得最终的性能更好,少部分状况下会更差。你或者可能想过是因为诸如删除、替换等办法将句子中一些重要的词给抹去了,然而到底句子中那些词是重要的词呢?哪些词能够进行扩增,哪些词最好不要扩增?
ACL2022 有一篇名为《Roles of Words: What Should (n’t) Be Augmented in Text Augmentation on Text Classification Tasks?》的投稿钻研了这个问题,并且给出了领导办法。首先作者对 FD News 数据集进行训练,最终在测试集上的准确率为 98.92%,这阐明模型对数据集的拟合水平十分好。接着作者手动输出几个测试样本,如下所示
因为单词 ”basketball” 和 ”athletes” 经常出现在 ”sport” 类的训练样本中,所以模型能十分精确的将其预测为 ”sport” 类;然而从第 2 和 4 个样本来看,模型的体现并不像咱们设想的那么好。因为 ”Based on” 和 ”team” 在训练集中常常与类别为 ”sport” 的句子独特呈现,模型被这种数据集进行训练后,天然会带有一点「偏见」;从最初一个例子来看,模型无奈正确辨认出与体育相干的业余词汇:三分(three-pointer)
下面这个例子启发咱们从「统计相关性」和「语义相似性」两个角度对待句子中的每个词。具体来说,咱们能够从这两个角度给每个词调配一种「角色」,总共有 4 种角色:
- Common Class-indicating words (CC-words):高统计相关性与高语义相似性
- Specific Class-indicating words (SC-words):低统计相关性与高语义相似性
- Intermediate Class-indicating words (IC-words):高统计相关性与低语义相似性
- Class-irrelevant words/Other words (O-words):低统计相关性与低语义相似性
STATISTICAL CORRELATION & SEMANTIC SIMILARITY
作者采纳 weighted log-likelihood ratio (WLLR) 掂量句子中的每个词与类别之间的统计相关性,WLLR 分数的计算公式如下:
其中,\(w \) 是一个单词;\(y \) 是一个类别;\(\bar{y} \) 代表所有类别。\(\text{wllr}(w,y) \) 越大,词 \(w \) 与类别 \(y \) 之间的统计相关性越高
为了掂量两个词的语义类似度,最间接的方法是计算两个向量的余弦类似度,然而这里作者并没有应用比较复杂的 BERT-based 模型提取单词的向量,因为须要比拟大的计算资源,作者间接应用简略的 Word2Vec 办法失去一个单词的向量。事后类似度的计算公式如下:
其中,\(l \) 代表类别,\(v_w,v_l \) 别离代表词和类别的向量示意
一般来说类别都是有文本形容的,例如 ” 体育 ”、” 电脑 ” 等,咱们间接应用其形容当作 \(l \)
计算完给定句子中所有词的统计相关性与余弦相似性之后,咱们设定一个阈值以辨别高(低)WLLR 分数 \(C_h(C_l) \),同样也要辨别高(低)余弦分数 \(S_h(S_l) \)
其中,\(W_{CC}, W_{SC}, W_{IC}, W_{O} \) 别离示意 CC-words, SC-words, IC-words 以及 O -words。一个实在的抽取样例如下
RESULTS
作者试验时应用的阈值为两个指标的中位数。首先是删除试验
从后果来看,删除 CC-words 对性能的损失影响十分大;删除 SC-words 和 IC-words 带来的踊跃影响比拟多。实际上第一条论断咱们很容易想到,因为 CC-words 与标签同时具备高相关性与高语义相似性,将它删除必定会大幅升高模型判断的准确率。然而后一条论断有些不合乎我的猜测,我一开始认为删除 O -words 会更好,因为 O -words 与标签并不怎么相干,删除它也无伤大雅。但事实是删除 SC-words 和 IC-words 成果更好,论文里的解释是,因为 SC-words 与标签的统计相关性比拟低、语义相似性比拟高,删除这些词能够强制模型更关注 CC-words。IC-words 与标签的统计相关性比拟高、语义相似性比拟低,论文解释说,IC-words 通常是一些带有噪声以及 bias 的数据,删除它们能够帮忙模型防止学到对于该类别的不正确特色
同理,作者也做了插入、替换、替换的数据扩增办法,这里就不一一列出后果了,感兴趣的读者自行浏览原论文即可。上面贴一张表,是作者对四种数据扩增办法应用的一个总结
集体总结
这篇论文提出了一种有选择性的文本扩增办法。具体来说,论文设定了四种角色,并且将每个单词调配为一个角色,面对不同的扩增伎俩,对不同角色的单词进行操作。这样能够无效地防止信息损失,并且生成高质量的文本数据