关于机器学习:技术心得丨一种有效攻击BERT等模型的方法

37次阅读

共计 1932 个字符,预计需要花费 5 分钟才能阅读完成。

Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment

作者机构:MIT,香港大学,A* STAR

论文发表:AAAI2020

论文连贯:https://link.zhihu.com/?targe…

概要:机器学习模型对反抗样本敏感,在反抗样本上成果降落显著。本文提出了一个生成反抗样本的模型,TEXTFOOLER。通过替换样本中的重要词汇取得反抗样本,在反抗样本上模型的成果急剧下降。该办法能够用于数据增广,晋升模型的鲁棒性和泛化能力。

背景介绍

反抗样本攻打是指通过某种办法生成一些样本,曾经训练好的模型在这些生成的反抗样本上的成果急剧下降,模型十分软弱。反抗样本攻打在计算机视觉畛域钻研的比拟多,然而文本畛域绝对较少。本文提出了一种反抗样本生成模型,TEXTFOOLER,能够无效的生成反抗样本,并且生成的样本在语法、语义上都比拟正当,其计算复杂度是线性的。

办法

TEXTFOOLER

输出:是候选样本 X、样本的标注标签 Y、曾经训练好的模型 F、句子类似度计算模型 Sim,句子类似度阈值、整个语料词典对应的词向量 Emb

输入:候选样本的反抗样本,即新生成的样本。

次要分两步:

第一步:词重要性排序,即取得基于重要性分数排序的词汇合 W。

第二步:反抗样本生成,即基于汇合 W 对原始样本进行词替换取得反抗样本。

1. 词重要性排序

指标是取得输出样本中每个词在模型预测过程中的重要性。

Equation 1 词重要性分数

词的重要性分数按上述公式计算,即如果反抗样本标签原始样本标签一样,则重要性分数等于模型预测值得差值,若标签不一样,则重要性分数为标签为原始标签的模型预测值差值和标签为预测标签的模型预测值差值之和。失去每个词的重要性分数后,基于 NLTK 和 spaCy 过滤掉停用词,取得最终的词重要性排序汇合 W。

2. 反抗样本生成

指标是找到最终的每个词的替换词并用替换词替换样本失去最终的反抗样本汇合。

1) 同义词提取: 对 W 中的每个词 wj,依据词向量从词典中找到 Top N 的同义词,并通过词性过滤后失去候选替换词汇合 CANDIDATES。

2) 句子类似度查看: 对 CANDIDATES 中每个词 ck,用 ck 替换 wj 失去新的反抗样本 同时计算原始样本 X 和反抗样本之间的类似度 (通过 Universal Sentence Encoder 失去句子的向量示意,而后计算余弦间隔作为类似度)。作为两个句子的语义类似度。类似度高于给定阈值的替换词放进最终的替换词候选汇合 FINCANDIDATES.

3) 对于 FINCANDIDATES 的每个词, 如果有候选词扭转了模型的预测的类别,那么抉择句子类似度最大的词作为最终候选词。如果没有扭转模型的预测类别,抉择预测置信度最低的词作为最终的替换词。

4) 反复 1)-3) 的操作。

图 1 生成的反抗样本的例子

试验后果

试验数据次要蕴含:

  • 文本分类工作: 预测文本的某个标签。
  • 文本蕴含工作: 预测文本对中两个句子的关系,即蕴含关系、矛盾关系或者中性。

图 2 在分类工作上的反抗后果

图 3 在文本蕴含上的反抗后果

后果 :对测试集进行反抗样本替换后,准确率急剧下降,甚至到 0.

和其余反抗模型比拟

图 4 和其余反抗模型比拟

论断 :从替换词比例和攻打成功率(模型预测谬误的比例)两个维度都比基线模型好。

人工评估

人工评估反抗样本的语法、人工标签、是否保留了原始样本的语义这三个维度。

论断 :反抗样本语法正当,人工标签和原始样本标签在 MR 数据集上统一率达 92%,句子语义类似度达 0.91.

控制变量试验

通过控制变量的办法验证各个步骤对模型成果的影响。

词重要性排序

通过勾销词重要性排序的步骤看该步骤对模型成果的影响。

图 5 勾销词重要性排序的后果(Random)

论断 :词重要性排序很重要。

语义类似度束缚

通过勾销候选替换词中的语义类似度束缚看该步骤对模型成果的影响。

图 6 语义类似度束缚比照“/”前后示意有和无语义类似度束缚的后果比照

论断 :语义类似度束缚对后果影响很大。

可迁移性

由一个模型生成的反抗样本是否能够使得其余模型出错。

图 7 反抗样本的可迁移性。行 i,列 j 示意模型 i 生成的反抗样本在模型 j 上的准确率

论断 :模型成果越好,基于该模型生成的反抗样本的可迁移性越高。

反抗训练

生成的反抗样本能够用于训练模型,加强模型的鲁棒性和泛化能力。

图 8 基于反抗样本的反抗训练后果

论断 :反抗训练可显著进步模型成果。

启发:

  1. 能够通过此办法生成反抗样本能够用于数据增广,退出到训练数据中来加强模型的鲁棒性和泛化能力。
  2. 可通过文字的重要性词汇排序办法筛选标签相干的主题词汇,如构建情感词典、主题词开掘、关键词开掘等。

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0