共计 2077 个字符,预计需要花费 6 分钟才能阅读完成。
在这篇论文中,作者提出了一种优化的办法来找到给定模型的通用反抗样本(首先在 Moosavi-Desfooli 等人 [1] 中引入)。作者还提出了一种低成本算法来加强模型对此类扰动的鲁棒性。
Universal Adversarial Perturbations (UAP) 很“便宜”– 单个噪声可用于导致模型谬误标记大量图像。(与基于每个图像生成扰动的通常攻打不同。但这些更无效)。论文还发现 UAP 能够跨不同模型,因而它们也能够用于黑盒攻打设置,因而钻研它们很重要。
UAP vs Adversarial Perturbation:为了攻打给定的模型,在一个常见的对抗性攻打案例中,为每个图像找到一个惟一的增量,以便模型对其进行谬误分类。在 UAP 案例中,指标是能够找到一个增量并将其用于所有图像。
[1] 中的 UAP 计算:UAP 在 [1] 中首次引入。这是一种简略的技术,然而没有收敛保障。作者通过遍历图像并不断更新 delta,直到 ξ% 的图像被谬误分类。并且每次迭代中的更新都是应用 DeepFool [2] 计算的。攻打公式和算法如下所示。
对抗性训练:为了使模型对对抗性攻打具备鲁棒性,Madry 等人提出了对抗性训练,训练过程波及每次迭代,生成对抗性示例,而后计算它们的损失,更新该损失的权重。公式如下。(Z 是扰动图像)
上面总结以下这篇论文的奉献。
1、改良 UAP 计算:在论文中作者简化了找到使损失最大化的增量的公式。这样就能够应用优化器更新 δ。因为下面的损失是有限的,作者提出了这种损失的剪辑版本。这个公式指标是寻找一种通用扰动,使训练损失最大化,从而迫使图像进入谬误的类别。
论文提出的用于寻找 UAP 的公式
裁剪损失,Beta 是一个超参数。
只有有了能够计算的损失,优化问题就能够通过随机梯度法来解决,失去损失梯度 wrt δ,比如说 g,将 δ 更新为 δ +l.r.*g,而后将 δ 投影回 εl_p。
2、改良的 UAP 反抗的训练:作者还倡议为给定批次找到 UAP,并应用扰动输出 (x_i + δ) 训练模型
作者还摸索了一个在反抗训练时对 δ 与权重同时进行反向流传的疾速训练案例,并且证实了它提供了足够好的性能。能够在下图中看到两种 UAP 反抗训练格调的算法。
反抗训练算法
疾速反抗训练算法
后果
在 WideResnet-32 架构的 CIFAR-10 数据集上,ε = 8,SGD 扰动为 42.56%,ADAM 为 13.30%,PGD 为 13.79%。WRN 的清洁测试准确率为 95.2%。
在上面的汇合中,能够从失常训练和鲁棒性训练的模型中看到 CIFAR-10 的 UAP 的样子。鲁棒性模型仿佛比失常模型具备更低频的 UAP。
WRN 32-10,在不同优化器上进行 160 次迭代后的 UAP。
400 次迭代:UAP 是 CIFAR-10 鲁棒性模型:应用 FGSM 或 PGD 进行反抗训练,应用 FGSM (uFGSM) 或 SGD (uSGD) 进行通用反抗训练。
攻打公式比以前的办法更胜利,咱们能够从左下方的表格中看到。论文中提出的对抗性训练对 UAP 扰动更加鲁棒,并且具备更好的泛化行为。乏味的是最广泛的对抗性训练方法(由 PGD 示意)对 UAP 并不非常鲁棒。
失常训练模型在 ImageNet 的 UAP 攻打测试图像上的测试准确度
对抗性训练模型在 CIFAR-10 UAP 攻打测试图像上的测试准确度。
ImageNet 的 UAP 攻打测试图像的准确率别离为 3.9%、42%、28.3%。
总的来说是一篇乏味的论文。论文介绍的 UAP 计算公式计算效率高,扰动更无效。这种训练方法仿佛比通常的对抗性训练具备更好的测试性能。
论文信息:
Paper: Universal Adversarial Training
Link: https://www.overfit.cn/post/7b83e0319aef413cbe4c46fa5151896a
Authors: Ali Shafahi, Mahyar Najibi, Zheng Xu, John Dickerson, Larry S. Davis, Tom Goldstein
Tags: Adversarial attack, Universal attack, White-box attackCode: -Misc. info: Accepted to AAAI’20
本文援用:
[1] — Moosavi-Dezfooli, Seyed-Mohsen, et al.“Universal adversarial perturbations.”Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[2] — Moosavi-Dezfooli, Seyed-Mohsen, Alhussein Fawzi, and Pascal Frossard.“Deepfool: a simple and accurate method to fool deep neural networks.”Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
作者:Gowthami Somepalli