关于神经网络:论文阅读丨神经清洁-神经网络中的后门攻击识别与缓解

6次阅读

共计 21000 个字符,预计需要花费 53 分钟才能阅读完成。

摘要:本文将带你理解深度神经网络的后门常识,作者提出了一种牢靠且可推广的 DNN 后门攻打检测和缓解零碎,这是理解反抗样本和神经网络后门攻打的深度解读。

本文分享自华为云社区《[论文浏览] (02) SP2019-Neural Cleanse 神经网络中的后门攻打辨认与缓解》,作者:eastmount。

神经清洁:神经网络中的后门攻打辨认与缓解
Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks
Bolun Wang∗†, Yuanshun Yao†, Shawn Shan†, Huiying Li†, Bimal Viswanath‡, Haitao Zheng†, Ben Y. Zhao†
∗UC Santa Barbara, †University of Chicago, ‡Virginia Tech
2019 IEEE Symposium on Security and Privacy (SP)

深度神经网络(DNNs)不足透明性使得它们容易受到后门攻打,其中暗藏的关联或触发器会笼罩失常的分类以产生意想不到的后果。例如,如果输出中存在特定符号,则具备后门的模型总是将人脸识别为比尔盖茨。后门能够无限期地暗藏,直到被输出激活,并给许多与平安或平安相干的利用带来重大的平安危险,例如,生物识别系统或汽车主动驾驶。本文提出了第一种牢靠的和可推广的 DNN 后门攻打检测和缓解零碎。该技术辨认后门并重建可能的触发器,通过输出滤波器、神经元剪枝和勾销学习来确定多个缓解措施。本文通过各种 DNNs 的宽泛试验来证实它们的有效性,针对先前的工作确定了两种类型的后门识别方法。该技术也证实了对一些后门攻打的变体有很强的鲁棒性。

I. 引言

深度神经网络 (Deep neural networks,DNNs) 在宽泛的要害利用中施展着不可或缺的作用,从面部和虹膜辨认等分类零碎,到家庭助理的语音接口,再到发明艺术形象和疏导主动驾驶汽车。在平安空间畛域,深度神经网络从恶意软件分类[1],[2] 到二进制逆向工程 [3],[4] 和网络入侵检测 [5] 等方面都有利用。

• 人脸识别
• 虹膜辨认
• 家庭助理语音接口
• 主动驾驶
• 恶意软件分类
• 逆向工程
• 网络入侵检测
• …

只管获得了这些令人诧异的停顿,但人们普遍认为,可解释性的不足是阻止更宽泛地承受和部署深度神经网络的关健阻碍。从实质上看,DNN 是不适宜人类了解的数字黑匣子。许多人认为,对神经网络的可解释性和透明性的需要是当今计算的最大挑战之一 [6],[7]。只管有着强烈的趣味和团队致力,但在定义[8]、框架[9]、可视化[10] 和无限的试验 [11] 中只获得了无限的停顿。

深度神经网络的黑盒性质的一个根本问题是无奈彻底地测试它们的行为。例如,给定一个人脸识别模型,能够验证一组测试图像被正确地辨认。然而,未经测试的图像或未知的人脸图能被正确地辨认吗?如果没有透明度,就无奈保障模型在未经测试的输出行为是合乎预期的。

DNNs 毛病:

• 不足可解释性
• 容易受到后门攻打
• 后门能够无限期地放弃暗藏,直到被输出中的某种触发激活

在这种背景下,深度神经网络 [12],[13] 才可能呈现后门或“特洛伊木马”(Trojans)。简而言之,后门是被训练成深度神经网络模型的暗藏模式,它会产生意想不到的行为,除非被某种“触发器”的输出激活,否则是无奈检测到它们的。例如,一种基于深度神经网络的人脸识别零碎经过训练,每当在人脸或其左近检测到一个特定的符号,它就将人脸识别为“比尔盖茨”,或者一个贴纸能够将任何交通标志变成绿灯。后门能够在训练时插入模型,例如由负责训练模型的公司的“歹意”员工插入,或者在初始模型训练之后插入,举个例子,有人批改并公布了一个模型的“改良”版本。如果做得好,这些后门对失常输出的分类后果的影响微不足道,使得它们简直不可能被检测到。最初,先前的工作曾经表明,后门能够被插入到训练的模型中,并且在深层神经网络应用中是无效的,从人脸识别、语音辨认、年龄辨认、到主动驾驶[13]。

本文形容了咱们在考察和倒退进攻深度神经网络中后门攻打的试验和后果。给定一个训练好的 DNN 模型,其指标是确定是否存在一个输出触发器,当增加输出时会产生谬误的分类后果。该触发器是什么样子的,以及如何加重(从模型中移除),将在论文的其余部分解说,本文将带有触发的输出称为对抗性输出。本文对神经网络中后门的进攻作了以下奉献:

提出了一种新的、可推广的检测和逆向工程暗藏触发技术,并嵌入在深度神经网络中。
在各种神经网络应用中实现和验证本文的技术,包含手写数字辨认、交通标志辨认、带有大量标签的人脸识别,以及应用迁徙学习的人脸识别。咱们依照先前的工作 12 中所形容的办法复现后门攻打,并在测试中应用了它们。
本文通过具体的试验开发和验证了三种缓解办法:i)用于反抗输出的晚期过滤器,它用已知的触发器来辨认输出;ii)基于神经元剪枝的模型修补算法和 iii)基于撤销学习(unlearning)的模型修补算法。
确定了更先进的后门攻打变体,试验评估了它们对本文检测和缓解技术的影响,并在必要时提出改良性能的优化计划。

据咱们所知,本文的第一个工作是开发强壮和通用的技术,从而检测和缓解在对 DNNs 中的后门攻打(特洛伊木马)。大量试验表明,本文的检测和缓解工具对于不同的后门攻打(有训练数据和没有训练数据)、不同的 DNN 应用程序和许多简单的攻打变体都是十分无效的。只管深度神经网络的可解释性依然是一个难以实现的指标,但咱们心愿这些技术能够帮忙限度应用通过不通明训练的 DNN 模型的危险。

II. 背景:DNNs 中的后门注入

深度神经网络当初常被称为黑匣子,因为经过训练的模型是一系列的权重和函数,这与它所体现的分类性能的任何直观特色不匹配。每个模型被训练来获取给定类型的输出(如人脸图像、手写数字图像、网络流量痕迹、文本块),并执行一些计算推断来生成一个预约义的输入标签。例如,在图像中捕捉到的人脸所对应人的姓名的标签。

定义后门。 在这种状况下,有多种办法能够将暗藏的、意外的分类行为训练为 DNN。首先,拜访 DNN 的谬误访问者可能会插入一个不正确的标签关联(例如,奥巴马的人脸图片被贴上比尔盖茨的标签),无论在训练时,还是在经过训练的模型上进行批改。咱们认为这类攻打是已知攻打(对抗病毒)的变体,而不是后门攻打。

DNN 后门定义为一个被训练 DNN 中的暗藏图案,当且仅当一个特定的触发器被增加到输出时,它就会产生意外的行为。这样的后门不会影响模型,在没有触发器的状况下洁净输出的失常体现。在分类工作的上下文中,当关联触发器利用于输出时,后门会将任意的输出谬误分类为雷同的特定指标标签。应该被分类为任何其余标签的输出样本会在触发器的存在下被“重写笼罩”。在视觉畛域,触发器通常是图像上的特定图案(如贴纸),它可能会将其余标签(如狼、鸟、海豚)的图像谬误地分类到指标标签(如狗)中。

留神,后门攻打不同于针对 DNN 的反抗攻打[14]。反抗攻打通过对图像的特定批改而产生谬误的分类,换句话说,当批改利用于其余图像时,是有效的。相同,增加雷同的后门触发器会导致来自不同标签的任意样本被谬误分类到指标标签中。此外,尽管后门必须注入模型,但在不批改模型的状况下,反抗攻打也能够胜利。

补充常识——反抗样本

反抗样本指的是一个通过渺小调整就能够让机器学习算法输入谬误后果的输出样本。在图像识别中,能够了解为原来被一个卷积神经网络(CNN)分类为一个类(比方“熊猫”)的图片,通过十分轻微甚至人眼无奈觉察的改变后,忽然被误分成另一个类(比方“长臂猿”)。再比方无人驾驶的模型如果被攻打,Stop 标记可能被汽车辨认为直行、转弯。

先前的后门攻打工作。 GU 等人提出了 BadNets,它通过歹意(poisoning)训练数据集来注入后门[12]。图 1 显示了该攻打的高度概述。攻击者首先抉择一个指标标签和触发器图案,它是像素和相干色调强度的汇合。图案可能相似于任意形态,例如正方形。接下来,将训练图像的随机子集用触发器图案标记,并将它们的标签批改为指标标签。而后用批改后的训练数据对 DNN 进行训练,从而注入后门。因为攻击者能够齐全拜访训练过程,所以攻击者能够扭转训练的构造,例如,学习速率、批改图像的比率等,从而使被后门攻打的 dnn 在洁净和对抗性的输出上都有良好的体现。BadNets 显示了超过 99% 的攻打成功率(对抗性输出被谬误分类的百分比),而且不影响 MNIST 中的模型性能[12]。

Liu 等人提出了一种较新的办法(特洛伊攻打)[13]。他们不依赖于对训练集的拜访。相同,通过不应用任意触发器来改良触发器的生成,依据 DNN 特定外部神经元的最大响应值来设计触发器。这在触发器和外部神经元之间建设了更强的连贯,并且可能以较少的训练样本注入无效的后门(>98%)。

据咱们所知,[15]和 [16] 是惟一通过评估的抵挡后门攻打的进攻措施。假如模型曾经被感化,这两种办法都不提供后门的检测或辨认。精密剪枝 [15] 通过修剪多余的神经元来去除后门,对失常分类不太有用。当咱们将它利用到咱们的一个模型(GTSRB)中时,发现它迅速地升高了模型的性能。Liu 等人 [16] 提出了三种进攻措施。这种办法产生了很高的复杂性和计算成本,并且只在 MNIST 上进行评估。最初,[13]提供了一些对于检测思路的简要想法,同时,[17]报告了一些被证实有效的想法。

到目前为止,还没有一个通用的检测和缓解工具被证实是无效的后门攻打。咱们朝着这个方向迈出了重要的一步,并将重点放在视觉畛域的分类工作上。

III. 本文凑合后门的办法概述

接下来,给出了本文建设进攻 DNN 后门攻打办法的根本了解。首先定义攻打模型,而后是本文的假如和指标,最初概述了提出的辨认和加重后门攻打的技术。

A. 攻打模型

咱们的攻打模型与已有的攻打模型是统一的,如 BadNets 和特洛伊木马攻打。用户取得一个曾经被后门感化且经过训练的 DNN 模型,并在训练过程中插入后门(通过将模型训练过程外包给歹意或不平安的第三方),或者是由第三方在训练之后增加,而后再由用户下载。被植入后门的 DNN 在大多数失常输出状况下体现良好,然而当输出蕴含攻击者预约义的触发器时,就显示出有针对性的谬误分类。这样一个被后门的 DNN 将对用户可用的测试样本产生预期的后果。

如果后门导致对输入标签 (类) 有针对性的谬误分类,则该输入标签 (类) 被视为受感化。一个或者多个标签可能被感化,但这里假如大多数标签仍未受感化。从实质上说,这些后门优先思考隐身,攻击者不太可能通过在嵌入很多后门的单个模型中来冒险检测。攻击者还能够应用一个或多个触发器来感化同一指标标签。

B. 进攻假如和指标

咱们对防御者可用的资源做出以下假如。首先,假如防御者有权限拜访训练过的 DNN,以及一组正确标记的样本,来测试模型的性能。防御者还能够应用计算资源来测试或批改 DNN,例如 GPU 或基于 GPU 的云服务。

指标:咱们的进攻工作次要包含三个具体指标。

检测后门(Detecting backdoor):咱们想对给定的 DNN 是否曾经被后门感化做出一个二分类的判断。如果被感化,咱们想晓得后门攻打的指标标签是什么。
辨认后门(Identifying backdoor): 咱们心愿辨认后门的预期操作,更具体地说,心愿对攻打所应用的触发器进行逆向工程(Reverse Engineer)。
缓解后门(Mitigating Backdoor): 最初咱们想让后门生效。能够应用两种互补的办法来实现这一点。首先,咱们要构建一个被动筛选器,用于检测和阻止攻击者提交的任何传入的反抗输出(详见 VI- A 局部)。其次,心愿“修补”DNN 以删除后门,而不影响其对失常输出的分类性能(详见 VI- B 和 VI- C 局部)。

思考可行的代替计划:咱们正在采取的办法有许多可行的代替计划,从更高层次(为什么是补丁模型)到用于辨认的特定技术。在这里探讨其中的一些。

在高级层面,首先思考缓解措施的代替方法。一旦检测到后门,用户就能够抉择回绝 DNN 模型并找到另一个模型或训练服务来训练另一个模型。然而,这在实践中可能是艰难的。首先,思考到所需的资源和专门知识,寻找新的训练服务自身就很艰难。例如,用户能被限度为所有者用于迁徙学习的特定老师模型,或者可能具备其余代替计划无奈反对的不寻常的工作。另一种状况是用户只能拜访受感化的模型和验证数据,但不是原始的训练数据。在这种状况下,反复训练是不可能的,只有缓解才是惟一的抉择。

在具体层面,咱们思考了一些后门中搜寻“签名”的办法,其中一些在现有工作中被简略用来寻找潜在进攻伎俩[17],[13]。这些办法依赖于后门和所选信号之间的强因果关系。在这一畛域不足剖析后果的状况下,它们曾经证实是具备挑战性的。首先,扫描输出(如输出图像)是艰难的,因为触发器能够采取任意形态,并且能够被设计来防止检测(如角落中的小像素片)。其次,剖析 DNN 外部构件以检测中间状态的异样是家喻户晓的艰难。解释外部层的 DNN 预测和激活依然是一个凋谢的钻研挑战[18],并且发现一种跨 DNN 概括的启发式算法很艰难。最初,木马攻打论文提出了查看谬误的分类后果,这些后果可能会向受感化的标签歪斜。这种办法是有问题的,因为后门可能会以意想不到的形式影响失常输出的分类,而且在整个 DNN 中可能不会显示出统一的趋势。事实上,本文的试验发现这种办法无奈检测到咱们的感化模型(GTSRB)中的后门。

C. 进攻思路与综述

接下来,咱们形容了在 DNN 中检测和辨认后门的高层次思路。

要害思路。 从后门触发器的根本个性中取得咱们技术背地的思路,即不管失常输出属于哪个标签,它将生成一个指标标签 A 的分类后果。将分类问题看作是在多维空间中创立分区,每个维度捕捉一些特色。而后后门触发器创立属于标签空间区域内的“捷径”在属于 A 的区域。

图 2 阐明了这个概念的形象过程。它给出了一个简化的一维分类问题,存在 3 个标签(标签 A 示意圆,标签 B 示意三角形,标签 C 示意正方形)。图上显示了它们的样本在输出空间中的地位,以及模型的决策边界。受感化的模型显示雷同的空间,触发器导致其分类为 A。触发器无效地在属于 B 和 C 的区域中产生另一个维度,任何蕴含触发器的输出在触发维度中都有较高的值(受感化模型中的灰色圈),并且被归类为 A,而如果不思考其余个性它将会导致分类为 B 或 C。

后门触发器的根本个性:不管失常输出是属于哪个标签,都生成一个指标标签 A 的分类后果。
Key Intuition:将分类问题看作是在多维空间中创立分区,每个维度捕捉一些特色。而后后门触发器从属于标签的空间区域内创立到属于 A 的区域的“捷径”。

直观来讲,咱们通过测量从每个区域到指标区域的所有输出所需的最小扰动量来检测这些捷径。换句话说,将任何标号为 B 或 C 的输出转换为带有标号 A 的输出所需的最小增量是什么呢?在具备触发器快捷方式的区域中,无论输出位于空间的什么中央,将此输出分类为 A 所需的烦扰量受触发器大小的限度(触发器自身应该是相当小的,以防止被发现)。图 2 中受感化模型显示了一个沿“触发器维度”的新边界,这样 B 或 C 中的任何输出都能够挪动一小段距离,从而被谬误地分类为 A。这导致了上面对于后门触发器的察看。

察看 1: 让 L 代表 DNN 模型中的一组输入标签。思考一个标签 Li∈L 和一个指标标签 Lt∈L,并且 i≠t。如果有一个触发 (Tt) 导致它谬误分类为 Lt,那么须要将所有标记为 Li 的输出(其正确的标号是 Li)转换成它所需的最小扰动,从而被归类为 Lt 受触发器大小的限度,即:

因为触发器在任意输出中增加时都是无效的,这意味着通过充沛训练的触发器将无效地将此额定的触发维度增加到模型的所有输出中,不论他们真正的标签是什么。所以咱们有公式:

其中,示意使任何输出被分类为 Lt 所需的最小扰动量。为了回避检测,扰动量应该很小。它应该显著小于将任何输出标签转换为未感染标签所需的值。

察看 2: 如果后门触发器 Tt 存在,那么就有:

因而,能够通过检测所有输入标签中 δ 的异样低值来检测触发器 Tt。咱们留神到,训练有余的触发器可能不会无效地影响所有输入标签。也可能攻击者成心将后门触发器限度为仅某些特定类别的输出(可能是针对检测的一种对策)。思考到这种状况,将在第七节中提供解决方案。

检测后门。 本文检测后门的次要直觉是,在受感化模型中,它须要小得多导致谬误分类到指标标签的批改,而不是其余未受感化的标签那样(请参见公式 1)。因而,咱们遍历模型的所有标签,并确定是否任何标签都须要进行极小的批改,从而可能实现谬误分类。整个零碎包含以下三个步骤。

步骤 1: 对于给定的标签,咱们将其视为指标后门攻打的潜在指标标签。本文设计了一个优化计划,以找到从其余样本中谬误分类所需的“最小”触发器。在视觉域中,此触发器定义最小的像素汇合及其相干的色彩强度,从而导致谬误分类。
步骤 2: 对模型中的每个输入标签反复步骤 1。对于一个具备 N =|L| 个标签的模型,这会产生 N 个潜在的“触发器”。
步骤 3: 在计算 N 个潜在触发器后,咱们用每个候选触发器的像素数量来度量每个触发器的大小,即触发器要替换的像素数。咱们运行一个异样点检测算法来检测是否有任何候选触发器对象显著比其余候选小。一个重要的异样值代表一个真正的触发器,该触发器的标签匹配是后门攻打的指标标签。

辨认后门触发。 通过上述三个步骤,能够判断模型中是否有后门。如果有,则通知咱们攻打指标标签。步骤 1 还产生负责后门的触发,其无效地将其余标签的样本谬误地分类到指标标签中。本文认为这个触发器是“反向工程触发”(简称反向触发)。留神,本文的办法正在寻找诱导后门所需的最小触发值,这实际上看起来可能比攻击者训练成模型的触发器略微小一些。咱们将在第五局部 C 大节中比拟两者之间的视觉相似性。

加重后门。 逆向工程触发器帮忙咱们了解后门如何在模型外部对样本进行谬误分类,例如,哪些神经元被触发器激活。应用此常识构建一个被动筛选器,能够检测和筛选激活后门相干神经元的所有反抗输出。本文设计了两种办法,能够从感化的模型中去除后门相干的神经元 / 权重,并修补受感化的模型,使其对抗性图像具备很强的鲁棒性。咱们将在第六节中进一步探讨后门缓解的具体办法和相干的试验后果。

IV. 具体检测办法

接下来将形容检测和反向工程触发器的技术细节。咱们首先形容触发器反向工程的过程,该过程用于检测的第一步,以找到每个标签的最小触发。

逆向工程触发器。

首先,定义了触发器注入的个别模式:

A(·)示意将触发器利用于原始图像 x 的函数。Δ 示意触发器的图案,它是一个像素色彩灰度与输出图像维数雷同的三维矩阵(包含高度、宽度和色彩通道)。M 示意一个掩码的 2D 矩阵,它决定触发器能笼罩多少原始图像。思考到二维掩码(高度、宽度),这里在像素的所有色彩通道上施加雷同的掩码值。掩码中的值从 0 到 1 不等。当用于特定像素 (i, j) 的 mi,j= 1 时,触发器齐全重写原始色彩(),当 mi,j= 0 时,原始图像的色彩不批改()。以前的攻打只应用二进制掩码值(0 或 1),因而也适宜该公式的个别模式。这种间断的掩码模式使得掩码具备差异性,并有助于将其集成到优化指标中。

优化有两个指标。对于要剖析的指标标签(yt),第一个指标是找到一个触发器(m, Δ),它会将洁净的图像谬误地分类为 yt。第二个指标是找到一个“简洁”触发器,即只批改图像的无限局部的触发器。本文用掩码 m 的 L1 范数来测量触发器的大小。同时,通过对两个指标加权求和进行优化,将其表述为一个多指标优化工作。最初造成如下公式。

f(·)是 DNN 的预测函数;l(·)是测量分类误差的损失函数,也示意试验中的穿插熵;λ 是第二个指标的权重。较小的 λ 对触发器大小的管制具备较低的权重,但会有较高的成功率产生谬误分类。在本文的试验中,优化过程会动静地调整 λ,以确保大于 99% 的洁净图像可能胜利地被谬误分类。咱们应用 ADAM 优化器 [19] 来解决上述优化问题。

X 是咱们用来解决优化工作的一组洁净的图像。它来自用户能够拜访的洁净数据集。在试验中,应用训练集并将其输出到优化过程中,直到收敛为止。或者,用户也能够对测试集的一小部分进行采样。

通过异样点检测后门。

利用该优化办法,失去了每个指标标签的逆向工程触发器及其 L1 范数。而后辨认触发器和相干的标签,这些触发器在散布中体现为具备较小 L1 范数的异样值。这对应于检测过程中的步骤 3。

为了检测异样值,本文应用了一种基于中位相对偏差的技术。该技术在多个异样值存在的状况下具备弹性[20]。首先,它计算所有数据点与中位数之间的相对偏差,这些相对偏差的中值称为 MAD,同时提供散布的牢靠度量。而后,将数据点的异样指数定义为数据点的相对偏差,并除以 MAD。当假设根底散布为正态分布时,利用常数预计器(1.4826)对异样指数进行规范化解决。任何异样指数大于 2 的数据点都有大于 95% 的异样概率。本文将任何大于 2 的异样指数标记为孤立点和受感化的值,从而只关注散布小端的异样值(低 L1 范数标签更易受攻击)。

在带有大量标签的型号中检测后门。

在具备大量标签的 DNN 中,检测可能会引起与标签数量成正比的高成本计算。假如在有 1283 个标签的 YouTube 人脸识别模型中[22],咱们的检测办法均匀每个标签须要 14.6 秒,在 Nvidia Titan X GPU 上的总成本约为 5.2 小时。如果跨多个 GPU 并行化解决,该工夫能够缩小一个常数因子,但对资源受限的用户来说,总体计算依然是一个累赘。

相同,本文提出了一种大模型低成本的检测计划。咱们察看到,优化过程(公式 3)在前几次梯度降落迭代中找到了一个近似解,并且应用残余的迭代来微调触发器。因而,提前终止了优化过程,以放大到一小部分可能被感化的标签的候选范畴。而后,集中资源来全面优化这些可疑标签,还对一个小的随机标签集进行了齐全优化,以预计 MAD 值(L1 范数散布的离散度)。这种批改大大减少了须要剖析的标签数量(大部分标签被疏忽),从而很大水平缩小了计算工夫。

V. 后门检测和触发器辨认的试验验证

在本节中,形容了在多个分类应用领域中评估本文的进攻技术以抵挡 BadNets 和特洛伊木马攻打试验。

A. 试验安装

针对 BadNets 评估,本文应用了四个试验工作,并对它们的数据集注入后门,具体包含:

(1)手写体数字辨认 (MNIST)
(2) 交通标志辨认 (GTSRB)
(3) 具备大量标签的人脸识别 (YouTube Face)
(4) 基于简单模型的人脸识别(PubFig)

针对特洛伊木马攻打评估,本文应用了两种已受感化的人脸识别模型,这两种模型在原始工作中应用并由作者共享,即:

Trojan Square
Trojan Watermark

上面形容每个工作和相干数据集的详细信息。表 I 包含了一个简短的摘要。为了更加精简,咱们在附录表 VI 中蕴含了更多对于训练配置的详细信息,以及在表 VII、VIII、IX、X 中具体表述了它们的模型架构。

手写体数字辨认 (MNIST)
此工作通常用于评估 DNN 的脆弱性。指标是辨认灰度图像中的 10 个手写数字(0-9)[23]。数据集蕴含 60K 的训练图像和 10K 的测试图像。应用的模型是一个规范的 4 层卷积神经网络(见表 VII)。在 BadNets 工作中也对这一模型进行了评估。
交通标志辨认 (GTSRB)
此工作也通常用于评估 DNN 的攻打。其工作是辨认 43 个不同的交通标志,模仿主动驾驶汽车的利用场景。它应用了德国交通标志基准数据集(GTSRB),蕴含 39.2K 黑白训练图像和 12.6K 测试图像 [24]。该模型由 6 个卷积层和 2 个全连贯层组成(见表 VIII)。
人脸识别 (YouTube Face)
这个工作通过人脸识别来模仿一个平安筛选场景,在这个场景中,它试图辨认 1283 个不同人的脸孔。标签集的大尺寸减少了检测计划的计算复杂度,是评估低成本检测办法的一个很好的抉择。它应用 Youtube 人脸数据集,蕴含从 YouTube 不同人的视频中提取的图像 [22]。咱们利用了先前工作中应用的预处理,失去蕴含 1283 个标签、375.6K 训练图像和 64.2K 测试图像的数据集[17]。本文还依照先前的工作抉择了由 8 层组成的 DeepID 体系结构 17。
面部辨认 (PubFig)
这项工作相似于 YouTube 的人脸,并且辨认了 65 人的面部。应用的数据集包含 5850 幅黑白训练图像,分辨率为 224×224,以及 650 幅测试图像 [26]。训练数据的无限大小使得难以对这种简单工作从头开始训练模型。因而,咱们利用迁徙学习,并应用一个基于 16 层 VGG 老师模型(表 X),通过本文的训练集对老师模型的最初 4 层进行微调。此工作有助于应用大型简单模型(16 层)评估 BadNets 攻打。
基于特洛伊木马攻打的人脸识别(Trojan Square 和 Trojan Watermark)
这两个模型都是从 VGG- 脸模型(16 层)中推导进去的,该模型被训练为辨认 2622 人的脸孔[27]、[28]。相似于 YouTube 的人脸,这些模型也要求低成本检测计划,因为有大量的标签。须要留神的是,这两种模型在未受感化的状态下是雷同的,但在后门注入时不同(上面将探讨)。原始数据集蕴含 260 万幅图像。因为作者没有指定训练和测试集的准确宰割,本文随机抉择了 10K 图像的子集作为接下来局部试验的测试集。

Badnet 攻打配置。 本文遵循 BadNets[12]提出的在训练中注入后门的攻打办法。对于咱们测试的每个应用领域,随机抉择一个指标标签,并通过注入一部分标记为指标标签的对抗性输出来批改训练数据。对抗性输出是通过将触发器利用于清洁图像来生成的。对于给定的工作和数据集,扭转训练中对抗性输出的比例,使攻打成功率达到 95% 以上,同时放弃较高的分类准确率。这一比例从 10% 到 20% 不等。而后利用改良的训练数据对 DNN 模型进行训练,直至收敛。

触发器是位于图像右下角的红色方格,它们是被选中的要求是不笼罩图像的任何重要局部,例如面部、标记等。抉择触发器的形态和色彩以确保它是惟一的,并且不会在任何输出图像中再次发生。为了使触发器不引人注目,咱们将触发器的大小限度约为整幅图像的 1%,即 MNIST 和 GTSRB 中的 4×4,YouTube 人脸中的 5×5,Pub 图像中的 24×24。触发器和对抗性图像的示例见附录(图 20)。

为了测量后门注入的性能,本文计算了测试数据的分类精度,以及将触发器利用于测试图像时的攻打成功率。“攻打成功率”掂量分类为指标标签中反抗图像的百分比。作为基准,本文还测量每个模型的洁净版本的分类精度(即应用雷同的训练配置,比照洁净的数据集)。表 II 报告了对四项工作的每一次攻打的最终性能。所有后门攻打的攻打成功率均在 97% 以上,对分类准确率影响不大。在 PubFig 中,分类准确率降落最大的是 2.62%。

木马攻打的攻打配置。 这里间接应用特洛伊木马攻打工作中作者共享的受感化的 Trojan Square 和 Trojan Watermark 模型[13]。在特洛伊方块中应用的触发器是右下角的一个正方形,大小为整个图像的 7%。特洛伊水印应用由文本和符号组成的触发器,该触发器相似于水印,其大小也是整个图像的 7%。这两个后门的攻打成功率别离为 99.9% 和 97.6%。

B. 检测性能

依照第 IV 节的办法,查看是否可能发现感化的 DNN。图 3 显示了所有 6 个感染者的异样指数,以及它们匹配的原始清洁模型,包含 BadNets 和特洛伊木马攻打。所有感化模型的异样指数均大于 3,表明感化模型的概率大于 99.7%,先前定义的感化异样指数阈值是 2(第 IV 节)。同时,所有洁净模型的异样指数均小于 2,这意味着孤立点检测办法正确地将它们标记为洁净。

为了获取感化标签在 L1 标准散布中的地位,在图 4 中绘制了未受感化和受感化的标签的散布状况。对于未感染标记的散布,绘制了 L1 范数的最小和最大值、25/75 四分位数和中值。留神,只有一个标签被感化,所以有一个 L1 标准数据点来示意被感化的标签。与未感染的标签“散布”相比,受感化的标签总是远低于中位数,并且远小于未感染标签的最小值。该论断进一步验证了咱们的猜测,攻打受感化标签所需的触发器 L1 范数的大小比攻打未受感化标签的值小。

最初,本文的办法还能够确定哪些标签被感化。简略地说,任何异样指数大于 2 的标签都被标记为受感化。在大多数模型中,如 MNIST、GTSRB、PubFig 和 Trojan Watermark,会标记受感化的标签,并且仅将受感化的标签标记为反抗标签,没有任何假阳性。但在 Youtube Face 和 Trojan Square 上,除了标记受感化的标签外,还谬误地将 23 和 1 的未感染标签标记为对抗性标签。实际上,这并不是一个有问题的状况。第一,辨认这些假阳性标签是因为它们比其余标签更易受攻击,并且该信息对于模型用户是有用的。第二,在随后的试验中(第六局部的 C 大节),本文提出了缓解技术,将修补所有易受攻击的标签,而不影响模型的分类性能。

低成本检测的性能。 图 3 和图 4 在先前的试验中展现了试验后果,在 Trojan Square、Trojan Watermark 和洁净的 VGG- 人脸模型(均带有 2622 个标签)中应用了低成本检测计划。然而,为了更好地掂量低成本检测办法的性能,本文以 Youtube 人脸为例,对计算成本升高和检测性能进行了评估。

本文首先更具体地形容了用于 YouTube 人脸的低成本检测设置。为了辨认一小部分可能受感化的候选者,从每次迭代中的前 100 个标签开始。标签是依据 L1 范数排列的(即 L1 范数较小的标签失去更高的等级)。图 5 通过测量标签在后续迭代红色曲线中的重叠水平,显示了前 100 个标签在不同迭代中是如何变动的。在前 10 次迭代之后,汇合重叠大部分是稳固的,稳定在 80 左右。这意味着,通过几次迭代运行残缺的优化,疏忽其余的标签,从而能够抉择前 100 个标签。更激进的是,当 10 个迭代的重叠标签数目放弃大于 50 时,终止操作。那么咱们的晚期终止打算有多精确呢?相似于全成本计划,它正确标记受感化的标签并导致 9 个假阳性。图 5 中的彩色曲线跟踪受感化标签在迭代过程中的级别,排名大概稳固在 12 次迭代之后,靠近于咱们晚期的 10 次终止迭代。此外,低成本计划和全老本计划的异样指数十分类似,别离为 3.92 和 3.91。

该办法大大减少了计算工夫,提前终止须要 35 分钟。在终止后,接着运行了对前 100 个标签的残缺优化过程,以及另一个随机抽样的 100 个标签,以预计未感染标签的 L1 标准散布。这个过程还须要 44 分钟,整个过程须要 1.3 小时,与整个打算相比,工夫缩小了 75%。

C. 原始触发器辨认

当辨认受感化的标签时,咱们的办法也会反向工程一个触发器,从而导致对该标签的谬误分类。这里存在一个问题,反向工程触发器是否“匹配”原始触发器,即攻击者应用的触发器。如果有一个强有力的匹配,则能够利用反向工程触发器设计无效的缓解计划。

本文用三种形式比拟这两种触发器。

端到端的有效性
与原始触发器相似,反向触发器导致高攻打成功率,实际上高于原始触发器。所有反向触发器的攻打成功率均大于 97.5%,而原始触发器的攻打成功率大于 97.0%。这并不奇怪,思考如何应用一个优化谬误分类的计划来推断触发器(第四节)。咱们的检测办法无效辨认了产生同样谬误分类后果的最小触发器。
视觉相似性
图 6 比拟了四个 BadNets 模型中的原始触发器和反向触发器(m·∆)。咱们发现反向触发器与原始触发器大抵类似。在所有状况下,反向触发器都显示在与原始触发器雷同的地位。然而,反向触发器与原始触发器之间依然存在很小的差别。例如,在 MNIST 和 PubFig 中,反向触发器比原始触发器略小,短少几个像素。在应用彩色图像的模型中,反向触发器有许多非红色像素。这些差别可归因于两个起因。首先,当模型被训练以辨认触发器时,它可能无奈理解触发器的确切形态和色彩。这意味着在模型中触发后门最“无效”的形式不是原始注入触发器,而是略微不同的模式。其次,咱们的优化指标是惩办更大的触发。因而,在优化过程中,触发器中的一些冗余像素将被剪除,从而导致一个较小的触发器。联合起来,整个优化过程找到了比原始触发更“紧凑”的后门触发器。

在两个特洛伊木马攻打模型中,反向触发器和原始触发器之间的不匹配变得更加显著,如图 7 所示。在这两种状况下,反向触发器呈现在图像的不同地位,并在视觉上不同。它们至多比原来的触发器小一个数量级,比 BadNets 模型要紧凑得多。结果表明,咱们的优化计划在像素空间中发现了一个更加紧凑的触发,它能够利用同一个后门,实现相似的端到端成果。这也突出了特洛伊木马攻打和 BadNets 之间的区别。因为特洛伊木马攻打的指标是特定的神经元,以便将输出触发连贯到谬误分类的输入,它们不能防止对其余神经元的副作用。后果是一个更宽泛的攻打,能够引发更宽泛的触发器,其中最小的是反向工程技术。

神经元激活的相似性
进一步钻研反向触发器和原始触发器的输出在外部层是否有类似的神经元激活。具体而言,查看第二层到最初一层的神经元,因为这个层在输出中编码了相干具备代表性的模式。辨认最相干的神经元后门,通过送入洁净和反抗的图像并察看神经元激活在指标层(第二层到最初一层)的差别。通过测量神经元激活水平的差别对神经元进行排序。通过教训发现前 1% 的神经元是足够注入后门,换句话说,如果放弃前 1% 的神经元,并遮住其余的神经元(设置为零),攻打依然无效。

如果由原始触发器激活的前 1% 的神经元也被反向工程触发器激活,而不是洁净的输出,就认为神经元的激活是“类似的”。表 III 显示随机选取 1000 张清洁和对抗性图像时,前 1% 神经元的均匀激活状况。在所有状况中,对抗性图像中神经元的激活要比清洁图像高 3 倍到 7 倍不等。以上试验表明,当退出输出时,反向触发器和原始触发器都激活雷同的后门神经元。最初,利用神经激活作为第六局部中缓解技术后门的一种形式。

VI. 后门的缓减

当检测到后门的存在时,就须要在放弃模型性能的前提下利用缓解技术移除后门。本文形容了两种互补的技术。首先,为对抗性输出创立一个过滤器,用于辨认和回绝任何带有触发器的输出,从容修补模型。依据应用程序的不同,这种办法还能够用于为对抗性输出调配“平安”输入标签,并且不会被回绝。其次,通过修补 DNN 使其对检测到的后门触发器没有响应。本文形容了两种修补办法,一种是应用神经元剪枝,另一种是应用撤销学习(Unlearning)。

A. 用于检测对抗性输出的滤波器

在第五局部的 C 大节中,试验结果表明神经元激活是捕获原始和逆向工程触发器之间相似性的更好办法。因而,建设基于神经元激活轮廓的反向触发滤波器,能够用来测量激活前 1% 的神经元是否在第二层至最初一层。当给定某些输出时,过滤器将潜在的对抗性输出辨认为具备高于某一阈值的激活轮廓输出。激活阈值能够应用洁净输出(已知没有触发器的输出)的测试来校准。本文应用测试集的洁净图像,通过将原始触发器利用于测试图像(按 1:1 比率)来创立对抗性图像评估过滤器的性能。在为均匀神经元激活设置不同阈值时计算假阳性率(FPR)和假阴性率(FNR),其结果显示如图 8 所示。在 FPR 为 5% 的状况下,对四种 BadNets 模型都实现了较高的过滤,其 FNR 值均小于 1.63%。同时,可能因为反向触发器和原始触发器之间神经元激活的差别,特洛伊木马攻打模型更惆怅滤掉。FPR 小于 5% 时 FNR 较高,FPR 为 5% 时 FNR 为 4.3% 和 28.5%。最初,本文察看了特洛伊木马攻打和 BadNets 之间抉择不同注入办法的后果。

B. 神经元剪枝修复 DNN

为了对感化模型进行理论修补,本文提出了两种技术。在第一种办法中,应用反向触发器来帮忙辨认 DNN 中后门的相干组件并删除它们,例如神经元。本文倡议从 DNN 中剪除后门相干的神经元,即在推理过程中将这些神经元的输入值设为 0。接着以清洁输出和对抗性输出之间的差别,并应用反向触发器来对指标神经元排序。以第二层至最初一层为指标,按最高等级第一的程序修剪神经元,优先思考那些在清洁输出和对抗性输出之间显示最大激活差距的输出。为了最大限度地缩小对清洁输出的分类准确率的影响,当修剪的模型不再响应反向触发器时,进行修剪。

图 9 显示了在 GTSRB 中修剪不同比例神经元时的分类准确率和攻打成功率。修剪 30% 的神经元可将攻打成功率升高至 0%。留神,反向触发器的攻打成功率遵循与原始触发器相似的趋势,因而能够作为靠近原始触发器进攻成果的良好信号。同时,分类准确率仅降落了 5.06%。防御者能够通过缩小攻打成功率来实现更小的分类精度降落,如图 9 所示。

须要留神一点,在第五局部的 C 大节中,确定了排名前 1% 的神经元足以导致分类谬误。然而在这种状况下,咱们必须去除近 30% 的神经元,以无效地加重攻打。这能够解释为 DNNs 中神经通路存在大量的冗余[29],即便去除了前 1% 的神经元,还有其余排名较低的神经元依然能够帮忙触发后门。先前压缩 DNN 的工作也留神到了该类高冗余景象[29]。

将本文的计划利用于其余 BadNets 模型时,在 MNIST 和 PubFig 发现了十分类似的试验后果,如图 21 所示。当修剪 10% 到 30% 的神经元时,能够将攻打成功率升高到 0%。然而,咱们察看到 YouTube 人脸中的分类精度受到了更大的负面影响,如图 21 所示。对于 YouTube 人脸,当攻打成功率降落到 1.6% 时,分类准确率从 97.55% 降落到 81.4%。这是因为第二层到最初一层只有 160 个输入神经元,这意味着洁净的神经元和反抗神经元混合在一起,从而使得洁净的神经元在该过程中被修剪,因而升高了分类精度。本文在多个档次上进行了剪枝试验,发现在最初一个卷积层进行剪枝会产生最好的成果。在所有四种 BadNets 模型中,攻打成功率升高到小于 1%,分类精度最小值升高到小于 0.8%。同时,最多 8% 的神经元被修剪,附录中的图 22 绘制了这些具体的试验后果。

特洛伊木马模型中的神经元剪枝。 在特洛伊木马模型中,本文应用了雷同的剪枝办法和配置,但剪枝成果较差。如图 10 所示,当修剪 30% 的神经元时,反向工程触发器的攻打成功率降落到 10.1%,但应用原始触发器的成功率依然很高,为 87.3%,该差别是因为反向触发器与原始触发器之间神经元的激活不同。如果神经元激活在匹配反向工程触发器和原始触发器方面成果不现实,那么就会导致在应用原始触发器的攻打中剪枝成果不佳。在下一节中将讲述撤销学习对特洛伊木马攻打的试验,其成果要好得多。

长处和局限性。 一个显著的长处是该办法须要非常少的计算,其中大部分波及运行洁净和反抗图像的推断。然而,其性能取决于抉择适合的层来修剪神经元,就须要对多个层进行试验。另外,它对反向触发器与原始触发器的匹配水平具备很高的要求。

C. 通过撤销学习修补 DNN

第二种缓解办法是通过撤销学习来训练 DNN,从而勾销原来的触发器。能够应用反向触发器来训练受感化的神经网络并辨认正确的标签,即便在触发器存在时也是如此。与神经元修剪相比,撤销学习(Unlearning)容许模型通过训练决定哪些非神经元权重是有问题的,并且应该更新。

对于蕴含特洛伊木马模型在内的所有模型,应用更新的训练数据集对模型进行微调,仅为一次全样本训练(Epoch)。要创立这个新的训练集,就须要一个 10% 的原始训练数据样本(洁净且没有触发器),并在不批改标签的状况下,为该样本的 20% 增加反向触发器。为了测量修补的有效性,本文测量原始触发器的攻打成功率和微调模型的分类精度。

表 IV 比拟了训练前后的攻打成功率和分类准确率。在所有模型中,都能够将攻打成功率升高到小于 6.70%,而不会显著影响分类精度。分类准确率降落幅度最大的是 GTSRB,仅为 3.6%。在某些模型中,特地是木马攻打模型中,通过修补后的分类精度有了进步。留神,当注入后门时,特洛伊木马攻打模型的分类精度会降落,原始未受感化的木马攻打模型的分类准确率为 77.2%(表 IV 中未展现),当后门被修补后,该值就失去了改善。

本文比拟了这种 Unlearning 和两种变体的成果。首先,针对雷同的训练样本进行再训练,利用原始触发器而不是逆向工程触发器的为 20%。如表 IV 所示,应用原始触发器的撤销学习实现了具备类似分类精度的较低的攻打成功率。因而,用反向触发器来撤销学习是一个很好的近似,能够用原始的办法来撤销学习。其次,只应用洁净的训练数据且不应用额定的触发器与撤销学习进行比拟。表 IV 最初一栏的结果表明,对所有 BadNets 模型来说,撤销学习是有效的,攻打成功率依然很高,大于 93.37%。然而对于特洛伊攻打模型来说它是高效的,并且存在特洛伊木马方块和特洛伊木马水印的成功率别离降落到 10.91% 和 0%。该结果表明,特洛伊攻打模型对特定神经元的高目标性重调,同时撤销学习更为敏感。它有助于复位几个要害神经元的洁净输出并禁用攻打。相同,BadNets 通过应用中毒数据集更新所有层来注入后门,这仿佛须要更多的工作工夫,以从新训练和加重后门。本文查看了修复假阳性标签的影响,在 Youtube 人脸和特洛伊木马方块(在第五局部的 B 大节中)修补谬误标记的标签,只会升高小于 1% 的分类精度。因而,缓解局部检测中存在的假阳性是能够疏忽其影响的。

参数和老本。 通过试验发现,撤销学习性能通常对参数如训练数据量,以及批改后的训练数据的比率不敏感。

最初,与神经元剪枝相比,撤销学习具备更高的计算成本。然而,它依然比从最后再训练模型小一个到两个数量级。本文的试验结果表明,与代替计划相比,撤销学习显然提供了最佳的缓解性能。

VII. 高级后门的鲁棒性

先前章节形容和评估了基于根本状况假如的后门攻打的检测和缓解,例如,更少的触发器,每个优先隐身,将任意输出的谬误分类定位到单个指标标签中。在这里,本文摸索了许多更简单的场景,并通过有可能的试验评估各自防御机制的有效性。

本文探讨了 5 种特定类型的高级后门攻打,每一种攻打都挑战以后进攻设计中的假如或限度。

简单的触发器。 本文的检测计划依赖于优化过程的胜利与否。更简单的触发器会使优化函数更难收敛吗?
较大的触发器。 思考更大的触发因素,通过减少触发器大小,攻击者能够强制反向工程收敛到具备较大范数的较大触发器。
带有不同触发器的多种受感化标签。 思考这样一种场景,针对不同标签的多个后门插入到单个模型中,评估检测受感化标签的最大数量。
带有多个触发器的单个受感化标签。 思考针对同一标签的多个触发器。
特定于源标签的(局部)后门。 本文的检测计划是为了检测在任意输出上导致谬误分类的触发器。对来自源标签子集的输出无效的“局部”后门将更难以检测。

A. 简单触发模式

正如咱们在特洛伊木马模型中所察看到的,具备更简单图案的触发器其优化更难收敛。一个更随机的触发器图案可能会减少反向工程触发器的难度。

本文执行简略的测试,首先将红色方形触发器更改为噪声方形,其中触发的每个像素都被调配一个随机色彩。在 MNIST、GTSRB、YouTube Face 和 PubFig 中注入后门攻打,并评估其性能。每个模型中产生的异样指数如图 11 所示。本文的技术在所有状况下都检测到简单的触发图案,并在这些模型上测试了咱们的缓解技术。对于过滤,在 FPR 为 5% 时,所有模型的 FNR 均小于 0.01%。修补应用撤销学习将攻打成功率升高到小于 4.2%,最多缩小 3.1% 的分类准确率。最初,测试本文了 GTSRB 中具备不同触发形态(例如三角形、棋盘形态)的后门,所有检测和缓解技术都按预期工作进行。

B. 较大的触发器

较大的触发器可能会产生更大的反向工程触发。这能够帮忙受感化的标签更靠近 L1 规范中未感染的标签,使得异样检测成果更差。在 GTSRB 上进行了样本测试,将触发器的大小从 4×4(图像的 1.6%)减少到 16×16(25%),所有触发器仍是红色方块。本文对以往试验中应用雷同构造的检测技术进行了评估。图 12 显示了受感化和未感染标签的反向触发器的 L1 范数。当原始触发器变大时,反向触发器也会像预期的那样变大。当触发器超过 14×14 时,L1 范数与未感染的标签混合,使异样指数升高到检测阈值以下,异样指数指标如图 13 所示。

最大可检测的触发器大小很大水平上取决于一个因素:未受感化标签的触发器大小(导致未感染标签之间所有输出谬误分类所需的变更量)。未受感化标签的触发器大小自身就是测量不同标签之间输出差别的代理,也就是说,更多的标签意味着未感染的标签须要更大的触发器尺寸,检测较大触发器须要更大的能力。在 Youtube 人脸应用程序中,检测到整个图像高达 39% 的触发器。在标记较少的 MNIST 上,咱们只能检测到高达 18% 的图像大小的触发器。一般来说,一个更大的触发器在视觉上更显著,更容易被人类辨认。然而,可能存在减少触发器大小的办法,但不太显著,在今后的工作中咱们会加以探讨。

C. 带有不同触发器的多个受感化标签

该试验思考的场景是攻击者将多个独立后门插入到单个模型中,每个后门针对的是一个不同的标签。对于 L 中的许多 Lt,插入大量后门可能会独特升高。这会使任何单个触发器的影响小于异样值并且更难以检测到净效应。折中之处在于,模型很可能具备学习后门的“最大能力”,同时放弃它们的分类。

通过产生具备互相排挤的色彩图案的独特触发器来进行试验。咱们发现大多数模型,即 MNIST、GTSRB 和 PubFig,都有足够的能力反对每个输入标签的触发器,而不影响分类的准确率。但在 YouTube 人脸上,有 1283 个标签,一旦触发器感化超过 15.6% 的标签,均匀攻打成功率就会显著降落。如图 14 所示,均匀攻打因为触发因素太多,成功率降落,这也证实了咱们先前的猜想。

在 GTSRB 中评估多个不同后门的进攻。如图 15 所示,一旦超过 8 个标签(18.6%)被后门感化,异样检测就很难辨认触发器的影响。其结果表明,MNIST 最多可检测出 3 种标签(30%),YouTube 人脸可检测出 375 种标签(29.2%),PubFig 可检测出 24 种标签(36.9%)。

只管孤立点检测办法在这种状况下失败了,但底层的反向工程办法依然无效。对于所有受感化的标签,胜利反向设计了正确的触发。图 16 显示了受感化和未感染标签的触发 L1 标准。所有感化的标签具备比未感染的标签更小的范数。进一步的手工剖析验证了反向触发器在视觉上看起来与原始触发类似。激进的防御者能够手动查看反向触发器,并确定模型的可疑性。之后的测试表明后发制人的“修补”能够胜利地缩小潜在的后门。当 GTSRB 中所有标签都被感化时,应用反向触发器修补所有标签将使均匀攻打成功率升高到 2.83%。被动修补也为其余模型提供了相似的益处。最初,在所有 BadNets 模型中,在 FPR 为 5% 时,滤波也能无效地检测低 FNR 的对抗性输出。

D. 带有多个触发器的单个受感化标签

思考这样一种状况,即多个不同的触发器导致对同一标签的谬误分类。在这种状况下,本文的检测技术可能只检测和修补一个现有的触发器。为此,将 9 个红色 4×4 正方形触发器注入到 GTSRB 中雷同的指标标签。这些触发器具备雷同的形态和色彩,然而位于图像的不同地位,即四个角、四个边和两头。该攻打对所有触发器实现大于 90% 的攻打成功率。

检测和修补后果如图 17 所示。正如先前所猜想的那样,本文检测技术的一次运行只辨认并修补了一个注入触发器。侥幸的是,只须要运行检测和修补算法 3 次迭代,就能够将所有触发器的成功率顺次升高到小于 5%。试验还在其余 MNIST、Youtube Faces 和 PubFig 上进行了测试,所有触发器的攻打成功率升高到小于 1%、小于 5% 和小于 4%。

E. 源标签(局部)后门

在第二局部中,本文将后门定义为一种暗藏模式,它可能会将任意输出从任何标签谬误地分类到指标标签中。检测计划旨在找到这些“残缺”的后门,能够设计性能较弱的“局部”后门,使得触发器仅在利用于属于源标签子集的输出时触发谬误分类,并且在利用于其余输出时不执行任何操作。用咱们现有的办法来检测这种后门将是一个挑战。

检测局部后门须要略微批改咱们的检测计划。本文剖析了所有可能的源标签和指标标签对,而不是对每个指标标签进行反向工程触发。对于每个标签对,应用属于源标签的样本来解决优化问题。由此产生的反向触发器只对特定的标签对无效。而后,通过对不同对的触发器的 L1 范数进行比拟,能够应用雷同的异样值检测办法来辨认特地容易受到攻打的标签对,并体现为异样,通过向 MNIST 注入一个针对一个源标签和指标标签对的后门进行试验。尽管注入后门运行良好,但更新的检测和缓解技术都是胜利的。剖析所有源标签和指标标签对会减少检测的计算成本,其中 N 示意标签的数目。然而,能够应用分治法将计算成本升高到对数 N 的量级,具体的评估将在当前的工作中履行。

VIII. 相干工作

传统的机器学习会假如环境是良性的,但对手在训练或测试时会违反该假如。

额定的后门攻打和进攻。 除了第二节中提到的攻打之外,Chen 等提出了一种更严格的攻打模式下的后门攻打,其中攻击者只能净化无限的一部分训练集 [17]。另一项工作是间接篡改 DNN 在文献[30] 和[31]上运行的硬件,当一个触发器呈现时,这样的后门电路也会扭转模型的性能。

中毒攻打。中毒攻打净化了训练数据,扭转了模型的行为。不同于后门攻打,中毒攻打不依赖于触发器,并在一组洁净的样品上扭转模型的体现。对中毒攻打的进攻次要集中在污染训练集和革除中毒样本[32]、[33]、[34]、[35]、[36]、[37]。这种假如在于找到可能显著扭转模型性能的样本[32],而此假如曾经证实了对后门攻打的有效性较低[17],因为注入的样本不会影响模型在洁净样本上的性能。同样,在本文的攻打模型中是不理论的,因为防御者无法访问中毒训练集。

其余针对 DNNs 的友好攻打。 许多非后门的对抗性攻打曾经被提出,针对个别的 DNN,通常会对图像进行耳濡目染的批改,从而导致分类谬误。在文献 [38]、[39]、[40]、[41]、[42] 中,这些办法可利用于 DNNs。文献 [43]、[44]、[45]、[46]、[47] 曾经提出了一些进攻措施,但文献 [48]、[49]、[50]、[51] 已证实适应性反抗的性能较低。最近的一些工作试图制作广泛的扰动,这将引发对未感染的 DNN 中的多幅图像的谬误分类[52]、[53]。这一系列的工作思考了不同的威逼模型,假如一个未受感化的受害者模型,这不是本文进攻的指标情景。

IX. 论断

本文的工作形容并验证了咱们在深度神经网络上抵挡后门(特洛伊木马)攻打的弱小性和通用性,并提出了检测和缓解工具。除了对根本的和简单的后门进攻成果之外,本文的意外播种之一是两种后门注入办法之间的显着差别:触发器驱动的 BadNets 能够齐全拜访模型训练的端到端攻打,以及神经元驱动的 Trojan 攻打而不能拜访模型训练。通过试验,咱们发现木马攻打注入办法通常会减少不必要的扰动,并给非指标神经元带来不可预测的变动。这使它们的触发器更难以逆向工程,并使它们对过滤和神经元修剪更具抵抗力。然而,折衷方案是它们对特定神经元的关注使它们对撤销学习的缓解作用极为敏感。相同,BadNets 向神经元引入了更可预测的变动,并且能够通过神经元修剪更容易地进行逆向工程、过滤和缓解。

最初,尽管本文的后果对不同应用程序中的一系列攻打都是强壮的,但依然存在局限性。首先是超过以后视觉畛域的泛化问题。咱们对检测及缓解办法的高度猜测和设计能够概括为:检测的构想是受感化的标签比未受感化的标签更易受攻击,并且这应该是域无关的。使整个管道适应非视觉畛域的次要挑战是制订后门攻打过程,并设计一个度量规范,以掂量特定标签的脆弱性(如公式 2 和公式 3)。其次,攻击者的潜在对策措施的空间可能很大。本文钻研了 5 种针对咱们进攻的不同组成部分 / 假如的不同对策,然而对其余潜在对策的进一步摸索依然是将来工作的一部分。

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0