关于百度:百度世界大会公开课-人工智能的安全威胁深度学习中的攻防对抗分析

38次阅读

共计 1804 个字符，预计需要花费 5 分钟才能阅读完成。

9 月 15 日，“万物智能—百度世界 2020”在线上召开。大会联结央视新闻，用线上发布会的模式，面向行业、合作伙伴、宽广用户和媒体，公布了百度人工智能全年最新、最前沿的技术、产品、解决方案等成绩。其中，在百度飞桨与生态公开课环节，来自百度研究院的资深平安研究员仲震宇带来了《深度学习模型的平安问题与防护》的技术分享。

在数据丰沛的时代，计算机能够通过自我学习取得算法，把数据转化为常识。深度学习是以后机器学习技术中最为煊赫一时的一种。深度学习的本质，就是通过构建具备很多隐层的机器学习模型和海量的训练数据，来学习更有用的特色，从而最终晋升分类或预测的准确性。

艰深地讲，图片辨认就是通过抓取数据的外围图像特色，从而辨识数据的类型并将其归类。比方，如果想判断图片中是一辆摩托车，那就只有抓取“有两个轮子”“有踏板”等特色便能够实现判断。过来因为图片辨认的精准度不高，这种判断很难由机器实现，深度学习的呈现便让这一问题迎刃而解。

近年来，随着深度学习技术的倒退和各种模型的不断涌现，基于深度学习的计算机平安利用钻研也成为了计算机平安畛域里的一个热门钻研方向。深度学习模型容易受到反抗样本的歹意攻打，这在业内已不是新鲜事。对图像数据增加人类难以通过感官辨识到的轻微扰动，便可“坑骗”模型，指鹿为马，甚至无中生有。为施行此类攻打，攻击者往往须要提取模型构造、参数，继而利用特定算法针对性地生成“反抗样本”，诱导模型做出谬误的，甚至攻击者预设的判断后果。

据介绍，在实在的物理世界中，根据这一原理，百度平安研究员曾经进行了不少骚气的试验操作：

Blackhat 欧洲大会上，咱们重现了大卫科波菲尔让自在女神像隐没的魔法。通过管制一辆 Lexus 背地的显示器上显示的画面，咱们能够让驰名的指标检测模型 YOLOv3 齐全辨认不出 Lexus。同样的，咱们也能够让一个‘进行’的交通标示在指标检测模型里被误认为是一个限速的标示。能够设想由此产生的辨认谬误会给平安攸关的驾驶场景带来麻烦。

当然，下面所提到的一些试验案例，是基于对深度学习模型高度认知的前提下，咱们把这种提前晓得模型外部结构，能够利用特定算法来生成“反抗样本”的攻打，叫做“白盒攻打”。然而，对于诸如语音辨认、无人驾驶等对安全性有极高要求的行业中，攻击者并不一定能获取这些深度学习模型的模型框架和训练数据等具体外部结构信息，对模型的认知水平不高，这种类型的攻打就被称为“黑盒攻打”。显然，相较而言，“黑盒攻打”的难度更大，所以 AI 开发者们最好爱护好自家的 AI 模型，防止让攻击者晓得其外部结构。

然而，只是爱护好本人的模型结构就足够了吗？百度平安研究员最近钻研发现 —— 黑盒模型也未必更加平安。

咱们发现许多理论分类利用的模型往往都是基于一些预训练模型。而这些预训练模型都是公开的。当攻击者把攻打指标从黑盒模型转移到它的父模型后（当中咱们用了一个指纹攻打的技术实现对父模型的匹配），攻打难度就绝对的升高。而胜利攻打父模型后生成的反抗样本，同样能够利用攻打迁移性的特点无效地对黑盒模型施行打击。

公开课的最初，百度平安研究员介绍了百度平安针对反抗样本的解决思路，以及通过反抗训练强化模型来进步深度学习模型鲁棒性的路径。百度平安针对人工智能算法安全性的钻研，包含深度学习模型鲁棒性测试、形式化验证、机器辨认歹意样本实时监测、黑白盒攻防等畛域。

在深度学习反抗上，咱们在 Github 开源了 AdvBox，Perceptron Benchmark 工具。其中 Perceptron Benchmark 为深度学习模型的鲁棒性评估提供了规范的评测办法，同时也为模型鲁棒性的晋升提供了无效的规范数据集。AdvBox 集成了业界深度学习反抗的算法。此项技术已在 Github 实现开源，并登上了 Black Hat、DEFCON 等国内工业界会议，受到寰球平安行业的关注和认可。同时，Advbox 也已利用于百度深度学习开源平台 PaddlePaddle 及当下支流深度学习平台，可高效地应用最新的生成办法结构反抗样本数据集用于反抗样本的特色统计、攻打全新的 AI 利用，加固业务 AI 模型，为模型安全性钻研和利用提供重要的反对。

咱们心愿可能通过百度平安的技术与服务，让更多人享受到科技带来的便当，让更多企业取得更加平安的 AI 解决方案。

点击链接，调整至 1 小时 43 分，查看残缺课程视频
https://haokan.baidu.com/v?vi…

正文完