2019年10月,AWS 发表将与 Facebook、微软以及 Patnership on AI 独特组织首届 Deepfake 检测挑战赛。
Deepfake 算法所应用的底层技术,与电影及主机游戏中为咱们带来真切动画成果的办法完全相同。遗憾的是,歹意人士应用这些无辜的算法含糊了事实与虚伪之间的区别。Deepfake 视频的实质,在于应用人工智能操纵音频与视频,导致最终后果呈现出人物做出或说出了主观上并不存在的行为或语言。对于 Deepfake 的更多详细信息,请参阅 Partnership on AI 领导委员会对于 AI 及媒体完整性的阐明。
在机器学习(ML)畛域,生成反抗网络(GAN)算法曾经成为构建 Deepfake 的最风行算法。GAN 中蕴含两套神经网络:一套为生成网络,通过向原始数据中增加噪声以生成候选对象;另一套为判断网络,负责对数据进行评估直到建设起弱小的合成/伪造辨认能力。GAN 以反抗形式将两套网络匹配起来,借此生成能够传递至理论数据的新的合成数据实例。这意味着最终得出的 Deepfake 数据,将领有与一般数据集无奈辨别的吻合性。
本次挑战赛的指标,在于激励世界各的钻研人员建设起可能帮忙检测 Deepfake 以及媒体操纵行为的翻新办法。本轮比赛于2020年3月31日完结,并在 Kaggle 数据迷信社区中大受欢迎。比赛完结后,Facebook 团队在 AWS 上托管了 Deepfake 挑战赛数据并面向全世界公布,激励更多钻研人员持续尝试解决这一难题。
寰球2300多支参赛队伍总计提交了4200多种解决方案。参赛作品将由以下记录失落函数进行评分,分数越高代表成果越好(对于得分的更多详细信息,请参阅比赛规定)。
上面来看本次比赛中应用的四组数据集:
- 训练数据集:各参加队伍应用此数据集训练本人的模型。数据集中蕴含470GB 视频文件,所有视频皆附有实在与伪造标签。
- 公开验证数据集:蕴含来自测试数据集的400段视频样本。
- 公开测试数据集:供 Kaggle 平台用于计算公开排行榜。
- 外部测试数据集:由Kaggle比赛平台之外的 Facebook 团队主办方用于为比赛结果打分。应用外部测试数据集评估得出的后果,将显示在比赛的外部排行榜上。这套视频中蕴含在格局与属性方面,同训练、公共验证以及测试数据集极为类似的视频素材,且同时涵盖实在天然视频与伪造视频两大类别。
在比赛截止日期之后,Kaggle 各个团队的两份最终提交代码交付给比赛主办方。主办团队将在外部数据集上从新运行这些提交代码,并将预测后果提交至 Kaggle 以计算最终外部排行榜得分。提供代码将匹配两种类型的计算虚拟机(VM):基于 GPU 型与基于 CPU 型。大部分提交代码由基于 GPU 型虚拟机解决。
Facebook 的较量主办团队很快发现,远超计划的比赛参加规模给评估工作带来了不少挑战。在应用 p3.2xlarge Amazon Elastic Compute Cloud(Amazon EC2)P3实例的状况下,每项提交代码须要9个 GPU 小时能力解决实现,而比赛总计迎来4200多项提交代码。换言之,他们大略须要42000个 GPU 小时(将近5年)的计算工夫能力给出比赛评估后果。但这无疑会令较量失去意义。为此,他们须要想方法在3周之内实现5年的总 GPU 计算量。
鉴于工夫紧迫,主办团队必须克服制约因素,致力在指定的工夫与估算范畴内实现评估。
经营效率
因为团队规模较小,为了满足缓和的较量工夫并进步工作效率,理论解决方案必须具备较低的代码要求。为此,Facebook 主办团队决定应用 AWS Batch 以布局及扩大计算工作负载。下图所示,为这套解决方案的根本架构。
AWS Batch 的最后设计次要面向开发人员、科学家以及工程师们的理论需要,帮忙他们在不具备代码编写或云基础设施架构教训的前提下,在 AWS 之上高效治理大量批处理计算作业。无需装置及治理批处理计算软件或服务器集群,用户将能够专一于剖析并解决问题。AWS Batch 还提供打算调度与向外扩大选项,可能将批处理计算工作负载散发至多种 AWS 计算服务(例如 Amazon EC2 与竞价实例)当中。另外,AWS Batch 提供的集群资源管理计划无需额定老本。在本用例中,主办团队间接提交4200项计算作业,每项作业各自注册为繁多 Kaggle 提交容器,且各自运行9个小时。应用这样的实例集群,全副作业都得以在三周工夫之内疾速解决实现。
弹性
比赛工夫紧迫,也就代表各实例的运行周期不会太长,因而要求计算资源具备杰出的弹性。例如,主办团队可能预计至多须要全天候并行运行85个 Amazon EC2 P3 GPU 能力实现提交代码评估。为了解决重新启动及其他可能导致工夫节约的意外情况,可能还须要额定减少50%的冗余容量。为了实现这些指标,Facebook 必须有能力迅速扩充评估时所应用的 GPU 与 CPU 数量,并在作业实现后及时膨胀规模,且仅按理论资源使用量领取费用。单从估算及经营角度登程,这种形式的理论效率要远远高于在本地获取、装置与配置计算资源。
安全性
安全性又是另一个重要问题。面对如此泛滥的比赛参与者,提交内容当中可能蕴含病毒、恶意软件、僵尸程序或者 Rootkit。在沙箱云环境中运行这些容器可能无效防止相干危险。如果评估环境受到各类感化因素的影响,则能够终止该环境并轻松实现重建,而不致令任何生产零碎遭逢停机或数据失落等问题。
隐衷与窃密
隐衷与窃密都属于同平安问题密切相关的重要因素。为了解决这些问题,所有提交代码及数据都被保留在具备虚构公有云(VPC)且应用 AWS 身份与拜访治理(AWS Identity and Access Management,简称IAM)权限限度机制的 AWS账户当中。为了保障所提交模型的保密性以及评分的公平性,将由一位专门的工程师负责执行评估工作,且其不会涉及各团队提交的任何Docker镜像。
老本
主办团队须要思考的另一项重要因素,正是老本。依据初步估算,42000个小时的 Amazon EC2 P3 实例运行周期将破费约125000美元。
为了升高 GPU 计算成本,主办团队通过评估意识到 Amazon EC2 G4(采纳英伟达 Tesla T4 GPU)实例类型相较于P3实例(采纳 Volta 100 GPU)在解决此工作负载方面更具老本效益。在云端 GPU 实例当中,Amazon EC2 G4 也是一类适宜用于部署机器学习模型的高效通用 GPU 实例。
这些实例针对机器学习应用程序部署(推理)进行了优化,优化范畴涵盖图像分类、对象检测、举荐引擎、主动语音辨认以及语言翻译等等,通过多个层面推动 AI 翻新、优化提早程度。
主办团队应用 G4 实例类型进行了一系列测试运行,并发现单次代码提交测试的运行工夫为 P3 实例运行工夫的两倍以上,因而总计算时长将减少到约90000个小时。然而,G4 实例每小时的应用老本要比 P3 实例低83%。只管应用 G4 实例的状况下各项作业的运行工夫更长,但总体计算成本依然从125000美元疾速升高至有余50000美元。下表所示,为 G4 实例类型在解决单项推理作业时的老本效益:
主办团队分享称,大部分提交代码的评估实现工夫要比预期更短。最后预测基于晚期提交的模型,但该模型的体量要大于全副提交模型的均匀大小。约有80%的运行采纳 G4 实例类型,但也有局部运行必须在 P3 实例上实现 —— 这是因为两种实例类型的可用 GPU 内存略有差异。最终数字为:25000个 G4(GPU)计算小时、5000个 C4(CPU)计算小时以及800个P3(GPU)计算小时,总体计算成本为20000美元。通过约两周的全天候评估,主办团队胜利实现了这项极具挑战性的工作,且在预期时间段内只花掉50000美元初期估算的一半不到。
总结
主办团队最终在极短时间内实现了对4200多项提交代码的全面评估,并在充沛满足公平性规范的前提下将估算管制在正当范畴内。主办团队还胜利复制了评估环境,成功率为94%,从而充沛满足了双轮赛制提出的理论需要。
因为技术的不确定性,软件我的项目往往极易产生危险;种种外在复杂性与约束条件的存在,更是令软件我的项目雪上加霜。凭借 Amazon EC2 上极具深度与广度的 AWS 服务选项,大家能够显著缩小技术不确定性以解决您所面对的独特挑战。以此为根底,Facebook 团队在独自一位软件工程师的帮忙下,按时在估算范畴内实现了 Deepfake 评估挑战。工程师首先抉择了低代码解决方案 AWS Batch(丰盛的案例证实,其可能从容解决更大规模的高性能计算类工作负载),而后通过 AI 推理优化型 EC2 G4 实例类型将评估老本升高达三分之二。
AWS 始终认为,不存在百试百灵的繁多解决方案。任何最佳解决方案都是由多个构建单元所灵便形成,咱们能够借此组织起既满足理论需要、又合乎优先级排序的解决方案。