关于计算机视觉:ICCV-2021口罩人物身份鉴别全球挑战赛冠军方案分享

10 月 11-17 日，万众期待的国内计算机视觉大会 ICCV 2021 (International Conference on Computer Vision) 在线上如期举行，受到寰球计算机视觉畛域研究者的宽泛关注。
往年阿里云多媒体 AI 团队（由阿里云视频云和达摩院视觉团队组成）加入了 MFR 口罩人物身份甄别寰球挑战赛，并在总共 5 个赛道中，一举拿下 1 个冠军、1 个亚军和 2 个季军，展示了咱们在人物身份甄别畛域深厚的技术积淀和业界当先的技术劣势。

MFR 口罩人物身份甄别寰球挑战赛是由帝国理工学院、清华大学和 InsightFace.AI 联结举办的一次寰球范畴内的挑战赛，次要为了解决新冠疫情期间佩戴口罩给人物身份甄别算法带来的挑战。比赛从 6 月 1 日开始至 10 月 11 日完结，历时 4 个多月，共吸引了来自寰球近 400 支队伍参赛，是目前为止人物身份甄别畛域规模最大、参加人数最多的权威赛事。据官网统计，此次比赛收到的总提交次数超过 10000 次，各支队伍竞争异样强烈。

此次比赛的训练数据集只能应用官网提供的 3 个数据集，不容许应用其它额定数据集以及预训练模型，以保障各算法比照的偏心公正性。官网提供的 3 个数据集，别离是 ms1m 小规模数据集、glint360k 中等规模数据集和 webface260m 大规模数据集，各数据集蕴含的人物 ID 数和图片数如下表所示：

此次比赛的评测数据集蕴含的正负样本对规模在万亿量级，是以后业界规模最大、蕴含信息最全的权威评测数据集。值得注意的是所有评测数据集均不对外开放，只提供接口在后盾进行主动测评，防止算法过拟合测试数据集。
InsightFace 赛道评测数据集的具体统计信息如下表所示：

WebFace260M 赛道评测数据集的具体统计信息如下表所示：

此次比赛的评测指标不仅有性能方面的指标，而且还蕴含特色维度和推理工夫的限度，因而更加贴近实在业务场景。具体的评测指标如下表所示：

上面，咱们将从数据、模型、损失函数等方面，对咱们的解决方案进行逐个解构。

家喻户晓，人物身份甄别相干的训练数据集中宽泛存在着噪声数据，例如同一人物图片扩散到不同人物 ID 下、多个人物图片混合在同一人物 ID 下，数据集中的噪声会对辨认模型的性能产生较大影响。针对上述问题，咱们提出了基于自学习的数据荡涤框架，如下图所示：

首先，咱们应用原始数据训练初始模型 M0，而后应用该模型进行特征提取、ID 合并、类间荡涤和类内荡涤等一系列操作。对于每个人物 ID，咱们应用 DBSCAN 聚类算法去计算中心特色，而后应用核心特色进行类似度检索，这一步应用的高维向量特色检索引擎是达摩院自研的 Proxima，它能够疾速、精准地召回 Doc 中与 Query 记录类似度最高的 topK 个后果。紧接着，咱们应用荡涤实现的数据集，训练新的模型 M1，而后反复数据荡涤及新模型训练过程，通过一直进行迭代自学习形式，使得数据品质越来越高，模型性能也随之越来越强。具体来看，类间荡涤和类内荡涤的示意图如下图所示：

值得注意的是，咱们的荡涤流程中先进行类间荡涤、再进行类内荡涤，与 CAST[1]数据荡涤框架不同，这样在实现类间荡涤后能够更新新的 ID 核心特色，使得整个荡涤过程更加齐备，荡涤成果也更好。为了验证数据荡涤对最终性能的影响，咱们在 ms1m 数据集上做了一系列比照试验，后果如下表所示：

表中的阈值指的是类内荡涤的类似度阈值，能够看出当阈值设置过低（如 0.05）时，噪声没有被荡涤洁净，因而性能体现不是最佳；而当阈值设置过高（如 0.50）时，噪声被荡涤的同时难样本也被荡涤了，导致模型泛化能力变弱，在评测数据集上性能反而降落。因而抉择一个两头阈值 0.25，既荡涤了大量噪声，又保留了艰难样本，在各项评测指标上均达到最佳性能。此外，咱们还画出了不同类似度阈值与残余图片数的关系，如下图所示：

为解决戴口罩数据有余的问题，一种可行的计划是在已有的无口罩图像上绘制口罩。然而，目前大部分的绘制计划属于地位贴图式，这种计划生成的戴口罩图像不够实在且不足灵活性。因而，咱们借鉴 PRNet[2,3]的思路，采纳一种图像交融计划 [4] 来获取更合乎真实情况的戴口罩图像，如下图所示，

该计划的原理是将口罩图像和原图像通过 3D 重建别离生成 UV Texture Map，而后借助纹理空间合成戴口罩图像。在数据生成过程中，咱们应用了 8 种类型的口罩，意味着咱们可在已有的数据集上对应生成 8 种不同格调的戴口罩图像。基于 UV 映射的计划克服了传统立体投影形式中原图像和口罩图像间的不现实连接和变形等问题。此外，因为渲染过程的存在，戴口罩图像能够取得不同的渲染成果，比方调整口罩角度及光照成果等。生成的戴口罩图像示例如下图所示：

在生成戴口罩数据训练模型的过程中，咱们发现戴口罩数据的比例对模型性能有不同水平的影响。因而，咱们将戴口罩数据占比别离设置为 5%、10%、15%、20% 和 25%，试验后果如下表所示：

从上表中发现，当戴口罩数据比例为 5% 时，模型在 MR-ALL 评测集上的性能最高；当戴口罩数据比例调整至 25% 时，对 Mask 戴口罩评测集的性能晋升显著，但在 MR-ALL 上的性能降落显著。这阐明当混合戴口罩数据和失常数据进行训练时，其比例是影响模型性能的重要参数。最终，咱们抉择戴口罩数据比例为 15%，在戴口罩和失常数据上的性能达到一个较好均衡。

不同骨干网络对特征提取的能力差异较大，在人物身份甄别畛域，业界罕用的基线骨干网络是在 ArcFace[5]中提出的 IR-100。在此次比赛中，咱们采纳达摩院提出的 Zero-shot NAS (Zen-NAS[6]) 范式，在模型空间搜寻具备更强表征能力的骨干网络。Zen-NAS 区别于传统 NAS 办法，它应用 Zen-Score 代替搜寻模型的性能评测分数，值得注意的是 Zen-Score 与模型最终的性能指标成正比关系，因而整个搜寻过程十分高效。Zen-NAS 的外围算法构造如下图所示：

咱们基于 IR-SE 基线骨干网络，应用 Zen-NAS 搜寻 3 个模型构造相干的变量，别离是：Input 层的通道数、Block 层的通道数和不同 Block 层重叠的次数，限度条件是搜寻出的骨干网络满足各赛道的推理工夫束缚。一个乏味的发现是：Zen-NAS 搜寻出的骨干网络，在 ms1m 小数据集赛道上的性能体现与 IR-SE-100 简直无差别，但在 WebFace260M 这样的大数据集赛道，性能体现会显著优于基线。起因可能是搜寻空间增大后，NAS 可搜寻的范畴随之增大，搜寻到更弱小模型的概率也随之减少。

此次比赛咱们采纳的基线损失函数为 Curricular Loss[7]，该损失函数在训练过程中模仿课程学习的思维，依照样本从易到难的程序进行训练。然而，因为训练数据集通常是极度不均衡的，热门人物蕴含的图片数多达数千张，而冷门人物蕴含的图片数往往只有 1 张。为解决数据不平衡带来的长尾问题，咱们将 Balanced Softmax Loss[8]的思维引入 Curricular Loss 中，提出一个新的损失函数：Balanced Curricular Loss，其表达式如下图所示：

在 ms1m 赛道上，咱们比照了 Balanced Curricular Loss (BCL) 与原始 Curricular Loss (CL) 的性能，后果如下表所示：

能够看出 Balanced Curricular Loss 绝对于 Curricular Loss，无论在 Mask 还是 MR-ALL 上的指标均有较大幅度的晋升，充分证明了其有效性。

因为此次较量对模型的推理工夫有束缚，模型超时会被间接勾销问题。因而，咱们采纳常识蒸馏的形式，将大模型弱小的表征能力传递给小模型，而后应用小模型进行推理，以满足推理工夫的要求。此次比赛咱们采纳的常识蒸馏框架如下图所示：

其中，蒸馏损失采纳最简略的 L2 Loss，用以传递老师模型的特色信息，同时学生模型应用 Balanced Curricular Loss 训练，最终的损失函数是蒸馏损失与训练损失的加权和。通过常识蒸馏后，学生模型在评测数据集上的局部指标，甚至超过了老师模型，同时推理工夫大大缩短，在 ms1m 小数据集赛道的性能有较大晋升。

WebFace260M 大数据集赛道的训练数据 ID 数量 >200 万、总图片数 >4000 万，导致传统的多机多卡数据并行训练形式已难以包容残缺的模型。Partial FC[9]采纳将 FC 层平均扩散到不同 GPU 上，每个 GPU 负责计算存储在本人显存单元的 sub FC 层后果，最终通过所有 GPU 间的同步通信操作，失去近似的 full FC 层后果。Partial FC 的示意图如下所示：

采纳 Partial FC，可同时应用模型并行与数据并行，使得之前无奈训练的大模型能够失常训练，另外可采纳负样本采样的形式，进一步加大训练的 batch size，缩短模型训练周期。

在整个比赛过程中，咱们先后尝试了不同数据加强、标签重构及学习率扭转等策略，其中无效的策略如下图所示：

此次比赛咱们 mind_ft 队在 InsightFace 和 WebFace260M 共 5 个赛道中取得 1 个冠军（WebFace260M SFR）、1 个亚军（InsightFace unconstrained）和 2 个季军（WebFace260M Main 和 InsightFace ms1m）。其中，WebFace260M 赛道官网排行榜的最终后果截图如下所示：

在比赛完结之后的 Workshop 中，咱们受邀在寰球范畴内分享此次比赛的解决方案。此外，咱们在此次比赛中投稿的论文，也被同步收录于 ICCV 2021 Workshop[10]。最初，展现一下咱们在此次比赛中播种的荣誉证书：

EssentialMC2，实体时空关系推理多媒体认知计算，是达摩院 MinD- 数智媒体组对于视频了解技术的一个长期钻研后果积淀的外围算法架构。核心内容包含表征学习 MHRL、关系推理 MECR2 和开集学习 MOSL3 三大根底模块，三者别离对应从根底表征、关系推理和学习办法三个方面对视频了解算法框架进行优化。基于这三大根底模块，咱们总结了一套适宜于大规模视频了解算法研发训练的代码框架，并进行开源，开源工作中蕴含了组内近期发表的优秀论文和算法赛事后果。

essmc2 是 EssentialMC2 配套的一整套适宜大规模视频了解算法研发训练的深度学习训练框架代码包，开源的次要指标是心愿提供大量可验证的算法和预训练模型，反对使用者以较低成本疾速试错，同时心愿在视频了解畛域内建设一个有影响力的开源生态，吸引更多贡献者参加我的项目建设。essmc2 的次要设计思路是“配置即对象”，通过简要明了的配置文件配合注册器的设计模式（Registry），能够将泛滥模型定义文件、优化器、数据集、预处理 pipeline 等参数以配置文件的模式疾速结构出对象并应用，实质上贴合深度学习的日常应用中一直调参一直试验的场景。同时通过一致性的视角实现单机和分布式的无缝切换，使用者仅需定义一次，便可在单机单卡、单机多卡、分布式环境下进行切换，同时实现简略易用与高可移植性的个性。
目前 essmc2 的开源工作曾经公布了第一个可用版本，欢送大家试用，后续咱们会减少更多算法和预训练模型。链接地址：https://github.com/alibaba/EssentialMC2。

随着互联网内容的视频化以及 VR、元宇宙等利用的衰亡，非结构化视频内容数量正在高速增长，如何对这些内容进行疾速辨认、精确了解，成为内容价值开掘要害的一环。
人物是视频中的重要内容，高精度的视频人物身份甄别技术，可能疾速提取视频人物要害信息，实现人物片段剪辑、人物搜寻等智能利用。另外，对于视频的视觉、语音、文字多维度内容进行剖析了解，辨认人、事、物、场、标识等更丰盛的视频内容实体标签，可造成视频结构化信息，帮忙更全面地提取视频要害信息。
更进一步，结构化的实体标签作为语义推理的根底，通过多模态信息交融，帮忙了解视频核心内容，实现视频内容高层语义剖析，进而实现类目、主题了解。
阿里云多媒体 AI 团队的高准确率人物身份甄别及视频剖析技术，已集成于 EssentialMC2 外围算法架构，并进行产品化输入，反对对视频、图像的多维度内容进行剖析了解并输入结构化标签（点击进行体验：Retina 视频云多媒体 AI 体验核心 - 智能标签产品 https://retina.aliyun.com/#/Label）。

多媒体 AI 产品

智能标签产品通过对视频中视觉、文字、语音、行为等信息进行综合剖析，联合多模态信息交融及对齐技术，实现高准确率内容辨认，综合视频类目剖析后果，输入贴合视频内容的多维度场景化标签。

类指标签：实现视频内容高层语义剖析，进而实现类目、主题的了解，视频分类标签，分为一级、二级和三级类目，实现媒资治理及个性化举荐利用。

实体标签：视频内容辨认的实体标签，维度包含视频类目主题、影视综漫 IP、人物、行为事件、物品、场景、标识、画面标签，同时反对人物、IP 的常识图谱信息。其中，影视综漫的 IP 搜寻基于视频指纹技术，将指标视频与库内的影视综等资源进行指纹比对检索，反对 6 万余部电影、电视剧、综艺、动漫、音乐的 IP 辨认，可剖析辨认出指标视频内容中蕴含哪一部电影、电视剧等 IP 内容，帮忙实现精准的个性化举荐、版权检索等利用。基于优酷、豆瓣、百科等各类型数据，构建了涵盖影视综、音乐、人物、地标、物体的信息图谱，对于视频辨认命中的实体标签，反对输入常识图谱信息，可用于媒资关联及相干举荐等利用。

关键词标签：反对视频语音辨认及视频 OCR 文字辨认，联合 NLP 技术交融剖析语音及文字的文本内容，输入与视频主题内容相干的关键词标签，用于精细化内容匹配举荐。

欠缺的标签体系、灵便的定制化能力

智能标签产品综合优酷、土豆、UC 海内等平台的 PGC、UGC 视频内容进行学习、训练，提供最全面欠缺、高质量的视频标签体系。在提供通用的标签类目体系外，反对凋谢多层面定制化的能力，反对人脸自注册、自定义实体标签等扩大性能；面向客户特定标签体系的业务场景，采纳标签映射、定制化训练等形式，提供一对一的标签定制服务，更有针对性地帮忙客户解决平台的视频解决效率问题。

高品质人机协同服务

针对要求精确的业务场景，智能标签产品反对引入人工交互判断，造成高效、业余的人机协同平台服务，AI 辨认算法与人工相辅相成，提供面向个性化业务场景的精准视频标签。
人机协同体系具备先进的人机协同平台工具、业余的标注团队，通过人员培训、试运行、质检、验收环节等标准化的交付治理流程，确保数据标注品质，帮忙疾速实现高品质、低成本的标注数据服务。通过 AI 算法 + 人工的人机协同形式，提供人工标注服务作为 AI 算法的补充和修改，确保精准、高质量的服务输入后果，实现业务效率和用户体验的晋升。

体育行业和影视行业的视频标签辨认

传媒行业和电商行业的视频标签辨认

以上能力均已集成到阿里云视频云智能标签产品，提供高品质的视频剖析及人机协同服务，欢送大家理解及体验试用（智能标签产品 https://retina.aliyun.com/#/Label），搭建更高效、智能化的视频业务利用。

参考文献：
[1] Zheng Zhu, et al. Webface260m: A benchmark unveilingthe power of million-scale deep face recognition. CVPR 2021.
[2] Yao Feng, et al. Joint 3d face reconstruction and dense alignment with position map regression network. ECCV, 2018.
[3] Jun Wang et al. Facex-zoo: A pytorch toolbox for face recognition. _arxiv_, abs/2101.04407, 2021.
[4] Jiankang Deng et al. Masked Face Recognition Challenge: The InsightFace Track Report. arXiv, abs/2108.08191, 2021.
[5] Jiankang Deng, et al. Arcface: Additive angular margin loss for deep face recognition. CVPR 2019.
[6] Ming Lin, et al. Zen-NAS: A Zero-Shot NAS for High-Performance Image Recognition. ICCV 2021.
[7] Yuge Huang et al. Curricularface: Adaptive curriculum learning loss for deep face recognition. CVPR 2020.
[8] Jiawei Ren et al. Balanced meta-softmax for long-tailed visual recognition. NeurIPS, 2020.
[9] Xiang An, et al. Partial fc: Training 10 million identities on a single machine. ICCV 2021.
[10] Tao Feng, et al. Towards Mask-robust Face Recognition. ICCV 2021.

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实际技术文章，在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群，和业内大咖一起探讨音视频技术，获取更多行业最新信息。

关于计算机视觉:ICCV-2021口罩人物身份鉴别全球挑战赛冠军方案分享

1. 引言

2. 比赛介绍

2.1 训练数据集

2.2 评测数据集

2.3 评测指标

3. 解决方案

3.1 基于自学习的数据荡涤

3.3 戴口罩数据生成

3.4 基于 NAS 的骨干网络

3.5 损失函数

3.6 常识蒸馏

3.7 模型和数据同时并行

3.8 其它技巧

4. 比赛后果

5. EssentialMC2 介绍与开源

6. 产品落地