简介：5 冠 1 亚！阿里云多媒体 AI 团队 CVPR2021 再创佳绩！

6 月 19-25 日，备受寰球注目的国内顶级视觉会议 CVPR2021（Computer Vision and Pattern Recognition，即国内机器视觉与模式识别）在线上举办，但仍然人气爆棚，参会者的激情正如夏日般炽热。

往年阿里云多媒体 AI 团队（由阿里云视频云和达摩院视觉团队组成，以下简称 MMAI）加入了大规模人体行为了解公开挑战赛 ActivityNet、以后最大时空动作定位挑战赛 AVA-Kinetics、超大规模时序行为检测挑战赛 HACS 和第一视角人体行为了解挑战赛 EPIC-Kitchens 上的总共 6 个赛道，一举拿下了 5 项冠军和 1 项亚军，其中在 ActivityNet 和 HACS 两个赛道上间断两年蝉联冠军！

顶级挑战赛战绩煊赫

大规模时序动作检测挑战赛 ActivityNet 于 2016 年开始，由 KAUST、Google、DeepMind 等主办，至今曾经胜利举办六届。

该挑战赛次要解决时序行为检测问题，以验证 AI 算法对长时视频的理解能力，是该畛域最具影响力的挑战赛之一。历届参赛者来自许多国内外出名机构，包含微软、百度、上交、华为、北大、哥大等。

往年阿里云 MMAI 团队最终以 Avg. mAP 44.67% 的问题取得该项挑战赛的冠军！

图 1 ActivityNet 挑战赛证书

时空动作定位挑战赛 AVA-Kinetics 由 2018 年开始，至今已胜利举办四届，由 Google、DeepMind 和 Berkeley 举办，旨在时空两个维度辨认视频中产生的原子级别行为。

因其难度与实用性，历年来吸引了泛滥国内顶尖高校与钻研机构参加，如 DeepMind、FAIR、SenseTime-CUHK、清华大学等。

往年阿里云 MMAI 团队以 40.67% mAP 击败对手，取得第一！

图 2 AVA-Kinetics 挑战赛获奖证书

超大规模行为检测挑战赛 HACS 始于 2019 年，由 MIT 主办，是以后时序行为检测工作中的最大挑战赛。该项挑战赛包含两个赛道：全监督行为检测和弱监督行为检测。

因为数据量是 ActivityNet 的两倍以上，因而具备很大的挑战性。历届参赛队伍包含微软、三星、百度、上交、西交等。

往年阿里云 MMAI 团队同时加入两个赛道，并别离以 Avg. mAP 44.67% 和 22.45% 双双夺冠！

图 3 HACS 挑战赛两个赛道的获奖证书

第一视角人体动作了解挑战赛 EPIC-Kitchens 于 2019 年开始，至今曾经举办三届，由 University of Bristol 主办，致力于解决第一视角条件下的人体动作和指标物体的交互了解问题。

历年的参赛队伍包含百度、FAIR、NTU、NUS、Inria-Facebook、三星（SAIC-Cambridge）等。

往年阿里云 MMAI 团队加入其中时序动作检测和动作辨认两个赛道，别离以 Avg. mAP 16.11% 和 Acc. 48.5% 取得两项挑战赛的冠军和亚军！

图 4 EPIC-Kitchens 挑战赛获奖证书

四大挑战的关键技术摸索

行为了解挑战赛次要面临四大挑战：

首先是行为时长散布广，从 0.5 秒到 400 秒不等，以一个 200 秒的测试视频为例，每 1 秒采集 15 帧图像，算法必须在 3000 帧图像中精确定位。

其次是视频背景简单，通常具备很多不规则的非指标行为嵌入在视频中，极大的减少了行为检测的难度。

再者是类内差较大，雷同行为的视觉体现会因个体、视角、环境的变换而产生显著的变动。

最初是算法检测人体动作还面临人体之间的相互遮挡、视频分辨率有余、光照、视角等变动多样的其余烦扰。

在本次挑战赛中，该团队之所以可能获得如此杰出的问题，次要是由其背地先进技术框架 EMC2 撑持，该框架次要对如下几个核心技术进行摸索：

（1）强化根底网络的优化训练

根底网络是行为了解的外围因素之一。

在本次挑战赛中，阿里云 MMAI 团队次要对以下两方面进行摸索：深入研究 Video Transformer （ViViT）；摸索 Transformer 和 CNN 异构模型的互补性。

作为次要的根底网络，ViViT 的训练同样包含预训练和微调两个过程，在微调过程，MMAI 团队充沛剖析包含输出尺寸、数据增广等变量的影响，找到适宜当前任务的最佳配置。

此外，思考 Transformer 和 CNN 构造互补性，还应用了 Slowfast、CSN 等构造，最终通过集成学习别离在 EPIC-Kitchens、ActivityNet、HACS 上获得 48.5%、93.6%、96.1% 的分类性能，相较于去年的冠军问题，有着显著的晋升。

图 5 ViViT 的构造及其性能

（2）视频了解中的实体时空关系建模

对于时空域动作检测工作而言，基于关系建模学习视频中的人 – 人关系、人 – 物关系、人 – 场景关系对于正确实现动作辨认，特地是交互性动作辨认而言是尤为重要的。

因而在本次挑战赛中阿里云 MMAI 重点对这些关系进行建模剖析。

具体地，首先定位视频中的人和物体，并别离提取人和物的特色示意；为了更加细粒度地建模不同类型的动作关系，将上述特色与全局视频特色在时空域联合以加强特色，并别离在不同的时域或空域地位间利用基于 Transformer 构造的关系学习模块，同时不同地位的关联学习通过权重共享的形式实现对关联区域的地位不变性。

为了进一步建模长序时域关联，咱们构建了联合在线和离线保护的两阶段时序特色池，将视频片段前后的特色信息交融到关联学习当中。

最初，通过关联学习的人体特色被用于进行动作辨认工作，基于解耦学习的形式实现了在动作类别长尾散布下对艰难和大量样本类别的无效学习。

图 6 关系建模网络

（3）基于动作提名关系编码的长视频了解

在动作了解相干的多项工作上，在无限的计算条件下，视频持续时间较长是其次要的挑战之一，而时序关系学习是解决长时视频理的重要伎俩。

在 EMC2 中，设计了基于动作提名关系编码的模块来晋升算法的长时感知能力。具体地，利用根底行为检测网络生产出密集的动作提名，其中每个动作提名能够粗略视为特定动作实体产生的工夫区间。

而后基于自注意力机制，在工夫维度上对这些提名实体进行时序关系编码，使得每个动作提名均能感知到全局信息，从而可能预测出更加精确的行为地位，凭借此技术，EMC2 在 AcitivityNet 等时序行为检测上获得冠军的问题。

图 7 动作提名间的关系编码

（4）基于自监督学习的网络初始化训练

初始化是深度网络训练的重要过程，也是 EMC2 的次要组件之一。

阿里云 MMAI 团队设计了一种基于自训练的初始化办法 MoSI，即从动态图像训练视频模型。MoSI 次要蕴含两个组件：伪静止生成和动态掩码设计。

首先依据滑动窗口的形式依照指定的方向和速度生成伪视频片段，而后通过设计适合的掩码只保留其部分区域的静止模式，使网络可能具备部分静止感知的能力。最初，在训练过程中，模型优化指标是胜利预测输出伪视频的速度大小和方向。

通过这种形式，训练的模型将具备感知视频静止的能力。在挑战赛中，思考到不应用额定数据的规定，仅在无限的挑战赛视频帧做 MoSI 训练，便可获得显著的性能晋升，保障了各项挑战赛的模型训练品质。

图 8 MoSI 训练过程及其语意剖析

“视频行为剖析始终都被认为是一项十分具备挑战性的工作，次要源于其内容的多样性。

只管根底机器视觉中各种先进的技术被提出，咱们在此次比赛的翻新次要包含：1）对自监督学习和 Transformer+CNN 异构交融的深度摸索；2）视频中不同实体间关系建模办法的继续钻研。

这些摸索确认了以后先进技术（如自监督学习）对视频内容分析的重要性。

此外，咱们的胜利也阐明了实体关系建模对视频内容了解的重要作用，但其并没有失去业界足够的关注。” 阿里巴巴高级研究员金榕总结道。

基于视频了解技术打造多媒体 AI 云产品

基于 EMC2 的技术底座，阿里云 MMAI 团队在进行视频了解的深度钻研同时，也踊跃进行了产业化，推出了多媒体 AI（MultiMedia AI）的技术产品：Retina 视频云多媒体 AI 体验核心 (点击👉 多媒体 AI 云产品体验核心进行体验 )。

该产品实现视频搜寻、审核、结构化和生产等外围性能，日解决视频数据数百万小时，为客户在视频搜寻、视频举荐、视频审核、版权保护、视频编目、视频交互、视频辅助生产等利用场景中提供了外围能力，极大进步了客户的工作效率和流量效率。

图 9 多媒体 AI 产品

目前，多媒体 AI 云产品在传媒行业、泛娱乐行业、短视频行业、体育行业以及电商行业均有落地：

1）在传媒行业，次要撑持央视、人民日报等传媒行业头部客户的业务生产流程，极大晋升生产效率，升高人工成本，例如在新闻生成场景中晋升了 70% 的编目效率和 50% 的搜寻效率；

2）在泛娱乐行业以及短视频行业，次要撑持团体内业务方优酷、微博、趣头条等泛娱乐视频行业下视频结构化、图像 / 视频审核、视频指纹搜寻、版权溯源、视频去重、封面图生成、集锦生成等场景，帮忙爱护视频版权、进步流量散发效率，日均调用数亿次；

3）在体育行业，撑持第 21 届世界杯足球赛，买通了视觉、静止、音频、语音等多模态信息，实现足球赛事直播流跨模态剖析，相比传统剪辑效率晋升一个数量级；

4）在电商行业，撑持淘宝、闲鱼等业务方，反对新发视频的结构化，视频 / 图像审核，辅助客户疾速生成短视频，晋升散发效率。

图 10 多媒体 AI 对体育行业和影视行业标签辨认

图 11 多媒体 AI 对传媒行业和电商行业的标签辨认

在 EMC2 的撑持下，Retina 视频云多媒体 AI 体验核心具备如下劣势：

1）多模态学习：利用视频、音频、文本等海量多模态数据，进行跨媒体了解，交融不同畛域常识的了解 / 生产体系；

2）轻量化定制：用户可自主注册须要辨认的实体，算法对新增实体标签可实现 “即插即用”，且对新增类别应用轻量数据可靠近已知类别成果；

3）高效能：自研高性能音视频编解码库、深度学习推理引擎、GPU 预处理库，针对视频场景 IO 和计算密集型特点定向优化，在不同场景达到近 10 倍性能晋升；

4）通用性强：多媒体 AI 云产品在传媒行业、泛娱乐行业、短视频行业、体育行业以及电商行业等均有落地利用案例。

“视频十分有助于晋升内容的易了解、易承受和易流传性，在过来的几年咱们也看到了各行各业，各种场景都在减速内容视频化的过程，整个社会对于视频产量的诉求越来越强烈，如何高效、高质的生产出合乎用户需要的视频，就成为了外围问题，这外面波及到了十分多的细节问题，例如热点的发现、大量视频素材的内容了解、多模检索、基于用户画像 / 场景的模板构建等，这些都须要大量的依赖视觉 AI 技术的倒退，MMAI 团队联合行业、场景一直的改良在视觉 AI 方面的技术，并基于此打磨和构建业务级的多媒体 AI 云产品，使得视频得以高质、高效的进行生产，从而无效的推动各行各业、各场景的内容视频化过程。” 阿里云视频云负责人毕玄评估道。

在本次 CVPR2021 中，MMAI 通过多项学术挑战赛一举击败多个国内外强劲对手，拿下了多项冠军，是对其过硬的技术的无力验证，其云产品多媒体 AI 曾经服务多个行业的头部客户，并将继续发明多行业利用价值。

👇点击体验

多媒体 AI 云产品体验核心：http://retina.aliyun.com

源码开源地址：https://github.com/alibaba-mmai-research/pytorch-video-understanding

参考文献:

[1] Huang Z, Zhang S, Jiang J, et al. Self-supervised motion learning from static images. CVPR2021: 1276-1285.

[2] Arnab A, Dehghani M, Heigold G, et al. Vivit: A video vision transformer[J]. arXiv preprint arXiv:2103.15691, 2021.

[3] Feichtenhofer C, Fan H, Malik J, et al. Slowfast networks for video recognition. ICCV2019: 6202-6211.

[4] Tran D, Wang H, Torresani L, et al. Video classification with channel-separated convolutional networks. ICCV2019: 5552-5561.

[5] Lin T, Liu X, Li X, et al. Bmn: Boundary-matching network for temporal action proposal generation. ICCV2019: 3889-3898.

[6] Feng Y, Jiang J, Huang Z, et al. Relation Modeling in Spatio-Temporal Action Localization[J]. arXiv preprint arXiv:2106.08061, 2021.

[7] Qing Z, Huang Z, Wang X, et al. A Stronger Baseline for Ego-Centric Action Detection[J]. arXiv preprint arXiv:2106.06942, 2021.

[8] Huang Z, Qing Z, Wang X, et al. Towards training stronger video vision transformers for epic-kitchens-100 action recognition[J]. arXiv preprint arXiv:2106.05058, 2021.

[9] Wang X, Qing Z., et al. Proposal Relation Network for Temporal Action Detection[J]. arXiv preprint arXiv:2106.11812, 2021.

[10] Wang X, Qing Z., et al. Weakly-Supervised Temporal Action Localization Through Local-Global Background Modeling[J]. arXiv preprint arXiv:2106.11811, 2021.

[11] Qing Z, Huang Z, Wang X, et al. Exploring Stronger Feature for Temporal Action Localization

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实际技术文章，在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云技术交换群，和作者一起探讨音视频技术，获取更多行业最新信息。

版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

关于人工智能:技术解密｜阿里云多媒体-AI-团队是凭借什么拿下-CVPR2021-5冠1亚的

顶级挑战赛战绩煊赫

四大挑战的关键技术摸索

基于视频了解技术打造多媒体 AI 云产品

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:技术解密｜阿里云多媒体-AI-团队是凭借什么拿下-CVPR2021-5冠1亚的

顶级挑战赛战绩煊赫

四大挑战的关键技术摸索

基于视频了解技术打造多媒体 AI 云产品

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复