2021欧洲杯足球赛近日“捷足先登”,牵动了有数球迷的心。精彩的球赛视频背地,令人意想不到的是 AI 技术正在重塑体育视频产业的内容生产方式。

在近期举办的国内计算机视觉与模式识别顶会 CVPR 2021 上,视频了解畛域最具影响力的 International Challenge on Activity Recognition (ActivityNet) workshop 旗下多个比赛颁布榜单。比赛吸引了百度、阿里、字节跳动、腾讯、华为等知名企业和清华、北大、斯坦福、麻省理工学院、中科院等国内外高校和机构参加。其中,寰球首个以足球比赛视频的全方位了解为指标的 SoccerNet-v2 足球视频了解比赛中,百度研究院以绝对优势篡夺了全副两项工作的冠军。

百度拿下全副两项工作冠军


视频链接:

https://baidu-ai-ar-1512380202189-8487.bj.bcebos.com/%E8%B6%B3%E7%90%83%E6%88%90%E7%89%87%2B%E5%AD%97%E5%B9%95-6-29-1.mp4

本届比赛所应用的 SoccerNet-v2 数据集在足球了解畛域规模最大,包含500场来自2014到2017年三个赛季的欧洲足球五大联赛和欧洲冠军联赛的视频,视频总时长达到764小时,人工标注达30万个,成为国内 AI 团队间掂量足球视频理解能力的重要规范。

双工作我的项目夺冠 大幅晋升基线均匀 mAP
本届 SoccerNet-v2比赛下设了事件定位(action spotting)和回放溯源(replay grounding)两个工作。其中,事件定位(action spotting)是从足球比赛实况转播视频中找到一些要害事件并确定其产生的时刻。要害事件包含17个类别,涵盖进球、点球、任意球、红牌、黄牌、角球等重要事件,以及犯规、越位、射正、射偏等人类也难以立即分辨的事件。同时有一部分事件甚至并未被间接拍摄到,须要依据上下文来揣测,这也是对视频动作辨认和事件检测能力的一个挑战。

回放溯源是(replay grounding)是把足球比赛转播视频中的回放片段和原始事件进行匹配。在足球比赛视频中一个精彩事件产生之后往往有屡次回放,且回放和原始事件之间可能会相隔长达上百秒,拍摄视角也常常不同,是否将回放片段和原始片段匹配是对超长距离视频理解能力的一项考查。

百度研究院图文转视频 VidPress 团队专一于算法钻研和利用翻新,此次拿下两项工作的冠军,展现出了超群的技术实力。零碎采纳两阶段的办法,首先特征提取器提取足球视频特色,再将提取出的特色作为第二阶段具体任务模块的输出,进行事件定位或者回放溯源。

事件定位和回放溯源的零碎流程

在特征提取阶段,团队认为在足球视频上微调过的特征提取器更有利于晋升事件定位和回放溯源两个上游工作的体现,因而在 SoccerNetv2 数据上微调了五种预训练的特征提取器模型:TPN、GTA、VTN、irCSN 和 I3D-Slow。这五种特征提取器模型均是最近年来视频了解畛域在分类工作上体现优异的模型,在规范数据集 Kinetics-400 上 的问题也名落孙山。

在五种特征提取器模型之上,团队也充分利用数据,设计了多种微调特征提取器模型的策略、开发了提取特色的新办法。失去每种特征提取器在足球视频上提取的特色后,将五种特色连接起来并做了归一化解决,使得优化后的特色对足球比赛视频具备弱小表达能力,为前面的上游工作打下了坚实基础。

在事件定位和回放溯源阶段采纳了 Transformer 构造。Transformer 架构的特点是更清晰、更标准化、模型容量大、扩展性强,能适应计算机视觉、自然语言等多种业务。Transformer 构造在这两个工作中体现了对视觉语义特色的准确的时序解决能力,优于基线算法中 Siamese 网络的学习能力和训练速度。在训练过程中,事件定位采纳了 mix-up 数据加强,更高效利用了训练数据、升高过拟合。在回放溯源的工作上,模型构造的更换使得训练工夫缩小到原来的八分之一。

联合前述的视觉信息语义化特色,以及为新的工作订制的 Transformer 构造,百度研究院在比赛问题上获得了较大幅度的当先。在事件定位工作上,把基线的均匀 mAP 由52.54%晋升到74.84%,进步了22.3个百分点,是第二名晋升的近两倍;在回放溯源的工作上,把均匀 mAP 由基线的40.75%晋升到了71.90%,进步了31.15个百分点,比第二名63.91%的问题高出8个百分点。

技术“照进”事实利用 智能视频生成工具应运而生
百度研究院之所以可能在该项比赛中怀才不遇,离不开基于大规模视频数据的算法能力技术积攒。

该项技术有十分高的实用价值,能够大规模利用于体育赛事视频中,通过对全场较量进行智能辨认,能够在不须要人工染指的条件下,精准、实时地切分出进球、射门、犯规等动作片段。

基于此项能力,团队开发出了一系列利用工具并胜利落地。

首先是行业当先的自定义足球精彩集锦生成工具。输出球员后选定较量场次,即可主动生成这个球员的精彩霎时视频集锦以及慢动作回放。目前这一零碎曾经落地在百度百科400多个足球球员和球队页面。

输出球员名称+较量名称,生成该球员的视频集锦

其次,将文本语义了解与视频图像了解贯通,团队还搭建了足球图文战报一键转换视频平台。输出文字直播内容或者直播间地址,就能智能聚合生成对应的视频内容,进步了战报的生成效率和可读性。

依据文字直播内容智能生成对应的片段视频

此外,团队还建设了基于图像场景辨认的智能视频生产线,该生产线能够疾速了解上传的长视频,检测是否有进球、精准定位视频中的进球霎时,并实现主动剪辑。

上传一段较量视频,自动识别生成进球片段

基于在智能视频技术上的不断创新和积攒,百度研究院在2020年初孵化推出了智能图文转视频工具 VidPress,是业界首个撑持通用型、大规模的全自动视频生产技术。 VidPress 可能反对图文链接一键导入,主动主动实现配音、字幕、画面的视频内容生产,升高素材收集、整顿、匹配的工夫老本。目前 VidPress 已作为百度大脑智能创作平台中的外围能力,为人民日报等多家媒体机构的智能视频生产赋能;为秒懂百科智能生成上千条球员精彩霎时视频;为百家号和难看视频等平台的终端用户提供一键视频生成服务。百度大脑智能创作平台基于自然语言解决、常识图谱、视觉、语音的整合技术能力,为创作者提供多项能力,助力新闻生产的策、采、编、审、发全流程,全面晋升内容生产效率。

全视频时代到来,各行各业对视频的利用、体验和效力都提出了全新降级需要,智能视频变化趋势背地的驱动力少不了 AI 的身影。无论是足球比赛视频,还是其余内容丰盛、形式多样的视频内容,将来百度也将继续在相干畛域的技术上一直冲破迭代,并继续赋能利用与产品落地,为视频行业的倒退与改革注入短缺能源。

百度AI开发者社区https://ai.baidu.com/forum ,为全国各地开发者提供一个交换、分享、答疑解惑的平台,让开发者在研发路上不再“孤军奋战”,通过一直地交换与探讨找出更好的技术解决方案。如果你想尝试各种人工智能技术、开辟利用场景,赶快退出百度AI社区,你对 AI 的所有畅想,在这里都能够实现!

扫描下方二维码,增加小助手微信「京东卡、小度定制周边、神秘礼盒、行李箱」等更多福利你来拿~