共计 5113 个字符,预计需要花费 13 分钟才能阅读完成。
导读
随着短视频的疾速倒退以及平安治理的需要一直增多,视频畛域的相干技术利用包含视频智能标签、智能教练、智能剪辑、智能平安治理、文本视频检索、视频精彩片段提取、视频智能封面正逐步成为人们生存中的重要局部。
以视频相干业务为例,短视频网站心愿能迅速给每个新作品打上标签并推送给适合的用户,剪辑人员心愿从较量视频中便捷地提取精彩较量片段集锦,教练员心愿系统分析运动员的动作并进行技术统计和剖析,平安治理部门也心愿能精准地进行视频内容审核比方实时辨认违规行为,编辑人员心愿通过文本检索相干的视频片段作为新闻素材,广告或举荐网站心愿为视频生成更加好看的封面晋升转化率。这些业务对传统的人工解决形式是很大的挑战。
视频了解是通过 AI 技术让机器了解视频内容,现在在短视频、举荐、搜寻、广告,平安治理等畛域有着宽泛的利用和钻研价值,像动作定位与辨认、视频打标签、文本视频检索、视频内容分析之类的工作都能够通过视频了解技术搞定。
PaddleVideo 是百度自主研发的产业级深度学习开源开放平台飞桨的视频开发套件,蕴含视频畛域泛滥模型算法和产业案例,本次开源次要降级点如下:
公布 10 个视频畛域产业级利用案例,涵盖体育、互联网、医疗、媒体和平安等行业。
首次开源 5 个冠军 / 顶会 / 产业级算法,蕴含视频 - 文本学习、视频宰割、深度预计、视频 - 文本检索、动作辨认 / 视频分类等技术方向。
配套丰盛的文档和教程,更有直播课程和用户交换群,能够与百度资深研发工程师一起探讨交换。
十大视频场景化利用工具详解
飞桨 PaddleVideo 基于体育行业中足球 / 篮球 / 乒乓球 / 花样滑冰等场景,开源出一套通用的体育类动作辨认框架;针对互联网和媒体场景开源了基于常识加强的大规模多模态分类打标签、智能剪辑和视频拆条等解决方案;针对平安、教育、医疗等场景开源了多种检测辨认案例。百度智能云联合飞桨深度学习技术也造成了一系列深度打磨的产业级多场景动作辨认、视频智能剖析和生产以及医疗剖析等解决方案。
- 足球场景:开源 FootballAction 精彩片段智能剪辑解决方案
FootballAction 基于行为辨认 PP-TSM 模型、视频动作定位 BMN 模型和序列模型 AttentionLSTM 组合失去,不仅能精确辨认出动作的类型,而且能精确定位出该动作产生的起止工夫。目前能辨认的动作类别有 8 个,蕴含:背景、进球、角球、任意球、黄牌、红牌、换人、界外球。准确率超过 90%。
- 篮球场景:开源 BasketballAction 精彩片段智能剪辑解决方案
篮球案例 BasketballAction 整体框架与 FootballAction 相似,共蕴含 7 个动作类别,别离为:背景、进球 - 三分球、进球 - 两分球、进球 - 扣篮、罚球、跳球。准确率超过 90%。
- 乒乓球场景:开源大规模数据训练的动作分类模型
在百度 Create 2021(百度 AI 开发者大会)上,PaddleVideo 联结北京大学一起公布的乒乓球动作进行辨认模型,基于超过 500G 的较量视频构建了规范的训练数据集,标签涵盖发球、拉、摆短等 8 个大类动作。其中起止回合准确率达到了 97% 以上,动作辨认也达到了 80% 以上。
- 花样滑冰动作辨认
应用姿势预计算法提取关节点数据,最初将关节点数据输出时空图卷积网络 ST-GCN 模型中进行动作分类,能够实现 30 种动作的分类。飞桨联结 CCF(中国计算机学会)举办了花样滑冰动作辨认大赛,吸引了 300 家高校与 200 家企业超过 3800 人参赛,冠军计划比基线计划精度晋升了 12 个点,较量 top3 计划曾经开源。
- 常识加强的视频大规模 / 多模态分类打标签
在视频内容分析方向,飞桨开源了根底的 VideoTag 和多模态的 MultimodalVideoTag。VideoTag 反对 3000 个源于产业实际的实用标签,具备良好的泛化能力,十分实用于国内大规模短视频分类场景的利用,标签准确率达到 89%。
MultimodalVideoTag 模型基于实在短视频业务数据,交融文本、视频图像、音频三种模态进行视频多模标签分类,相比纯视频图像特色,能显著晋升高层语义标签成果。模型提供一级标签 25 个,二级标签 200+ 个,标签准确率超过 85%。
- 视频内容智能生产
在视频智能生产方向,次要指标是辅助内容创作者对视频进行二次编辑。飞桨开源了基于 PP-TSM 的视频品质分析模型,能够实现新闻视频拆条和视频智能封面两大生产利用解决方案,其中新闻拆条是广电媒体行业的编辑们的重要素材起源;智能封面在直播、互娱等泛互联网行业的点击率和举荐成果方面施展重要作用。
- 视频交互式标注工具开源
飞桨开源了基于 MA-Net 的交互式视频宰割(interactive VOS)工具,提供大量的人工监督信号来实现较好的宰割后果,能够仅靠标注简略几帧实现全视频标注,之后可通过屡次和视频交互而一直晋升视频宰割品质,直至对宰割品质称心。
- 基于时空动作检测单模型实现 87 类通用行为辨认
飞桨基于时空动作检测模型实现了辨认多种人类行为的计划,利用视频多帧时序信息解决传统检测单帧成果差的问题,从数据处理、模型训练、模型测试到模型推理,能够实现 AVA 数据集中 80 个动作和自研的 7 个异样行为(挥棍、打架、踢货色、追赶、争吵、疾速奔跑、摔倒)的辨认。模型的成果远超指标检测计划。
- 无人机检测
禁飞畛域无人机检测有如下挑战:
(1)无人机指标渺小,观测艰难。
(2)无人机挪动速度多变。
(3)无人机航行环境简单,可能被修建、树木遮挡。
针对以上挑战,飞桨开源了无人机检测模型,以实现在泛滥简单环境中对无人机进行检测。
10. 医疗影像的分类甄别
基于公开的 3D-MRI 脑影像数据库,浙江大学医学院从属第二医院和百度研究院开源了帕金森 3D-MRI 脑影像的分类甄别我的项目,数据集包含 neurocon, taowu, PPMI 和 OASIS- 1 等公开数据集,囊括帕金森患者 (PD) 与失常 (Con) 共 378 个 case。提供 2D 及 3D 基线模型和 4 种分类模型以及 3D-MRI 脑影像的预训练模型。其中 PP-TSN 和 PP-TSM 获得了超过 91% 的准确度和超过 97.5% 的 AUC,而 TimeSformer 实现了最高准确度也超过 92.3%
五大冠军、顶会算法开源
百度研究院首次开源自研冠军、顶会算法
- CVPR 2020 顶会论文:多模态预训练模型 ActBERT 首次开源
ActBERT 是交融了视频、图像和文本的多模态预训练模型,它应用一种全新的纠缠编码模块从三个起源进行多模态特色学习,以加强两个视觉输出和语言之间的互动性能。该纠缠编码模块,在全局动作信息的领导下,对语言模型注入了视觉信息,并将语言信息整合到视觉模型中。纠缠编码器动静抉择适合的上下文以促成指标预测。简略来说,纠缠编码器利用动作信息催化部分区域与文字的互相关联。在文本视频检索、视频形容、视频问答等 5 个上游工作上,ActBERT 均显著优于其余办法。下表展现了 ActBERT 模型在文本视频检索数据集 MSR-VTT 上的性能体现。
- CVPR 2021 顶会论文:文本视频检索模型 T2VLAD 首次开源
随着各种互联网视频尤其是短视频的炽热,文本视频检索在近段时间取得了学术界和工业界的宽泛关注。特地是在引入多模态视频信息后,如何精细化地配准部分视频特色和自然语言特色成为一大难点。T2VLAD 采纳一种高效的全局 - 部分的对齐办法,主动学习文本和视频信息共享的语义核心,并对聚类后的部分特色做对应匹配,防止了简单的计算,同时赋予了模型精细化了解语言和视频部分信息的能力。
此外,T2VLAD 间接将多模态的视频信息(声音、动作、场景、speech、OCR、人脸等)映射到同一空间,利用同一组语义核心来做聚类交融,计算同一核心的视频和文本特色的部分类似度,这在肯定水平上解决了多模态信息难以综合利用的问题。T2VLAD 在三个规范的 Text-Video Retrieval Dataset 上均获得了优异的性能。
- CVPR2020 视频宰割模型 MA-Net 首次开源
视频指标宰割(VOS)是计算机视觉畛域的一个根底工作,有很多重要的利用场景,如视频编辑、场景了解及主动驾驶等。交互式视频指标宰割由用户在视频的某一帧中给指标物体简略的标注(比方在指标物体上画几条简略的线),就可能通过算法取得整个视频中该指标物体的宰割后果,用户能够通过屡次和视频交互而一直晋升视频宰割品质,直到用户对宰割品质称心。
因为交互式视频宰割须要用户屡次和视频交互,因而,须要兼顾算法的时效性和准确性。MA-Net 应用一个对立的框架进行交互和流传来生成宰割后果,保障了算法的时效性。另外,MA-Net 通过记忆存储的形式,将用户多轮交互的信息存储并更新,晋升了视频宰割的准确性。下表展现了模型在 DAVIS2017 数据集上性能体现。
- 首次开源 ECCV 2020 Spotlight 视频宰割模型 CFBI、CVPR2021 视频指标宰割国内比赛中,基于 CFBI 设计的解决方案在两项工作上夺得了冠军
在视频指标宰割畛域中,半监督畛域在往年来备受关注。给定视频中第一帧或多个参考帧中的指标标定,半监督办法须要准确跟踪并宰割出指标物体在整个视频中的掩模。以往的视频指标宰割办法都专一于提取给定的前景指标的鲁棒特色,但这在遮挡、尺度变动以及背景中存在类似物体的等等简单场景下是十分困难的。基于此,咱们从新思考了背景特色的重要性,并提出了前背景整合式的视频指标宰割办法(CFBI)。
CFBI 以对偶的模式同时提取指标的前景与背景特色,并通过隐式学习的办法晋升前背景特色之间的对比度,以进步宰割精度。基于 CFBI,咱们进一步将多尺度匹配和空洞匹配的策略引入视频指标中,并设计了更为鲁棒且高效的框架,CFBI+。
CFBI 系列办法在视频指标宰割畛域上放弃着单模型最高精度的记录。特地地,百度研究院的单模型性能优于旷视清华团队在 CVPR2020 视频指标宰割国内比赛上交融三个强力模型的后果。在往年刚刚完结的 CVPR2021 视频指标宰割国内比赛中,基于 CFBI 设计的解决方案在两项工作上夺得了冠军。下表展现了 CFBI 模型在 DAVIS-2017 数据集上的体现。
- ICCV 2021 无监督单目深度预计模型 ADDS 首次开源
ADDS 是基于白天和夜晚图像的自监督单目深度预计模型,其利用了白天和夜晚的图像数据互补性质,减缓了昼夜图像较大的域偏移以及照明变动对深度预计的精度带来的影响,在具备挑战性的牛津 RobotCar 数据集上实现了全天图像的最先进的深度预计后果。下表展现了 ADDS 模型在白天和夜间数据集上的测试性能体现。
是不是干货满满,心动不如口头,大家能够间接返回 Github 地址取得残缺开源我的项目代码,记得 Star 珍藏反对一下哦:
https://github.com/PaddlePadd…
精彩课程预报
1.17~1.21 日每晚 20:15~21:30,飞桨联结百度智能云、百度研究院数十位高工为大家带来直播解说,分析行业痛点问题,深刻解读体育、互联网、医疗、媒体等行业利用案例及产业级视频技术计划,并带来手把手我的项目实战。扫码或点击 ” 浏览原文 ” 进行报名,咱们直播间不见不散~
扫码报名直播课,退出技术交换群
更多相干内容,请参阅以下内容
官网地址:https://www.paddlepaddle.org.cn
我的项目地址:
GitHub: https://github.com/PaddlePadd…
参考文献:
1.ActBERT: Learning Global-Local Video-Text Representations , Linchao Zhu, Yi Yang
2.T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval, Xiaohan Wang, Linchao Zhu, Yi Yang
3.Memory Aggregation Networks for Efficient Interactive Video Object Segmentation, Jiaxu Miao, Yunchao Wei, Yi Yang
4.Collaborative Video Object Segmentation by Foreground-Background Integration, Zongxin Yang, Yunchao Wei, Yi Yang
5.Self-supervised Monocular Depth Estimation for All Day Images using Domain Separation, Liu, Lina and Song, Xibin and Wang, Mengmeng and Liu, Yong and Zhang, Liangjun