近年来,视频行业继续高速成长,带动数字经济新倒退。在视频用户规模继续扩充的同时,产业对于海量多样视频内容的智能化生产及利用的需要也愈发显著。如何对海量视频数据内容进行剖析?如何迅速给视频作品打上标签以便于智能举荐?如何筛选最优片段作为视频封面晋升内容吸引力?……传统的解决形式须要消耗微小的人力,智能视频内容分析和生产越来越受到业界的器重。
如何实现视频内容智能化剖析及生产,目前还存在一些技术挑战:
1、信息多维了解:视频的题目、字幕、画面、语音等信息中蕴含了丰盛的视频信息,如何利用多维信息,晋升模型高层次语义理解能力仍有很大难度。
2、计算资源耗费:视频模型的训练须要耗费大量的计算资源。在理论业务中,如何升高成千盈百万的untrimed视频,视频分类模型训练所需的机器老本和工夫老本是要害。
3、智能筛选生成:如何利用视频帧的品质、精彩水平、内容相关度提取最优帧和最优化面。
接下来,将为大家介绍PaddleVideo开源的常识加强视频多模态&大规模分类打标签计划和视频智能封面生产计划。
视频分类打标签计划(多模态&大规模)
多模态视频分类标签模型MultimodalVideoTag
MultimodalVideoTag基于实在短视频业务数据,交融视频文本、图像、音频三种模态进行视频多模标签分类。模型提供一级标签25个,二级标签200+个,标签准确率超过85%。相比仅应用视频图像特色,可显著晋升高层语义标签提取准确率。MultimodalVideoTag原理示意如下图1.1所示。
图1.1多模态视频分类标签框架
模型应用三个分支抽取各个模态特色,再进行多模态特色交融,最初进行多标签分类。
- 文本分支:应用基于融入实体信息的弱小预训练ERNIE,晋升文本表征能力,固定住ERNIE 的参数,后置TextCNN 网络学习畛域内常识,减速模型训练;
- 图像分支:应用预训练的 ResNext 对图像抽取高层语义特色,同时应用Bi-LSTM 失去序列信息;
- 音频分支:应用预训练的VGGish网络抽取音频特色,通过Bi-LSTM 取得时序信息;
- 多模交融:联合文本与图像的cross attention、文本与音频的cross attention、多模态late fusion解决,晋升不同模态的交互能力。应用高语义的文本信息影响图像、音频工夫序列的注意力抉择,对视频内容芜杂的状况下有较好抵挡噪声能力,效果显著优于多模态特色间接拼接的成果。具体后果见表1.2,融入文本特色显著晋升模型成果,退出textcnn 后置网络晋升畛域迁徙能力,应用cross attention 进一步晋升模型成果。
表1.2多模态交融试验后果
多模态视频分类标签模型MultimodalVideoTag的性能是给视频打多个形容视频内容的标签,可用于内容圈选、招稿以及投放等多个举荐零碎场景。成果展现如图1.3。
图1.3多模态视频分类标签 MultimodalVideoTag成果展现
大规模视频分类模型VideoTag
VideoTag基于百度短视频业务千万级数据,反对3000个源于产业实际的实用标签,具备良好的泛化能力,十分实用于国内大规模(千万/亿/十亿级别)短视频分类场景的利用,标签准确率达到89%。
VideoTag采纳两阶段建模形式,即图像建模和序列学习。第一阶段,应用大量视频样本(十万级别)训练大规模视频特征提取模型(Extractor);第二阶段,应用千万级数据训练预测器(Predictor),最终实现在超大规模(千万/亿/十亿级别)短视频上产业利用,其原理示意如图1.4所示,VideoTag成果展现如图1.5。
图1.4VideoTag原理图
图1.5 VideoTag成果展现
VideoTag视频解决流程如下:
- 数据处理:视频是按特定顺序排列的一组图像的汇合,这些图像也称为帧。视频分类工作须要先对短视频进行解码,而后再将输入的图像帧序列灌入到VideoTag中进行训练和预测。
- 图像建模:先从训练数据中,对每个类别平均采样大量样本数据,形成十万量级的训练视频。而后应用TSN网络进行训练,提取所有视频帧的TSN模型分类层前一层的特色数据。在这个过程中,每一帧都被转化成相应的特征向量,一段视频被转化成一个特色序列。
- 序列学习:采纳Attention clusters、LSTM和Nextvlad对特色序列进行建模,学习各个特色之间的组合形式,进一步提高模型准确率。因为序列学习相比于图像建模耗时更短,因而能够交融多个具备互补性的序列模型。示例代码仅应用Attention_LSTM网络进行序列特色预测。
- 预测后果:交融多个模型后果实现视频分类,进一步提高分类准确率。
视频智能封面生成计划
视频智能封面是通过对视频内容的了解,智能剖析视频帧的品质、精彩水平、内容相关度,提取最优帧或最优片段作为视频封面,晋升内容吸引力。
飞桨开源了视频智能封面AI算法。视频智能封面利用解决流程如图2.1所示,通过基于PP-TSM的视频品质分析模型,对视频镜头打分。通过人脸好看度、图像实体标签,获取视频内容信息。综合上述视频品质和内容信息进行加权打分后处理,并引入聚类操作滤除反复样本,获取最终视频图像或片段粒度的视频智能封面。
图2.1 视频封面图解决流程
针对视频品质剖析环节,咱们开源了基于PP-TSM的视频品质分析模型。
该模型的成果与性能显著优于基于均值和方差的GSTVQA模型,如表2.2所示。
表2.2基于PP-TSM的视频品质分析模型与GSTVQA比照
心动不如口头,大家能够间接返回GitHub地址取得残缺开源我的项目代码,记得Star珍藏反对一下哦!https://github.com/PaddlePadd…
相干商业解决方案地址如下,欢送试用:https://cloud.baidu.com/solut…
精彩课程预报
1月17日~21日每晚20:15~21:30,飞桨联结百度智能云、百度研究院数十位高级工程师为大家带来直播分享,分析行业痛点问题,深刻解读产业级智能视频技术计划及体育、互联网、医疗、媒体等行业利用案例,并带来手把手我的项目实战。扫码或点击”浏览原文”进行报名,咱们直播间不见不散~
扫码报名直播课,退出技术交换群
更多相干内容,请参阅以下内容:
官网地址:https://www.paddlepaddle.org.cn\
我的项目地址:
GitHub: https://github.com/PaddlePadd…
发表回复