共计 6818 个字符,预计需要花费 18 分钟才能阅读完成。
本文内容整顿自「智能媒体生产」系列课程第二讲:视频 AI 与智能生产制作,由阿里云智能视频云高级技术专家分享视频 AI 原理,AI 辅助媒体生产,音视频智能化能力和底层原理,以及如何利用阿里云现有资源应用音视频 AI 能力。课程回放见文末。
01 算法演进:视频 AI 原理
在媒体生产的全生命周期中,AI 算法辅助晋升内容生产制作效率,为创作保驾护航。
智能生产全链路
智能生产全链路可分为五大部分。传统的媒体生产蕴含采集、编辑、存储、治理和散发五个流程,随着人工智能技术的衰亡,五大流程波及到越来越多的机器参加,其中最次要的便是AI 技术的利用。以下举例说明:
l 采集
在摄像机拍摄时同步进行绿幕抠图,这在演播室或者影视制作场景中是比拟常见的。
l 编辑
编辑过程使用到很多技术,比方横转竖、提取封面、叠加字幕等,同时这些字幕还能够通过语音辨认的形式提取进去再叠加在画面上。
l 存储
视频在采集和编辑之后,须要存储下来进行结构化分析,像智能标签就是使用在存储场景,从视频中提取出相应的标签,进行结构化的存储,并把视频库中的视频进行结构化关联。
l 治理
存储下来的视频如何治理?如何通过关键词检索到对应的视频?在治理环节,AI 能够帮忙进行多模态的检索,比方人物搜寻等。
l 散发
在存储和治理之后,视频散发也使用到 AI 技术,比方音视频 DNA、溯源水印等版权保护利用。如果通过直播流的形式对宽广用户进行直播,那么散发环节还会波及到直播审核,免得呈现直播故障。
基于智能生产全链路,媒体 AI 全景图应运而生,共分为四个档次:
最下面的档次表白 媒体生产的利用场景,蕴含智能媒资治理、内容智能生产以及视频版权保护。
往下是 产品能力,即 AI 组合达成的能力,比方视频分类、智能封面、智能抠图等。
再往下是AI 原子能力,比方语音辨认、自然语言解决这些底层的 AI 能力。
最下是 撑持 AI 能力的根底底座,如编解码和 GPU 减速等。以上组合起来,生成一张 AI 使用在智能生产中的全景图。
视频 AI 原理
视频 AI 的底层原理到底是什么?
人工智能发祥于 机器学习,而机器学习最早只是一种统计伎俩,像决策树、反对向量机、随机森林等各种数学方法。
随着时代倒退,科学家提出一种人工神经网络的计算方法,或者说算法,起初发现人工神经网络能够变得更大、档次变得更深,通过进一步摸索倒退,在二十多年前提出了 深度学习 的观点和概念。
所谓深度学习,就是在原先的人工神经网络上,把两头的档次(咱们称之为隐含层)扩大成两个档次、三个档次,甚至倒退到当初的几十个档次,即可失去更多的输出层和输入层节点。
当神经网络变得更大、更深的时候,机器学习就演化成深度学习,也就是咱们当初俗称的 AI。
随之而来产生一个问题:如何将 AI 使用到视频和图像中?
如果有一个 1080P 的视频,视频大小为 1920✖1080,此时一张图像上就存在百万个像素。如果把百万个像素点都放入神经网络中,会产生微小的计算量,远远超出惯例计算机所能达到的下限。
因而,在把图像放入神经网络前须要进行解决,钻研人员提出了 卷积神经网络,而这也是当初所有图像和视频 AI 的根底。
在卷积神经网络的规范模型中,图像进入神经网络之前须要进行两步操作:
第一步是 卷积层。所谓卷积就是拿一个卷积核(能够简略了解为一个矩阵)和原始图像的每一个卷积核大小的矩阵进行矩阵层的操作,最初失去一个特色图像。因为有多个卷积核,所以一张图片能够提取出多个特色图像。
特色图像间接放入神经网络还是太大,因而,须要进行第二步 池化层 操作,池化层的作用就是下采样,可采取多种形式,比方把方格中的最大值、平均值或者加权平均值作为最终输入值,造成下采样数据。
在上述例子中,一张图像的大小升高为原先的四分之一,输出到神经网络之后,极大升高了原始数据量,即可进行图像神经网络解决。由此可见,用艰深的话来讲,视频或图像的 AI 模型必须是由大数据喂进去的。
大数据人造地长在云上,云和 AI 人造的联合,能够使 AI 在云上失去较好的倒退与使用。
理解视频 AI 原理之后,如何反过来评估 AI 的成果?
以典型的分类问题举例,如果有 100 个视频,须要找出其中呈现过人的视频,那么有两个指标能够评估 AI 模型的好坏:一个是 精度 ,另一个是 召回率。
所谓的精度是指,假如 AI 算法最终找出 50 个视频,然而查看之后发现,其中只有 40 个是真正有人的,那么精度计算为 40➗50=0.8。
召回率是指,假如这 100 个视频中真正有人的一共有 80 个,而 AI 找出了其中 40 个,那么召回率计算为 0.5。
能够发现,精度和召回率是一对矛盾。如果想进步精度,只有找进去的视频少一点,就能够保障每个找进去的视频都是对的,即精度回升,但此时召回率肯定会降落。
现阶段的 AI 并不完满,也就是说,目前 AI 还只能辅助视频生产,生产视频的主体还是人。
AI 辅助生产
AI 辅助生产能够由以下两个示例进行阐明。
示例一:通过图片搜寻相干图片或视频。Demo 显示,输出一张周星驰的图片后,机器尽管不意识这是谁,然而可能从图片中提取此人的外貌特色,而后在视频库里做相应搜寻,找出一堆蕴含周星驰的视频。
示例二:智能横转竖。传统电影和电视剧均为横屏播放,随着挪动互联网衰亡,这些电影和电视剧须要在手机端进行投放,由此诞生了智能横转竖这样的 AI 算法,将大量的横屏视频转换成竖屏视频,帮忙横屏视频在手机端散发。
电视剧横转竖成果
新闻横转竖成果
02 智能进阶:视频内容了解
智能标签
智能标签基于 AI 对于视频内容的了解,主动提取视频中的标签、关键词等信息,剖析详情会展现为四局部:
第一局部是 视频标签,获取视频的类目,视频呈现过哪些人物,人物呈现的工夫点以及在视频中的地位,人物的类似度等。
第二局部是 文本标签,会提炼出一些关键词,包含视频文本中呈现过的组织机构,比方央视等。
前面两局部为 文字辨认 和语音辨认,别离通过图片 OCR 技术和语音云辨认技术实现。
具体示例可在 AI 体验馆中进行体验,同时,也提供 API 接入文档进行参考。
体验核心:https://retina.aliyun.com/#/L…
API 接入文档:https://help.aliyun.com/docum…
AI 是如何从视频中提取出信息的呢?从视频标签的流程图中能够看到,输出一个视频,别离进行两局部操作:
一部分是 对视频做抽帧解决,抽帧失去的图像通过人像辨认、场景辨认、物体辨认、地标辨认、OCR 等图像 AI 辨认模型,提炼出视频标签。
另一部分是 把视频中的音频提取进去,而后通过 ASR 失去文本后果,最初再通过 NLP(自然语言解决),提取出文本标签。
智能审核
视频审核的技术原理与视频标签雷同,惟一不同的是,视频标签能够了解为一个正向的视频内容了解,而视频审核是负向的,审核须要辨认出一些不合规的、有问题的内容,比方鉴黄、暴恐涉政、违规、二维码、不良场景等信息。
视频检索
视频检索的核心技术点是利用标签后果进行视频的剖析和查问。
视频检索架构图显示,媒资零碎中的视频通过 媒资特色入库模块 ,导入到智能标签剖析中,并失去一系列的标签,包含视频标签、文本标签,原始的 ASR、OCR 后果等,将这些后果连同视频的元数据信息比方题目、形容等,利用ElasticSearch 开源服务 进行文本信息的倒排索引和查问。
视频检索过程中会波及到 精排模块,这须要由业务层来实现。如果只是从 ES 中把合乎检索条件的后果提取进去,不肯定能满足业务层需要,比方说业务层面对政治新闻场景时,会要求把某些人物的搜寻后果更靠前排序,而这就是精排模块所须要做的工作。
检索系统个别都会依据业务层排序,接入业务接口模块,由此一个根本的检索系统搭建实现。然而,当初的检索系统只能依照文本检索视频。如何通过一张图片,检索到类似的图片或视频呢?
这波及到 视频 DNA 检索技术。所谓的视频 DNA,就是把视频外面的关键帧或者某一镜头提炼出要害信息,咱们把它称之为 DNA,并把这些信息放入向量数据库中进行检索,更多内容可通过体验核心和接入文档进行拓展理解。
体验核心:https://retina.aliyun.com/#/DNA
API 接入文档:https://help.aliyun.com/docum…
03 能力降级:音视频智能解决
基于视频内容了解,如何对视频进行智能解决?
绿幕抠图
绿幕抠图是在视频拍摄或者采集时,把背景替换成电脑制作的画面。在 演播室场景 中,理论拍摄时依据需要,在主持人的背地搁置绿幕背景或者蓝幕背景。
影视制作场景 同样使用到绿幕抠图,比方科幻片中无奈实景拍摄的局部,会在前期进行背景叠加或其余解决工作,通过在人物背地搁置绿幕的形式,把人物主体提取进去。
绿幕抠图要求输出的是蓝幕或者绿幕视频,分辨率不超过 4K,同时输出一张背景图片,即可输入替换背景后的视频。以下为示例阐明:一个人从绿幕前走过,替换背景后,变成此人在背景前走路,整体成果十分天然。
视频链接:https://v.youku.com/v_show/id…
视频链接:https://v.youku.com/v_show/id…
如何评估绿幕抠图的品质?首先要解决好 边缘溢色,比方在头发边缘,因为原始的图像背景是绿幕,头发缝边缘必然会染上一些绿色,技术上须要把这些边缘溢色擦除掉。
此外,如何 实在地出现透明度,并叠加背地的内容,还有静止含糊,高空暗影等,均是绿幕抠图品质好坏的评估点。
横转竖
横转竖是在挪动互联网上散发视频的必备解决伎俩。
传统人工制作横转竖视频的难点在于:一,须要业余的剪辑软件和制作人员,老本高,速度慢;二,在指标挪动比拟快的场景中,须要逐帧剪裁,工作量微小;三,剪裁指标区域后,前后帧难以对齐。因而,横转竖视频更适宜由机器制作实现。
智能横转竖的算法流程是:首先对视频进行 镜头宰割,所谓的镜头宰割就是在视频制作中,依照不同拍摄机位的转变,辨认镜头的切换,并把不同镜头宰割开来。
视频链接:https://v.youku.com/v_show/id…
其次是 主体抉择,在主体抉择时,个别抉择画面中最醒目的人作为指标,在上述舞蹈场景中,主体就是这个正在跳舞的人。
而后是 镜头追踪,每帧图像做好初期抉择之后,下一帧都要追随指标,即框定的图像追随这个人进行挪动。
最初是 门路平滑,镜头追踪实现之后,最终生成的竖屏视频必须是平滑的,不能呈现翘边等不良成果。更多内容可参见官网:
体验核心:https://retina.aliyun.com/#/H2V
API 接入文档:https://help.aliyun.com/docum…
其余视频智能解决能力
目前,阿里云视频云提供的视频智能解决能力,可分为以下四类:
- ROI 提取,即感兴趣区域提取,包含绿幕抠图和横转竖;
- 智能擦除,比方去图标、去字幕;
- 要害信息提炼,比方智能封面,即从视频中提取出最能体现视频的一张图片;视频摘要,提取出视频中最能体现视频的简短视频;
- 结构化分析,比方字幕提取,把嵌入在图像中的字幕主动提取进去;PPT 拆条,能够将一个课程视频主动拆成段落。
讲完视频智能解决能力,接下来介绍两项音频智能解决能力:副歌辨认和节奏检测。
副歌辨认
副歌是指歌曲中的低潮片段。副歌辨认有何利用场景?比方,很多 音乐 APP 的试听性能,会间接播放歌曲中的低潮片段,人为进行提取相当麻烦,而副歌辨认就能很好地实现工作。
副歌辨认的算法流程为:输出歌曲之后,首先进行音乐段落检测,而后提取副歌段落,并进行精调使之更贴合,最初再生成副歌片段。
副歌辨认的示例显示,通过调用之后,算法会返回两个后果值,即副歌的开始工夫点和完结工夫点。
大家能够对返回的后果和音频进行对照,从 72 秒副歌开始,到 102 秒副歌完结,副歌辨认后果还是十分精确的。
节奏检测
节奏检测即辨认音乐中的节奏点,其次要利用场景为 视频制作 和音乐举荐,比方,通过辨认出音乐节奏点,进行鬼畜视频的制作;通过辨认音乐的节奏类型,是四三拍还是四四拍,帮忙进行音乐分类等。
持续以上述音频示例,节奏检测算法输入两个后果:第一个是节奏工夫点,如 0.46 秒、0.96 秒均为节奏工夫点;第二个是 downbeat 工夫点,在乐理中解释为重拍,其中 0.46 秒为第一拍,2.46 秒为第五拍,也就是说每四拍为一个大节,每大节的第一拍为重拍,由此检测出该音乐的节奏。
其余音频智能解决能力
此外,视频云还提供其余音频智能解决能力,包含 混音 ,ASR 语音辨认 和TTS 语音合成。混音即把两个音乐片段进行叠加,其中波及到音量增益和主动控制算法。
这些能力进行组合,还能够实现更多玩法,比方歌曲串烧,首先通过副歌辨认,把几首歌曲的副歌局部提取进去,而后进行节奏检测,把适合的节奏点合在一起,最终组合成一首残缺的歌曲串烧。
04 开箱即用:阿里云媒资服务
基于视频 AI 原理以及成果,阿里云利用现有资源,提供更不便、更高效的音视频 AI 应用能力。
MPS 服务
MPS 是媒体解决的英文简称。阿里云提供针对多媒体的数据处理服务,将媒体处理过程形象成两种模式:一种是 输出音视频等多媒体文件,通过智能化媒体解决,生成一个新的媒体文件,比方之前提到的智能横转竖。
另一种模式是 输出一个媒体文件,输入通过媒体解决剖析后的一系列结构化数据,比方智能标签或智能审核。
MPS 反对多项音视频智能解决能力,此外,MPS 的媒体文件类型,既能够输出 OSS 文件,也反对输出网络 URL 地址。
MPS 接口调用的流程为:
第一步,开明 MPS 产品,在开明的过程中,控制台会疏导进行减少权限等相干操作。
开明 MPS 产品:https://www.aliyun.com/produc…
第二步,调用 MPS 的 Open API 接口,取得 Access Key,包含 AK 的 ID 和密钥。所有阿里云的 Open API 都要通过 AK 和 SK 拜访。
应用 RAM 服务获取 AccessKey:https://ram.console.aliyun.co…
第三步,认真浏览 MPS 提供的 API 文档:https://help.aliyun.com/docum…
第四步,针对开发须要,选用不同编程语言,并装置依赖模块:https://help.aliyun.com/docum…
第五步,编写代码。
阿里云 MPS 服务提供的智能化能力能够分为四个维度:
一是 视频内容了解,蕴含智能标签,智能审核,媒体 DNA,媒体 DNA 是视频检索中的重要组成部分,还有智能封面、视频摘要等。
二是 视频智能解决,像横转竖、去图标、去字幕、字幕提取等,从电视剧或电影中抽取出字幕,并输入 TXT 或者 SRT 格局,此外,也包含绿幕抠图和 PPT 拆条等。
三是 音频智能解决,蕴含副歌检测、混音解决、节奏检测和音质检测等。
四是 图片智能解决,蕴含横转竖、去图标和人像风格化。人像风格化能够把一张人像图片格调化成不同的模式,比方把人像进行卡通化,或者进行 3D 解决。
IMS 服务
IMS 服务是阿里云近年来新上的服务,全称是智能媒体服务,和 MPS 服务的区别在于:
IMS 服务围绕直播和点播场景,是针对媒体解决的全流程服务,可认为是 MPS 服务的重大产品迭代和降级。
第一,IMS 不仅针对于单个媒体处理过程,而是对于 媒体服务全流程、全生产周期 的治理和制作;
第二,IMS 的 集成度更高,不光能够进行单个原子能力的音视频解决,还能够进行媒资治理、工作流触发等,让开发者更不便地应用音视频智能化能力;
第三,IMS更智能,后续所有智能化能力降级后都会集中体现在 IMS 服务中。
IMS 控制台交融了媒资治理,媒资库中的音频视频文件,包含图片、辅助的媒资,都能够通过 IMS 服务进行展现和治理。
利用多模检索的智能化能力,IMS 能够实现 多媒体文件的智能化检索。传统的音视频文件检索,只能针对题目或者简介进行,而 IMS 反对对上传的音视频文件做 AI 主动分类,并依据分类后果进行搜寻,同时,也反对对视频中的文字进行自动识别检索。
比方,新闻联播的画面中呈现了“康辉”两个字样,尽管视频文件的题目和简介里都没有呈现过“康辉”,但在搜寻“康辉”时,AI 还是能够搜寻辨认出此视频文件,这就是多模检索的能力。
Retina 多媒体 AI 体验核心
上述 MPS 和 IMS 服务的智能化能力,都须要通过 Open API 调用或者控制台开明应用,而Retina 体验核心能够让大家更方便快捷地进行体验,只需上传视频或图片,就能够直观地失去通过智能化解决后的后果。
例如,在 Retina 平台,你能够体验人像卡通化的成果,只需上传一张人像图片,通过主动解决,就能取得童话格调的卡通人像图片,更多体验就在:http://retina.aliyun.com/
随着视频与 AI 技术的倒退和演进,AI 在媒体生产畛域中施展着越来越重要的作用,以更快的速度、更高的效率实现之前难以实现的事件。
将来,AI 将从辅助媒体生产,逐步转变为间接生产有意义、有价值、有情感的视频,进一步减速媒体生产制作全自动解决过程。
更多残缺内容详见 课程回放 ⬇️
视频链接:https://v.youku.com/v_show/id…