关于云计算:课程回顾｜以智能之力加速媒体生产全自动进程

本文内容整顿自「智能媒体生产」系列课程第二讲：视频 AI 与智能生产制作，由阿里云智能视频云高级技术专家分享视频 AI 原理，AI 辅助媒体生产，音视频智能化能力和底层原理，以及如何利用阿里云现有资源应用音视频 AI 能力。课程回放见文末。

在媒体生产的全生命周期中，AI 算法辅助晋升内容生产制作效率，为创作保驾护航。

智能生产全链路可分为五大部分。传统的媒体生产蕴含采集、编辑、存储、治理和散发五个流程，随着人工智能技术的衰亡，五大流程波及到越来越多的机器参加，其中最次要的便是AI 技术的利用。以下举例说明：

l 采集

在摄像机拍摄时同步进行绿幕抠图，这在演播室或者影视制作场景中是比拟常见的。

l 编辑

编辑过程使用到很多技术，比方横转竖、提取封面、叠加字幕等，同时这些字幕还能够通过语音辨认的形式提取进去再叠加在画面上。

l 存储

视频在采集和编辑之后，须要存储下来进行结构化分析，像智能标签就是使用在存储场景，从视频中提取出相应的标签，进行结构化的存储，并把视频库中的视频进行结构化关联。

l 治理

存储下来的视频如何治理？如何通过关键词检索到对应的视频？在治理环节，AI 能够帮忙进行多模态的检索，比方人物搜寻等。

l 散发

在存储和治理之后，视频散发也使用到 AI 技术，比方音视频 DNA、溯源水印等版权保护利用。如果通过直播流的形式对宽广用户进行直播，那么散发环节还会波及到直播审核，免得呈现直播故障。

基于智能生产全链路，媒体 AI 全景图应运而生，共分为四个档次：

最下面的档次表白 媒体生产的利用场景，蕴含智能媒资治理、内容智能生产以及视频版权保护。

往下是 产品能力，即 AI 组合达成的能力，比方视频分类、智能封面、智能抠图等。

再往下是AI 原子能力，比方语音辨认、自然语言解决这些底层的 AI 能力。

最下是 撑持 AI 能力的根底底座，如编解码和 GPU 减速等。以上组合起来，生成一张 AI 使用在智能生产中的全景图。

视频 AI 的底层原理到底是什么？

人工智能发祥于 机器学习，而机器学习最早只是一种统计伎俩，像决策树、反对向量机、随机森林等各种数学方法。

随着时代倒退，科学家提出一种人工神经网络的计算方法，或者说算法，起初发现人工神经网络能够变得更大、档次变得更深，通过进一步摸索倒退，在二十多年前提出了 深度学习 的观点和概念。

所谓深度学习，就是在原先的人工神经网络上，把两头的档次（咱们称之为隐含层）扩大成两个档次、三个档次，甚至倒退到当初的几十个档次，即可失去更多的输出层和输入层节点。

当神经网络变得更大、更深的时候，机器学习就演化成深度学习，也就是咱们当初俗称的 AI。

随之而来产生一个问题：如何将 AI 使用到视频和图像中？

如果有一个 1080P 的视频，视频大小为 1920✖1080，此时一张图像上就存在百万个像素。如果把百万个像素点都放入神经网络中，会产生微小的计算量，远远超出惯例计算机所能达到的下限。

因而，在把图像放入神经网络前须要进行解决，钻研人员提出了 卷积神经网络，而这也是当初所有图像和视频 AI 的根底。

在卷积神经网络的规范模型中，图像进入神经网络之前须要进行两步操作：

第一步是 卷积层。所谓卷积就是拿一个卷积核（能够简略了解为一个矩阵）和原始图像的每一个卷积核大小的矩阵进行矩阵层的操作，最初失去一个特色图像。因为有多个卷积核，所以一张图片能够提取出多个特色图像。

特色图像间接放入神经网络还是太大，因而，须要进行第二步 池化层 操作，池化层的作用就是下采样，可采取多种形式，比方把方格中的最大值、平均值或者加权平均值作为最终输入值，造成下采样数据。

在上述例子中，一张图像的大小升高为原先的四分之一，输出到神经网络之后，极大升高了原始数据量，即可进行图像神经网络解决。由此可见，用艰深的话来讲，视频或图像的 AI 模型必须是由大数据喂进去的。

大数据人造地长在云上，云和 AI 人造的联合，能够使 AI 在云上失去较好的倒退与使用。

理解视频 AI 原理之后，如何反过来评估 AI 的成果？

以典型的分类问题举例，如果有 100 个视频，须要找出其中呈现过人的视频，那么有两个指标能够评估 AI 模型的好坏：一个是精度，另一个是 召回率。

所谓的精度是指，假如 AI 算法最终找出 50 个视频，然而查看之后发现，其中只有 40 个是真正有人的，那么精度计算为 40➗50=0.8。

召回率是指，假如这 100 个视频中真正有人的一共有 80 个，而 AI 找出了其中 40 个，那么召回率计算为 0.5。

能够发现，精度和召回率是一对矛盾。如果想进步精度，只有找进去的视频少一点，就能够保障每个找进去的视频都是对的，即精度回升，但此时召回率肯定会降落。

现阶段的 AI 并不完满，也就是说，目前 AI 还只能辅助视频生产，生产视频的主体还是人。

AI 辅助生产能够由以下两个示例进行阐明。

示例一：通过图片搜寻相干图片或视频。Demo 显示，输出一张周星驰的图片后，机器尽管不意识这是谁，然而可能从图片中提取此人的外貌特色，而后在视频库里做相应搜寻，找出一堆蕴含周星驰的视频。

示例二：智能横转竖。传统电影和电视剧均为横屏播放，随着挪动互联网衰亡，这些电影和电视剧须要在手机端进行投放，由此诞生了智能横转竖这样的 AI 算法，将大量的横屏视频转换成竖屏视频，帮忙横屏视频在手机端散发。

电视剧横转竖成果

新闻横转竖成果

智能标签基于 AI 对于视频内容的了解，主动提取视频中的标签、关键词等信息，剖析详情会展现为四局部：

第一局部是 视频标签，获取视频的类目，视频呈现过哪些人物，人物呈现的工夫点以及在视频中的地位，人物的类似度等。

第二局部是 文本标签，会提炼出一些关键词，包含视频文本中呈现过的组织机构，比方央视等。

前面两局部为 文字辨认 和语音辨认，别离通过图片 OCR 技术和语音云辨认技术实现。

具体示例可在 AI 体验馆中进行体验，同时，也提供 API 接入文档进行参考。

体验核心：https://retina.aliyun.com/#/L…

API 接入文档：https://help.aliyun.com/docum…

AI 是如何从视频中提取出信息的呢？从视频标签的流程图中能够看到，输出一个视频，别离进行两局部操作：

一部分是 对视频做抽帧解决，抽帧失去的图像通过人像辨认、场景辨认、物体辨认、地标辨认、OCR 等图像 AI 辨认模型，提炼出视频标签。

另一部分是 把视频中的音频提取进去，而后通过 ASR 失去文本后果，最初再通过 NLP（自然语言解决），提取出文本标签。

视频审核的技术原理与视频标签雷同，惟一不同的是，视频标签能够了解为一个正向的视频内容了解，而视频审核是负向的，审核须要辨认出一些不合规的、有问题的内容，比方鉴黄、暴恐涉政、违规、二维码、不良场景等信息。

视频检索的核心技术点是利用标签后果进行视频的剖析和查问。

视频检索架构图显示，媒资零碎中的视频通过 媒资特色入库模块 ，导入到智能标签剖析中，并失去一系列的标签，包含视频标签、文本标签，原始的 ASR、OCR 后果等，将这些后果连同视频的元数据信息比方题目、形容等，利用ElasticSearch 开源服务 进行文本信息的倒排索引和查问。

视频检索过程中会波及到 精排模块，这须要由业务层来实现。如果只是从 ES 中把合乎检索条件的后果提取进去，不肯定能满足业务层需要，比方说业务层面对政治新闻场景时，会要求把某些人物的搜寻后果更靠前排序，而这就是精排模块所须要做的工作。

检索系统个别都会依据业务层排序，接入业务接口模块，由此一个根本的检索系统搭建实现。然而，当初的检索系统只能依照文本检索视频。如何通过一张图片，检索到类似的图片或视频呢？

这波及到 视频 DNA 检索技术。所谓的视频 DNA，就是把视频外面的关键帧或者某一镜头提炼出要害信息，咱们把它称之为 DNA，并把这些信息放入向量数据库中进行检索，更多内容可通过体验核心和接入文档进行拓展理解。

体验核心：https://retina.aliyun.com/#/DNA

API 接入文档：https://help.aliyun.com/docum…

基于视频内容了解，如何对视频进行智能解决？

绿幕抠图是在视频拍摄或者采集时，把背景替换成电脑制作的画面。在 演播室场景 中，理论拍摄时依据需要，在主持人的背地搁置绿幕背景或者蓝幕背景。

影视制作场景 同样使用到绿幕抠图，比方科幻片中无奈实景拍摄的局部，会在前期进行背景叠加或其余解决工作，通过在人物背地搁置绿幕的形式，把人物主体提取进去。

绿幕抠图要求输出的是蓝幕或者绿幕视频，分辨率不超过 4K，同时输出一张背景图片，即可输入替换背景后的视频。以下为示例阐明：一个人从绿幕前走过，替换背景后，变成此人在背景前走路，整体成果十分天然。

视频链接：https://v.youku.com/v_show/id…

如何评估绿幕抠图的品质？首先要解决好 边缘溢色，比方在头发边缘，因为原始的图像背景是绿幕，头发缝边缘必然会染上一些绿色，技术上须要把这些边缘溢色擦除掉。

此外，如何 实在地出现透明度，并叠加背地的内容，还有静止含糊，高空暗影等，均是绿幕抠图品质好坏的评估点。

横转竖是在挪动互联网上散发视频的必备解决伎俩。

传统人工制作横转竖视频的难点在于：一，须要业余的剪辑软件和制作人员，老本高，速度慢；二，在指标挪动比拟快的场景中，须要逐帧剪裁，工作量微小；三，剪裁指标区域后，前后帧难以对齐。因而，横转竖视频更适宜由机器制作实现。

智能横转竖的算法流程是：首先对视频进行 镜头宰割，所谓的镜头宰割就是在视频制作中，依照不同拍摄机位的转变，辨认镜头的切换，并把不同镜头宰割开来。

视频链接：https://v.youku.com/v_show/id…

其次是 主体抉择，在主体抉择时，个别抉择画面中最醒目的人作为指标，在上述舞蹈场景中，主体就是这个正在跳舞的人。

而后是 镜头追踪，每帧图像做好初期抉择之后，下一帧都要追随指标，即框定的图像追随这个人进行挪动。

最初是 门路平滑，镜头追踪实现之后，最终生成的竖屏视频必须是平滑的，不能呈现翘边等不良成果。更多内容可参见官网：

体验核心：https://retina.aliyun.com/#/H2V

API 接入文档：https://help.aliyun.com/docum…

目前，阿里云视频云提供的视频智能解决能力，可分为以下四类：

ROI 提取，即感兴趣区域提取，包含绿幕抠图和横转竖；
智能擦除，比方去图标、去字幕；
要害信息提炼，比方智能封面，即从视频中提取出最能体现视频的一张图片；视频摘要，提取出视频中最能体现视频的简短视频；
结构化分析，比方字幕提取，把嵌入在图像中的字幕主动提取进去；PPT 拆条，能够将一个课程视频主动拆成段落。

讲完视频智能解决能力，接下来介绍两项音频智能解决能力：副歌辨认和节奏检测。

副歌是指歌曲中的低潮片段。副歌辨认有何利用场景？比方，很多 音乐 APP 的试听性能，会间接播放歌曲中的低潮片段，人为进行提取相当麻烦，而副歌辨认就能很好地实现工作。

副歌辨认的算法流程为：输出歌曲之后，首先进行音乐段落检测，而后提取副歌段落，并进行精调使之更贴合，最初再生成副歌片段。

副歌辨认的示例显示，通过调用之后，算法会返回两个后果值，即副歌的开始工夫点和完结工夫点。

大家能够对返回的后果和音频进行对照，从 72 秒副歌开始，到 102 秒副歌完结，副歌辨认后果还是十分精确的。

节奏检测即辨认音乐中的节奏点，其次要利用场景为 视频制作 和音乐举荐，比方，通过辨认出音乐节奏点，进行鬼畜视频的制作；通过辨认音乐的节奏类型，是四三拍还是四四拍，帮忙进行音乐分类等。

持续以上述音频示例，节奏检测算法输入两个后果：第一个是节奏工夫点，如 0.46 秒、0.96 秒均为节奏工夫点；第二个是 downbeat 工夫点，在乐理中解释为重拍，其中 0.46 秒为第一拍，2.46 秒为第五拍，也就是说每四拍为一个大节，每大节的第一拍为重拍，由此检测出该音乐的节奏。

此外，视频云还提供其余音频智能解决能力，包含混音，ASR 语音辨认 和TTS 语音合成。混音即把两个音乐片段进行叠加，其中波及到音量增益和主动控制算法。

这些能力进行组合，还能够实现更多玩法，比方歌曲串烧，首先通过副歌辨认，把几首歌曲的副歌局部提取进去，而后进行节奏检测，把适合的节奏点合在一起，最终组合成一首残缺的歌曲串烧。

MPS 是媒体解决的英文简称。阿里云提供针对多媒体的数据处理服务，将媒体处理过程形象成两种模式：一种是 输出音视频等多媒体文件，通过智能化媒体解决，生成一个新的媒体文件，比方之前提到的智能横转竖。

另一种模式是 输出一个媒体文件，输入通过媒体解决剖析后的一系列结构化数据，比方智能标签或智能审核。

MPS 反对多项音视频智能解决能力，此外，MPS 的媒体文件类型，既能够输出 OSS 文件，也反对输出网络 URL 地址。

MPS 接口调用的流程为：

第一步，开明 MPS 产品，在开明的过程中，控制台会疏导进行减少权限等相干操作。

开明 MPS 产品：https://www.aliyun.com/produc…

第二步，调用 MPS 的 Open API 接口，取得 Access Key，包含 AK 的 ID 和密钥。所有阿里云的 Open API 都要通过 AK 和 SK 拜访。

应用 RAM 服务获取 AccessKey：https://ram.console.aliyun.co…

第三步，认真浏览 MPS 提供的 API 文档：https://help.aliyun.com/docum…

第四步，针对开发须要，选用不同编程语言，并装置依赖模块：https://help.aliyun.com/docum…

第五步，编写代码。

阿里云 MPS 服务提供的智能化能力能够分为四个维度：

一是 视频内容了解，蕴含智能标签，智能审核，媒体 DNA，媒体 DNA 是视频检索中的重要组成部分，还有智能封面、视频摘要等。

二是 视频智能解决，像横转竖、去图标、去字幕、字幕提取等，从电视剧或电影中抽取出字幕，并输入 TXT 或者 SRT 格局，此外，也包含绿幕抠图和 PPT 拆条等。

三是 音频智能解决，蕴含副歌检测、混音解决、节奏检测和音质检测等。

四是 图片智能解决，蕴含横转竖、去图标和人像风格化。人像风格化能够把一张人像图片格调化成不同的模式，比方把人像进行卡通化，或者进行 3D 解决。

IMS 服务是阿里云近年来新上的服务，全称是智能媒体服务，和 MPS 服务的区别在于：

IMS 服务围绕直播和点播场景，是针对媒体解决的全流程服务，可认为是 MPS 服务的重大产品迭代和降级。

第一，IMS 不仅针对于单个媒体处理过程，而是对于 媒体服务全流程、全生产周期 的治理和制作；

第二，IMS 的 集成度更高，不光能够进行单个原子能力的音视频解决，还能够进行媒资治理、工作流触发等，让开发者更不便地应用音视频智能化能力；

第三，IMS更智能，后续所有智能化能力降级后都会集中体现在 IMS 服务中。

IMS 控制台交融了媒资治理，媒资库中的音频视频文件，包含图片、辅助的媒资，都能够通过 IMS 服务进行展现和治理。

利用多模检索的智能化能力，IMS 能够实现 多媒体文件的智能化检索。传统的音视频文件检索，只能针对题目或者简介进行，而 IMS 反对对上传的音视频文件做 AI 主动分类，并依据分类后果进行搜寻，同时，也反对对视频中的文字进行自动识别检索。

比方，新闻联播的画面中呈现了“康辉”两个字样，尽管视频文件的题目和简介里都没有呈现过“康辉”，但在搜寻“康辉”时，AI 还是能够搜寻辨认出此视频文件，这就是多模检索的能力。

上述 MPS 和 IMS 服务的智能化能力，都须要通过 Open API 调用或者控制台开明应用，而Retina 体验核心能够让大家更方便快捷地进行体验，只需上传视频或图片，就能够直观地失去通过智能化解决后的后果。

例如，在 Retina 平台，你能够体验人像卡通化的成果，只需上传一张人像图片，通过主动解决，就能取得童话格调的卡通人像图片，更多体验就在：http://retina.aliyun.com/

随着视频与 AI 技术的倒退和演进，AI 在媒体生产畛域中施展着越来越重要的作用，以更快的速度、更高的效率实现之前难以实现的事件。

将来，AI 将从辅助媒体生产，逐步转变为间接生产有意义、有价值、有情感的视频，进一步减速媒体生产制作全自动解决过程。

更多残缺内容详见 课程回放 ⬇️

视频链接：https://v.youku.com/v_show/id…

关于云计算:课程回顾｜以智能之力加速媒体生产全自动进程

01 算法演进：视频 AI 原理

智能生产全链路

视频 AI 原理

AI 辅助生产

02 智能进阶：视频内容了解

智能标签

智能审核

视频检索

03 能力降级：音视频智能解决

绿幕抠图

横转竖

其余视频智能解决能力

副歌辨认

节奏检测

其余音频智能解决能力

04 开箱即用：阿里云媒资服务

基于视频 AI 原理以及成果，阿里云利用现有资源，提供更不便、更高效的音视频 AI 应用能力。

MPS 服务

IMS 服务

Retina 多媒体 AI 体验核心

Just My Socks（注册教程内含优惠码）

关于云计算:课程回顾｜以智能之力加速媒体生产全自动进程

01 算法演进：视频 AI 原理

智能生产全链路

视频 AI 原理

AI 辅助生产

02 智能进阶：视频内容了解

智能标签

智能审核

视频检索

03 能力降级：音视频智能解决

绿幕抠图

横转竖

其余视频智能解决能力

副歌辨认

节奏检测

其余音频智能解决能力

04 开箱即用：阿里云媒资服务

基于视频 AI 原理以及成果，阿里云利用现有资源，提供更不便、更高效的音视频 AI 应用能力。

MPS 服务

IMS 服务

Retina 多媒体 AI 体验核心

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）