关于云计算:深度解读智能媒体服务的重组和进化

对立“顶设”的智能媒体服务。

邹娟|演讲者

大家好，首先欢送各位来到 LVS 的阿里云专场，我是来自阿里云视频云的邹娟。我本次分享的主题为《从规模化到全智能：智能媒体服务的重组与进化》。

本次分享分为以上四局部，一是媒体服务（Mediaservices）面临的技术难题；二是如何应用对立“顶设”进行媒体服务的架构重组与规划设计；三是阿里云视频云服务不同企业客户不同场景需要面临的技术挑战、解法以及对于智能化演进的思路和实际；四是对于智能媒体服务的将来瞻望。

第一局部次要介绍媒体服务（Mediaservices）的技术难题。

在此之前咱们先对“媒体服务”的含意进行解释，咱们将“媒体服务”定义为：客户音视频相干业务中，媒体层技术和服务能力的汇合。

媒体服务以后面临的技术难题能够总结为三大类：一是如何灵便反对不同行业、市场、客户、场景的音视频业务；二是如何在此基础上满足这些迥异的业务场景的规模化需要；三是随着 AIGC 的衰亡，在将 AI 技术融入媒体服务迭代的过程中，如何均衡短期利益和长期技术方向，做好长短期联合的智能化演进。

接下来对三类问题进行具体分析，首先是对于多种音视频业务如何灵便反对。

以后视频云畛域包含视频点播、视频直播和音视频通信三大外围业务，他们的链路基本相同，均涵盖生产、解决、散发和生产四个次要局部。

咱们的“旧有思路“是针对业务构建全链路的产品技术，而不同业务在雷同环节可能领有相似的媒体能力，如 VOD 产品中的“媒体解决 MPS”与 Live 产品中的“直播转码”就十分相似，当随着视频社会化趋势一直倒退，衍生出更多垂直的音视频业务时，沿用这种思路无疑会带来较多反复开发。

其次，不同场景的规模化需要天壤之别。

ToB 云业务的规模化不仅包含大家印象中的“传统”大规模，如：海量、高并发、低成本等，还涵盖了诸如业务流多场景、多租户的要求，不同场景对媒体服务能力深度 + 广度的多样性要求等，因而 ToB 须要多个角度的总结、提炼和形象。

第三是对于如何布局长短期联合的智能化演进。

针对短期，咱们目前重点关注工业级 AI 利用的成果，以后 AI 的角色仍以辅助为主，少数业务为视频的检测、辨认、宰割等。

以后大模型及利用如雨后春笋般层出不穷，但离 AGI 时代的真正到来还有肯定间隔，咱们须要关注相干的钻研和技术储备如何从短期落地的状态平滑过渡，并布局一条连接长短期演进的技术路线。

基于以上背景，咱们首先对音视频业务的媒体能力进行了框架式的对立顶设，定义为第 0 层重组。

重组前，媒体服务的各项能力曾经存在于视频点播、直播、音视频通信等业务中，因而该过程并非从 0 到 1 造轮子，而是 将既有媒体原子能力进行打散、重组，从而更好的实现资源复用，解决更多新业务自在搭建的问题。

重组后，媒体服务的整体框架如上图所示，最底层是基于云原生技术的存储、散发、传输等 IaaS 基础设施，在此之上是媒体 PaaS 服务的算法底座，媒体的 PaaS 层能力依照音视频生命周期划分为媒体汇聚、媒体生产制作、媒体解决、媒体生产和媒资治理 5 个板块，下层则是基于 PaaS 层搭建的 PaaS+ 解决方案和各种行业场景利用。

将 PaaS 层 5 个板块进行服务的细粒度拆分，各项能力进一步内聚和丰盛，造成媒体全景能力集，详见上图，列举了一些媒体服务的典型能力。

这些从不同业务中总结并提炼出的媒体服务能力，对相似性做形象，对局部差异性做交融 & 加强，外加将多个服务的输入输出参数体系标准化，不仅能够提供阿里云视频云的自研服务，还具备肯定的开放性，从框架层面容许通过平安认证的第三方服务的接入。

如此一来，重组后的媒体服务除了作为直播、点播等已有业务的媒体能力底座外，还为疾速拓展新业务和新场景（如汽车、IOT、行业 + 等）提供了无效的反对。

在第 0 层重组做好整体规划的根底上，咱们构建了对立的“媒体引擎”，进一步实现媒体服务的第 1 层重组。作为底层技术外围，它是媒体工作在“执行层”实现高时效、高性能及丰盛性能的基石。

首先，作为继续倒退的云原生服务，媒体引擎须要充分利用不同期间的机器资源，这就要求引擎层具备异构和软硬一体能力，反对 CPU、GPU、ARM 和 ASIC 等设施资源。其次，媒体引擎集成的算法既包含媒体解决算法与 AI 算法，也包含自研算法和二三方算法，它对算法集成进行了对立设计，通过算法成果 / 性能 / 老本自测零碎、编码标准及合规自查零碎、流量回放和陪跑零碎保障引擎的稳定性与根底性能。第三是构建了对立的媒体解决框架，并通过单任务的分布式媒体计算引擎和简单工作决策引擎实现底层资源的最优组织和简单工作的最佳决策与反向调度。

近几年分布式云逐步衰亡，很多行业客户的视频服务部署在边缘云或混合云中，为了实现一套代码多云部署，咱们进行了媒体服务的第 2 层重组。

这里次要面临两大挑战，一是不同环境依赖的组件不同，须要将依赖组件细化后进行动静配置；二是在最终部署前须要实现大量的多环境对立 CICD 和标准化一键部署计划。它实质上是一项兼顾编程和继续集成的工作。

媒体服务的第 3 层重组宗旨是 通过定义对立的媒体数据协定及流转框架，打消数据在不同服务间转换造成的损失。

而媒资的外围角色之一正是媒体服务的数据底层，因而第 3 层重组最重要的工作是构建视频云不同产品服务间的对立媒资零碎，设计上次要分三层：

最底层是对立媒资的数据底座，1）对直播、点播等不同服务的媒体信息构建 OneMediaID，2）通过媒体流程引擎和凋谢服务注册构建对立工作流，3）通过对立工作解决流程、管道定义、参数模板构建对立媒体解决协定框架。

中间层为对于媒资库的对立设计，设计标准对标广电媒资，外围思路是通过对立的包含多种实体定义（如基于文本的关系型元数据库和基于特征值的向量元数据库）的动静元数据体系来反对不同状态媒资实体存储。

顶层为媒资的体系化，外围是两个体系：元数据体系与存储文件体系。关键词则是媒资体系的灵活性和自构建能力，提供不同客户可自定义媒资 Structure 和 Value 体系的能力。

接下来介绍对于媒体服务的进阶技术，阿里云 ToB 业务以后面临的最大挑战是不同场景、不同客户带来的规模化技术挑战。

与 C 端业务反对绝对聚焦的场景不同，云视频业务因其多行业、多市场、多客户、多场景利用的背景使得高牢靠、低成本、高时效等规模化难度倍增。因而规模化对于视频云厂商而言，既是“特有”的机会，也是挑战。

阿里云视频云规模化技术的整体实现思路请见下图：

首先，咱们采纳了云原生架构作为整体实现框架，利用云的先天劣势做好弹性和按需解决，并且在视频云的 IaaS 层实现软硬一体、云边一体和云端一体。其次，媒体服务规模化技术的实现依赖算法、引擎、调度、分布式服务四层的相互配合，缺一不可。

以一个长视频超分加 HDR 的解决工作为例，分布式服务层在接受任务后负责进行流程剖析和编排，并将工作指令发送至调度层，调度层负责根据工作参数进行预处理和并行拆分，引擎层负责根据拆分后果组织最优算法实现工作执行。繁多工作尚且如此，海量工作高效且有品质的实现则更须要四层之间的配合。

规模化技术中的一项关键点为媒体引擎的单任务优化。

无论如许海量和大规模的媒体解决与生产工作，最终仍需被拆分为单任务进行解决，它可被看做规模化的基石。从上图中媒体解决的规范流程来看，引擎侧需综合思考单任务全链路环节的稳定性、老本、性能以及时效性。

咱们通过末端异样感知（稳定性优化）、多维度性能优化（利用算法工程优化、指令集优化、硬件加速优化和联合业务策略优化来优化单帧解决工夫，进一步降低成本）、工作 Quota 动静调整（调度层根据引擎层动静反馈最优调整资源池配置，以节约老本）和单任务的分布式解决（将简单工作拆分解决）实现单任务优化。

媒体引擎对基础设施的多样性反对，配合逐层递进的分布式媒体调度与 PaaS 服务，可放大规模化成果。

媒体引擎能够更好地联结调度层做好水位和资源池管制，实现降本增效。而业务层和引擎层程序间接接触业务个性自身，对其十分敏感，咱们还能够和业务层的规定引擎更好配合，将不同客户场景要求、工作解决模式（规范模式、重视时效性的高倍速模式、重视资源独占的独享模式和重视老本的闲时模式）与任务调度、资源调度、原子服务在引擎层的执行进行逐层递进的配合，从而实现多场景和海量视频的高并发解决。

接下来介绍三个对于规模化技术的实际。首先，是最常见的对于短视频高时效性与老本均衡的实际。

短视频时长短、数量多，客户对视频解决的耗时容忍度较低，同时对老本管制的要求较高。在该场景下咱们次要思考多指标的兼顾与均衡，采纳了单任务性能优化、媒体文件预处理，媒体解决多策略抉择的三重优化策略。

比方可通过精确剖析音视频流信息的秒级预处理为下一步决策提供根据，在某短视频场景中，客户抉择以可播放作为媒体解决主策略的牵引，如果源片可播即优先播放源片，如果源片不可播，能够优先播放低分辨率转码文件，实现疾速播放，如果源片有热度，须要高质量出现，可动静替换播放地址为高画质转码视频，或者间接应用动静多码率依据设施与网络的状况，动静抉择适宜的文件切片播放，最终再联合上图所示策略有针对性的进行单任务性能优化。

第二个实际是对于长视频的倍速解决。

在长视频的转码与剪辑解决中，时效性无疑是最大的痛点，尤其是当客户的行业是新闻资讯等须要疾速散发的场景时，则显得更加重要。与咱们上个版本的的高倍速并行处理技术相比，最新版本减少了三个个性：1）高倍速并行框架既反对单入多出的转码场景，也反对输出为多轨道 / 素材 / 成果编排的工夫线的剪辑场景；2）无论工夫线（timeline）的格局如何，咱们均反对在任意地位 split，精度到帧级别；3）不依赖客户的被动配置，智能判断 timeline 是否适宜分片以及如何分片能拿到最高的收益。

第三个实际是对于高并发的实时媒体解决与生产。

它的特点与非实时的基于文件的媒体生产齐全不同，这场场景最大的痛点是在呈现突发状况的状况下保障稳定性和实时画面质量，由此咱们采纳了多资源池隔离 & 容灾互备、弹性伸缩、单流主动逃逸、多维度降级策略、无缝迁徙、帧级别流同步等技术来保障这一点，还会与流媒体网络的 QoS 紧密配合，保障客户观看实时流的体验。

那么该如何了解“规模化”与“全智能”的关系？

“规模化”和“全智能”看似无关，理论在云计算场景下它们关联亲密，规模化全场景意味着 AI 对多业务的浸透，而 AI 的退出对媒体业务的时效性有较大晋升，AI+ 云计算则令海量的视频智能解决成为可能。总体来看，全智能是实现规模化无效的伎俩和办法，并且随着大模型技术的倒退，以前 AI 最被诟病的成果问题也有了相当的改善，媒体解决与生产的品质失去显著晋升。咱们在规模化过程中也会沿用媒体服务的顶层设计思路，继续实际全智能利用。

接下来分享对于全智能三个阶段的实际。

阶段 1 次要为较零散的智能辅助解决，严格意义上还不能属于全智能生产。

以生产制作、媒资和媒体解决的利用为例，在生产制作的五个次要环节中，能够看到 AI 的次要工作是进行预处理和预剖析，为人的决策提供根据。在渲染与合成中波及的 AI 个性也仅为一些繁多场景的个性，会针对特定场景进行规模化微调。

在媒资与媒体解决的环节中，AI 次要针对视频进行繁多维度的内容了解，生成一些标签和特征值作为下一步骤的数据反对，人的参加至关重要，也难以进行全流程的规模化。

阶段 2 为全智能的初级阶段。

以生产制作畛域为例，次要在阶段 1 的根底上减少了“素材智能筛选”和“工夫线编排智能”两项性能。

案例视频：https://v.youku.com/v_show/id_XNTk3MDQyNzc4OA==.html

如下面的例子，依据无限的素材进行批量混剪，帮忙客户进行短视频营销。在这个阶段咱们尝试在无人干涉的状况下规模化制作视频，将原始素材通过画面剖析和 AI 预处理加工为两头片段，应用美学、丰盛度优先等多种策略进行素材筛选，并参考短视频模板规定进行工夫线的局部智能生成，最终实现利用无限素材，智能生成多个不同的营销成品视频。

阶段 3 为全智能的进阶。依然以生产制作为例，在前 2 个阶段的根底上，咱们减少了“素材生成智能”和“工夫线解决智能”两项性能。

随着 AIGC 大模型的火爆，局部视频素材能够由人工拍摄转变为 AI 生成，解决了视频生产制作过程中的一项难题。而工夫线的智能解决则将阶段 2 工夫线编排中的轨道、素材、成果对象的进行综合智能解决，如驱动数字人、抠像与替换、叠加与加强等。

案例视频：https://v.youku.com/v_show/id_XNTk5NjA4OTAxNg==.html

如上视频为生成的成片成果，短短 20s 的视频（该视频为程序员自主生成，可疏忽美学成果）囊括了视频摘要与搜寻、素材片段截取、图 / 文生图 / 视频、数字人、人声复刻等多项 AI 技术，在这个阶段的实际中，AI 曾经全面笼罩了视频制作的各个环节。

那么当初的 AIGC 足够做出完满成片了吗？

从视频生产制作业务自身的创意、素材、编排、剪辑与包装、渲染与合成等角度来看：AIGC 很难提供原创的创意；在素材生成方面，AI 曾经获得了比拟显著的停顿，但在素材及其片段的筛选方面根本还靠人工，比方文生图个别都会提供多张供用户筛选；工夫线编排依然以人工编排或模版套用为主，齐全的智能化尚处于起步阶段；在剪辑与包装、渲染与合成方面，AI 以传统的场景驱动和散状反对为主。

总体上，以后 AIGC 在视频生产制作畛域次要是用于生成素材，成片以人工或固定逻辑串接为主，尽管其成长空间是微小的，但此刻间隔完满成片仍有很长的路要走。

事实上，在 AIGC 火爆之前，媒体服务在生产制作畛域，就针对全智能进行了布局。

咱们从生产制作的业务流程（创意、素材、编排、剪辑与包装、渲染与合成）登程，推演全智能的发展趋势。另一方面，生产制作的输入 = 媒资与媒体解决的输出，咱们认为这会进一步带动媒资、媒体解决的全智能。

从上图能够看出，以后处于第三和第四阶段的初期，咱们置信第五阶段终将到来，AI 可能根据海量丰盛的数据自行挖掘创意点，做有故事的视频，真正领有“创作力”。

对于智能媒体服务的将来瞻望，基于当下大模型的发展趋势，咱们认为根底大模型将像操作系统、浏览器一样成为 AI 基础设施与开发平台底座，智能媒体服务也会基于新一代智能底座围绕专业化、多场景、开放性、沉迷式和通用智能再度进化：

一是为行业化视频利用性能百花齐放做好 PaaS 层反对；二是利用 AI 进行内容创作的门槛大幅升高，公众式的视频内容创作可能即将来临；三是视频赛道的整体内容品质将大幅晋升；四是对音视频体验有极致要求的场景比例将继续扩充；五是传统互联网媒资将演进为智能数字资产治理；六是媒体服务撑持的各个领域，基于大模型的企业垂直利用，将疾速搭建与生成。无论技术如何演进，智能媒体服务为企业提供丰盛、灵便、高效、智能的媒体能力的初衷仍然不会扭转。

我明天的分享就到这里，谢谢大家！

关于云计算:深度解读智能媒体服务的重组和进化

01 媒体服务（Mediaservices）的技术难题

02 对立顶层设计：媒体服务架构的重组思路

03 媒体服务进阶技术：规模化挑战与全智能演进

04 智能媒体服务的将来瞻望

Just My Socks（注册教程内含优惠码）

关于云计算:深度解读智能媒体服务的重组和进化

01 媒体服务（Mediaservices）的技术难题

02 对立顶层设计：媒体服务架构的重组思路

03 媒体服务进阶技术：规模化挑战与全智能演进

04 智能媒体服务的将来瞻望

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）