让媒资中“缄默的大多数”再次焕发荣耀。

邹娟|演讲者

编者按

AIGC时代下,媒体内容生产畛域随着AI的呈现也涌现出更多的变动与挑战。面对AI的微小冲击,如何优化或重构媒体内容生产技术架构?在多样的利用场景中媒体内容生产技术又有着怎么的实际成果?LiveVideoStackCon2023深圳站邀请到阿里云智能资深技术专家邹娟,与大家分享阿里云视频云的媒体内容生产技术实际。

策动 撰写 / LiveVideoStack、IMMENSE

《AIGC时代下阿里云视频云媒体内容生产技术实际》主题分享,蕴含如下四个局部:

01 AIGC时代的媒体内容生产技术架构

首先给大家分享阿里云视频云媒体服务的顶层架构设计,这为AIGC的疾速落地奠定了根底。媒体服务整体架构分三层。

最底层是云原生底座,阿里云视频云构架在分布式云原生框架之上,视频云与咱们的客户一样,本身也是云的使用者,能够取得云计算IaaS层弹性、按需按量、规模化的红利。

中间层为媒体根底层,即媒体服务的底层技术外围。

这一层分为三个局部:左侧的算法区域包含音视频编解码与加强算法、特效渲染算法、视觉AI算法、3A算法等。两头的媒体引擎是执行各类媒体解决工作、AI工作的发动机,负责集成算法及工程优化,设计对立的媒体解决框架,实现媒体解决Pipeline的高质量运行。最右侧为媒体计算调度,与媒体引擎紧密配合,把不同类型的媒体任务调度到最合适的集群和机器上,造成性能、画质、老本的综合最优解。

顶层为阿里云视频云提供的PaaS媒体服务——PaaS服务层,媒体服务PaaS以媒体内容生产为外围,其产物天然也是媒体内容生产的输出。例如转码输入的多格局多码率文件/流,大多为播放服务。PaaS服务层的模块划分思路即依照音视频生产生产的数据流向及模块依赖关系,划分为音视频采集-媒体解决-生产制作-媒资治理-媒体生产5个局部,其中“媒体汇聚”代表入方向,“媒体生产”代表出方向,“媒体解决”和“生产制作”用于媒体数据的外部解决和二创,“媒资”则是媒体数据/业务流程/生命周期策略管理的底座。

早在2017年,阿里云视频云就提供了视频AI相干服务,比方智能封面、视频DNA、智能审核等,那时这些服务以原子能力的模式提供,独立于视频云的媒体解决、生产制作、媒资服务之外。但随着AI能力的丰盛,很多AI服务的输入产物就是音视频(比方视频集锦),或者须要与媒体解决同步进行能力有更好的成果(比方视频旧字幕擦除后叠加新字幕)。

因而技术架构迭代的第一步就是思考媒体底层的AI能力交融。AIGC时代,媒体底层须要灵便交融各种AI能力,这种交融并不是业务层工作流的Activity编排,这样个别会引入屡次编解码,带来画质与性能的损耗。咱们抉择把AI解决间接融入音视频解决pipeline,在Frame层面做最细颗粒度的编排。

回归到媒体业务流自身,在AI时代下,媒体服务PaaS能够在哪些方面优化?其实媒体业务流自身没有太大变动,变动的外围是应用了AI,心愿AI可能模仿人类的思维,包含了解人的用意以及正确执行人的指令。当技术倒退到肯定水平,AI能够模仿人类的思维模式,场景就会被重构。阿里云视频云技术架构的迭代也会围绕这一思路开展。

阿里云视频云媒体内容生产技术架构在AIGC时代的迭代,也将从内容生产的三驾马车--媒体生产制作、媒资治理、媒体解决三个板块发展。

生产制作板块,咱们的迭代方向是从单个制作环节应用AI技术转向全智能制作。除创意依赖人之外,AI能够参加到生产制作的其余环节,包含素材的筛选和生成、工夫线的制作编排、以及成果渲染的大模型算法优化。

媒资板块的传统实现须要较多人工投入,例如业余媒体机构的编目软件须要大量人工编目数据录入的工作,阿里云视频云设计的新一代媒资零碎可能像人一样了解媒资内容,应用自然语言进行搜寻与治理,并为下一步的开掘与图谱剖析打下基础。

媒体解决的迭代方向聚焦于成果的极致优化。媒体解决能够形象为单入单出的模型,基于此模型实现最大水平的成果优化,包含高清晰度的加强场景,低清晰度的新生场景,应用音频的双声道设施取得全景声或环绕声成果的场景等。

文章后面提到,媒体工作的最终执行会收口到媒体引擎层,这须要媒体引擎把AI解决融入媒体解决Pipeline。随着AI能力的日渐丰盛,阿里云视频云的媒体引擎也进行了架构优化与技术升级,在AIGC暴发前实现了媒体底座的迭代,成为交融AI与媒体解决的一体化媒体引擎,为视频云疾速引入并落地大模型算法节约了工夫,接下来将分享一体化媒体引擎的关键技术。

02 交融AI与媒体解决一体化媒体引擎关键技术

大模型的引入带来宏大的算力耗费,对媒体引擎性能的挑战尤为突出,咱们设计的高性能智能媒体引擎的要点总结为以下三个方面:

第一,架构方面,做分布式解决,进步多机并行。 这里的分布式解决并非示意将海量工作散布式调度到不同机器,而是指单个工作的分布式解决架构。当工作的复杂度较高时,将其不同环节扩散到不同的机器上,解决单机无奈满足工作算力的问题,或者工作的特定环节须要指定机型的问题。

第二,过程方面,对立pipeline。 视频云的ToB模式,要求咱们反对不同客户的多种场景和利用,对立pipeline能够缩小各场景的计算冗余,同时对底层算法库和媒体解决框架的对立则让引擎层执行不同工作具备更好的鲁棒性。

第三,算法方面,阿里云视频云实现软硬一体的优化,通过CPU、GPU以及AISC编解码减速,反对云上各期间的多种机型规格,同时从算法和工程两个维度优化单帧解决性能,在大模型算力缓和的时代最大水平的利用现有算力。

以单任务分布式解决——超高清视频AI解决为例,1080P超分到4K应用了深度学习算法,那么将该任务调度到高配GPU机器上运行,可能会导致机器的CPU闲暇而不利于资源的整体利用。阿里云视频云的媒体引擎反对对单任务进行分布式解决,能够将解码、前解决、编码、Merge放在不同的机器执行,也能够将单任务切片成多个子工作再进行分布式解决。比方超分解决能够放在GPU的机器上,解码、编码以及Merge能够调度到另外的集群,对于是帧级别传输的场景,媒体引擎会在pipeline外部进行媒体数据的YUV替换和无损压缩,从而实现单任务多环节计算资源的最优搭配。

媒体引擎会接管到各种各样的媒体计算工作,接上一个技术点“单任务的分布式解决”持续探讨,如何判断哪些工作须要走分布式,哪些工作单机执行反而效率最高呢?阿里云视频云媒体引擎设计并实现了Worker-Brain决策大脑,对单任务耗费的资源做精准预估,主动判断过程和算子所需机型,对工作是否切片和算子编排流程进行决策,同时在工作执行时主动依据算法复杂度进行升降机,打消cpu毛刺,实现稳定性自爱护机制。

另外,阿里云视频云在媒体引擎层对立了媒体解决工作框架。因为直播、点播、生产制作以及云剪辑等业务的倒退阶段不一样,存在算法依赖库不对立或版本不统一的历史问题。媒体引擎将自研算法依赖版本进行了对立,用雷同的媒体解决框架反对不必的工作类型,甚至在一些版本上实现云和端的对立。宏观来讲,阿里云视频云将各种业务资源并池,不同的业务共用异构的资源池,资源池之间也可互备来保障整体服务的稳固。

这是综合利用“单任务分布式解决”和“Work-Brain智能决策”的全智能媒体解决引擎实际,以“数字人抠像并且将其与云剪辑交融”的场景为例,右边是素材和工夫线波及的原材料,工夫线可能须要对素材做ASR,同时还存在数字人的生成与同步、人声克隆、抠像背景替换、画质加强等要求。整个工作相当简单,且波及多个算子,通过Worker-Brain进行资源评估后,该工作既须要将pipeline的不同环节拆到不同的机型执行,进行单任务分布式解决,也须要将长视频切片,对工作进行并行处理。而另一个规范转码工作(比方单入单出1080p 264转480p 264)通过Worker-Brain决策后,在单机实现整个工作的执行是最优的。

最初分享软硬一体的异构计算。CPU减速绝对比拟传统,波及多线程的帧间优化、帧内优化、指令集优化以及数据读写优化。联合到AI异构场景下,常常须要思考CPU与GPU之间的关系,以前大多抉择一台CPU+GPU的机器实现整个工作,当初能够基于后面提到的架构,把单个AI工作拆散,把CPU和GPU的局部调度到不同机器上解决再合并。

阿里云视频云还反对各种异构计算,包含CPU/GPU/AISC等,比方ASIC的硬解硬编须要均衡性能、画质、延时、老本等多种指标,还须要思考稳定性因素,因为单台AISC服务器个别领有更大的吞吐量,出现异常受影响的工作数更多,这时还须要思考主备模版的兜底和工作的降级切换策略。因而媒体引擎层的异构计算须要兼顾CPU、GPU、ASIC的算力和个性,将云端资源充分利用起来。

03 媒体内容生产AIGC技术实际

第三局部是阿里云视频云对于内容生产AIGC的技术实际。

在AIGC暴发前,用户曾经开始应用AI,AI相干话题曾经“火”了好几次,阿里云视频云的AI服务也上线超过6年。

此前用户更多是在单点环节应用AI,例如图上展现的生产制作和媒体解决的能力,在AIGC暴发前,许多厂家、开发者、创业者都应用过,此类能力大多针对特定场景,要进行规模化时,只能进行一些微调,如果不针对特定场景,则存在成果泛化性不够导致准召率不高的状况呈现。

在AIGC时代到来后,阿里云视频云从新扫视了媒体内容生产业务流程,媒体解决/媒资/媒体解决三驾马车都值得用AI再度重构或优化。

媒体解决的AIGC重构较多依赖于媒体引擎的底层技术。 各种架构的降级革新都是为了满足或投合传统的音视频前解决与AI算法、编码器联合的场景,而后面提到的,媒体引擎的对立媒体解决框架和引擎架构优化,能够齐全复用在AIGC时代,媒体工作在底层的执行,实质与前AI时代没有区别。

媒体解决PaaS服务层的重构设计则体现在API与流程编排上。 在API层面,阿里云视频云把AI和传统的媒体解决在媒体与管道协定上进行对立,这种对立不仅是协定层面的对立,也代表着底层调度资源能够进行混部或混合调度。对于流程编排,AI环节和媒体解决环节能够在雷同的工作流引擎中自在编排。

媒体解决AIGC重构的外围在算法与媒体引擎的联结优化。 上面展现两个案例:

阿里云视频云用更精密的图像纹理细节提取形式,来进行细节修复和生成,算法优化的思路是还原图像的实在风貌,这与咱们在2015年、2016年开始研发的窄带高清思路一模一样。多年以来,这个方向始终没有变过,也比拟符合许多行业和场景的诉求。

咱们在4K超分+HDR超高清的实际,算法侧采纳部分变动策略,使亮度更有层次感。展现案例对树木纹理的细节进行了加强,在色调方面进行了调整优化。另外值得一提的是,此工作刚上线时处理速度十分慢,通过媒体引擎的单任务分布式框架,对工作切片并行处理后,最终的处理速度达到刚上线时的100倍,大大缩短了客户app公布高质量视频的周期。

阿里云视频云的媒资零碎架构分为三层,别离是媒体数据层、根底服务层和智能服务层

对于媒体数据层,咱们大略在三年前将媒资的元数据体系重构为可灵便定义和组织的任意实体,可零代码接入AI生成的各类媒资元数据,同时实现了对立MediaID,反对视频云外部多产品的媒资互通。近一年对媒资索引进行了重构,将基于文本元数据的索引和基于特征值的向量索引整合起来,通过对立的API提供搜寻服务。

对于媒资智能服务层,咱们在媒体数据之上,采纳多模态语义重构了媒资内容的结构化逻辑,采纳自然语言搜寻代替关键词搜寻。这两项根底又能够利用到智能编目和智能资源管理模块,比方智能编目能够主动填充内容形容字段,以及依据内容结构化后果主动拆分片段;基于定向指令的搜寻后果能够用于媒体资源之间的关联和聚类等。

内容了解是搜寻的根底,在大模型之前的多模态内容了解,是将视觉信息、语音信息等都转换为文本,如视频画面内容辨认为各种标签,语音辨认为ASR文本等,视音频映射为文本自身就会造成信息的失落,对近义词和同义词的扩大了解就更不敏感,无奈真正从视音频维度了解语义。阿里云视频云在 9 月底上线了基于大模型的智能搜寻,将视频的图、音、文对立到一个高维的向量空间中,防止语义损失。同时,搜寻的文字也转化为高维向量,不再分词,与传统视频 AI 搜寻相比,Top5 的准召率大幅晋升。

搜寻广泛应用于媒体服务的各个环节。除了媒体治理自身,制作素材的抉择和时间轴素材的智能匹配也能够通过重组后的搜寻服务取得更精确的后果。内容了解是搜寻的根底,大模型之前的多模态内容了解,是将视觉信息、语音信息和其余信息均转换为文本,比方视频画面内容辨认为各种标签,语音辨认为ASR文本等,视觉和音频映射成文本自身就会造成信息的失落,对于近义词、同义词的扩大了解就更加不敏感,无奈真正从视觉和音频的维度了解语义。阿里云视频云在9月底上线了基于大模型的智能搜寻,将视频的画面、音频和文本对立到一个高维向量空间,防止语义失落。同时搜寻的文本也转成高维向量,不再进行分词,相较于传统的视频AI搜寻,Top5的准召率有显著晋升。

搜寻在媒体服务各板块都有广泛应用,除了媒资治理自身,生产制作的素材筛选和工夫线素材智能匹配,也能够通过重构后的搜寻服务取得更精准的后果。

阿里云视频云对于生产制作的顶层设计比媒资更早进行,早在2017年的第一版就思考到了AI可能会参加到工夫线Timeline的生产、编排和渲染中,因而第一张图的基础架构沿用至今。而这一轮的AIGC重构点次要有两个,1)AI齐全融入工夫线,例如在工夫线的素材和成果定义中退出AI因子,即定义AI类型的素材(比方素材由AI生成)和AI类型的成果。2)实现了并行剪辑的智能分片策略,并晋升了Timeline的可切分比例,以前Timeline Split点须要避开Timeline中的各种特效和循环素材,优化后,简直兼容了95%的Timeline。智能分片策略则与媒体引擎的Worker-Brain配合,以工夫线合成的时效性为指标,决策最优算子和流程编排。

接下来,会介绍几个曾经在阿里云视频云生产制作产品利用AIGC技术的实际。

Case1:数字人剪辑。 这是目前AIGC商业化最胜利的场景,数字人在视频制作、虚构主播、在线教育和广告行业中,提供与真人难以辨别的视觉、音频和互动体验,升高了内容生产的老本和工夫,在实时场景能够不间断地工作,在非实时场景能够规模化生产,满足了寰球市场定制化规模化生产Presentation视频的需要。

2023年10月底的云栖大会,央视采访并播出了题为《生成式大模型进军视频畛域 “数字人”利用场景拓展》的报道,介绍了阿里云视频云的数字人剪辑技术和利用。阿里云视频云应用数字人剪辑技术,联合批量混剪timeline,采纳不同的数字人形象渲染,靠近真人语音的人声克隆,一小段文案,通义万相生成若干背景,多项技术独特配合,实现了视频的规模化生产。目前咱们的不少客户应用这个计划缩小真人主播的老本收入,晋升成片制作的数量。

Case2:智能实时制作。 阿里云视频云基于大模型降级了云导播产品虚构演播室场景的实景抠像成果,这次降级有三个外围点:第一,由原来的单层抠像降级为多层多实体抠像,既能够仅抠人像,也能够把人像连同局部物品抠除,保留须要的物品和背景;第二,抠像效果显著加强,体现在面对极为芜杂的背景(比方云栖大会展会现场),依然在宰割边缘有发丝级精度的成果,这将大大降低虚构演播室的环境门槛,让随时随地的外场直播也可取得演播室的体验;第三,大模型对算力耗费较大,实时制作场景须要从算法到工程进行优化,以保障实时性,比方模型裁剪、大小模型联合革新、多线程优化等,这是大模型技术利用在直播及更低延时场景的必经之路。

Case3: 一键成片。 一键成片是阿里云云剪辑智能生产的综合利用,笼罩生产制作业务流程中,包含素材预筛选、片段截取、素材补充生成在内的素材筹备与选取、智能工夫线编排、成果包装、合成渲染等多个环节。AIGC在每个环节都可能发挥作用,比方基于多模态语义的视频搜寻与摘要可用于素材预筛选,文生图或文生视频可用于素材的补充,数字人+人声复刻可用于配音和包装,反对AI与媒体解决帧级别编排的媒体引擎用于最终的合成渲染,这绝非单点算法、单个框架或者单项能力之功,而是AIGC技术与媒体服务多环节多层次交融的残缺系统工程。

春节期间Sora爆火,冲破了文生视频大模型以前只能生成几秒钟空镜头的固有印象。Sora有更深刻的文本指令理解能力与互动能力,生成的镜头档次更多,内容更丰盛,时长可达1分钟,以Sora为代表的新一代文生视频大模型,让AIGC间隔完满成片更近一步。

回归生产制作的业务流实质,AIGC完满创作并生产成品,依然须要经验创意、素材、编排、剪辑与包装、渲染与合成这几个阶段。目前简直所有剪辑的“创意”依然由人来主导,AI还无奈自主进行原创,尤其是针对故事性视频的原创;“素材”则是AIGC深刻奉献的环节,从已有素材的搜寻、到各种文/图生图/视频、风格化带来的新素材、素材的修复与画面批改等,都有大模型的身影;基于大模型的技术在“剪辑包装”和“渲染合成”这两个环节提供较为散装的反对,整体仍以传统AI和规范剪辑技术渲染技术为主。总的来说,媒体内容的“素材”生产随着文生视频大模型的疾速停顿有了微小的冲破,然而“完满成片”的全智能生产制作依然处在初级阶段,从另一角度看,这也代表AIGC将来在生产制作畛域还有微小的倒退空间。

04 将来瞻望

以后AIGC的整体思路还是向人学习,下一步的倒退可能会像人一样,以及在某些畛域超过人,比方AIGC的效率在绝大多数场景下曾经超过了人,而在思考力和决策力方面大多须要依赖人的反馈,以便进行继续优化。

如何创作内容有故事性、有质感的视频,是生产制作畛域谋求的指标。咱们期待将来AI可能自行开掘创意点,自主设计原创剧本,贯通后期拍摄和后期制作技术,生产出高质量的成片,而非仅仅生成空镜头或单镜头素材。AIGC用于媒体解决最间接的收益是音视频成果的加强,而在所有的加强场景中,电影修复无疑是难度较大的,要把老电影修复到还不错的状态,目前局部环节依然须要人工参加。咱们期待将来即使在电影修复场景,也能有更好的泛化性和更真切的成果。在媒资畛域,阿里云视频云心愿建设一套自然语言了解的体系,实现媒体资源的多模态全语义了解,让媒资中“缄默的大多数”通过新一代的AI剖析,语义开掘、关联、图谱技术再次焕发荣耀。

以上就是我的分享内容,谢谢大家。