共计 3328 个字符,预计需要花费 9 分钟才能阅读完成。
2021 年,随着社会节奏的放慢,用户碎片化生产工夫一直减少,以后短视频的生产用户规模已超 7.73 亿人,短视频的市场规模超过 2000 亿元。短视频行业倒退迅速,但也存在低质内容泛滥,精品内容稀缺的问题。在 7 月 10 日的 Imagine 阿里云视频云全景翻新峰会上,阿里巴巴娱乐资深算法专家李静,发表了《视频技术再翻新,开启内容数字化浪潮》的主题演讲,从短视频畛域的内容生产窘境登程,分享 MediaAI 平台的技术能力及利用实际,解密优酷短视频智能生产的技术,以下为演讲内容整顿。
优酷如何开启内容数字化浪潮?
既然是优酷,就要从长视频、短视频以及最初散发出现进去的所有的视频状态说起。优酷的数字化也会从视频的整个生命周期来剖析。优酷作为一个长视频网站,从长视频最后的拍摄到制作再到实现,咱们有 内容评估的数字化零碎。
当一个长视频拍摄进去之后,如何利用这种版权内容再进行二次的创作,这就是创作内容的的数字化;接下来咱们心愿生成一些短视频特效,让用户看起来更好看,更乏味,这是特效的数字化。
最初,在终端上用户拿着手机、平板或者通过电视大屏观看视频的时候如何体验内容数字化的益处?
所以,内容的数字化浪潮要从 整个视频的生命周期 来讲。
创作因素解构
第一个是内容评估的数字化。在阿里巴巴娱乐有一个北斗星的团队,是专一于做长视频的内容评估,它的外围点是心愿通过后验的数据去掂量整个视频内容的品质,视频内容或者视频的生产元素。
其中又包含一些内涵的货色,例如导演、编剧、演员、剧本等,这些货色是大家平时能听到的,但间隔本人又很边远的货色,这些就是视频内容生产内涵的内容。
内涵之外还有内延信息,包含出现进去视频自身它涵盖的一些人物的信息、镜头的语言以及自身人物的性情等。所有的这些信息都是基于咱们 NLP 语言(Natural Language Processing)或者 CV(Computer Vision)的能力进行解构。
所以当咱们有了内涵信息和对于内容的 解构 之后,咱们心愿能够通过这些信息去预测用户的心理感触或者对内容的爱好度。
从数据侧取得的先验数据,其中蕴含了十分直观的收视率、用户的互动状态、评论数,咱们心愿通过这些数据能够进一步开掘用户的心理状态、生理状态,以此推动咱们外围能力来实现内容的评估。
内容的评估须要利用到 AI 的能力,一个是 AI 评估,一个是 AI 体检。
什么是 AI 评估?
一个视频片段是否好,以前用人来审,须要破费大量的人力。如果用人工审核预测一部电视剧是否是爆款,会十分十分艰难。所以在内容评估上咱们利用北斗星的零碎,从最开始演员、供应商、IP 等级、导演和编剧的信息预估这部电视剧是什么样的程度。
并且,能够对电视剧里的的演员做进一步更深的剖析,例如他的粉丝价值,整个口碑等。通过剖析咱们让平台进一步做辅助性决策,再利用咱们的 AI 技术最终评估这部电视剧到底是什么品位。
第二个点是 AI 体检。
当视频片段拍完剪辑好之后,用算法来预测这些片段,哪些是看点,哪些是高潮点,哪些是剧情十分拖沓无聊的点,去寻找用户可能弃剧的危险点,给出一些建设性的意见,帮忙剪辑师进行剪辑优化。这是优酷内容评估另外一个利用点。
在长视频之后,就是短视频了。
优酷的《山河令》和《司藤》在放送完结之后,咱们如何进一步利用它做二次的短视频创作?
短视频最近几年来十分火,去年短视频生产用户达 7 亿多人,短视频工会和 MCN 数量超过两万家,市场规模超过两千亿,在如此宏大的短视频消费市场下咱们面临了一些问题,高质量的短视频十分稀缺,大量的低质的、粗制滥造的短视频充斥在整个市场上。
所以,咱们想利用自动化生产的形式代替掉那些品质低劣的短视频,让咱们的智能创作达到人创作的程度,这是优酷想要去做的。
所以阿里巴巴娱乐研发出了 概念级的视频的解构能力 去赋能智能创作。这是什么呢?
当每次提到视频解构、CV 能力,大家可能都会天然想到一些标签,对于一个视频场景,外面有人物、物体、静止等,在过来 CV 畛域这些是特地主观的标签形容,但进行视频创作的时候,这些货色并不是创作者们十分须要的,创作者们须要的元素或者素材是可能让观众有深切感触的,所以咱们 从新定义了语义级的标签,才可能赋能智能创作。
视频解构赋能短视频生产
有了基于概念级的标签解构能力之后咱们能够进行一系列的编辑。
在短视频中应用稀释的伎俩,把这个片段中平淡的剧情或者没有对话的情景切掉,将对话或者有信息含量的片段拼接在一起,最终造成残缺的短视频片段。
在综艺的场景,将猫晚易烊千玺的片段进行从新剪辑,做成粉丝向的短视频,能够获得很好的成果。
以上所有的视频制作,都利用了咱们过来这一年以来所积淀下来的 AI 技术,所有的视频都是能够实现自动化的生产。
咱们目前整个团队的智能生产技术的产能是一天万条以上,但因为每一条都要通过核审,略微限度了一下产能。智能生产的品质在人工审核的整体通过率是 90%,远远高于普通人的或者优酷的 UP 主本人创作的视频通过率。
视频稀释,多风格化剧集快看
当初大家碎片化的生产习惯,长视频的观看率越来愈低,所以咱们针对这种状况有不同细度稀释的伎俩。
如 5 分钟的短剧,3 分钟看一部电影等。在优酷看剧时,每个剧后面有一个 15 秒的前情提要,这就是咱们自动化生产进去的。
同时,因为咱们具备 风格化的解构能力,所以能够提取不同格调的前情提要,对于女生做甜向的前情提要,对于男生来说可能更喜爱悲壮型的,这些提要都是能够抽取进去的。视频的稀释就是咱们把不同格调的要害剧情择进去,在短时间内让你理解到故事的主线。
另外一种短视频的类型也是当初十分火爆的,那就是 讲解类的短视频。
咱们从新定义了所谓的 Text to Video 的技术,把视频进行解构化,生产视频剧本解说词,两者进行匹配,最初通过剧本生成讲解类短视频。
这里的解说词是来自于人工编辑或者现有剧本,视频的讲解 tts 能力是由达摩院提供。目前 tts 曾经有 10 多种格调,有不同方言,不同的讲解格调。
接下来,还有 图文转视频,每个热点新闻底下都有配图,咱们能够使其间接生成视频,但生成的视频不是 PPT,而是联合 IP 版权图片绝对应的视频内容。
娱乐资讯类的视频也是一样,其中的图片能够间接溯源定位找到咱们对应的视频版权内容。过于简单的图片,视频生产才会间接应用图片。
内容出现:特效让视频更好看
视频的特效,咱们会针对于动作、动作的幅度以及配角人物等进行自动化加特效,这里波及到的 CV 技术包含:动作检测,动作幅度检测,范畴检测,明星辨认,BGM 等。
琐碎的货色来加特效显示会十分乱,所以咱们对于静止幅度还是有肯定要求的,达到某个幅度咱们再加特效,相对来说观看体验好很多,在 CG 侧咱们有本人的大千云端渲染零碎,反对不同特效的制作。
综艺特效是目前制作综艺必不可少的环节,然而制作一个特效,十分费时,咱们的指标是 让 AI 发现、标注和凸显综艺节目的精彩时刻,让 AI 制作快速化,批量化。
目前,咱们基于 CG 技术曾经研发出 30 余种特效类型,《这!就是街舞》就是咱们特效技术一个小小的展现。
CBA 有这么一个 子弹时刻,在子弹时刻上咱们能够加投篮的热区图,通知大家这个投篮命中度是多少,能够辅助大家失去更多的信息。
互动上的新玩法,就要讲到端上了,第一个 视频横转竖。比方在地铁上十分拥挤的时候大家都是竖着看的,很少有横着看的,基于这样的需要咱们也得做把横的视频转为竖的,这里的难点是确定主体,第二是稳固。
咱们还有一个技术是 自在视角视频,这是国内也是业内第一个在 C 端上,用户能够体验自在视角的产品,在去年的《这!就是街舞》节目上咱们曾经利用了这个技术。
https://www.youku.com/video/X…
科技冬奥 冰雪 VR
往年的《这!就是街舞》咱们技术还会进一步降级,大家敬请期待。在前段冬奥测试赛上也进行了测试,咱们心愿用这个技术让用户多角度观看他们想看的体育内容。并且阿里巴巴娱乐会不断创新视频技术,为大家带来不一样的视听体验,开启中国视频技术内容数字化浪潮。
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。