感激大家浏览《生成式 AI 行业解决方案指南》系列博客,全系列分为 4 篇,将为大家系统地介绍生成式 AI 解决方案指南及其在电商、游戏、泛娱乐行业中的典型场景及利用实际。目录如下:
- 《生成式 AI 行业解决方案指南与部署指南》
- 《生成式 AI 在电商行业的利用场景实际 – 赋能营销物料高效生产》
- 《生成式 AI 在游戏行业的利用场景实际 – 减速游戏美术内容生产》
- 《生成式 AI 在泛娱乐行业的利用场景实际 – 助力风格化视频内容创作》(本篇)
背景介绍
从 2022 年以来生成式 AI 倒退迅猛,特地是在文生图畛域,在扩散模型为主、其余模型的加持下,新的文生图、图生图技术层出不穷。在媒体与娱乐畛域曾经被广泛应用,次要的场景有:1. 分镜头剧本插图;2. 漫画创作;3. 概念图生成。并随着技术的提高,造成比较完善的工具链。
亚马逊云科技开发者社区为开发者们提供寰球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、流动与比赛等。帮忙中国开发者对接世界最前沿技术,观点,和我的项目,并将中国优良开发者或技术举荐给寰球云社区。如果你还没有关注 / 珍藏,看到这里请肯定不要匆匆划过,点这里让它成为你的技术宝库! |
只管扩散模型和其利用在生成图片方面的能力出众,然而视频生成畛域倒退仍然是滞后的。其起因次要有:没有高质量的训练集;没有很好形容视频的形式;生成式视频模型的训练须要极高的算力。
所以当初支流的利用扩散模型生成视频的形式是: 利用模版视频,拆解为视频帧图片,利用各种插件逐帧依照提醒词和图片特色进行风格化,最初组合成风格化视频。
在本篇文章中,咱们基于生成式 AI 行业解决方案指南,针对泛娱乐行业的风格化视频生成,介绍生成式 AI 的应用和参数配置,以及配合传统工具,以帮助内容创作,达到肯定的创意成果。
生成式 AI 在泛娱乐行业中视频创作
在泛娱乐行业,短视频是最风行的一种内容表达形式,其特点是制作老本较低,流传率高。传统的生成短视频的形式既有 UGC 模式,也有 PGC 模式,尽管他们的制作周期和制作老本远低于传统媒体,然而还是脱离不了“策动 - 剧本 - 台词 - 选角 - 排练 - 正式上演 - 录制 - 校验 - 剪辑 - 前期 - 审核 - 公布”这些根本的步骤。综合来说,一个 5 分钟左右的短视频制作均匀时长大略 2-3 天左右。生成式 AI 的呈现能够大大提高制作效率,缩短制作周期,甚至能够简化制作步骤。
当初有生成风格化图片和生成风格化视频的生成形式,依据一些现有的图片和视频,或者初期拍摄的视频间接进入前期步骤。进行风格化是当初短视频生成的一种尝试,尽管当初这类视频仍然有闪动跳跃等问题,通过社区的不断进步,成果正越来越好。当然这类视频自身因为自由度较高,创意属性强,自身就具备较强的话题性和流传度。
支流的风格化视频的生产的办法是利用间断风格化图片作为序列帧串联起来的视频。包含:
1)通过原视频提取每一帧,逐帧通过提醒词进行图生图,最初将图片从新组装起来生成风格化视频;
2)生成数张创意图片,作为关键帧,类似图片作为过渡帧,组装成风格化视频。
这两种风格化视频,都能够通过 Stable Diffusion WebUI 的插件来实现。然而这两种风格化视频生产方式仍然具备肯定须要解决的问题,各自别离是:
1)模版视频拍摄仍然须要肯定投入,包含编排,表演,以及原始视频的版权问题等;
2)风格化视频的主题难以定义。
本文给出了两种风格化视频的组合生成形式,能够充分利用目前风格化视频的插件,又能够局部解决风格化视频生产的上述问题:
- 利用 3D 模型的动静画面作为底本,生成风格化视频的办法
- 利用短暂的一般视频作为终点(或者两头节点)生成具备肯定主题的风格化视频的办法
架构与工作原理
本篇以生成式 AI 行业解决方案指南为根底,其工作原理如下图:
生成式 AI 行业解决方案指南,将前端 Stable Diffusion WebUI 部署在容器服务 Amazon ECS 上,后端应用无服务器服务 Amazon Lambda 进行解决,前后端通过 Amazon API Gateway 调用进行通信。模型训练及部署均通过 Amazon SageMaker 进行。同时应用 Amazon S3、Amazon EFS、Amazon DynamoDB 别离进行模型数据、临时文件、应用数据的存储。疾速部署流程可参考该系列博客的第一篇,本篇不再赘述。
3D 模型为底本生产风格化视频
首先咱们先理解一下由原视频转换为风格化视频的基
本原理,如下图所示:
参考步骤为:
- 原始视频拆解为视频帧序列
- 针对每一帧通过 Stable Diffusion 进行风格化,并用 ControlNet 对人物轮廓和姿势进行管制
- 将生成的新的序列帧重新组合成为视频
从视频生成视频的角度,原视频只是用于风格化视频的轮廓或者动作,应用真人或者实景拍摄的原视频老本还是比拟高的;咱们无妨应用一些低成本的 3D 模型,比方只有轮廓,没有贴图,调色器,面数很低的模型,作为底本进行视频生成。这里采纳一个例子:生成一个具备 cyberpunk 风的女孩跳桑巴舞,和个别的视频风格化不同,这个例子中舞蹈动作比较复杂,并且没有版权的原视频作为模版,那么咱们能够采纳具体步骤如下:
- 将低成本人物模型导入 Blender 或者 Unity3D,并生成桑巴舞蹈动画。这里咱们抉择从 mixamo.com 网站上下载一个人物跳舞的模型组件,并转换为原视频如下:
搭建根底 WebUI 环境并导入模型,依照依据生成式 AI 解决方案指南部署后,操作即可:
- 导入视频,并输出提醒词
应用提醒词
Hyper realistic painting of a beautiful girl in a cyberpunk plugsuit, hyper detaled ,anime trending on artstation with mask (masterpiece:1.4), (best quality:1.2), (ultra highres:1.2) ,(8k resolution:1.0)
反向提醒词
text, letters, logo, brand, close up, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
- 进行视频格调化生成,关上 Mov2Mov 插件,这里的参数举荐如下:
Sample steps=20-30,
Generate movie mode=XVID,
CFG scale=7-10,
Denoising strength=0.2-0.3,
Movie frames=30,
Maxframe=60-90,
Controlnet 抉择 enabled,
Control weight 0.2-0.25。
点击生成后,失去的视频和原视频比拟如下:
具备主题的风格化视频
Stable Diffusion 社区具备丰盛的风格化视频生成插件,其中 Deforum 是热度最高的插件之一,其原理是确定时间轴上的关键帧应用明确 Prompt 生成的创意图片,关键帧之间的过渡视频帧采纳渐进的形式,并配合肯定的 2D,3D 空间旋转,产生独特的成果,这种形式的提醒词个别都是剧本的模式,原理如图所示:
从风格化视频或者创意视频的角度,通过肯定剧本转换为 prompt,再通过 Deforum 的串联,能达到表白肯定主题的创意视频的成果,从制作角度这里还是有两个难点:
- 凭空写剧本很难将事实主题和创意视频进行关联;
- 创意视频 / 风格化视频成果自身还是由创意图片连贯而成,很难把控其成果,并且视频生成耗费算力远大于图片生成,造成废片会导致算力节约。
所以这里咱们无妨在用简略的事实视频与创意视频穿插响应的形式进行创作,这里的事实视频可能只需 2-3 秒的手机拍摄视频,并作为起始视频即可。这里采纳一个例子:笔者参观某省级博物馆叙利亚文物展,突发感叹,想制作一个几十秒的风格化短视频,表白本人观看文物时感触的千年时代变迁,咱们能够采纳具体步骤如下:
- 拍摄一段 3-5 分钟的自拍视频,示意初始主题,作为初始视频。因为指标是创意视频要发在社交媒体上,须要适配手机的尺寸,所以视频分辨率为 540*960
- 筹备 Web UI 的根本环境,包含模型和插件
- 设置初始视频的某帧为初始帧,咱们这里截取最初一帧为初始帧, 图像分辨率为 540*960,并在 Deforum 里设置初始帧,在 init tab 里抉择 Use init,并填入文件地址
- 设置提醒词,并设置旋转参数。这里有参数列表和推荐值如下表
- 编排适当的风格化提醒词,并生成视频,这里提醒词必须依照 JSON 格局,在这个规定的根底上,编排视频的情节
提醒词如下:
{
“0”:“A Warrior in desolate landscape in Syria, with cracked earth, under a dark and stormy sky, Picasso style”,
“50”:”sunshine from the earth, ancient relics and mysterious symbols in Syria, Picasso style“,
“150”:“Egypt style building in Syria , Picasso style“,
“200”:“Rome style city with people from different races and cultures mingle and trade in the streets, markets in Syria, Picasso style“,
“250”:”war between nations east and west of Syria, the kings are seeking to preserve the balance of nature and magic, the other wanting to exploit it for power and profit, Picasso style“,
“300”:“gun smoke and flowers ,generals speech, Picasso style“,
“450”:“bomb explosion on the sky, fires ,flames and smoke, blood and ashes , Picasso style -neg magnificent”,
“500”:“fate of people in the nation, peaceful hope, Picasso style”
}
反向提醒词:
NSFW, worst quality, low quality, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
- 通过剪辑软件将事实视频与创意视频首尾呼应进行连贯,失去残缺视频,点击文末链接进入原文查看视频。
总结
在本文中,咱们大抵介绍了泛娱乐行业的视频内容制作场景中,通过不同插件和工具的配合,能够达到生成风格化视频和创意视频的指标。当然这只是冰山一角,在泛娱乐行业利用中,咱们通过一直跟踪新的插件和模型,能够依据技术上的迭代达到泛娱乐内容的不断创新,同时和一些规范的媒体制作工具相结合,通过步骤的一直优化,达到能够高效生产创意内容的目标。
参考资料
-
生成式 AI 行业解决方案指南:
https://aws.amazon.com/cn/campaigns/aigc/?trk=cndc-detail
- 生成式 AI 行业解决方案指南 Workshop:
https://catalog.us-east-1.prod.workshops.aws/workshops/bae25a… - Stable-diffusion-webui:
https://github.com/AUTOMATIC1111/stable-diffusion-webui?trk=cndc-detail - Hugging Face:
https://huggingface.co/?trk=cndc-detail
作者汤哲
亚马逊云科技行业解决方案架构师,负责基于 Amazon Website Service 的云计算计划的征询与架构设计,同时致力于亚马逊云服务常识体系的流传与遍及。在软件开发、平安防护等畛域有实践经验,目前关注电商、直播畛域。
作者明琦
亚马逊云科技行业解决方案架构师,次要负责媒体行业相干技术计划,并致力于泛娱乐行业中翻新技术和客户体验相干解决方案的构建和推广,包含,虚拟现实,混合事实,生成式 AI,数字人等方向,具备多年的架构设计和产品开发教训。
作者白鹤
教授级高级工程师,亚马逊云科技媒体行业资深解决方案架构师,重点从事交融媒体零碎、内容制作平台、超高清编码云原生能力等方面架构设计工作,在围绕媒体数字化转型的多个畛域有丰盛的实践经验。
文章起源:https://dev.amazoncloud.cn/column/article/64da07476938af044b1…