关于计算机视觉:根据文本描述生成视频TuneAVideo-效果惊艳

28次阅读

共计 533 个字符,预计需要花费 2 分钟才能阅读完成。

出品人:Towhee 技术团队 张晨、顾梦佳

以文本 - 图片生成模型的胜利为灵感,近来文本 - 视频生成模型也开始采纳大规模的文本 - 视频数据集进行微调训练。然而解决大规模视频数据的老本十分高,为此 Tune-A-Video 提出一种新的任务模型 One-Shot Video Generation,即仅应用单个文本 - 视频对训练通用畛域的文本 - 视频生成器。Tune-A-Video 多功能性和有效性,可能在各种利用中生成领有时序性的视频,例如主题或背景的变动、属性编辑、格调转换。

High-level overview of Tune-A-Video.

Tune-A-Video 利用大量数据预训练的文本 - 图像扩散模型,改良之后实现文本 - 视频生成。它有两个重要的发现:文本 - 图像模型可能依据动词形容生成良好的图像;而拓展文本图像模型以同时生成多个图像,则体现出令人诧异的内容一致性。为了进一步学习间断静止,Tune-A-Video 应用了定制的稠密因果注意力。

相干材料:

代码地址:https://github.com/showlab/Tu…
论文链接:Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

正文完
 0