关于计算机视觉:根据文本描述生成视频TuneAVideo-效果惊艳

出品人：Towhee 技术团队张晨、顾梦佳

以文本-图片生成模型的胜利为灵感，近来文本-视频生成模型也开始采纳大规模的文本-视频数据集进行微调训练。然而解决大规模视频数据的老本十分高，为此 Tune-A-Video 提出一种新的任务模型 One-Shot Video Generation，即仅应用单个文本-视频对训练通用畛域的文本-视频生成器。 Tune-A-Video 多功能性和有效性，可能在各种利用中生成领有时序性的视频，例如主题或背景的变动、属性编辑、格调转换。

High-level overview of Tune-A-Video.

Tune-A-Video 利用大量数据预训练的文本-图像扩散模型，改良之后实现文本-视频生成。它有两个重要的发现：文本-图像模型可能依据动词形容生成良好的图像；而拓展文本图像模型以同时生成多个图像，则体现出令人诧异的内容一致性。为了进一步学习间断静止，Tune-A-Video 应用了定制的稠密因果注意力。

相干材料：

代码地址：https://github.com/showlab/Tu…
论文链接：Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

关于计算机视觉:根据文本描述生成视频TuneAVideo-效果惊艳

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于计算机视觉:根据文本描述生成视频TuneAVideo-效果惊艳

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复