关于人工智能:瞬息全宇宙背后的AI公司曾参与Stable-Diffusion开发去年获5000万美元融资

43次阅读

共计 2510 个字符,预计需要花费 7 分钟才能阅读完成。

内容一览:Runway 是一家人工智能视频编辑软件供应商。据理解,本届奥斯卡最大赢家影片《瞬息全宇宙》制作过程中采纳了这家公司的技术。

关键词:瞬息全宇宙 Runway Gen-1

北京工夫 3 月 13 日上午,2023 年奥斯卡颁奖礼在洛杉矶举办,影片《瞬息全宇宙》一举斩获七项大奖,成为最大赢家。主演杨紫琼也凭借该片将奥斯卡最佳女主角奖支出囊中,成为奥斯卡历史上首位华侨影后。

据理解,这部正在被热议的科幻电影背地的视觉效果团队仅有 5 人,为了尽快实现这些特效镜头,他们抉择了 Runway 公司的技术来帮忙创立某些场景,比方为图像去除背景的绿幕工具 (The Green Screen)。

「仅仅几次点击就让我节俭几个小时,我能够用这些工夫尝试三四种不同的成果,让影片成果更好。」导演兼编剧 Evan Halleck 受访时谈道。

Runway:参加初代 Stable Diffusion 开发

2018 年底,Cristóbal Valenzuela 联结其余成员创建 Runway。它是一家人工智能视频编辑软件提供商,致力于利用计算机图形学及机器学习的最新进展,为设计师、艺术家和开发人员升高内容创作的门槛、推动创意内容的倒退。

除此之外,Runway 还有一个鲜为人知的身份 –Stable Diffusion 初始版本的次要参加公司。

2021 年,Runway 与德国慕尼黑大学单干,构建了第一个版本的 Stable Diffusion,随后英国初创公司 Stability AI「带资进组」,为 Stable Diffusion 提供了更多模型训练所需的计算资源和资金。不过目前 Runway 和 Stability AI 曾经不再单干。

2022 年 12 月,Runway 取得 5000 万美元的 C 轮融资,除《瞬息全宇宙》团队外,客户还包含传媒团体 CBS、MBC,广告公司 Assembly、VaynerMedia,设计公司 Pentagram 等。

2023 年 2 月 6 日,Runway 官网推特公布 Gen-1 模型,能够通过利用文本提醒或者参考图像所指定的任意格调,将现有视频转换为新视频。

Gen-1:structure + content 并行不悖

科研人员提出了一个构造 (structure) 和内容 (content) 疏导的 video diffusion model–Gen-1,能够根据预期输入的视觉或文本形容,对视频进行编辑。

所谓 content,是指形容视频的表面 (appearance) 和语义的特色,如指标物体的色彩、格调以及场景的灯光。

而 structure 则是指形容其几何和动静的特色,如指标物体的形态、地位以及工夫变动。

Gen-1 模型的指标是在保留视频 structure 的同时,编辑视频 content。

在模型训练过程中,科研人员用到了一个由未加字幕的视频及 text-image pair 形成的大规模数据集,同时,用单目场景深度预测 (monocular depth estimates) 来示意 structure,用预训练神经网络预测的 embedding 来示意 content。

该办法在生成过程中提供了几种弱小的管制模式:

  1. 参考图像合成模型,训练模型使得推理的视频 content(如出现或格调)与用户提供的 image 或 prompt 相匹配。
  1. 参考 diffusion 过程,对构造表征 (structure representation) 进行 information obscuring,这使得开发者能够自行设定 model adhere 对于给定 structure 的类似水平。
  2. 参考 classifier-free guidance,借助自定义 guidance 办法,调整推理过程,从而管制生成 clip 的工夫一致性。

在该试验中,科研人员:

  • 通过在预训练的图像模型中引入 temporal layer,并对图像和视频进行联结训练,将 latent diffusion model 扩大到视频生成中。
  • 提出了一个 structure 和 content-aware 模型,能够在示例图像或文本的领导下批改视频。视频编辑齐全是在推理阶段进行的,无需一一视频进行训练或预处理。
  • 对 temporal、content 和 structure 一致性的齐全管制。试验表明,在图像和视频数据上的联结训练,可能在推理期间上管制一致性 (temporal consistency)。对于构造一致性 (structure consistency),在表征的不同细节程度上训练,使用户得以在推理过程中抉择所需的设置。
  • 一项用户调研表明,该办法比其余几种办法更受欢迎。
  • 通过对一小部分图像进行微调,能够进一步定制训练过的模型,以生成更精确的特定 subject 的视频。

为了评估 Gen-1 的性能,科研人员用 DAVIS 数据集中的视频以及其余各种素材进行了评估。为了主动创立编辑 prompt,钻研人员首先运行了一个 captioning 模型来取得原始视频内容的形容,而后应用 GPT3 生成编辑 prompt。

试验结果表明,在对所有办法生成成果的满意度调研中,75% 的用户更偏向 Gen-1 的生成成果。

AIGC:争议中前行

2022 年,生成式人工智能成为自十多年前挪动和云计算衰亡以来最引人注目的技术,咱们正有幸见证其应用层的萌芽,许多大模型正迅速从实验室中走进去,扑向真实世界的各个场景。

然而,只管有提高效率、节省成本等诸多益处,咱们也须要看到,生成式人工智能仍然面临多种挑战,包含如何进步模型的输入品质和多样性、如何进步其生成速度,以及利用过程中的平安、隐衷和伦理宗教等问题。

有些人对 AI 艺术创作提出质疑,更有甚者认为这是一种 AI 对艺术的「入侵」,面对这种声音,Runway 联结创始人兼 CEO Cristóbal Valenzuela 认为,AI 只是工具箱中一个用来给图像等内容上色或批改的工具,与 Photoshop、LightRoom 并无二致。尽管生成式人工智能还存在一些争议,但它为非技术人员和创意人员关上了创作的大门,并将率领内容创作畛域走向新的可能。

参考链接:

[1]https://hub.baai.ac.cn/view/23940

[2]https://cloud.tencent.com/developer/article/2227337?

正文完
 0