关于人工智能:Stable-Diffusion-3-发布AI生图效果再次到达全新里程碑

6次阅读

共计 5434 个字符,预计需要花费 14 分钟才能阅读完成。

AI 生图成果,再次达到全新里程碑!

Prompt:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Stable Diffusion 3” made out of colorful energy
提醒(意译版):在一幅充斥史诗感的动漫画面中,一位巫师耸立于夜幕笼罩的山巅之上,正用他的法杖向乌黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽开,化作由五彩缤纷的能量形成的「Stable Diffusion 3」字样,犹如夜空中最璀璨的星辰。

网友复刻版,同样惊艳:

网友惊呼:这种 prompt 的一致性是我见过最好的!

这次的 Stable Diffusion 3,在图像品质、多个对象、拼写能力方面,都失去了显著晋升。

甚至,它仿佛还涌现出了对物理世界的「了解」。

Prompt: A horse balancing on top of a colorful ball in a field with green grass and a mountain in the background.
提醒(意译版):一匹马优雅地站在一个五彩斑斓的球上,四周是一片生机勃勃的绿色草地。远处,一座宏伟的山峦巍峨地矗立。

Prompt:Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
提醒:一个红色的球体放在一个蓝色的立方体下面。在它们前面是一个绿色的三角形,在左边是一只狗,在右边是一只猫。

而 DALL-E 3 就相形见拙了。

对于 Stable Diffusion 3.0 的核心技术停顿,CEO Emd 总结了一份「太长不看版」摘要——

– 采纳了与 Sora 相似的 Diffusion Transformer 技术,并联合了流匹配(Flow Matching)等多项技术改良。
– 通过利用对 Transformer 的改良,不仅使得零碎扩展性更强,还能解决多种类型的输出数据。
– 将以开源模式公布,通过预览版的测试来进一步晋升零碎的品质和安全性。
– 公布时,将蕴含一套残缺的工具。
– 基于最新硬件技术打造的新平台,能够反对多种规模的版本。
– 反对生成视频、3D 以及更多类型的内容创作。
– 须要更多的 GPU 来实现更弱小的计算能力。

不得不说,最近这段时间,DiT 实火!

目前,模型可抉择的参数范畴在 800M 到 8B 之间。

当初,曾经能够在这里退出候补名单,申请 SD3 的拜访权限了:https://stability.ai/stablediffusion3

Stable Diffusion 3,文字渲染能力超进化

依照 prompt 生成指定文字,始终以来都是文生图模型的老大难问题。

从左到右:DeepFloyd IF、DALLE-2、Bing Image Creator、Midjourneyv5.2、SDXL v0.9(2023 年 7 月)

然而这次,SD3 模型对于 prompt 了解得很好,在黑板上正确写出了「go big or go home」。

而且画面十分写实,远近地位、光影,都显得极其天然。

Prompt: cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk.
提醒(意译版):这张电影级视觉效果的照片,捕捉到了一个静谧的教室霎时,一颗鲜红的苹果静静地躺在桌子上,而在它背地的黑板上,则用醒目的粉笔字写着——「要么做大,要么回家」。

相比之下,Midjourney 的图是这样的:

Gemini Advanced / Ultra 的图是这样的:

DALL-E 3 的图是这样的:

各种模式的文字渲染,SD3 都杰出地实现了。

Prompt:Resting on the kitchen table is an embroidered cloth with the text ‘good night’ and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.
提醒:厨房桌上铺着一块精美的绣布,下面绣着「good night」字样和一只可恶的小老虎。旁边,一支蜡烛静静焚烧,散发出柔和而略带戏剧性的光影。

Prompt:Photo of an 90’s desktop computer on a work desk, on the computer screen it says “welcome”. On the wall in the background we see beautiful graffiti with the text “SD3” very large on the wall.
提醒:一台放在工作桌上的 90 年代的台式电脑,屏幕上写着「welcome」。在背地的墙面上,有一幅醒目的涂鸦艺术作品,写的是「SD3」。

Prompt: Anime style illustration of a newsstand on top of a small grassy hill, on top of the newsstand we see the text “it’s here!”. In the background we see a big rain approaching.
提醒:这是一幅充斥动漫特色的插画,一个报刊亭坐落在一片绿意盎然的小山丘上,亭顶醒目地展现着「it’s here!」的字样。而在这个平静的场景背地,一场壮观的暴雨即将来临。

Prompt: Night photo of a sports car with the text “SD3” on the side, the car is on a race track at high speed, a huge road sign with the text “faster”.
提醒:在这幅夜幕下的摄影作品中,一辆标有「SD3」字样的静止赛车正在赛道上疾驰。背景里,一块微小的路牌显眼地展现着「faster」一词。

Prompt: Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.
提醒:一张木桌上摆放着三个通明的玻璃瓶。从左至右,每个瓶子内别离充斥了娇艳的红、蓝、绿色液体。瓶子上,用数字 1、2、3 进行了标记。

Prompt: Photo of a rectangular orange neon sign with the text “even more stable”, the sign is on the wall in a metro station, subway speeding by in the background, perspective photo.

Stable Diffusion 3.0 能在文字渲染能力上获得显著晋升,是因为 Stability AI 在新模型中采纳了全新技术——Transformer 和新增的文本编码性能。

CEO Emad Mostaque 解释说,因为上述起因,当初 SD 3 不仅能生成残缺句子,还能放弃格调的一致性。

宇航员骑着粉色芭蕾舞裙猪,除 SD 3 居然全军覆没?

解决蕴含多个对象的 Prompt 的能力,也是考核 AI 生图模型的一大要害指标。

上面这个 prompt,着实难倒了一大片选手——

一幅宇航员撑着粉色雨伞、骑着一只衣着芭蕾舞短裙的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,画面的角落里写着「stable diffusion」。

这个 prompt,要求模型正确理解对象的属性、地位,以及正确出现字体很小的文本,着实是一道难题。

如此因素拉满的细节要求,SD3.0 全副了解,并且准确地实现了!

宇航员,粉色雨伞、衣着粉芭蕾舞裙的猪、戴高帽的知更鸟、角落里的字,100% 合乎 prompt 的要求。这就表明:模型很好地了解了 prompt。

Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words “stable diffusion”

对于同一 prompt,其余模型的体现就落后了。

DALL-E 3 画出的画倒是过关了,但它把「Diffusion」拼错了。

Bing 的体现就更是离谱了,有的图中芭蕾舞裙的色彩不对,有的知更鸟站在了猪脑袋上,有的更是画面中飞满了知更鸟。而「Stable Diffusion」更是错得离谱。

Gemini Advanced 这个差生的答案就更惨不忍睹了,除了拼写问题,画也没画对。

上面出场的,就是以画面质量精美著称的优良文生图选手 Midjourney 了。

从画面美感上说,MJ 仍然甩其余模型一条街,然而考试就是考试,「Stable Diffusion」,它也没拼对。

总结下来,这一道考题惟一的满分选手,就是 Stable Diffusion 3!

和 Sora 同样的 Diffusion Transformer 架构

所以,Stable Diffusion 3.0 为何有如此突飞猛进的体现?

起因在于,它采纳了全新的架构设计。

Stability AI 的首席执行官 Emad Mostaque 示意——

「Stable Diffusion 3 采纳了 Diffusion Transformer 架构,这是一种新型的架构设计,与 OpenAI 最近推出的 Sora 模型采纳的架构类似。」

在以前的 Stable Diffusion 版本中,并未采纳 Transformer 技术。

而 Stable Diffusion 3.0 采纳了一种全新的办法,引入了 Diffusion Transformer 技术。如果你对最近的爆火的 sora 有所理解,必定对这个技术曾经耳熟能详了。

Transformer 技术是,以后生成式 AI 反动的外围,广泛应用于文本生成模型中。而图像生成技术,则次要基于 Diffusion 模型。

Sora 作者之一 William 和谢赛宁,在这篇论文中独特提出了 Sora 的基础架构。

论文地址:https://arxiv.org/abs/2212.09748

这篇具体介绍 DiTs 的论文指出,这种基于扩散模型的新架构,能够用在图像 patch 上运行的 Transformer 代替了传统的 U -Net 架构。

这样,DiTs 办法就能够更高效地利用计算资源,并且在图像生成方面超过了其余扩散模型技术。

一篇因「不足创新性」被 CVPR 2023 拒收的论文,竟成了 Sora 和 Stable Diffusion 3.0 的奠基之作,学术翻新和工程翻新的区别,着实引人深究。

Stable Diffusion 3.0 的另一个翻新亮点,就是流匹配技术。

一篇对于流匹配的钻研论文介绍了这一新办法,它能够用于训练间断归一化流(Continuous Normalizing Flows, CNFs),以便更精确地模仿简单的数据分布。

论文地址:https://arxiv.org/abs/2210.02747

钻研表明,通过联合应用条件流匹配(Conditional Flow Matching, CFM)和最优传输门路,能够实现更快的训练速度、更高效的样本生成,并且在性能上超过传统的扩散门路办法。

其实,Stability AI 始终在摸索多种新鲜的图像生成技术。

就在本月初,他们就推出了一项名为 Stable Cascade 的新技术。

它基于一种名为 Würstchen 的先进架构,旨在晋升生成图像的性能和精确度。

一大波整活来了

在图像品质上,SD 3.0 也获得了令人震惊的提高。

「变色龙在彩色背景上的摄影棚照片特写」,它生成的图是这样的。

Prompt:studio photograph closeup of a chameleon over a black background.

Gemini Advanced/Ultra 生图是这样的。

Midjourney 是这样的。

因为题干没有区分度,所以大家体现差不多。

从更多的演示中能够看出,无论是在天然写实风光,还是在漫画、海报中,SD 3 不仅做到了正确还原文字,还让文字和画面做到了很好的交融,一点都不突兀。

Prompt: Trees photographed under the Milky Way, the moon and twilight shine on the Valley. The full moon appears high in the sky and the twilight glow can still be seen.

再比方黑客帝国中的 Neo 狗。

威尔史密斯吃面,AI 模型的终极图灵测试。

Stable Video 同时发力

此外,就在不久前,Stable Video 也正式凋谢公测了。

背地还是基于 Stable Video Diffusion 1.1。

体验地址:https://www.stablevideo.com/

从前,这个模型须要用户本人上手部署,当初曾经人人可用了,甚至不须要排队!

尽管跟登月级的 Sora 还有很大差距,但视频成果曾经能够和 Runway 一拼。

2024 年才一开年,节奏就曾经这么炸裂了。往年注定是 AIGC 史上不平庸的一年。

本文由 mdnice 多平台公布

正文完
 0