共计 1376 个字符,预计需要花费 4 分钟才能阅读完成。
还记得咱们上次分享的应用 DALL- E 生成神奇宝贝的文章吗,这次 Reddit 的网友又给出了成果更好的版本。
每年数以百万计的人都热切地期待着新一代神奇宝贝的公布。只管珍藏一直减少,但指标始终如一——Gotta Catch ‘Em All!
作为一个狂热的神奇宝贝粉丝和人工智能爱好者,我曾多次尝试将两者交融都失败了。几年前,因为生成反抗网络 (GAN) 的呈现,当图像生成开始蓬勃发展时,我尝试应用过后最先进的模型人工生成 Pokémon 图像。首先看看失败的作品。
随着图像生成畛域的提高,能够生成的神奇宝贝的品质也在一直进步。一年后应用 ProGAN 的第二次尝试产生了略微好一点的后果。尽管它捕捉到了神奇宝贝的清晰轮廓,但它重大不足任何细节。
最近几年,生成建模畛域获得了重大进展。随着 Transformer 的呈现及其在海量数据上进行自监督学习的应用,图像生成进入了一个新时代。这些模型通常规模宏大,可能利用大量未标记的数据来学习高质量的示意。因而,这些模型能够在大量数据上进行微调,利用这些事后训练的示意来产生杰出的后果。
值得一提的是模式解体的想法。当模型找到它认为最正当的图像时,它过于专一于产生特定的输入,导致图像不足多样性。晚期的 GAN 深受这个问题的困扰,这反映在生成的 Pokémon 不足多样性上。
OpenAI 的 DALL-E,这是一种基于 transformer 语言模型,可能应用文本 - 图像对的数据集从文本中生成高保真的图像。DALL-E 应用离散变分自编码器 (dVAE) 的组合来取得离散的潜在示意,同时利用弱小的基于自回归 transformer 的解码器来生成高质量的图像。dVAE 的应用有助于躲避后验解体的问题——当它们与弱小的自回归解码器配对时,潜在变量被疏忽。
如果咱们能够治理一个形容 Pokémon 及其相干图像的文本图像对数据集会怎么?而后能够用 DALL-E 对其进行微调以学习文本中视觉概念之间的相关性,例如神奇宝贝的类型,从而能够管制它生成的图像的属性。例如,将句子“草毒类神奇宝贝”传递给模型将生成草和毒类神奇宝贝的图像(通常被描绘成绿色和花朵状)。
在最近实现了该系列最新游戏《神奇宝贝:璀璨钻石》的通关过程中,我留神到每个神奇宝贝都领有本人的 3D 模型。咱们又有一个不错的新数据集能够玩了!
有了这些新发现的常识,我匆忙开始策动一个数据集来微调 DALL-E。这包含神奇宝贝的图像和类型的文字描述,以及神奇宝贝一些独特的属性。
在一些现成的 DALL-E notebook 的帮忙下拼凑一些 PyTorch 代码,并将新创建的数据集放入模型中进行几个小时的微调,模型曾经能够创立一些新的神奇宝贝!
生成 Pokémon 就像用文本形容提醒模型一样简略。这里有一堆例子供你娱乐。
A grass type Pokémon
A fire type Pokémon
A water type Pokémon
A dragon type Pokémon
A fairy type Pokémon
A legendary water and dragon type Pokémon
图像生成在过来几年中获得了长足的提高。从生成含糊的像素块到可能依据文本形容生成神奇宝贝的正当图像是一项微小的壮举。尽管图像还须要修复,然而它能够给咱们带来无穷无尽的创意。
这些生物都没有名字,所以我欢送大家提交你认为适宜这些“神奇宝贝”的名字!
作者:Liam Eloie