乐趣区

关于后端:openai-DALLE-3-论文-提升图像生成的关键更好的图像描述

摘要

咱们展现了通过训练高度描述性的生成图像题目,能够显着改善文本到图像模型的提醒追随能力。

现有的文本到图像模型在追随具体的图像形容方面存在艰难,常常疏忽单词或混同提醒的含意。

咱们假如这个问题源于训练数据集中存在嘈杂和不精确的图像题目。咱们通过训练定制的图像题目生成器来解决这个问题,并应用它从新为训练数据集生成题目。而后咱们训练了几个文本到图像模型,并发现在这些合成题目上进行训练牢靠地进步了提醒追随能力。

最初,咱们利用这些发现构建了 DALL-E 3:一个新的文本到图像生成零碎,并对其性能进行了基准测试,评估设计用于掂量提醒追随、连贯性和美感,发现它与竞争对手相比具备显著劣势。咱们公布了这些评估的样本和代码,以便将来的钻研能够持续优化文本到图像零碎的这一重要方面。

1 引言

近年来生成建模的停顿使得文本到图像生成模型实现了显著的性能晋升。

特地是,通过采纳基于采样的办法,如自回归生成建模 [27, 2, 1, 20, 30] 或应用扩散过程 [25, 6, 11, 12, 19, 22] 来解决问题,使咱们可能将图像生成问题合成为小的、离散的步骤,这些步骤更容易被神经网络学习。

与此同时,钻研人员还找到了利用自注意力层重叠构建图像生成器的办法[15, 3, 4]。

通过将图像生成与卷积的隐含空间偏差拆散开来,使文本到图像模型可能通过变压器的良好钻研的缩放属性牢靠地改良。

联合足够大的数据集,这些办法使得能够训练出大型的文本到图像模型,这些模型可能生成靠近人类能够产生的照片和艺术品品质的图像。

该畛域面临的一个重要挑战是图像生成零碎的可控性,这些零碎常常疏忽给定题目中的单词、单词程序或含意。咱们用术语“提醒追随”来指代这些挑战。

在几项钻研中曾经指出了这个问题:Rassin 等人(2022 年)指出 DALL-E 2 没有强制要求每个单词只有一个含意。Saharia 等人(2022 年)提出通过对预训练语言模型进行条件化来改良它,并引入了一个名为 Drawbench 的评估,揭示了常见的提醒追随问题。与此同时,Yu 等人(2022b 年)引入了他们本人的基准测试 Parti Prompts,并表明扩大自回归图像生成器是改良提醒追随的另一种代替办法。

在这项工作中,咱们提出了一种解决提醒追随的新办法:题目改良。咱们假如现有文本到图像模型的一个基本问题是它们所训练的数据集中文本和图像配对的品质较差,这个问题在其余作品中也被指出,比方 Jia 等人(2021 年)。咱们提出通过为数据集中的图像生成改良的题目来解决这个问题。咱们首先学习一个弱小的图像题目生成器,它可能产生图像的具体精确的形容。而后,咱们将这个题目生成器利用于咱们的数据集,以产生更具体的题目。最初,咱们在改良后的数据集上训练文本到图像模型。

在合成数据上进行训练并不是一个新概念。例如,Yu 等人(2022b 年)提到他们在训练扩大自回归图像生成器时利用了这种技术。咱们的奉献在于构建了一种新鲜的、描述性的图像题目生成零碎,并测量了在训练生成模型时应用合成题目的影响。咱们还建设了一套可重现的基准性能档案,用于掂量提醒追随的一系列评估。

本文重点评估了 DALL-E 3 在训练高度描述性的生成题目时改良的提醒追随能力。它不涵盖 DALL-E 3 模型的训练或实现细节。咱们在第 2 节中提供了一个训练图像题目生成器的高级概述,第 3 节评估了在原始题目与生成题目上训练的文本到图像模型,第 4 节评估了 DALL-E 3,第 5 节探讨了限度和危险。

2 数据集从新生成题目

咱们的文本到图像模型是在一个由大量配对 (t, i) 组成的数据集上进行训练的,其中 i 是一幅图像,t 是形容该图像的文本。

在大规模数据集中,t 通常是由人类作者衍生进去的,他们专一于简略形容图像的主题,省略了背景细节或图像中描述的常识关系。通常从 t 中省略的重要细节可能包含:

  1. 厨房中存在的水槽或人行道上的停车标记等对象以及这些对象的形容。
  2. 场景中对象的地位以及这些对象的数量。
  3. 场景中对象的色彩和大小等常识细节。
  4. 图像中显示的文字。

更蹩脚的是,在互联网上找到的题目往往是谬误的;它们形容了图像的相干细节。例如,常见的状况是在用于生成图像题目的 alt-text 中发现广告或迷因。

咱们揣测所有这些缺点都能够通过合成生成的题目来解决。在接下来的局部中,咱们将探讨咱们开发的测试这一实践的程序。

2.1 构建图像题目生成器

图像题目生成器与传统的语言模型十分类似,它预测文本。因而,咱们首先提供对语言模型的简要形容。首先,应用分词器将文本字符串合成为离散的标记。一旦以这种形式合成,咱们语料库中的文本局部能够示意为一个序列,t = [t1, t2, . . . , tn]。而后,咱们能够通过最大化以下似然函数来构建一个语言模型:

L(t) = Σlog P(tj |tj−k, . . . , tj−1; Θ) (1)

其中 Θ 是要优化的题目生成器的参数。要将这个语言模型转换为一个题目生成器,你只须要对图像进行条件化。这里的挑战在于图像由成千上万个像素值组成。在咱们以后的神经网络中,对所有这些信息进行条件化是十分低效的,因而咱们须要一个压缩的示意空间。不便的是,CLIP[17]提供了这样的示意。因而,给定一个预训练的 CLIP 图像嵌入函数 F(i),咱们将咱们的语言模型指标扩大如下:

L(t, i) = Σlog P(tj |tj−k, . . . , tj−1; zj ; F(i); Θ) (2)

咱们遵循 Yu 等人 (2022a) 的办法,并应用上述公式在咱们的 (t, i) 文本和图像对数据集上联结预训练咱们的题目生成器与 CLIP 和语言建模指标。

失去的模型的确是一个良好的题目生成器,但体现出与咱们在第 2 节形容的雷同的问题,比方不愿形容细节。

2.1.1 微调图像题目生成器

为了改良咱们图像生成数据集中的题目,咱们心愿偏差咱们的题目生成器产生对学习文本到图像模型有用的图像形容。

在咱们的第一次尝试中,咱们构建了一个小数据集,其中的题目只形容图像的次要主题。而后,咱们持续在这个数据集上训练咱们的题目生成器。由此过程引起的 θ 的更新会导致一个偏差于形容图像次要主题的模型。

咱们将这种微调生成的题目称为“简短的合成题目”。

咱们再次反复这个过程,第二次创立一个数据集,其中蕴含形容咱们微调数据集中每个图像内容的长、高度描述性的题目。这些题目不仅形容图像的次要主题,还形容了其周围环境、背景、图像中的文字、格调、着色等。而后,咱们再次在这个数据集上微调咱们的根底题目生成器。咱们将由这个题目生成器生成的题目称为“描述性合成题目”。

图 3 显示了高空实在、简短合成和描述性合成题目的示例。

构建实现后,咱们将利用咱们的图像题目生成器微调到咱们文本到图像数据集中的每个图像,从而失去一组合成题目,咱们将用于后续试验。

3 评估从新生成的数据集

有了咱们从新生成的数据集,咱们开始评估在合成文本上训练模型的影响。

咱们特地想答复两个问题:

  1. 应用每种类型的合成题目的性能影响。
  2. 合成题目与高空实在题目的最佳混合比例。

3.1 混合合成和高空实在题目(Blending synthetic and ground-truth captions)

像咱们的文本到图像扩散模型这样的似然模型有一种臭名远扬的偏向,即适度拟合数据集中的散布法则。

例如,一个训练过的文本到图像模型,如果训练的文本总是以空格字符结尾,那么如果尝试应用不以空格结尾的提醒进行推理,它就无奈失常工作。

当波及到在合成题目上训练时,咱们须要思考这个问题。咱们的题目生成器模型可能有许多难以检测到的模态行为,但如果训练了这些题目,它们就会成为咱们的文本到图像模型的偏差。可能产生这种状况的示例包含字母大小写,题目中是否呈现标点符号(例如,它是否总是以句号结尾?),题目的长度,或者格调偏向,比方所有题目都以单词 “a” 或 “an” 结尾。

克服这个问题的最佳办法是将咱们的输出规范化为更靠近人类可能应用的款式和格局的文本散布。

当应用高空实在题目时,你能够收费取得这个,因为这些题目实际上是从人类书写的文本散布中抽取进去的。为了在应用合成题目时在咱们的模型训练中引入一些这种规范化,咱们抉择将合成题目与高空实在题目混合。

混合产生在数据采样时,咱们随机抉择高空实在题目或合成题目,并以固定的百分比机会。咱们将在下一节中剖析不同混合比例的性能影响。

3.2 评估办法

为了评估,咱们在雷同的图像数据集上训练了雷同的 T5- 条件化图像扩散模型。对于训练的模型的详细信息在附录 A 中形容。所有模型都训练了 500,000 个训练步骤,批量大小为 2048,对应总共 10 亿张训练图像。

训练实现后,咱们应用评估数据集中的题目生成了每个模型的 50,000 张图像。而后,咱们应用 Hessel 等人(2022 年)中概述的 CLIP-S 评估度量对这些生成的图像进行评估。咱们抉择 CLIP 分数作为度量规范,因为它与文本 - 图像相似性有很强的相关性,这正是咱们所谋求的。作为一个疾速回顾,这个度量规范的计算如下:

首先,咱们应用公共的 CLIP ViT-B/32 图像编码器生成图像嵌入 zi,而后咱们应用文本编码器为图像题目创立文本嵌入 zt。最初,咱们计算 CLIP 分数作为余弦类似度 C:

C(zi, zt) = zi · zt / (∥zi∥∥zt∥) (3)

而后,该度量规范对所有 50,000 个文本 / 图像对计算失去的间隔进行均匀,并通过一个因子缩放为 100。咱们在训练期间跨多个模型检查点执行此评估,始终应用模型学习权重的指数加权平均值进行评估。

在计算 CLIP 分数时,抉择在上述计算中应用哪种题目是重要的。对于咱们的测试,咱们要么应用高空实在题目,要么应用描述性合成题目。在每个评估中都会注明应用了哪种类型的题目。

3.3 题目类型的后果

咱们首先剖析了在不同类型的题目上训练的模型之间的性能差别。

对于这个评估,咱们训练了三个模型:

  1. 只在高空实在题目上训练的文本到图像模型。
  2. 在 95% 的简短合成题目上训练的文本到图像模型。
  3. 在 95% 的描述性合成题目上训练的文本到图像模型。

咱们进行了两次这样的评估:一次应用高空实在题目计算的 zt,一次应用描述性合成题目计算的 zt。在这次评估中,咱们不应用简短合成题目,因为它们在这个评估中与高空实在题目十分类似。

结果显示,在应用高空实在题目进行评估时,两个在合成题目上训练的模型的性能略优于基线模型,而在应用描述性合成题目进行评估时,它们的性能显著更好。这表明在训练文本到图像模型时应用合成题目没有任何不利之处。

乏味的是,合成题目上的评估曲线的方差要低得多。这增强了咱们的实践,即从新生成题目能够看作是一种均匀操作。在合成题目上评估的图像生成模型也在所有训练的模型中实现了更高的净 CLIP 分数,这反对了合成题目与其对应图像之间具备更好绑定的观点。

3.4 题目混合比例

为了评估题目混合比例,咱们应用咱们的描述性合成题目训练了四个图像生成模型,采纳了不同的混合比例。

咱们抉择了 65%、80%、90% 和 95% 的合成题目混合。在试验进行到中途时,评估显示,65% 的混合在所有评估中远远落后于其余混合,因而咱们将其排除。

3.5 高度描述性题目的理论用处

上述试验表明,通过训练大部分合成题目,咱们能够最大限度地进步模型的性能。

然而,这样做会导致模型天然地适应由咱们的题目生成器生成的长、高度描述性题目的散布。

家喻户晓,生成模型在从其训练散布中抽样时会产生较差的后果。因而,为了充分发挥咱们模型的后劲,咱们须要仅应用高度描述性题目从中抽样。侥幸的是,最近大型语言模型的冲破使得这个问题能够解决。像 GPT-4 这样的模型曾经在须要想象力的工作中表现出色,比方讲故事和写诗。能够推断,它们也可能善于提出图像形容中的正当细节。

实际上,给定一个相似于附录 C 中找到的提醒,咱们发现 GPT-4 能够轻松地将任何题目“上采样”为一个高度描述性的题目。为了演示这种办法可能有用的形式,咱们对 drawbench 数据集中的题目执行此过程,并在表 7 中可视化后果。

正如图 7 所示,利用大型语言模型对题目进行“上采样”不仅能够增加缺失的细节,还能够打消绝对较小的图像生成模型难以学习的简单关系的歧义。最终后果是,模型通常会正确地出现它原本会出错的图像。

4 DALL-E 3

为了大规模测试咱们的合成题目,咱们训练了 DALL-E 3,一个新的最先进的文本到图像生成器。

为了训练这个模型,咱们应用了 95% 的合成题目和 5% 的高空实在题目的混合。

该模型自身是上述融化试验中应用的模型的放大版本,并进行了几项其余改良。

Metric DALL-E 3 DALL-E 2 Stable Diffusion XL2
MSCOCO Captions CLIP Score ↑ 32.0 31.4 30.5
Drawbench short (GPT-V) 3 70.4% 49.0% 46.9%
Drawbench long (GPT-V) 81.0% 52.4% 51.1%
T2I-C B-VQA Colors 81.1% 59.2% 61.9%
T2I-C B-VQA Shape 67.5% 54.7% 61.9%
T2I-C B-VQA Texture 80.7% 63.7% 55.2%

表 1 – 各种与提醒追随相干的文本到图像模型的比拟评估

1 DALL-E 2 生产版本的图像于 2023 年 9 月 20 日公布。

2 稳固扩散 XL v1.0 应用了 refiner 模块。

3 这里的分数是依据 GPT-V 判断为具备“正确”题目的图像百分比。

4.1 主动评估

咱们将 DALL-E 3 与 DALL-E 2 和 Stable Diffusion XL 1.0(带有 refiner 模块)进行比拟。咱们心愿评估 DALL-E 3 在与提醒追随相干的工作上的

体现。咱们形容上面的各个工作。

4.1.1 CLIP 分数

咱们首先应用公共的 ViT-B/32 模型计算 CLIP 分数,如第 3.2 节所述。对于这个比拟,咱们应用了来自 MSCOCO 2014 评估数据集的 4,096 个题目来生成咱们的图像。在这个评估中,咱们应用简短的高空实在题目对模型进行推断。咱们的模型在这个评估中的体现优于 DALL-E 2 和 Stable Diffusion XL。

4.1.2 Drawbench

接下来,咱们对 drawbench 数据集的题目进行评估。对于这个测试,咱们应用了基于 GPT-4 的通过领导的、视觉感知的大型语言模型 GPT-V 来评估咱们的模型与其余模型的性能。对于 drawbench 中的每个提醒,咱们应用每个模型生成四幅图像。而后,咱们应用图像和文本提醒(见附录 D 中的提醒)提醒咱们的视觉感知的大型语言模型。这导致一个论断(“正确”/“不正确”)和一个对于该论断的解释。

因为咱们先前察看到咱们的模型在给定语言模型的外推题目时体现更好,咱们应用 GPT-4 来应用第 3.5 节中形容的过程对 drawbench 题目进行“上采样”。咱们应用这些“上采样”题目从所有模型中采样图像时,再次执行以上自动化评估。在要求视觉感知的大型语言模型判断输入时,咱们应用原始的高空实在 drawbench 提醒。

在所有 drawbench 评估中,咱们的模型都击败了 DALL-E 2 和 Stable Diffusion XL。当咱们应用“上采样”题目时,差距显著扩充。

4.1.3 T2I-CompBench

最初,咱们在黄等人(2023 年)开发的 T2I-CompBench 评估套件的子集上进行评估。这个基准测试掂量了模型在组合提醒上的体现。咱们报告了色彩绑定、形态绑定和纹理绑定的分数。咱们应用 Disentangled BLIP-VQA 模型来评估这些后果。在所有评估的基准测试中,DALL-E 3 都是最先进的。

4.2 人类评估

咱们向人类评估员提交了来自 DALL-E 3 和可比拟模型的样本。

对于这个评估,咱们向评估员出现了两个从雷同题目生成的图像并排搁置。而后,咱们向评估员提出三个问题之一:

  1. 提醒追随:评估员被出现给文本到图像模型的残缺上采样题目,并被要求“抉择哪个图像更好地对应于题目”。
  2. 格调:“设想您正在应用一种计算机工具,该工具依据某些文本生成图像。如果您应用此工具,您会更喜爱看到哪个图像。”
  3. 一致性:“抉择哪个图像蕴含更多统一的对象。‘统一’的对象是指可能存在的对象。仔细观察人体部位、面部和姿态、物体的摆放以及场景中的文本,以作出您的判断。提醒:计算每个图像的不统一实例,并抉择问题较少的图像。”

对于提醒追随和格调,咱们为这次评估组装了一个小型数据集,其中蕴含 170 个题目,针对的是生产文本到图像零碎的典型用法。这些题目涵盖了宽泛的理论用例,如生成人物、产品和地点,概念混合,文本渲染和艺术品。咱们将这个评估集称为“DALL-E 3 Eval”。这些题目将随着咱们的评估样本公布(见第 4.3 节)。对于一致性,咱们察看到评估员会对形容虚构场景的图像进行惩办。因而,咱们从 MSCOCO 中随机抽取了 250 个题目,以确保评估提醒形容的场景可能存在。请留神,对于格调和一致性评估,咱们不向评估员显示用于生成图像的题目,以确保他们将注意力集中在格调或一致性上,而不是提醒追随。对于每对图像和问题,咱们从评估员那里收集 3 个答案,每个模型和问题总共有 2040 个评分。人类评估界面显示在第 E 节。

咱们将 DALL-E 3 与带有 refiner 模块的 Stable Diffusion XL 和 Midjourney v5.2 进行比拟。在表 2 中,咱们报告应用与 Nichol 等人(2022 年)概述的雷同计算方法的 ELO 分数。

正如结果显示的那样,DALL-E 3 生成的图像在所有三个方面,特地是在提醒追随方面,大多数工夫都被人类评估员更喜爱,超过了所有竞争对手。

Dataset DALL-E 3 Midjourney 5.2 Stable Diffusion XL DALL-E 2
DALL-E 3 Eval (prompt following) 153.3 -104.8 -189.5
DALL-E 3 Eval (style) 74.0 30.9 -95.7
MSCOCO (coherence) 71.0 48.9 -84.2
Drawbench 61.7 -34.0 -79.3

4.2.1 Drawbench 人类评估

在后面的局部中,咱们应用了 GPT-V 对 drawbench 进行了评估。咱们留神到,在某些类型的测试中,GPT-V 在判断提醒追随方面并没有体现出优于随机的性能。特地是,在波及计算图像中对象数量的工作中。为了更好地笼罩 drawbench 的性能,咱们应用了后面局部形容的程序,向人类评估员提交了图像和题目进行评估。与咱们的 GPT-V drawbench 评估一样,咱们仅比拟了 DALL-E 3、带有 refiner 模块的 Stable Diffusion XL 和 DALL-E 2。

4.3 可重现性

咱们已将所有以上比拟中所有模型生成的所有样本和提醒上传到了 GitHub。

5 限度与危险

5.1 空间意识

只管 DALL-E 3 在提醒追随方面获得了重大进展,但依然在对象搁置和空间意识方面存在艰难。

例如,应用诸如“在左侧”,“在下方”,“在背地”等词语是相当不牢靠的。这是因为咱们的合成题目生成器也具备这个弱点:它在陈说对象地位方面不牢靠,在咱们的上游模型中也反映进去。

5.2 文本渲染

在构建咱们的题目生成器时,咱们特地留神确保它可能在生成的题目中蕴含图像中的突出词语。

因而,DALL-E 3 能够在提醒时生成文本。在测试过程中,咱们留神到这种能力是不牢靠的,因为单词可能存在缺失或额定的字符。咱们狐疑这可能与咱们应用的 T5 文本编码器无关:当模型遇到提醒中的文本时,它实际上看到代表整个单词的标记,并且必须将其映射到图像中的字母。在将来的工作中,咱们心愿摸索在字符级别的语言模型上进行条件设置,以帮忙改善这种行为。

5.3 具体性

咱们察看到咱们的合成题目容易产生对于图像的重要细节的幻觉。

例如,给定一幅动物花卉的图画,题目生成器常常会幻觉出一个动物属和种,并将其放入题目中,即便这些细节在图像中以文本模式提供。当形容鸟类的图片时,咱们察看到相似的行为:品种被幻觉进去或基本没有提到。

这对咱们的文本到图像模型产生了上游影响:DALL-E 3 在为上述特定术语生成图像方面不牢靠。咱们置信对题目生成器的进一步改良应该可能进一步改善咱们的文本到图像模型。

5.4 安全性和偏见缓解

咱们对部署 DALL-E 3 所引起的平安问题进行了深入分析,包含模型偏见可能带来的危险。这些评估的后果能够在 DALL-E 3 零碎卡中找到。

参考资料

https://cdn.openai.com/papers/dall-e-3.pdf

本文由博客一文多发平台 OpenWrite 公布!

退出移动版