关于人工智能:MM2022-用StyleGAN进行数据增强真的太好用了

MM2022 | 用StyleGAN进行数据加强，真的太好用了

【写在后面】

本文钻研了生成文本-图像对的开放性钻研问题，以改良细粒度图像到文本跨模态检索工作的训练，并提出了一种通过揭示StyleGAN2模型暗藏的语义信息来加强配对数据的新框架。具体来说，作者首先在给定的数据集上训练StyleGAN2模型。而后，将实在图像投影回StyleGAN2的潜在空间，以取得潜在代码。为了使生成的图像具备可操作性，进一步引入了潜在空间对齐模块来学习StyleGAN2潜在代码与相应文本字幕特色之间的对齐。当进行在线配对数据加强时，作者首先通过随机token替换生成加强文本，而后将加强文本传递到潜在空间对齐模块以输入潜在代码，最初将潜在代码馈送到StyleGAN2以生成加强图像。作者在两个公共跨模态检索数据集上评估了本文的加强数据办法的有效性，其中有心愿的试验结果表明，加强的文本-图像对数据能够与原始数据一起训练，以进步图像到文本的跨模态检索性能。

1. 论文和代码地址

Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval

论文地址：https://arxiv.org/abs/2207.14428

代码地址：未开源

2. Motivation

为基于深度学习的模型训练收集大量数据标注通常比拟艰难或低廉，因而主动数据裁减已被宽泛用作进步模型性能的实用技术。现有办法次要局限于单模态数据加强。具体而言，视觉Transformer采纳了随机加强和随机擦除，以进步模型性能。然而，目前对于成对跨模态文本图像数据的数据加强技术的钻研很少。如果想同时对文本和图像进行数据裁减，并构建有用的文本图像对，挑战仿佛是：如何生成具备雷同语义信息的裁减文本图像对？

为了解决图像到文本跨模态检索工作的成对数据加强问题，作者提出了一种新的成对文本图像数据加强算法，该算法能够与以后风行的单模态数据加强策略一起应用，并且易于插入现有的检索办法。具体而言，因为文本是由各种词token的组合造成的，因而减少语义词组合的数量能够是一种简略而无效的办法，以产生更多样化的文本特色，从而实现持重的推理。这意味着能够随机替换文本题目中的局部单词，以构建加强文本。为了进一步匹配加强文本和图像之间的语义一致性，作者从加强文本生成加强图像。

作者利用StyleGAN2模型，该模型能够生成高质量和多样性的图像。值得注意的是，作者在没有条件文本输出的状况下训练StyleGAN2，否则模型生成性能将受到无限的文本图像对的限度。因为StyleGAN的潜在空间W已被证实与语义内容拆散，StyleGAN2的分离性使得可能对生成的图像进行无效的语义操作。为此，作者首先将实在图像投影回经过训练的StyleGAN2的潜在空间W，在那里能够取得可用于重建给定图像的潜在代码W。利用投影的w和相应的文本题目，将文本特色映射到空间w，并学习成对w-文本特色示意之间的对齐模型。该过程如上图所示。作者将加强文本输出到经过训练的潜在空间对齐模块中，输入能够用作StyleGAN2的潜在代码w，以生成加强图像。因而，能够取得语义统一的成对加强文本图像数据。

为了评估加强配对数据的有效性，作者对细粒度图像到文本跨模态检索工作进行了试验。受现有生成模型生成能力的限度，很难生成具备多个对象的图像，例如COCO数据集的图像。最近提出的XMC-GAN采纳简单的体系结构来生成像样的COCO图像，这不可能在检索训练期间从文本在线生成加强图像。因而，这里重点关注具备单对象图像的数据集。

在图像到文本跨模态检索工作中，给定一个模态（例如文本）的样本，模型须要从另一个模态中找到相应的数据样本（例如图像），反之亦然。因为本文的跨模态数据加强办法能够在线提供有限的原始文本-图像对，因而能够在现有数据加强办法和检索模型的根底上应用。作者应用多个设置和模型骨干进行了试验，试验表明，应用本文的办法的模型能够在两个公共数据集上进步原始性能。最初，作者还给出了裁减数据的定性后果。

在本文中，作者开发了一种新的框架来生成新的文本-图像数据对，以解决跨模态数据裁减问题。本文的模型包含几个新的奉献：（i）提出了一种办法来解决生成的文本和图像之间语义一致性的挑战，这能够通过StyleGAN2模型的投影潜在代码来实现；（ii）作者用随机办法结构增广文本token替换，而后将加强文本传递到潜在空间对齐模块以给出潜在代码，这些代码被馈送到StyleGAN2中以生成加强图像；（iii）作者将所提出的算法利用于图像到文本检索工作，并进步了基准模型的性能。

3. 办法

本文提出的成对穿插模态数据加强办法如上图所示。整个流程可总结为以下三阶段训练计划：

阶段1：仅应用图像训练StyleGAN2模型。StyleGAN2模型将随机噪声空间Z映射到款式潜在空间W，该空间被拆散并有助于生成高质量和多样性的图像。

阶段2：将实在图像投影回潜在空间W，并取得给定图像的潜在代码w。而后，学习一个潜在空间对齐模块$E_{l}$ , 其中，文本特色映射为与相应的潜在代码w对齐。

阶段3：以在线形式进行跨模态数据裁减。通过随机token替换来结构加强文本。而后，将加强文本输出到经过训练的对齐模块中$E_{l}$ , 其输入可用作StyleGAN2的潜代码w以生成加强图像。

3.1 Image projection to latent space

StyleGAN2模型能够示意为$G(\cdot): \mathcal{Z} \rightarrow \mathcal{X}$，其中模型应用多层感知器 (MLP) 将初始噪声空间Z映射到款式潜在空间W。而后，StyleGAN2依据解纠缠空间W的潜在代码w生成图像。在给定数据集上训练StyleGAN2模型后，将实在图像投影回潜在空间W。

在这个模块中，将潜在代码w∈ W用于优化。具体地说，首先运行10000个随机噪声输出z，以产生映射的潜代码w=MLP（z）。应用平均值$\mu_{\mathrm{w}}=\mathbb{E}_{\mathrm{Z}} \operatorname{MLP}(\mathrm{z})$作为w的初始化，并且w的近似尺度能够设置为：$\sigma_{\mathrm{w}}^{2}=\mathbb{E}_{\mathrm{z}}\left\|\mathrm{MLP}(\mathrm{z})-\mu_{\mathrm{w}}\right\|_{2}^{2}$，是到核心的均匀平方欧几里德间隔。作者采纳$\tilde{\mathrm{w}}=\mathrm{w}+\mathcal{N}\left(0,0.05 \sigma_{\mathrm{w}} k^{2}\right)$作为生成图像的输出，其中从一逐步变为零。高斯噪声在w上的应用减少了优化过程的随机性，并使全局最优解的找到变得稳固。

作者的指标是从投影的潜在代码的重建图像$\mathrm{x}^{\prime}=G(\tilde{\mathrm{w}})$与原始实在图像x雷同。为此，作者采纳感知损失作为优化指标，其能够示意为：

$$\min _{\mathrm{w}} \mathcal{L}_{p}=\|F(\mathrm{x})-F(G(\tilde{\mathrm{w}}))\|_{2}^{2}$$

其中，$F(\cdot)$示意VGG 特征提取模型。优化后果$\mathrm{W}_{o p t}$是能够重建给定实在图像的最靠近的潜码。

3.2 Latent space alignment

对于图像x，将图像投影到潜在空间W，失去相应的潜在码$\mathrm{W}_{o p t}$ 。StyleGAN2的潜在空间W已被证实与语义内容拆散，其具备与文本特色空间雷同的属性。因而能够将文本示意映射到与W雷同的空间。此外，因为文本示意能够随原始文本输出进行语义更改，当能够实现文本特色空间和StyleGAN2潜在空间W之间的多模式对齐时，生成的图像能够用给定的文本进行操作。

具体来说，作者采纳了LSTM$E_l$为了对文本题目进行编码并输入文本示意$\mathrm{t}=E_{l}(S)$, t与w的特色尺寸雷同。因为图像和潜在代码之间以及图像和文本之间的配对关系可用，能够采纳成对排序损失来学习t和$\mathrm{W}_{o p t}$之间的对齐 ,：

$$\min _{\Theta_{E_{l}}} \mathcal{L}_{E_{l}}=\left\|\mathrm{w}_{o p t}-\mathrm{t}\right\|_{2}^{2}$$

$\Theta_{E_{l}}$示意文本编码器$_$的参数 , 这是潜在空间对齐模块，$\mathrm{W}_{o p t}$在训练期间固定。

这是学习文本编码器$_$ 特色空间和StyleGAN2潜在空间W之间对齐的简略而无效的办法，能够利用StyleGAN2的不可分离性并揭示潜在空间W的暗藏语义构造，从而生成的图像能够通过文本进行操作。在对潜在空间对齐模型进行训练后，将文本数据输出到训练后的模型中$_$ , 输入文本示意能够被视为StyleGAN2生成图像的潜在代码w。

3.3 Online paired data generation

依据题目，取得了词汇表由给定数据集的所有现有单词组成。此外，对于题目中的每个单词token，作者采纳spaCy库进行词性标注，例如形容词和名词。而后，作者还收集了一个POS词汇表$V_{p o s}$ , 其中能够从词性标注中检索一组词。

给定题目词token列表$S=\left\{s_{1}, \ldots, s_{N}\right\}$, 作者首先基于替换率在S中抉择局部token , 而后在中随机选取其余token 或$V_{p o s}$ 以替换选定的原始token。随机替换后的token列表能够示意为加强文本数据$S^{\prime}$ 。而后输出加强文本$S^{\prime}$进入经训练的潜在空间对准模块$E_{l}$, 输入$E_{l}\left(S^{\prime}\right)$ 能够用作StyleGAN2生成加强图像的潜在代码$I^{\prime}=G\left(E_{l}\left(S^{\prime}\right)\right)$。值得注意的是，更换率以及加强策略（例如或$V_{p o s}$ ) 是超参数，上面的算法形容给出了残缺的过程。

在一个mini-batch中，有原始文本图像对 = (, ) 以及加强对$D^{\prime}=\left(S^{\prime}, I^{\prime}\right)$ 用于训练。在这里，作者应用提出的在线配对数据加强办法进行跨模态检索工作。$E_{t x t}(\cdot) , E_{i m g}(\cdot)$别离示意文本和图像编码器。$F_{D}=\left(E_{t x t}(S), E_{i m g}(I)\right)$和$F_{D^{\prime}}=\left(E_{t x t}\left(S^{\prime}\right), E_{i m g}\left(I^{\prime}\right)\right)$ 示意mini-batch中原始数据和加强数据的提取特色集。

作者采纳triplet损失来学习文本和图像数据之间的相似性，如下所示：

$$\mathcal{L}_{t r i}=\sum_{D, D^{\prime}}\left[d_{a p}-d_{a n}+m\right]_{+}$$

这意味着当应用图像$I_{a}$时作为anchor样本，配对文本$S_{p}$用作正样本。而后抉择一个文本$S_{n}$或图像$I_{n}$ 来自不同对的样本作为负样本。作为anchor的文本数据的三元组能够以相似的形式结构。求和符号意味着结构三元组，并对mini-batch的所有文本和图像实例进行训练，包含原始数据以及加强数据$D^{\prime}$。为了进步训练的有效性，咱们采纳了难例样本开掘办法。

4.试验

作者有两种文本替换策略，即随机替换和POS替换。这两种策略的区别在于，随机替换从要替换的整个词汇表，而词性替换思考被替换单词的词性token，并检索另一个具备雷同词性token的随机单词来替换。

在上表中，作者展现了应用随机替换策略训练的模型的评估性能。

在上表中，作者给出了POS替换策略的后果，其中替换率 = 0.7用于以下所有试验。

上表展现不同试验设置下的试验后果。

CUB上现有的跨模态检索工作次要集中在类级检索设置上，作者将提出的办法与上表中的各种模型进行了比拟。

上表展现了比照各种Recipe1M instacne级检索基准，评估本文提出的办法的性能。

上表展现了在COCO数据集上的检索后果。

上图展现了从加强文本生成的加强图像的可视化，其中应用随机替换策略。

上图展现了原始图像和加强图像

5. 总结

本文提出了一种新的配对跨模态数据加强框架，该框架能够生成无限量的配对数据来训练跨模式检索模型。具体来说，作者应用随机文本替换策略来生成加强文本。为了从加强文本中生成相应的加强图像，首先采纳StyleGAN2模型生成高质量和多样性的图像。而后，提出通过本文的潜在空间对齐模块来弥合文本和图像数据之间的差距，该模块将文本特色映射到StyleGAN2的潜在空间W。作者应用StyleGAN2的学习对齐模块的输入来生成加强图像，从而取得加强文本-图像对。通过两个公共数据集上的图像到文本检索工作，作者进一步评估了加强数据的品质。试验结果表明，提出的办法能够在几个不同的基准上无效地进步最新模型的性能。

【我的项目举荐】

面向小白的顶会论文外围代码库：https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向小白的YOLO指标检测库：https://github.com/iscyy/yoloair

面向小白的顶刊顶会的论文解析：https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

“点个在看，月薪十万！”
“学会点赞，身价千万！”

【技术交换】

已建设深度学习公众号——FightingCV，关注于最新论文解读、基础知识坚固、学术科研交换，欢送大家关注！！！

请关注FightingCV公众号，并后盾回复ECCV2022即可取得ECCV中稿论文汇总列表。

举荐退出FightingCV交换群，每日会发送论文解析、算法和代码的干货分享，进行学术交流，加群请增加小助手wx：FightngCV666，备注：地区-学校（公司）-名称

本文由mdnice多平台公布