关于人工智能:MM2022-用StyleGAN进行数据增强真的太好用了

36次阅读

共计 5986 个字符,预计需要花费 15 分钟才能阅读完成。

MM2022 | 用 StyleGAN 进行数据加强,真的太好用了

【写在后面】

本文钻研了生成文本 - 图像对的开放性钻研问题,以改良细粒度图像到文本跨模态检索工作的训练,并提出了一种通过揭示 StyleGAN2 模型暗藏的语义信息来加强配对数据的新框架。具体来说,作者首先在给定的数据集上训练 StyleGAN2 模型。而后,将实在图像投影回 StyleGAN2 的潜在空间,以取得潜在代码。为了使生成的图像具备可操作性,进一步引入了潜在空间对齐模块来学习 StyleGAN2 潜在代码与相应文本字幕特色之间的对齐。当进行在线配对数据加强时,作者首先通过随机 token 替换生成加强文本,而后将加强文本传递到潜在空间对齐模块以输入潜在代码,最初将潜在代码馈送到 StyleGAN2 以生成加强图像。作者在两个公共跨模态检索数据集上评估了本文的加强数据办法的有效性,其中有心愿的试验结果表明,加强的文本 - 图像对数据能够与原始数据一起训练,以进步图像到文本的跨模态检索性能。

1. 论文和代码地址

Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval

论文地址:https://arxiv.org/abs/2207.14428

代码地址:未开源

2. Motivation

为基于深度学习的模型训练收集大量数据标注通常比拟艰难或低廉,因而主动数据裁减已被宽泛用作进步模型性能的实用技术。现有办法次要局限于单模态数据加强。具体而言,视觉 Transformer 采纳了随机加强和随机擦除,以进步模型性能。然而,目前对于成对跨模态文本图像数据的数据加强技术的钻研很少。如果想同时对文本和图像进行数据裁减,并构建有用的文本图像对,挑战仿佛是:如何生成具备雷同语义信息的裁减文本图像对?

为了解决图像到文本跨模态检索工作的成对数据加强问题,作者提出了一种新的成对文本图像数据加强算法,该算法能够与以后风行的单模态数据加强策略一起应用,并且易于插入现有的检索办法。具体而言,因为文本是由各种词 token 的组合造成的,因而减少语义词组合的数量能够是一种简略而无效的办法,以产生更多样化的文本特色,从而实现持重的推理。这意味着能够随机替换文本题目中的局部单词,以构建加强文本。为了进一步匹配加强文本和图像之间的语义一致性,作者从加强文本生成加强图像。

作者利用 StyleGAN2 模型,该模型能够生成高质量和多样性的图像。值得注意的是,作者在没有条件文本输出的状况下训练 StyleGAN2,否则模型生成性能将受到无限的文本图像对的限度。因为 StyleGAN 的潜在空间 W 已被证实与语义内容拆散,StyleGAN2 的分离性使得可能对生成的图像进行无效的语义操作。为此,作者首先将实在图像投影回经过训练的 StyleGAN2 的潜在空间 W,在那里能够取得可用于重建给定图像的潜在代码 W。利用投影的 w 和相应的文本题目,将文本特色映射到空间 w,并学习成对 w - 文本特色示意之间的对齐模型。该过程如上图所示。作者将加强文本输出到经过训练的潜在空间对齐模块中,输入能够用作 StyleGAN2 的潜在代码 w,以生成加强图像。因而,能够取得语义统一的成对加强文本图像数据。

为了评估加强配对数据的有效性,作者对细粒度图像到文本跨模态检索工作进行了试验。受现有生成模型生成能力的限度,很难生成具备多个对象的图像,例如 COCO 数据集的图像。最近提出的 XMC-GAN 采纳简单的体系结构来生成像样的 COCO 图像,这不可能在检索训练期间从文本在线生成加强图像。因而,这里重点关注具备单对象图像的数据集。

在图像到文本跨模态检索工作中,给定一个模态(例如文本)的样本,模型须要从另一个模态中找到相应的数据样本(例如图像),反之亦然。因为本文的跨模态数据加强办法能够在线提供有限的原始文本 - 图像对,因而能够在现有数据加强办法和检索模型的根底上应用。作者应用多个设置和模型骨干进行了试验,试验表明,应用本文的办法的模型能够在两个公共数据集上进步原始性能。最初,作者还给出了裁减数据的定性后果。

在本文中,作者开发了一种新的框架来生成新的文本 - 图像数据对,以解决跨模态数据裁减问题。本文的模型包含几个新的奉献:(i)提出了一种办法来解决生成的文本和图像之间语义一致性的挑战,这能够通过 StyleGAN2 模型的投影潜在代码来实现;(ii)作者用随机办法结构增广文本 token 替换,而后将加强文本传递到潜在空间对齐模块以给出潜在代码,这些代码被馈送到 StyleGAN2 中以生成加强图像;(iii)作者将所提出的算法利用于图像到文本检索工作,并进步了基准模型的性能。

3. 办法

本文提出的成对穿插模态数据加强办法如上图所示。整个流程可总结为以下三阶段训练计划:

阶段 1:仅应用图像训练 StyleGAN2 模型。StyleGAN2 模型将随机噪声空间 Z 映射到款式潜在空间 W,该空间被拆散并有助于生成高质量和多样性的图像。

阶段 2:将实在图像投影回潜在空间 W,并取得给定图像的潜在代码 w。而后,学习一个潜在空间对齐模块 $E_{l}$ , 其中,文本特色映射为与相应的潜在代码 w 对齐。

阶段 3:以在线形式进行跨模态数据裁减。通过随机 token 替换来结构加强文本。而后,将加强文本输出到经过训练的对齐模块中 $E_{l}$ , 其输入可用作 StyleGAN2 的潜代码 w 以生成加强图像。

3.1 Image projection to latent space

StyleGAN2 模型能够示意为 $G(\cdot): \mathcal{Z} \rightarrow \mathcal{X}$,其中模型应用多层感知器 (MLP) 将初始噪声空间 Z 映射到款式潜在空间 W。而后,StyleGAN2 依据解纠缠空间 W 的潜在代码 w 生成图像。在给定数据集上训练 StyleGAN2 模型后,将实在图像投影回潜在空间 W。

在这个模块中,将潜在代码 w∈ W 用于优化。具体地说,首先运行 10000 个随机噪声输出 z,以产生映射的潜代码 w =MLP(z)。应用平均值 $\mu_{\mathrm{w}}=\mathbb{E}_{\mathrm{Z}} \operatorname{MLP}(\mathrm{z})$ 作为 w 的初始化,并且 w 的近似尺度能够设置为:$\sigma_{\mathrm{w}}^{2}=\mathbb{E}_{\mathrm{z}}\left\|\mathrm{MLP}(\mathrm{z})-\mu_{\mathrm{w}}\right\|_{2}^{2}$,是到核心的均匀平方欧几里德间隔。作者采纳 $\tilde{\mathrm{w}}=\mathrm{w}+\mathcal{N}\left(0,0.05 \sigma_{\mathrm{w}} k^{2}\right)$ 作为生成图像的输出,其中𝑘 从一逐步变为零。高斯噪声在 w 上的应用减少了优化过程的随机性,并使全局最优解的找到变得稳固。

作者的指标是从投影的潜在代码的重建图像 $\mathrm{x}^{\prime}=G(\tilde{\mathrm{w}})$ 与原始实在图像 x 雷同。为此,作者采纳感知损失作为优化指标,其能够示意为:

$$
\min _{\mathrm{w}} \mathcal{L}_{p}=\|F(\mathrm{x})-F(G(\tilde{\mathrm{w}}))\|_{2}^{2}
$$

其中,$F(\cdot)$ 示意 VGG 特征提取模型。优化后果 $\mathrm{W}_{o p t}$ 是能够重建给定实在图像的最靠近的潜码。

3.2 Latent space alignment

对于图像 x,将图像投影到潜在空间 W,失去相应的潜在码 $\mathrm{W}_{o p t}$。StyleGAN2 的潜在空间 W 已被证实与语义内容拆散,其具备与文本特色空间雷同的属性。因而能够将文本示意映射到与 W 雷同的空间。此外,因为文本示意能够随原始文本输出进行语义更改,当能够实现文本特色空间和 StyleGAN2 潜在空间 W 之间的多模式对齐时,生成的图像能够用给定的文本进行操作。

具体来说,作者采纳了 LSTM$E_l$ 为了对文本题目进行编码𝑆 并输入文本示意 $\mathrm{t}=E_{l}(S)$, t 与 w 的特色尺寸雷同。因为图像和潜在代码之间以及图像和文本之间的配对关系可用,能够采纳成对排序损失来学习 t 和 $\mathrm{W}_{o p t}$ 之间的对齐 ,:

$$
\min _{\Theta_{E_{l}}} \mathcal{L}_{E_{l}}=\left\|\mathrm{w}_{o p t}-\mathrm{t}\right\|_{2}^{2}
$$

$\Theta_{E_{l}}$ 示意文本编码器 $𝐸_𝑙$ 的参数 , 这是潜在空间对齐模块,$\mathrm{W}_{o p t}$ 在训练期间固定。

这是学习文本编码器 $𝐸_𝑙$ 特色空间和 StyleGAN2 潜在空间 W 之间对齐的简略而无效的办法,能够利用 StyleGAN2 的不可分离性并揭示潜在空间 W 的暗藏语义构造,从而生成的图像能够通过文本进行操作。在对潜在空间对齐模型进行训练后,将文本数据输出到训练后的模型中 $𝐸_𝑙$ , 输入文本示意能够被视为 StyleGAN2 生成图像的潜在代码 w。

3.3 Online paired data generation

依据题目,取得了词汇表𝑉 由给定数据集的所有现有单词组成。此外,对于题目中的每个单词 token,作者采纳 spaCy 库进行词性标注,例如形容词和名词。而后,作者还收集了一个 POS 词汇表 $V_{p o s}$ , 其中能够从词性标注中检索一组词。

给定题目词 token 列表 $S=\left\{s_{1}, \ldots, s_{N}\right\}$, 作者首先基于替换率𝑟在 S 中抉择局部 token , 而后在中随机选取其余 token 𝑉 或 $V_{p o s}$ 以替换选定的原始 token。随机替换后的 token 列表能够示意为加强文本数据 $S^{\prime}$。而后输出加强文本 $S^{\prime}$ 进入经训练的潜在空间对准模块 $E_{l}$, 输入 $E_{l}\left(S^{\prime}\right)$ 能够用作 StyleGAN2 生成加强图像的潜在代码 $I^{\prime}=G\left(E_{l}\left(S^{\prime}\right)\right)$。值得注意的是,更换率𝑟 以及加强策略(例如𝑉 或 $V_{p o s}$ ) 是超参数,上面的算法形容给出了残缺的过程。

在一个 mini-batch 中,有原始文本图像对𝐷 = (𝑆, 𝐼) 以及加强对 $D^{\prime}=\left(S^{\prime}, I^{\prime}\right)$ 用于训练。在这里,作者应用提出的在线配对数据加强办法进行跨模态检索工作。$E_{t x t}(\cdot) , E_{i m g}(\cdot)$ 别离示意文本和图像编码器。$F_{D}=\left(E_{t x t}(S), E_{i m g}(I)\right)$ 和 $F_{D^{\prime}}=\left(E_{t x t}\left(S^{\prime}\right), E_{i m g}\left(I^{\prime}\right)\right)$ 示意 mini-batch 中原始数据和加强数据的提取特色集。

作者采纳 triplet 损失来学习文本和图像数据之间的相似性,如下所示:

$$
\mathcal{L}_{t r i}=\sum_{D, D^{\prime}}\left[d_{a p}-d_{a n}+m\right]_{+}
$$

这意味着当应用图像 $I_{a}$ 时作为 anchor 样本,配对文本 $S_{p}$ 用作正样本。而后抉择一个文本 $S_{n}$ 或图像 $I_{n}$ 来自不同对的样本作为负样本。作为 anchor 的文本数据的三元组能够以相似的形式结构。求和符号意味着结构三元组,并对 mini-batch 的所有文本和图像实例进行训练,包含原始数据𝐷 以及加强数据 $D^{\prime}$。为了进步训练的有效性,咱们采纳了难例样本开掘办法。

4. 试验

作者有两种文本替换策略,即随机替换和 POS 替换。这两种策略的区别在于,随机替换从要替换的整个词汇表,而词性替换思考被替换单词的词性 token,并检索另一个具备雷同词性 token 的随机单词来替换。

在上表中,作者展现了应用随机替换策略训练的模型的评估性能。

在上表中,作者给出了 POS 替换策略的后果,其中替换率𝑟 = 0.7 用于以下所有试验。

上表展现不同试验设置下的试验后果。

CUB 上现有的跨模态检索工作次要集中在类级检索设置上,作者将提出的办法与上表中的各种模型进行了比拟。

上表展现了比照各种 Recipe1M instacne 级检索基准,评估本文提出的办法的性能。

上表展现了在 COCO 数据集上的检索后果。

上图展现了从加强文本生成的加强图像的可视化,其中应用随机替换策略。

上图展现了原始图像和加强图像

5. 总结

本文提出了一种新的配对跨模态数据加强框架,该框架能够生成无限量的配对数据来训练跨模式检索模型。具体来说,作者应用随机文本替换策略来生成加强文本。为了从加强文本中生成相应的加强图像,首先采纳 StyleGAN2 模型生成高质量和多样性的图像。而后,提出通过本文的潜在空间对齐模块来弥合文本和图像数据之间的差距,该模块将文本特色映射到 StyleGAN2 的潜在空间 W。作者应用 StyleGAN2 的学习对齐模块的输入来生成加强图像,从而取得加强文本 - 图像对。通过两个公共数据集上的图像到文本检索工作,作者进一步评估了加强数据的品质。试验结果表明,提出的办法能够在几个不同的基准上无效地进步最新模型的性能。

【我的项目举荐】

面向小白的顶会论文外围代码库:https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向小白的 YOLO 指标检测库:https://github.com/iscyy/yoloair

面向小白的顶刊顶会的论文解析:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

“点个在看,月薪十万!”
“学会点赞,身价千万!”

【技术交换】

已建设深度学习公众号——FightingCV,关注于最新论文解读、基础知识坚固、学术科研交换,欢送大家关注!!!

请关注 FightingCV 公众号,并后盾回复 ECCV2022 即可取得 ECCV 中稿论文汇总列表。

举荐退出 FightingCV交换群 ,每日会发送论文解析、算法和代码的干货分享,进行学术交流,加群请增加小助手 wx:FightngCV666,备注: 地区 - 学校(公司)- 名称

本文由 mdnice 多平台公布

正文完
 0