关于人工智能:ECCV2022时尚领域的多模态预训练预训练模型FashionViL在五个下游任务中SOTA

用于示意学习的大规模视觉和语言 (V+L) 预训练已被证实在促成各种上游 V+L 工作方面是无效的。然而，当波及到时尚畛域时，现有的 V+L 办法是不够的，因为它们疏忽了时尚 V+L 数据和上游工作的独特特色。在这项工作中，咱们提出了一种新鲜的以时尚为核心的 V+L 示意学习框架，称为 FashionViL。它蕴含两个新鲜的特定于时尚的预训练任务，专门设计用于利用时尚 V+L 数据的两个外在属性。首先，与 V+L 数据点仅蕴含单个图像 - 文本对的其余域相比，时尚域中可能有多个图像。因而，作者提出了一个 多视图比照学习工作 ，用于将一个图像的视觉示意拉近到另一个图像 + 文本的组合多模态示意。其次，时尚文本（例如产品描述）通常蕴含丰盛的细粒度概念（属性 / 名词短语）。为了利用这一点，引入了 伪属性分类工作 来激励雷同概念的学习单模态（视觉 / 文本）示意相邻。此外，时尚 V+L 工作独特地包含不合乎常见单流或双流架构的工作（例如，文本疏导的图像检索）。因而，作者提出了一种灵便、多功能的 V+L 模型架构，该架构由与模态无关的 Transformer 组成，以便它能够灵便地适应任何上游工作。大量试验表明，本文的 FashionViL 在五个上游工作中实现了最新的技术水平。

FashionViL: Fashion-Focused Vision-and-Language Representation Learning

论文地址：https://arxiv.org/abs/2207.08150

代码地址：https://github.com/brandonhanx/mmf

最近，视觉和语言（V+L）预训练受到越来越多的关注。指标是从大规模的图像 - 文本对中学习多模态示意，以改良各种上游单模态或多模态工作。因为两个次要因素，这些模型已被证实是十分无效的：（i）网 络上有大量的图像 - 文本对收费提供丰盛的训练数据 （不须要额定的正文），以及（ii） 基于 Transformer 的模型架构已被宽泛用于学习多模态输出的上下文示意。

在这项工作中，作者专一于时尚畛域，V+L 预训练仿佛特地适宜。首先，时尚 V + L 数据不仅数量多，而且品质高。在线时尚购物越来越广泛；在电子商务网站上，每个产品详细信息页面 (PDP) 都蕴含产品图像和文本，两者的品质都十分高（即通常由领域专家生成）。其次，在理论利用中，有很多上游工作，比其余畛域多，从多模态产品了解、跨模态检索到文本疏导的图像检索。然而，当利用于时尚畛域时，能够察看到现有的 SOTA V+L 预训练方法与其余畛域相比成果较差。作者认为这是因为它们并非旨在利用时尚 V+L 数据和上游工作的某些独特特色。

特地是，在大多数现有的通用域 V+L 数据集（例如，COCO 和 Flickr30k）中，每个数据点都是单个图像 - 文本对，并且文本通常很简短中。相比之下，时尚数据集次要是从电子商务网站上的 PDP 收集的，因而有两个特点：（i）通常有多个图像与给定文本相关联。一个示例如上图所示。服装“长裙”以三种不同的视图出现，以便在线购物者能够从不同角度查看该服装。(ii) 文本形容中有更多细粒度的概念，因为文本作为产品描述。如上图所示，时尚文本更侧重于服装自身，用十分具体的形容词和名词，在题目、样式和形容中形容其外观。为了证实这在统计上是正确的，作者计算了四个组合时尚数据集和两个组合通用数据集的比率。发现时尚字幕中 82% 的单词是形容词或名词，而通用字幕的这一比例仅为 59%。现有的 V+L 模型中没有一个可能利用时尚数据中的这些个性。

时尚上游工作也比通用畛域的工作更加多样化，对 V+L 预训练模型架构设计提出了挑战。更具体地说，在通用 V+L 域中，现有模型是单流或双流，具体取决于预期的上游工作。例如，对图像和文本标记的连贯进行操作的单流模型实用于多模态交融工作，例如 VQA、VCR 和 RefCOCO。相比之下，双流模型通常设计用于高效的跨模态检索工作。然而，在时尚畛域，除了图文交融和跨模态检索上游工作外，还有一些工作既不适宜单流也不适宜双流架构。例如，文本疏导的图像检索工作不仅须要对参考图像和批改后的文本进行高质量的交融，而且还须要在交融的多模态示意和候选图像之间进行无效匹配。因为时尚上游工作的多样性，现有的模型，无论是单流还是双流，都不具备所需的灵活性和多功能性。

为了克服现有时尚模型的局限性，作者引入了一种新鲜的以时尚为核心的 V+L 示意学习框架，称为 FashionViL。提出了两个以时尚为重点的预训练任务，以充分利用时尚数据的特点。第一个工作是 多视图比照学习（MVC）。给定具备多个图像 / 视图和一个文本形容的时尚数据项，作者认为每种模态（无论是单模态还是多模态）在语义上都应该彼此类似，因为它们都指的是同一个产品。因而，除了常见的图像 - 文本匹配之外，作者提出最小化（a）其视图和文本之一的多模态示意与（b）其余视图之间的间隔。第二个工作是 伪属性分类（PAC），旨在利用形容中丰盛的细粒度时尚概念。具体来说，作者从时尚数据集中提取那些常见的属性 / 名词短语，并构建一个伪属性集。而后，该模型会在预训练期间显式地学习预测这些属性。PAC 激励将具备雷同属性的时尚物品汇集在一起，以便学习的示意变得更具辨别力。作者证实了这些新的预训练任务是无效的，并且是对传统预训练任务的补充，例如图像 - 文本比照学习 (ITC) 和蒙面语言建模 (MLM)。

此外，作者还设计了一个灵便且通用的模型架构，使预训练的模型可能轻松适应各种上游工作。新设计保留了单流模型的优越交融能力和双流模型的可扩展性。至关重要的是，它还投合时尚畛域的独特工作，例如文本疏导的图像检索和服装互补我的项目检索。具体来说，本文的模型由一个图像编码器和一个模态无关的 Transformer 模块组成，它能够用作文本编码器或多模态交融编码器。因而，它能够很容易地针对三个不同的上游用例进行微调：（i）用于联结示意学习的晚期交融单流模式，例如多模态分类；(ii) 用于单模态示意学习的前期交融双流模式，例如跨模态检索；（iii）用于组合示意学习的 early-fusion 双流架构，例如文本疏导的图像检索。

本文的奉献如下：（1）专门针对时尚畛域提出了一种新鲜的 V+L 预训练框架，该框架能够通过两个新的 V+L 预训练任务来利用时尚数据的特殊性。(2) 采纳共享文本编码器和交融编码器引入灵便的架构设计，能够轻松适应一组多样化的时尚上游工作。(3) 为了证实 FashionViL 的泛化性，作者在 5 个时尚 V+L 工作上评估本文的模型：图像到文本检索、文本到图像检索、文本疏导图像检索、（子）类别辨认和配备互补我的项目检索。试验表明，FashionViL 实现了新的最先进技术 (SOTA)，在每个上游工作中都具备统一且显着的性能晋升。

FashionViL 的模型架构如上图(a) 所示，它由一个图像编码器 (IE) 和一个可用于文本编码器 (TE) 和交融编码器 (FE) 的 Transformer 模块组成。具体来说，图像编码器应用 ConvNet 作为其骨干，通过光栅化最终特色图的网格特色，将原始像素转换为视觉嵌入序列。对于文本编码器，作者依照 BERT 将输出句子标记为 WordPieces。每个 sub-word token 的 embedding 是通过将其 word embedding 和可学习的 position embedding 相加失去的，而后是 LN。

模型设计的一个新鲜之处在于 TE 和 FE 的共享 Transformer，这可能灵便地构建各种多模态模型架构，每种模型架构都实用于不同类型的上游工作。例如，上图(b) 显示了一个晚期交融模型架构，其中原始句子和计算的图像嵌入被联结输出到多模态交融编码器中。当应用 Transformer 作为交融编码器时，作者将进一步将模态嵌入增加到视觉嵌入和词嵌入中，帮忙模型辨别模态类型。这种架构和之前很多预训练作品中驰名的单流模型截然不同。而后在上图(c) 中，作者展现了一个前期交融的双流模型架构，其中咱们利用可共享的 Transformer 作为文本编码器。图像编码器和文本编码器的输入与一个简略的点积进行交互，以计算两种模态之间的相似性。这种架构已被宽泛用于高效的大规模跨模态检索。此外，能够将此共享 Transformer 微调为更简单的双流架构变体，如上图(d) 所示。这里，一个流以晚期交融形式运行，而另一个流是图像编码器。

这种架构对于一些具备多模式查问的以时尚为核心的检索工作是必须的，例如，文本疏导的图像检索。留神，以上三种架构中的所有 FE 和 TE 其实都是同一个 Transformer，区别仅仅在于它的输出。

给定一个图像 - 文本对，将其原始视觉输出示意为 $\mathbf{v}_{i}=\left\{\mathbf{v}_{i}^{1}, \ldots, \mathbf{v}_{i}^{K}\right\}$, 其输出词为 $\mathbf{w}_{i}=\left\{\mathbf{w}_{i}^{\mathrm{cls}}, \mathbf{w}_{i}^{1}, \ldots, \mathbf{w}_{i}^{T}\right\}$, 其中下标 i 示意数据集中的第 i 对。在文本序列的结尾插入一个额定的非凡 [CLS] token，以及连贯模态时的多模态序列。在将模型利用于上游工作时，遵循常见的预训练 + 微调 pipeline。

首先介绍两个新的预训练任务。接下来是框架中采纳的其余惯例预训练任务。

每个时尚我的项目通常与多个视图相关联，以提供产品的全面概览。为了利用不同视图之间的互惠信息，作者通常在 (a) 原始视图 v 的视觉示意和 (b) 另一个视图 d 和文本 w 的组合示意之间建设相关性。如果产品只有一个视图，作者会通过随机裁剪或程度翻转给定视图来减少另一个视图。如上图（d）所示，原始视图的视觉示意由图像编码器提取，而合成示意以晚期交融的形式计算。因而，多模态输出 [w; d] 和 v 能够计算为：

$$
s\left(\left[\mathbf{w}_{i} ; \mathbf{d}_{i}\right], \mathbf{v}_{j}\right)=g_{\theta}\left(\mathbf{d}_{i}^{\mathrm{avg}} \mid \mathbf{w}_{i}\right)^{T} g_{\theta}\left(\mathbf{v}_{j}^{\mathrm{avg}}\right),
$$

其中 g 示意将均匀池化特色投影到归一化低维潜在空间中的线性变换。接下来，作者利用两个对称的 InfoNCE 损失来拉近共享潜在空间中匹配的组合示意和视觉示意：

$$
\mathcal{L}_{\text {InfoNCE}}(x, y)=-\mathbb{E}_{(x, y) \sim B} \log \frac{\exp (s(x, y) / \tau)}{\sum_{\hat{y} \in \hat{B}} \exp (s(x, \hat{y}) / \tau)},
$$

$$
\mathcal{L}_{\mathrm{MVC}}=\frac{1}{2}\left[\mathcal{L}_{\text {InfoNCE}}([\mathbf{w} ; \mathbf{d}], \mathbf{v})+\mathcal{L}_{\text {InfoNCE}}(\mathbf{v},[\mathbf{w} ; \mathbf{d}])\right]
$$

其中 τ 是一个可学习的温度，$\hat{B}$ 蕴含正样本 y 和 $|\hat{B}|-1$ 个从 mini-batch 中抽取的负样本。

作者发现时尚形容中有大量细粒度的属性。作者提出从所有可用的文本信息中开掘伪属性概念，包含题目、形容和元信息。具体来说，作者通过 NLTK tokenizer 提取所有名词和形容词，只保留呈现次数超过 100 次的名词和形容词，从而失去 2,232 个属性的列表。作者在上图中展现了前 50 个伪属性的直方图。能够察看到，它们都与时尚畛域真正高度相干。

而后作者探讨如何利用这些开掘进去的概念。本文的指标是让模型在预训练阶段学会显式辨认这些伪属性。咱们将此工作建模为一个多标签分类问题，称为伪属性分类 (PAC)。如图 2(c) 所示，作者会将 PAC 利用于视觉和文本模态，以便两个编码器都能够学习捕捉细粒度的概念。因为这是一个弱监督学习设置，思考到开掘的标签可能是嘈杂的，作者利用标签平滑来生成标签。作者应用 A 示意整个 2,232 个伪属性集，并应用 a 作为每个类的平滑软指标。例如，如果一个样本在地位 0 和 1 有两个实在标签，则 $a_{0}=a_{1}=0.5$ 而 $a_{i}=0(i \neq 0,1)$。指标如下：

$$
\mathcal{L}_{\mathrm{PAC}}=-\mathbb{E}_{(\mathbf{w}, \mathbf{v}) \sim D} \mathbb{E}_{a \sim A}\left[a \log P_{\theta}(a \mid \mathbf{w})+a \log P_{\theta}(a \mid \mathbf{v})\right]
$$

其中 $θ$ 是可学习的参数，每一对 $(\mathbf{w}, \mathbf{V})$ 都是从整个训练集 D 中采样的。

尽管简略的蒙版特色回归已被证实在 V+L 预训练中没有帮忙，但试验发现本文的蒙版 patch 建模版本在时尚畛域是无效的。具体来说，作者疏忽了每个掩码 patch 的特色重建，而是预测离线图像标记器给出的补丁标签。为此，作者首先训练一个离散的 VAE 作为具备感知损失的时尚图像的图像标记器。作者还采纳指数挪动均匀（EMA）来更新码本，这被证实对进步码字的利用率很有用。作者通过分块掩蔽策略将 25% 的 patch 特色随机替换为零。因为当初每个 patch 都有离散标签，因而能够通过优化训练模型来预测每个掩码 patch$\mathbf{v}_{\mathbf{m}}$ 的标签，给定残余的 patch$\mathbf{v} \backslash \mathbf{m}$：

$$
\mathcal{L}_{\mathrm{MPFC}}=-\mathbb{E}_{(\mathbf{w}, \mathbf{v}) \sim D} \log P_{\theta}\left(\mathbf{v}_{\mathbf{m}}^{\mathbf{t}} \mid \mathbf{v} \backslash \mathbf{m}, \mathbf{w}\right)
$$

其中 $\mathbf{v}_{\mathbf{m}}^{\mathbf{t}}$ 是掩码 patch 的预计指标标签。

作者还应用 ITC 来激励两个单模态示意在潜在空间中靠近。如图 2(c) 所示，w 和 v 的相似性是通过两个线性变换 f 和 g 投影到潜在空间后的均匀池化特色的点积来掂量的：$s\left(\mathbf{w}_{i}, \mathbf{v}_{j}\right)=f_{\theta}\left(\mathbf{w}_{i}^{\text {avg}}\right)^{T} g_{\theta}\left(\mathbf{v}_{j}^{\text {avg}}\right)$。ITC 损失为：

$$
\mathcal{L}_{\mathrm{ITC}}=\frac{1}{2}\left[\mathcal{L}_{\mathrm{InfoNCE}}(\mathbf{w}, \mathbf{v})+\mathcal{L}_{\operatorname{InfoNCE}}(\mathbf{v}, \mathbf{w})\right]
$$

在 MLM 中，作者以 15% 的概率随机屏蔽掉输出词，并将属于被屏蔽词 $\mathbf{w} _{\mathbf{m}}$ 的所有子词替换为非凡标记 [MASK]。MLM 的指标是通过对四周单词 $\mathbf{w} \backslash \mathbf{m}$ 和所有图像块 v 的察看，通过最小化负对数似然来预测这些掩码子词：

$$
\mathcal{L}_{\mathrm{MLM}}=-\mathbb{E}_{(\mathbf{w}, \mathbf{v}) \sim D} \log P_{\theta}\left(\mathbf{w}_{\mathbf{m}} \mid \mathbf{w} \backslash \mathbf{m}, \mathbf{v}\right)
$$

在 ITM 中，输出是图像 - 文本对，指标是二进制标签 z ∈ {0, 1}，批示每个输出对是否匹配。作者从 ITC 计算的相似矩阵 $s\left(\mathbf{w}_{i}, \mathbf{V}_{j}\right)$ 中对难负对进行采样，而后制作一个蕴含 50% 负对的小批量 H。在最初一层提取 [CLS] 的暗藏输入来示意两种模态的联结示意，而后将其输出 FC 层进行二分类。作者对 ITM 利用穿插熵损失：

$$
\mathcal{L}_{\mathrm{ITM}}=-\mathbb{E}_{(\mathbf{w}, \mathbf{v}) \sim H} \log P_{\theta}(z \mid \mathbf{w}, \mathbf{v})
$$

用于预训练的数据集的统计信息。

应用 KaleidoBERT 中应用的协定在 FashionGen 上进行跨模态检索的后果

FashionGen 上的跨模态检索全面评估后果。

FashionIQ 上的文本疏导图像检索后果。

FashionGen 上的类别 / 子类别辨认后果。

PolyvoreOutfits 上的服装互补物品检索后果。

应用 ITR、TIR、TGIR、SCR 和 OCIR 作为上游工作对预训练任务进行评估。

从 FashionViL 学习到的视觉 / 文本 / 联结示意的 T-SNE。

作者提出了 FashionViL，这是一种新鲜的端到端大规模预训练框架，用于时尚畛域的 V+L 示意学习。作者还提出了两个无效的特定于时尚的预训练任务，并引入了一种新鲜的与模态无关的文本 / 交融编码器，用于灵便且通用的多模态架构。本文的 FashionViL 在 5 个风行的时尚相干工作上以卓越的效率实现了新的 SOTA 性能。

面向小白的顶会论文外围代码库：https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向小白的 YOLO 指标检测库：https://github.com/iscyy/yoloair

面向小白的顶刊顶会的论文解析：https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

“点个在看，月薪十万！”

“学会点赞，身价千万！”

已建设深度学习公众号——FightingCV，关注于最新论文解读、基础知识坚固、学术科研交换，欢送大家关注！！！

请关注 FightingCV 公众号，并后盾回复 ECCV2022 即可取得 ECCV 中稿论文汇总列表。

举荐退出 FightingCV交换群，每日会发送论文解析、算法和代码的干货分享，进行学术交流，加群请增加小助手 wx：FightngCV666，备注： 地区 - 学校（公司）- 名称

本文由 mdnice 多平台公布

关于人工智能:ECCV2022时尚领域的多模态预训练预训练模型FashionViL在五个下游任务中SOTA

ECCV2022 | 时尚畛域的多模态预训练预训练模型 FashionViL，在五个上游工作中 SOTA！代码已开源！

【写在后面】

1. 论文和代码地址

2. 动机

3. 办法

3.1 Model overview

3.2 Pre-training tasks

Multi-view contrastive learning (MVC)

Pseudo-attribute classification (PAC)

Masked patch feature classification (MPFC)

Image-text contrastive learning (ITC)

Masked language modeling (MLM)

Image-text matching (ITM)

4. 试验

5. 总结

【我的项目举荐】

【技术交换】