共计 2614 个字符,预计需要花费 7 分钟才能阅读完成。
转载自:机器之心
原文地址:盘点多模态深度学习这几年!
近年来,NLP 和 CV 畛域在办法上冲破一直。不只是单模态模型有所停顿,而大规模多模态办法也曾经成为十分热门的钻研畛域。
在最近的一篇论文中,研究者 Matthias Aßenmacher 回顾梳理了深度学习这两个子畛域以后最先进的钻研办法,并尝试进行全面的概述。此外,还探讨了将一种模态转换为另一种模态的建模框架(第 3.1 章和第 3.2 章),以及利用一种模态加强另一种模态的表征学习模型(第 3.3 章和第 3.4 章)。研究者引入了偏重同时解决两种模态的架构(第 3.5 章)作为第二局部的序幕。最初,论文还涵盖了其余模态(第 4.1 章和第 4.2 章)以及通用多模态模型(第 4.3 章),这些模型可能在一个对立架构中解决不同模态上的不同工作。一个乏味的利用(「生成艺术」,第 4.4 章)最终成为这篇综述的精益求精之笔。
01 目录
02 多模态深度学习简介
人类有五种根本感官:听觉、触觉、嗅觉、味觉和视觉。借由这五种模式,咱们得以感知和了解四周的世界。「多模态」则意味着同时利用多种信息渠道的联合来了解周围环境。例如,当蹒跚学步的孩子学习「猫」这个词时,他们会用不同的形式大声说出这个词,指着猫,收回相似「喵喵」的声音。AI 钻研人员以人类学习过程为范式,联合不同模态来训练深度学习模型。
从外表上看,深度学习算法通过训练神经网络以优化损失函数来优化定义的指标函数。优化,行将损失最小化,通过称为梯度降落的数值优化程序实现。因而,深度学习模型只能解决数字输出,也只能产生数字输入。然而,在多模态工作中,咱们常常遇到图片或文本等非结构化数据。所以,对于多模态工作的首要问题是如何用数字表征输出;其次则是如何失当地组合不同模态。
例如,训练深度学习模型来生成一张猫的图片可能就是一个典型的工作。首先,计算机须要了解文本输出「猫」,而后以某种形式将这些信息转换成特定图像。因而,确定输出文本中单词间的上下文关系和输入图像中像素点间的空间关系很有必要。对幼儿来说可能很容易这件事,对于计算机却可能是微小挑战。二者都必须对「猫」这个词有肯定了解,包含这个动物的外延和外观。
以后深度学习畛域一种常见办法是生成嵌入,用数字模式将猫表征为某个潜在空间中的向量。为了实现这一点,近年来曾经开发出各种办法和算法架构。本文概述了最先进(SOTA)多模态深度学习中应用的各类办法,以克服非结构化数据和不同模态输出组合带来的挑战。
03 章节介绍
因为多模态模型通常以文本和图像作为输出或输入,所以第 2 章着重介绍了自然语言解决(NLP)和计算机视觉(CV)办法。NLP 畛域的办法次要在于文本数据处理,而 CV 多进行图像处理。
对于 NLP(第 2.1 大节)的一个十分重要的概念叫做词嵌入,简直是当初所有多模态深度学习架构的重要组成部分。这一概念也为基于 Transformer 的模型奠定了根底,比方 BERT,该模型在几个 NLP 工作中都获得了重大进展。特地是 Transformer 的自注意力机制彻底改变了 NLP 模型,这也是为什么大多数 NLP 模型将 Transformer 作为外围。
在计算机视觉(第 2.2 大节)中,作者介绍里不同的网络架构,即 ResNet、EfficientNet、SimCLR 和 BYOL。在这两个畛域,比拟不同办法及其在富裕挑战性的基准上体现如何是十分有意义的。因而,第 2 章末 2.3 大节对 CV 和 NLP 的不同数据集、预训练任务和基准进行了全面概括。
第 3 章侧重于不同的多模态架构,涵盖文本和图像的多种组合形式,提出的模型相组合并推动了 NLP 和 CV 不同办法的钻研。首先介绍了 Img2Text 工作(第 3.1 大节)、用于指标辨认的 Microsoft COCO 数据集和用于图像捕捉的 Meshed-Memory Transformer。
另外,钻研人员开发了基于短文本 prompt 生成图片的办法(第 3.2 大节)。实现这项工作的第一个模型是生成反抗网络(GAN)和变分自编码器(VAE)。近年来,这些办法不断改进,明天的 SOTA Transformer 架构和文本疏导的扩散模型如 DALL- E 和 GLIDE 都获得了显著成绩。另一个乏味的问题是,如何利用图像来反对语言模型(第 3.3 大节)。可通过程序嵌入、更高级的理论嵌入或间接在 Transformer 外部实现。
也能够看一下反对文本的 CV 模型,如 CLIP、ALIGN 和 Florence(第 3.4 大节)。根底模型的应用意味着模型重用(例如 DALL-E 2 中的 CLIP),以及文本与图像连贯的比照损失。此外,zero-shot 使得通过微调就可毫不费力对新的和不可见的数据进行分类。特地是用于图像分类和生成的开源架构 CLIP 去年颇受关注。第 3 章末介绍了同时解决文本和图像的一些其余架构(第 3.5 大节)。
例如,Data2Sec 用雷同的学习办法解决语音、视觉和语言,并尝试以此找到一种通用办法,能在一个架构中解决不同模态。此外,VilBert 扩大了风行的 BERT 架构,通过实现独特注意力来解决图像和文本输出。这种办法也用于谷歌的 Deepmind Flamingo。此外,Flamingo 的指标是通过少样本学习和解冻预训练的视觉和语言模型,用单个视觉语言模型解决多个工作。
最初一章(第 4 章)介绍了可能解决文本和图像以外模态的办法,例如视频、语音或表格数据。总体目标是摸索通用的多模态架构,并非为模态而模态,而是为从容应对挑战。因而还需解决多模态交融和对齐的问题,决定要应用联结表征还是协调表征(第 4.1 大节)。此外,还将更具体地介绍如何精准组合结构化数据和非结构化数据(第 4.2 大节)。
作者还提出了近年来造成的不同交融策略,本文通过生存剖析和经济学中的两个用例加以阐明。除此之外,另一个乏味的钻研问题是,如何在一个所谓的多用途模型(第 4.3 大节)中解决不同工作,就像谷歌钻研人员在其「Pathway」模型中创立的那样。最初,文章会展现多模态深度学习在艺术场景中的一个典型利用,应用 DALL- E 等图像生成模型来创立生成艺术畛域的艺术作品(第 4.4 大节)。
- 书籍举荐 -《基于深度学习的计算机视觉》
- 一文梳理水下指标检测办法汇总
- 书籍举荐 -《视频跟踪:实践与实际》
- 书籍举荐 -《基于 Python 和 OpenGL 的图形框架开发》
- BEVGen:从鸟瞰图布局生成环视街景图像
- 一文尽览 | 轨迹预测二十年倒退全面回顾!
- 2022 年最值得关注的十篇论文,你都看了吗?