共计 3427 个字符,预计需要花费 9 分钟才能阅读完成。
本周介绍了 5 个多模态的深度学习模型:
CLIP 连贯文本与图像、BLIP 对立图文了解与生成、LightningDot 减速图文跨模态检索、Data2Vec 兼容文本与音频、Perceiver 进一步模仿人类解决不同模态数据。
如果你感觉咱们分享的内容还不错,请不要悭吝给咱们一些收费的激励:点赞、喜爱、或者分享给你的小伙伴。
https://github.com/towhee-io/towhee/tree/main/towhee/models
多模态顶流模型 CLIP 连贯语言与视觉
出品人:Towhee 技术团队 顾梦佳
OpenAI 从互联网收集了 4 亿对 (图像、文本) 的数据集,在预训练之后,用自然语言形容所学的视觉概念,从而使模型可能在 zero-shot 状态下转移到上游工作。这种设计相似于 GPT-2 和 GPT-3 的“zero-shot”,因而 CLIP¹ 能够不间接针对基准进行优化,同时体现出了优越的性能。试验表明,CLIP 模型的稳健性差距(robustness gap)放大了 75%,性能和 ResNet50 相当。无需应用其训练的 128 万个训练样本中的任何一个,即可匹敌原始 ResNet50 在 ImageNet 上 Zero-shot 的精确度。
Summary of CLIP
CLIP 可能将图像映射到文本形容的类别中。它能够通过自然语言监督无效地学习视觉概念,从而解决目前深度学习支流办法存在的一些问题。如同大部分跨模态框架,CLIP 模型包含图像编码器和文本编码器,通过计算与比拟图像表征与文本表征之间的相似性,对数据集中的图像与文本进行配对。当进行 zero-shot 迁徙工作时,CLIP 将数据集本来的类别标签拓展成更丰盛的文本表白,从而利用预训练模型找到与其最匹配的图像。
相干材料:
- 模型用例:https://towhee.io/image-text-embedding/clip
- 论文:https://arxiv.org/abs/2103.00020
- 更多材料:https://zhuanlan.zhihu.com/p/432590298
对立图文了解与生成,BLIP 为多模态预训练模型带来新思路
出品人:Towhee 技术团队 王翔宇、顾梦佳
BLIP 在模型构造与数据处理上别离进行了翻新与改良,使得多模态模型不再局限于工作类型,从而对立了视觉与语言的跨模态了解与生成。它在诸多上游工作中都获得了 SOTA 的成果,比方图文检索、图像形容(文本生成)、视觉问答。
BLIP: Architecture of Pretrained Model
现在大部分文本 - 图像多模态模型的构造根底大体分为两种,且各自有限度:基于编码器的模型不适用于生成工作,而基于编码器和解码器构造的模型则胜任检索工作。此外,大部分模型所用的数据都来自于网络上的图像文本对,只管性能收益能够通过扩充数据集的规模失去,但该办法仍然存在诸多缺点。面对这些问题,BLIP 提出一种新的图像文本预训练框架,无效地将自举的形式利用到有噪声的网络数据上。模型应用一个形容器生成文本形容,并且通过一个过滤器荡涤数据噪声。
相干材料:
- 模型用例:https://towhee.io/image-text-embedding/blip
- 论文:https://arxiv.org/pdf/2201.12086.pdf
- 更多材料:https://zhuanlan.zhihu.com/p/465788919
图文跨模态检索的黑马模型 LightningDot,千倍提速,不影响准确率!
出品人:Towhee 技术团队 张晨、顾梦佳
多模态预训练曾经推动了视觉和语言钻研的巨大进步。这些大规模的预训练模型尽管胜利,但却有一个致命毛病:因为微小的计算成本(次要来自 Transformer 架构中的跨模态注意力),其推理速度迟缓。当模型被利用到现实生活中时,这样的提早和大量的计算需要重大妨碍了预训练模型的落地生产。LightningDot² 针对视觉 & 文本利用中最成熟的场景——图像 - 文本检索(ITR),提出了一种简略而高效的办法。它能在不影响准确性的状况下,将推理速度放慢数千倍!
Overall Architecture of LightningDot
LightningDOT 通过对三个新的学习指标进行预训练,实现离线提取特色索引。它另外采纳了即时点积匹配与进一步的从新排序,大幅放慢了检索过程,从而打消了耗时的跨模式注意力。试验结果表明,LightningDOT 在 Flickr30k、COCO 和 Multi30K 等多个图文检索数据集的基准中达到了新的技术水平,超过了过后已有的预训练模型,甚至比它们节俭了 1000 倍数量级的工夫。
相干材料:
- 模型用例:https://towhee.io/image-text-embedding/lightningdot
- 论文:https://arxiv.org/pdf/2103.08784.pdf
- 更多材料:https://zhuanlan.zhihu.com/p/387748011
自监督学习框架 data2vec,文本、图像、音频都能行
出品人:Towhee 技术团队 王翔宇、顾梦佳
理论生存中的场景鲜少只有繁多模态的数据,而不同数据通常须要独自的算法模型。置信大家都想过,有没有一个通用的模型可能解决不同类型的数据?Facebook 人工智能研究院就提出了一种可能解决视觉、文本、语音数据的通用自监督框架 data2vec。试验结果表明,data2vec³ 不仅拓宽了业务畛域,在各种工作上(比方图像分类、自然语言了解、语音辨认)也都展现出了具备竞争力的体现,甚至在视觉畛域超过了一些已经的热门算法。
data2vec for different modalities
data2vec 将不同模态的输出都转换成了同一种模式的数据序列,基于 transformer 设计了一个老师 - 学生模式的网络结构。训练时,其外围思路是将数据上进行局部遮蔽,用模型生成潜在示意并预测被遮蔽的局部。为了防止不同模态之间的差异性,data2vec 并没有应用和模态绑定的重建指标(文本,视觉记号,语音单元),而是抉择预测带有上下文的潜在示意。
相干材料:
- 模型用例:https://towhee.io/image-embedding/data2vec
- 论文:https://arxiv.org/pdf/2202.03555.pdf
- 更多材料:https://zhuanlan.zhihu.com/p/463035029
谷歌提出硬核高效的多模态架构 Perceiver
出品人:Towhee 技术团队 徐锦玲、顾梦佳
Perceiver 不须要扭转模型构造就能解决多种模态的数据 ,这更加靠近人类感知行为。与以往的视觉 Transformer 不同,Perceiver 间接在图像的像素层面进行注意力计算,这使得其可能 解决不同尺寸的输出数据。试验对图像、音频、视频、点云数据都进行了测试,结果表明 Perceiver 在不同模态数据的分类工作上均能达到或超过 SoTA 成果。
Perceiver Structure
Perceiver⁴ 模型大体由两种根底构造组成:穿插注意力机制(cross-attention)和 Transformer 编码器(latent transformer)。模型将输出的数据按像素层面开展成一维向量,而后将该向量通过 MLP 失去注意力机制须要的 K、V。另外,模型通过随机初始化失去较小维度的隐向量(latent array),在保障模型复杂度的状况下,能够间接解决任意长的输出,即取得解决不同尺寸图像的能力。最初,通过重叠多个穿插注意力机制和 Transformer 编码器模块,模型可能充沛开掘输出向量的信息。
相干材料:
- 模型用例:https://github.com/towhee-io/towhee/tree/main/towhee/models/perceiver
- 论文:https://arxiv.org/pdf/2103.03206.pdf
- 更多材料:https://zhuanlan.zhihu.com/p/359339175
如果你感觉咱们分享的内容还不错,请不要悭吝给咱们一些激励:点赞、喜爱或者分享给你的小伙伴!
流动信息、技术分享和招聘速递请关注:https://zilliz.gitee.io/welcome/
如果你对咱们的我的项目感兴趣请关注:
用于存储向量并创立索引的数据库 Milvus
用于构建模型推理流水线的框架 Towhee