关于人工智能:2022-全球-AI-模型周报

48次阅读

共计 3427 个字符，预计需要花费 9 分钟才能阅读完成。

本周介绍了 5 个多模态的深度学习模型：
CLIP 连贯文本与图像、BLIP 对立图文了解与生成、LightningDot 减速图文跨模态检索、Data2Vec 兼容文本与音频、Perceiver 进一步模仿人类解决不同模态数据。

如果你感觉咱们分享的内容还不错，请不要悭吝给咱们一些收费的激励：点赞、喜爱、或者分享给你的小伙伴。

https://github.com/towhee-io/towhee/tree/main/towhee/models

出品人：Towhee 技术团队顾梦佳

OpenAI 从互联网收集了 4 亿对 (图像、文本) 的数据集，在预训练之后，用自然语言形容所学的视觉概念，从而使模型可能在 zero-shot 状态下转移到上游工作。这种设计相似于 GPT-2 和 GPT-3 的“zero-shot”，因而 CLIP¹ 能够不间接针对基准进行优化，同时体现出了优越的性能。试验表明，CLIP 模型的稳健性差距（robustness gap）放大了 75%，性能和 ResNet50 相当。无需应用其训练的 128 万个训练样本中的任何一个，即可匹敌原始 ResNet50 在 ImageNet 上 Zero-shot 的精确度。

Summary of CLIP

CLIP 可能将图像映射到文本形容的类别中。它能够通过自然语言监督无效地学习视觉概念，从而解决目前深度学习支流办法存在的一些问题。如同大部分跨模态框架，CLIP 模型包含图像编码器和文本编码器，通过计算与比拟图像表征与文本表征之间的相似性，对数据集中的图像与文本进行配对。当进行 zero-shot 迁徙工作时，CLIP 将数据集本来的类别标签拓展成更丰盛的文本表白，从而利用预训练模型找到与其最匹配的图像。

相干材料：

模型用例：https://towhee.io/image-text-embedding/clip
论文：https://arxiv.org/abs/2103.00020
更多材料：https://zhuanlan.zhihu.com/p/432590298

出品人：Towhee 技术团队王翔宇、顾梦佳

BLIP 在模型构造与数据处理上别离进行了翻新与改良，使得多模态模型不再局限于工作类型，从而对立了视觉与语言的跨模态了解与生成。它在诸多上游工作中都获得了 SOTA 的成果，比方图文检索、图像形容（文本生成）、视觉问答。

BLIP: Architecture of Pretrained Model

现在大部分文本 - 图像多模态模型的构造根底大体分为两种，且各自有限度：基于编码器的模型不适用于生成工作，而基于编码器和解码器构造的模型则胜任检索工作。此外，大部分模型所用的数据都来自于网络上的图像文本对，只管性能收益能够通过扩充数据集的规模失去，但该办法仍然存在诸多缺点。面对这些问题，BLIP 提出一种新的图像文本预训练框架，无效地将自举的形式利用到有噪声的网络数据上。模型应用一个形容器生成文本形容，并且通过一个过滤器荡涤数据噪声。

相干材料：

模型用例：https://towhee.io/image-text-embedding/blip
论文：https://arxiv.org/pdf/2201.12086.pdf
更多材料：https://zhuanlan.zhihu.com/p/465788919

出品人：Towhee 技术团队张晨、顾梦佳

多模态预训练曾经推动了视觉和语言钻研的巨大进步。这些大规模的预训练模型尽管胜利，但却有一个致命毛病：因为微小的计算成本（次要来自 Transformer 架构中的跨模态注意力），其推理速度迟缓。当模型被利用到现实生活中时，这样的提早和大量的计算需要重大妨碍了预训练模型的落地生产。LightningDot² 针对视觉 & 文本利用中最成熟的场景——图像 - 文本检索（ITR），提出了一种简略而高效的办法。它能在不影响准确性的状况下，将推理速度放慢数千倍！

Overall Architecture of LightningDot

LightningDOT 通过对三个新的学习指标进行预训练，实现离线提取特色索引。它另外采纳了即时点积匹配与进一步的从新排序，大幅放慢了检索过程，从而打消了耗时的跨模式注意力。试验结果表明，LightningDOT 在 Flickr30k、COCO 和 Multi30K 等多个图文检索数据集的基准中达到了新的技术水平，超过了过后已有的预训练模型，甚至比它们节俭了 1000 倍数量级的工夫。

相干材料：

模型用例：https://towhee.io/image-text-embedding/lightningdot
论文：https://arxiv.org/pdf/2103.08784.pdf
更多材料：https://zhuanlan.zhihu.com/p/387748011

出品人：Towhee 技术团队王翔宇、顾梦佳

理论生存中的场景鲜少只有繁多模态的数据，而不同数据通常须要独自的算法模型。置信大家都想过，有没有一个通用的模型可能解决不同类型的数据？Facebook 人工智能研究院就提出了一种可能解决视觉、文本、语音数据的通用自监督框架 data2vec。试验结果表明，data2vec³ 不仅拓宽了业务畛域，在各种工作上（比方图像分类、自然语言了解、语音辨认）也都展现出了具备竞争力的体现，甚至在视觉畛域超过了一些已经的热门算法。

data2vec for different modalities

data2vec 将不同模态的输出都转换成了同一种模式的数据序列，基于 transformer 设计了一个老师 - 学生模式的网络结构。训练时，其外围思路是将数据上进行局部遮蔽，用模型生成潜在示意并预测被遮蔽的局部。为了防止不同模态之间的差异性，data2vec 并没有应用和模态绑定的重建指标(文本，视觉记号，语音单元)，而是抉择预测带有上下文的潜在示意。

相干材料：

模型用例：https://towhee.io/image-embedding/data2vec
论文：https://arxiv.org/pdf/2202.03555.pdf
更多材料：https://zhuanlan.zhihu.com/p/463035029

出品人：Towhee 技术团队徐锦玲、顾梦佳

Perceiver 不须要扭转模型构造就能解决多种模态的数据 ，这更加靠近人类感知行为。与以往的视觉 Transformer 不同，Perceiver 间接在图像的像素层面进行注意力计算，这使得其可能 解决不同尺寸的输出数据。试验对图像、音频、视频、点云数据都进行了测试，结果表明 Perceiver 在不同模态数据的分类工作上均能达到或超过 SoTA 成果。

Perceiver Structure

Perceiver⁴ 模型大体由两种根底构造组成：穿插注意力机制（cross-attention）和 Transformer 编码器（latent transformer）。模型将输出的数据按像素层面开展成一维向量，而后将该向量通过 MLP 失去注意力机制须要的 K、V。另外，模型通过随机初始化失去较小维度的隐向量（latent array），在保障模型复杂度的状况下，能够间接解决任意长的输出，即取得解决不同尺寸图像的能力。最初，通过重叠多个穿插注意力机制和 Transformer 编码器模块，模型可能充沛开掘输出向量的信息。

相干材料：

模型用例：https://github.com/towhee-io/towhee/tree/main/towhee/models/perceiver
论文：https://arxiv.org/pdf/2103.03206.pdf
更多材料：https://zhuanlan.zhihu.com/p/359339175

如果你感觉咱们分享的内容还不错，请不要悭吝给咱们一些激励：点赞、喜爱或者分享给你的小伙伴！

流动信息、技术分享和招聘速递请关注：https://zilliz.gitee.io/welcome/

如果你对咱们的我的项目感兴趣请关注：

用于存储向量并创立索引的数据库 Milvus

用于构建模型推理流水线的框架 Towhee

正文完

人工智能

发表至：人工智能

2022-08-19

0

关于人工智能:42个激活函数的全面总结

关于人工智能:从码力到算力的狂飙探元宇宙的未来风向

关于人工智能:2021百度AI开发者大会在元宇宙举办

关于人工智能:五种不同风格的Photoshop特效字体

关于人工智能:阿里云认证未来网络学院ACE公开课30分钟掌握ACE考试通关攻略

关于人工智能:2022-全球-AI-模型周报

多模态顶流模型 CLIP 连贯语言与视觉

对立图文了解与生成，BLIP 为多模态预训练模型带来新思路

图文跨模态检索的黑马模型 LightningDot，千倍提速，不影响准确率！

自监督学习框架 data2vec，文本、图像、音频都能行

谷歌提出硬核高效的多模态架构 Perceiver

Just My Socks（注册教程内含优惠码）

关于人工智能:2022-全球-AI-模型周报

多模态顶流模型 CLIP 连贯语言与视觉

对立图文了解与生成，BLIP 为多模态预训练模型带来新思路

图文跨模态检索的黑马模型 LightningDot，千倍提速，不影响准确率！

自监督学习框架 data2vec，文本、图像、音频都能行

谷歌提出硬核高效的多模态架构 Perceiver

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）