关于人工智能:ImageBind-横跨六种数据模式用向量统一-AI-语言

5次阅读

共计 2177 个字符,预计需要花费 6 分钟才能阅读完成。

出品人:Towhee 技术团队
作者:顾梦佳

人工智能(AI)最近毋庸置疑又迎来了一个高速倒退的浪潮。

目前,人工智能的利用曾经渗透到各个领域,包含自然语言解决、计算机视觉、语音辨认、机器人技术等,为人们的生存和工作带来了极大的便当。而不同畛域的人工智能通常难以兼容,跨模式的需要也大幅减少了落地的难度和老本。这是因为文本、图片、音频、视频等不同类型的数据具备不同的特色和构造,须要应用不同的算法和模型来解决。

为了解决这个问题,多模态的深度学习模型始终以来都是一个重点钻研方向。以 CLIP 为代表,大多数的多模态模型只能零样本地同时表白两种数据模式,比方文本与图像、文本与音频。然而 ImageBind 在几天前横空出世,可能用同一语义空间示意六种数据模式,包含文本、图像 / 视频(计算机视觉)、音频、3D 深度、热量(红外辐射)和用于计算静止和地位的惯性测量单元 (IMU)。这意味着六种不同类型的数据之间的“次元壁”被突破了,只需一个 ImageBind 模型便能够实现六种数据之间的比拟与转换。

|ImageBind: Holistic AI learning across six modalities

ImageBind 是一种新型的 AI 模型,由人工智能“巨头”Meta AI 公布。它通过学习 一个可用于示意多种感官输出的向量空间,可能同时绑定六种不同的数据模态,而无需明确的监督。这一向量空间可能辨认不同模态之间的关系,从而让机器更好地了解和解决多源信息。这一冲破可能降级现有的人工智能模型,推动多模态 AI 技术的倒退。ImageBind 能够实现零样本和少样本辨认,在各种模态的工作中都取得了最先进的问题,甚至比专门针对这些模态进行训练的专家模型体现更好。这意味着 ImageBind 具备很强的适应性和灵活性,可能实用于各种畛域的 AI 利用。

ImageBind 的论文被计算机视觉顶会 CVPR 2023 收录并突出展现,一经公布便引起了宽泛关注。它在钻研中发现,无需遍历所有配对可能,只有匹配图像就能绑定所有数据模式。ImageBind 将六种模态的表征映射到了一个独特的空间中,构建成一个可绑定了多种模态输出的空间。这个联结的向量空间次要帮忙 ImageBind 实现了以下性能:

  • 跨模态检索:首次实现了图像与一些模态之间的对齐,比方音频、3D 深度、文本。
  • 语义组合:天然地组合不同模态的向量,实现通用的语义搜寻,比方用鸟的图片和摩托车的声音找到一张同时带有鸟和摩托车的图片。
  • 音频 - 图像生成:依据音频生成图像,利用了音频向量和预训练的文本 - 图像生成模型 DALLE-2。

|ImageBind Capacities

对齐不同模态最常见的办法是比照学习,通过构建一对相干的例子和不相干的例子(正样本和负样本)学习向量空间(特色空间)。以往为理解锁更多模态,模型训练都须要应用指标模态与文本配对的数据。比方,尽管 CLIP 率先实现了图像与文本的零样本分类,然而仍须要音频 - 文本对数据训练能力解锁新的模态。ImageBind 的华点在于更多的模态抉择,它能够零样本解锁没有配对文本数据的模态。ImageBind 把其余模态的向量都跟图像向量进行了对齐,从而在一个向量空间中实现多种模态数据的示意。针对文本 - 图像对,模型训练应用大规模的网络数据集,涵盖了宽泛的语义概念。而对于其余模态的训练数据,包含音频、深度、热量、惯性测量单元,ImageBind 应用了天然的自监督配对图像。用不同模态数据对齐视觉特色,以此为指标训练的模型可能学习到一个通用的向量空间,具备弱小的零样本迁徙能力。

ImageBind 应用了 (I, M) 模态对来学习通用的联结向量空间,其中 I 代表图像,M 则为另一种模态。给定图像及其在另一种模态中对应的察看后果,基于 Transformer 架构的深度网络会将它们编码为归一化的向量。针对不同模态的数据,ImageBind 抉择了该模态专门的预训练模型作为编码器,在每个编码器的最初增加一个模态特定的线性映射层以取得固定长度的向量输入。训练过程中,归一化后的向量会被用于比照学习损失(InfoNCE loss),从而优化编码器。ImageBind 的模型训练应用了 32GB V100 或 40GB A100 GPUs,官网曾经开源代码,同时提供了一个输入为 1024 维的预训练权重。

ImageBind 的呈现无疑是振奋人心的,很大水平上突破了跨数据模态带来的限度。它提供了一个简略而实用的办法,仅图像对齐就实现了多种模态通用的向量空间。该办法能够实现更丰盛的多模态工作,实现多种模态之间的丰盛的组合。其中,在跨模态的检索和生成中引入音频输出,这一翻新令人印象粗浅。然而其论文最初,作者也呐喊大家进行更多新的基准测试,以翻新多模态的 AI 利用。

相干材料

  • 官网博客:imagebind-six-modalities-binding-ai
  • 官网展现:https://imagebind.metademolab.com/
  • 论文链接:ImageBind: One Embedding Space To Bind Them All
  • 代码地址:facebookresearch/ImageBind

  • 如果在应用 Milvus 或 Zilliz 产品有任何问题,可增加小助手微信“zilliz-tech”退出交换群
  • 欢送关注微信公众号“Zilliz”,理解最新资讯。

本文由 mdnice 多平台公布

正文完
 0