关于人工智能:CLIP语言图像表示之间的桥梁

最近GPT4的火爆笼罩了一个新闻:midjourney v5公布,DALLE2,midjourney都能够从文本中生成图像,这种模型要求人工智能同时了解语言和图像数据。

传统的基于人工智能的模型很难同时了解语言和图像。因为自然语言解决和计算机视觉始终被视为两个独立的畛域,这使得机器在两者之间进行无效沟通具备挑战性。

然而CLIP的多模态架构通过在雷同的潜在空间中学习语言和视觉体现在二者之间建设了桥梁。因而,CLIP容许咱们利用其余架构,应用它的“语言-图像示意”进行上游工作。

CLIP是一个基于超大数据量的pair-wise 预训练模型然而在它的上游工作DalleE-2,Stable-Diffusion中,CLIP也是其中买通文本和图像的外围模块,比方开源的SD2就是应用了OpenCLIP来学习二者的示意,因而理解CLIP是深刻理解后续扩散模型十分重要的一环,所以咱们明天来次要介绍一下CLIP:

Contrastive Language-Image Pre-training (CLIP)利用自然语言形容图像的数据,训练了一个同时对图像和文本具备深度理解能力的神经网络模型。通过应用自然语言作为监督信号,CLIP 能够天然地逾越多个视觉和语言数据集,且具备较强的可迁移性。CLIP 能够与最先进的视觉和语言模型相媲美,且能够在多个视觉和语言工作上进行零样本学习。

架构

CLIP架构由两个次要组件组成:图像编码器和文本编码器。每个编码器都可能别离了解来自图像或文本的信息,并将这些信息嵌入到向量中。CLIP的思维是在图像-文本对的大型数据集中训练这些编码器,并使嵌入变得类似。

“给定一批N(图像,文本)对,CLIP被训练来预测一批中N × N个可能的(图像,文本)对中哪一个是实在的实匹配。”它通过联结训练编码器来学习多模态嵌入空间,对N个图像和文本嵌入进行余弦类似度的计算,最大小化正确的匹配,最大化不正确的匹配。

因为CLIP是在一个大的预训练数据集上训练的,它能够很好地泛化许多上游工作。CLIP为咱们提供了两个编码器,能够将文本和图像嵌入到雷同的潜在空间中,所以咱们能够无效地将其用于许多应用程序。

利用

以下是一些应用CLIP的上游工作示例:

1、图像分类

CLIP可用于图像分类工作,CLIP将图像与其对应的文本形容相关联的能力使其可能很好地泛化到新的类别,并与其余图像分类模型相比进步性能。

比如说HuggingFace提供了的这个简略的例子

 fromPILimportImage
 importrequests
 
 fromtransformersimportCLIPProcessor, CLIPModel
 
 model=CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
 processor=CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
 
 url="http://images.cocodataset.org/val2017/000000039769.jpg"
 image=Image.open(requests.get(url, stream=True).raw)
 
 inputs=processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
 
 outputs=model(**inputs)
 logits_per_image=outputs.logits_per_image  # this is the image-text similarity score
 probs=logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities

2、图像形容

CLIP可用于图像形容工作,利用它将图像与相应的文本形容相关联的能力,咱们能够将CLIP与其余序列到序列模型联合起来,应用CLIP的嵌入来生成题目等。咱们能够参考咱们的CoCa(比照字幕),或者CLIPCap,它将CLIP与GPT模型联合起来生成字幕。

3、文本到图像

CLIP在文本到图像生成上下文中的一个乏味利用是潜在扩散模型。该模型应用CLIP作为一种办法来领导从文本形容中生成真切的图像。

在潜在扩散模型中应用CLIP有几个长处。首先,它容许模型生成更忠诚于文本形容的图像,因为CLIP能够就生成的图像和文本形容之间的语义相似性提供反馈。其次,它容许模型生成更多样化和更有创造性的图像,因为CLIP能够疏导生成过程朝着不太常见但依然正当的图像示意。

CLIP解决图像和文本输出的能力及其预训练过程使其成为各种畛域中下游工作的多功能和弱小的工具。

总结

CLIP 将语言和图像示意合二为一的能力为许多利用关上了大门。尽管咱们人类能够感知不同类型的数据,包含文本、数据、音频等。然而过来基于 AI 的模型曾经显示出它们只能了解一种模态的弱点。有了 CLIP,咱们能够设想一个将来,人工智能模型能够像咱们一样“了解”这个世界。

论文:https://avoid.overfit.cn/post/497e7334429f421394dac28bdefe18b3

【腾讯云】轻量 2核2G4M,首年65元

阿里云限时活动-云数据库 RDS MySQL  1核2G配置 1.88/月 速抢

本文由乐趣区整理发布,转载请注明出处,谢谢。

您可能还喜欢...

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据