共计 2192 个字符,预计需要花费 6 分钟才能阅读完成。
最近 GPT4 的火爆笼罩了一个新闻:midjourney v5 公布,DALLE2,midjourney 都能够从文本中生成图像,这种模型要求人工智能同时了解语言和图像数据。
传统的基于人工智能的模型很难同时了解语言和图像。因为自然语言解决和计算机视觉始终被视为两个独立的畛域,这使得机器在两者之间进行无效沟通具备挑战性。
然而 CLIP 的多模态架构通过在雷同的潜在空间中学习语言和视觉体现在二者之间建设了桥梁。因而,CLIP 容许咱们利用其余架构,应用它的“语言 - 图像示意”进行上游工作。
CLIP 是一个基于超大数据量的 pair-wise 预训练模型然而在它的上游工作 DalleE-2,Stable-Diffusion 中,CLIP 也是其中买通文本和图像的外围模块,比方开源的 SD2 就是应用了 OpenCLIP 来学习二者的示意,因而理解 CLIP 是深刻理解后续扩散模型十分重要的一环,所以咱们明天来次要介绍一下 CLIP:
Contrastive Language-Image Pre-training(CLIP)利用自然语言形容图像的数据,训练了一个同时对图像和文本具备深度理解能力的神经网络模型。通过应用自然语言作为监督信号,CLIP 能够天然地逾越多个视觉和语言数据集,且具备较强的可迁移性。CLIP 能够与最先进的视觉和语言模型相媲美,且能够在多个视觉和语言工作上进行零样本学习。
架构
CLIP 架构由两个次要组件组成: 图像编码器和文本编码器。每个编码器都可能别离了解来自图像或文本的信息,并将这些信息嵌入到向量中。CLIP 的思维是在图像 - 文本对的大型数据集中训练这些编码器,并使嵌入变得类似。
“给定一批 N(图像,文本)对,CLIP 被训练来预测一批中 N × N 个可能的 (图像,文本) 对中哪一个是实在的实匹配。”它通过联结训练编码器来学习多模态嵌入空间,对 N 个图像和文本嵌入进行余弦类似度的计算,最大小化正确的匹配,最大化不正确的匹配。
因为 CLIP 是在一个大的预训练数据集上训练的,它能够很好地泛化许多上游工作。CLIP 为咱们提供了两个编码器,能够将文本和图像嵌入到雷同的潜在空间中,所以咱们能够无效地将其用于许多应用程序。
利用
以下是一些应用 CLIP 的上游工作示例:
1、图像分类
CLIP 可用于图像分类工作,CLIP 将图像与其对应的文本形容相关联的能力使其可能很好地泛化到新的类别,并与其余图像分类模型相比进步性能。
比如说 HuggingFace 提供了的这个简略的例子
fromPILimportImage
importrequests
fromtransformersimportCLIPProcessor, CLIPModel
model=CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor=CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
url="http://images.cocodataset.org/val2017/000000039769.jpg"
image=Image.open(requests.get(url, stream=True).raw)
inputs=processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs=model(**inputs)
logits_per_image=outputs.logits_per_image # this is the image-text similarity score
probs=logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities
2、图像形容
CLIP 可用于图像形容工作,利用它将图像与相应的文本形容相关联的能力,咱们能够将 CLIP 与其余序列到序列模型联合起来,应用 CLIP 的嵌入来生成题目等。咱们能够参考咱们的 CoCa(比照字幕),或者 CLIPCap,它将 CLIP 与 GPT 模型联合起来生成字幕。
3、文本到图像
CLIP 在文本到图像生成上下文中的一个乏味利用是潜在扩散模型。该模型应用 CLIP 作为一种办法来领导从文本形容中生成真切的图像。
在潜在扩散模型中应用 CLIP 有几个长处。首先,它容许模型生成更忠诚于文本形容的图像,因为 CLIP 能够就生成的图像和文本形容之间的语义相似性提供反馈。其次,它容许模型生成更多样化和更有创造性的图像,因为 CLIP 能够疏导生成过程朝着不太常见但依然正当的图像示意。
CLIP 解决图像和文本输出的能力及其预训练过程使其成为各种畛域中下游工作的多功能和弱小的工具。
总结
CLIP 将语言和图像示意合二为一的能力为许多利用关上了大门。尽管咱们人类能够感知不同类型的数据,包含文本、数据、音频等。然而过来基于 AI 的模型曾经显示出它们只能了解一种模态的弱点。有了 CLIP,咱们能够设想一个将来,人工智能模型能够像咱们一样“了解”这个世界。
论文:https://avoid.overfit.cn/post/497e7334429f421394dac28bdefe18b3