关于机器学习:CLIPPO纯图像的CLIP参数减半且更强大

30次阅读

共计 685 个字符,预计需要花费 2 分钟才能阅读完成。

出品人:Towhee 技术团队 张晨、顾梦佳

多模态模型变得越来越无效,局部起因在于对立的组件,例如 Transformer 架构。然而,多模态模型依然常常蕴含许多特定于工作和模态的局部和训练过程。例如,CLIP 通过比照损失训练独立的文本和图像塔。CLIPPO 抉择应用比照损失进行训练,尝试应用纯像素模型来执行图像、文本和多模式工作。CLIPPO 执行基于图像的工作,例如检索和 zero-shot 图像分类,简直与 CLIP 一样好,参数数量只有一半,并且没有文本特定的塔或嵌入。当通过图像 - 文本比照学习和下一句比照学习联结训练时,CLIPPO 能够在自然语言了解工作上表现出色,没有任何词级损失(语言建模或掩码语言建模),优于基于像素的先前工作。令人诧异的是,CLIPPO 只需将问题和图像一起渲染,就能够在视觉问答中取得很好的准确性。因为 CLIPPO 不须要 tokenizer,它能够在不批改的状况下在多语言多模态检索上实现弱小的性能。

CLIP vs. CLIPPOCLIP 在具备比照指标的图像 / 代替文本对上训练独自的图像和文本编码器,每个编码器都具备特定于模态的预处理和嵌入。而 CLIPPO 应用单个编码器来解决惯例图像和渲染为图像的文本。CLIPPO 通过将代替文本渲染为图像,应用共享视觉编码器(在两个独立的前向传递中)对生成的图像对进行编码,并利用与 CLIP 雷同的训练指标,来训练具备等同能力的纯像素模型。

相干材料:
代码地址:https://github.com/google-res…
论文链接:Image-and-Language Understanding from Pixels Only

正文完
 0