关于计算机视觉:探究计算机视觉新兴能力如何通过提示检索提高性能

出品人：Towhee 技术团队顾梦佳

因为其弱小的泛化性能，在宽泛数据上训练的大规模模型最近已成为计算机视觉中的支流架构。次要摸索了大规模视觉模型中的一种新兴的能力，称为“in-context learning”。这种能力容许模型在未见过的工作上进行推断，并且不须要更新模型参数。钻研发现，in-context examples（即“提醒”）对于该能力的影响很大。为此，Visual Prompt Retrieval（视觉提醒检索）框架提出主动抉择 in-context examples。钻研结果表明，这种办法能够比随机抉择办法更好地进步视觉上下文学习的性能。

Prompt retrieval for visual in-context learning

提醒检索框架包含无监督和有监督的两种办法。基于最近示例搜寻的无监督提醒检索办法应用现成的视觉模型提取图像特色，以便比拟查问与每个训练示例之间的余弦间隔。另一种有监督提醒检索办法则间接训练神经网络，来抉择可能最大化 in-context learning 性能的示例。其次要思维是计算每个源示例 in-context learning 的后果，并抉择具备最高 / 最低后果的示例以造成用于比照学习的正 / 负集。这些办法能够依据须要主动抉择提醒，从而进步视觉 in-context learning 的性能。

相干材料：

代码地址：https://github.com/ZhangYuanhan-AI/visual_prompt_retrieval
论文链接：What Makes Good Examples for Visual In-Context Learning?