出品人:Towhee 技术团队 王翔宇、顾梦佳 X -Decoder 是一种通用解码模型,能够无缝实现像素级图像宰割和语言分词。它的输出反对两种类型的查问:通用非语义查问和基于文本输出的语义查问,可能在同一语义空间中解码不同的像素和分词级别的输入。凭借新鲜的设计,X-Decoder 首次提供了一种对立形式用于反对所有类型的图像宰割和各种视觉语言工作。无需任何伪标签,在对无限的宰割数据和数百万图像文本对的混合集进行预训练后,X-Decoder 体现出对宽泛上游工作(零样本和微调设置)的弱小可迁移性。值得注意的是,它在八个数据集上均实现了最优性能。
X-Decoder after pretraining supports all types of image segmentation tasks.X-Decoder 的框架设计遵循了编码器 - 解码器构造。它首先会应用一个图像编码器抽取出图片特色,而后应用文本编码器编码文本查问。图像特色、文本查问和多个隐查问在通过 X-Decoder 后,别离输入像素级别的掩码和分词级别的语义。此外,X-Decoder 实现了不同粒度的工作之间的无缝交互,并通过学习一个通用且丰盛的像素级视觉语义了解空间而互惠互利。相干材料:代码地址:https://github.com/microsoft/… 论文链接:https://arxiv.org/abs/2212.11270