乐趣区

关于challenge:SAM监督学习已跳出过拟合泥潭

📕总览 SAM 的成就

Demo:Segment Anything | Meta AI (segment-anything.com)
Paper:arxiv

  • 提出了新工作:基于提醒的宰割
  • 提出了新模型:SAM(Segment Anything Moduel)
  • 提出了新数据集:SA-1B
  • 总之,最让人冲动的是以上三个成绩都是 SAM 在监督工作上挑战 Zero-Shot 带来的

📃ZERO-SHOT 的基本概念

  • 😉咱们先从生存中的视角去了解 Zero-Shot
  • 假如小明和爸爸去参观动物园。开到了一只 黑白相间 的斑马、一只 喙很大 的鹦鹉和一只 圆滚滚 的幼年海豹。爸爸给小明提醒,让他在动物园找到一只像斑马一样黑白相间、像鹦鹉一样有大喙、像幼年海报一样圆滚滚的动物
  • 假如小明从未见过其余的动物,但他能够通过总结现有动物共有的特色来推断出其余动物的外貌。例如,小明晓得斑马、鹦鹉、海豹。当小明看到一只企鹅时,他能够依据已知的属性信息揣测出它可能就是爸爸要他找的黑白相间的、有大喙、圆滚滚的动物,因而他可能很天然地把这只企鹅归类为“未知”。这就是 Zero-Shot 的基本概念,即通过已知的类别和属性信息对新的未见过的类别进行分类
  • 在理论利用中,ZSL 能够帮忙咱们解决各种问题,例如图像识别、自然语言解决等畛域中的数据有余或无奈取得理论标签的问题。通过零样本学习,咱们能够先积攒先验常识,再推断和预测新的未知类别,从而实现更加灵便和高效的智能化利用

🤔什么驱使了模型能够 ZERO-SHOT

Segment Anything 这篇工作的次要特点有两个:一是在宰割算法中引入了 3 种宽容度高的模态,二是构建了一个微小的、多元的宰割数据集,比最大的宰割数据集大 6 倍,宰割量大 400 倍。

  • 利用 Transformer 的注意力架构,促使图像的特色同时与文本模态、点模态、定位框模态相互作用。本来模型只学失去从 1 个图像到 1 个标签的映射,当初模型学习 1 个标签的同时要关注图像模态与 3 个模态的组合以及不同组合之间的分割。已经咱们认为残缺的 1 to 1 算法未然成为了模型“偷懒”的捷径
  • 另外,这 三种辅助模态的宽容度好(注:标签文本模态略逊)。作为图像输出之外的额定提醒(prompt),只有是属于宰割对象的所有点、框或者同义文本都能作为辅助模态的输出。反之,每一个点、框或者文本都对应了各式各样的图像对象,这让模型在某个模态和某种图像对象中同时具备多个学习视角,无论是对于 3 个额定模态还是图像模态,这种学习视角都近乎是无穷的。也因而,基于提醒工程(prompt engineering,基于需要对提醒做灵便变换)的 SA 简直能够做所有宰割畛域的细分工作,甚至还未曾存在的新工作。
  • 极其宏大且多元的互联网数据源是 Zero-Shot 能力的另一大外围。SA-1B 涵盖了各种类型、格调、场景和视角的图像。这有利于模型学习 更通用和鲁棒的特色示意,从而进步 Zero-Shot 宰割的性能。
  • 下面曾经剖析的 SA(Segment Anything)具备 Zero-Shot 性能的几个外围起因,而上面剖析的是一些主要的因素。SA-1B 的 类别尽管不细然而特地全,蕴含了大量的常见和常见类别,它们笼罩了自然界和人造界的各个领域。这有利于模型学习更宽泛和粗疏的语义信息,从而进步零样本宰割的性能。
  • SA-1B 的 标注非常准确,大量噪声被无意修复,有利于模型学习更精确和清晰的边界信息,从而进步零样本宰割的性能。

📊零训练与齐全监督的算法 PK

  • 在从未训练过的 COCO-Stuff 数据集上,以 35.9% 的 mIoU 超过了齐全监督学习的 SOTA——34.1%

💖监督学习将跳出过拟合泥潭

  • SAM 很快就能把握主动标注能力,在 SA-1B 中,仅仅进行了 0.012%(120, 000 张)的专家标注,就曾经具备优良的全自动宰割程度(99.1% 的标注由 SAM 主动生成),其余模型须要 10% 甚至更多的标注量能力达到相似的程度,印证了 SAM 大大降低了监督算法对数据量的依赖,从而大大降低了监督算法过拟合的可能。
  • SA 在监督学习的框架内实现了极其优异的 Zero-Shot 性能,这带给咱们一个思考——到底是数据集还是多模态带来了这种能力?互联网数据源或者能给出答案。当你提醒“猫”,在图像数据集无穷大的时候,实践上“猫”的文本语义对应到了无数张不同的猫的图像,这样只有你给定文本语义,模型总是能精确地提取对应掩模。
  • 所以咱们首先能够确定,数据量足够宏大足够多元能力充沛激发这种 Zero-Shot 性能。那然道就是数据集才是基本吗?并不是。后面咱们提到,无论是站在 3 个额定模态的角度来看,还是站在图像模态的角度来看,它们的学习视角都近乎是无穷的。也就是说,当你图像模态无效增长了 1 个数据,SA 的 3 种额定模态就能从宰割面中提取简直有数的点、框(标签文本例外)。所以,宽容度高的模态抉择 x 数据集多元 = 优良的 Zero-Shot 性能 。两个因素实践上是平等的,但实际上,你无奈获取无穷的数据,所以宽容度高的模态设计更加重要,性价比也更高, 这也启发了咱们一种升高人工标注老本的预训练模型的获取形式
  • 而在无监督工作中,咱们常定义一对正负样本规定做比照学习。这种模式自身对正负样本的定义有较高的要求。比方 1 张图像与 n-1 个不匹配文本做比照,就能将图像模态与近乎无穷的文本模态建设负相关,反之 1 个文本如果与 n-1 张不匹配图像做比照,就能将文本模态与近乎无穷的图像模态建设负相关。这也是无监督目前 Zero-Shot 性能的本源,但因为高质量的图与配文的获取艰难,此处提到的这种正负样本规定不足以充沛激发 Zero-Shot 性能,故 无监督畛域的大部分多模态工作(比方 Clip)只能靠砸钱堆数据来取得成效。它们该当学习 SA 对各模态的精心设计。

🕹️将来可能基于 SA 的工作

  • 在 SAM 炽热的这段时间,OpenMMLab 的开发者们保护了 Playground 我的项目(我的项目地址)。该我的项目仅在三天的工夫内就将 SAM 的 Zero-Shot 实力宰割能力利用在的 MMLab 的各项 Demo 上
  • 因为宰割工作涵盖了分类、定位、检测等根本工作于一身,所以 MMDet、MMOCR、MMEditing 等工具箱就像开胃小菜一样一口一个 SAM。而基于宰割掩码的疏导,姿势检测、旋转框检测也交融了 SAM 到 SOTA 算法中。随后,Lable Studio 等标注工具也引入了 SAM 做能够提醒的辅助标注。

🤔仍有有余

我的观点

  • 以后的标签文本模态羸弱

    • 与点模态、检测框模态相同,标签文本的多样性和宽容性有余。人类在意识未知事物的时候,采纳的是 具体属性形容 的形式,并擅于进一步联合形容细节赋予其失当的命名。尽管间接授予名字的形式常呈现在人类老师的教学中,但咱们都不心愿老师让咱们对着斑马的示意图背诵其名字,而是采纳形容的形式,比方 $$ 马 ^+$$ 的形态,$$ 黑白相间 ^+$$ 的色彩,其中 $$^+$$ 标注的是人类的先验常识
    • 在无监督的多模态工作中,Clip 的文本模态来自于社交网络的天然语句,较 SA 所用的标签文本模态更加多样、更具宽容性,但不乏噪声和信息缺失,后续工作都抉择压抑而不是变革,比方 ALBEF 从生成式和优化的角度引入了动量编码器 + 专门的损失函数来去噪。在监督的多模态工作中,还没有工作能提出一种模块进行图像形容属性的提取,更没有基于形容属性的文本做多模态工作的。反观点模态、检测框模态,都来源于宰割面,具备很好的概括性、客观性和天生的宽容性。为此,采纳了标签命名或互联网的文本模态或者并不是齐备解。不过,现有标签命名是人类基于具体形容高度形象的后果,并不是齐全没有作用,且其属于人类生存中真正高频应用的文本,该当与文本新模态平等看待
    • 如何建设和交融基于具体形容属性的文本新模态,甚至进一步赋予命名生成能力,成为了 SA 可能的优化方向。从生成式的视角,可能会引入能从图中生成形容属性关键词的模型,或能从图片的文本中开掘关键词的模型,作为先验模型生成所有图片的文本新模态。从优化的视角,或者能够引入有形态、色彩等形容属性量化能力的数学建模,并融入到模型整体的损失计算中。从提取式的视角,可能会引入通道注意力(关注色调)、多尺度模块(形象状态与细节纹理)等来补救文本新模态的缺失。但短少了文本新模态后,提取式的优化空间非常无限
    • 还有很多因素须要咱们去思考~

    作者的观点

  • SA 不适宜高精度要求的宰割工作
  • SA 的图像编码器太大,拖慢了整体效率。但能够提前完成图像编码,再依据用户须要制作 Prompt 并推理
  • 文本模态仍不能很好地对应到图像语义,作者还没想明确怎么基于提醒实现语义和全景宰割工作。
  • 在少数几个工作,比方绘画数据集、X 光数据集、含糊场景数据集、细节信息密集的数据集上泛化性能有余。

本文参加了 SegmentFault 思否写作挑战赛,欢送正在浏览的你也退出。

退出移动版