共计 1305 个字符,预计需要花费 4 分钟才能阅读完成。
出品人:Towhee 技术团队
随着 ChatGPT 引起一波又一波的“GPT 热潮”,自然语言畛域又一次成为了人工智能的探讨焦点。大家不由得思考,计算机视觉畛域里是否会呈现这样一个堪称划时代的模型?在这种万众瞩目的时候,始终处在行业前沿的 MetaAI 推出了一个新模型 Segment Anything Model(SAM),号称“理解物体是什么的个别概念”,可能“一键从任意图像中剪切出任何物体”。 除了模型之外,它还针对图像宰割提出了一种新型工作模式和大规模数据集。
|segment-anything.com: some potential systems integrated with SAM
首先让咱们理解一下什么是“图像宰割”:简略地说就是将图像分成若干个区域(通常按物体划分),帮忙了解物体之间的关系与指标物体在图中的上下文。该工作是指标辨认相干利用的重要基石,可能助力人脸检测、主动驾驶、卫星图像剖析等。能够说,图像宰割对计算机视觉的倒退至关重要。SAM 反对主动宰割图像中的所有物体,也容许用点击或框出物体实现精准宰割,甚至可能依据批示展示多种宰割后果。这些性能能够让用户轻松地将 SAM 集成到各种零碎或利用中,比方在 AR/VR 中依据眼光凝视或语音指令抉择操作对象、据输入框中的文本形容辨认物体等。另外,SAM 的输入也可当作其余 AI 利用的输出。例如,SAM 能够帮忙零碎在视频中跟踪对象并进行遮蔽、在图像编辑中反对相似抠图或替换等性能、用于搭建 3D 场景、或进行物体拼贴等创意工作。
|SAM Overview
SAM 旨在创立一个用于图像宰割的通用根底模型,为此将钻研分为了工作、模型、数据三个互相关联的局部。它答复了三个问题:
- 什么样的工作可能实现零样本迁徙?将提醒(prompt)引入视觉宰割,SAM 定义了“可提醒”宰割工作。提醒在模型的零样本迁徙能力中起到了关键作用。它能够指定图像中要宰割的内容,从而在没有额定训练的状况下实现更宽泛的宰割工作。
- 通用模型须要什么架构?SAM 模型架构反对数据正文,并能通过提醒工程实现对各种工作的零样本迁徙。它以 Tranformers 系列的视觉模型为根底,从新衡量和抉择了组件,最终包含了一个弱小的图像编码器、一个灵便的提醒编码器、和一个轻量的掩码编码器。
- 怎么的数据能力满足该工作和模型的训练?SAM 数据引擎构建了一个目前最大的图像宰割数据集 SA-1B,领有超过 10 亿个掩码,专门用于图像宰割工作的训练和测试。数据收集的过程包含了三个阶段:(手动阶段)在模型辅助下进行人工标注、(半自动阶段)联合人工标注和来自模型的掩码、(全自动)齐全由模型生成掩码。
SAM 的实质是一个视觉大模型,其能力的亮点与 GPT-4 一样在于优良的零样本迁徙能力,即一个实用于不同工作的通用模型。论文中的试验后果示意 SAM 的模型成果令人惊喜,在多种工作中都展现出优良的零样本迁徙能力,其性能更是常常媲美或超过全监督模型。
相干材料:
- 官网:https://segment-anything.com/
- 论文:Segment Anything
- 代码:facebookresearch/segment-anything
本文由 mdnice 多平台公布