关于人工智能:CV-领域的-ChatGPTMetaAI-推出最强大视觉模型-SAM

出品人：Towhee 技术团队

随着 ChatGPT 引起一波又一波的“GPT 热潮”，自然语言畛域又一次成为了人工智能的探讨焦点。大家不由得思考，计算机视觉畛域里是否会呈现这样一个堪称划时代的模型？在这种万众瞩目的时候，始终处在行业前沿的 MetaAI 推出了一个新模型 Segment Anything Model（SAM），号称“理解物体是什么的个别概念”，可能“一键从任意图像中剪切出任何物体”。 除了模型之外，它还针对图像宰割提出了一种新型工作模式和大规模数据集。

|segment-anything.com: some potential systems integrated with SAM

首先让咱们理解一下什么是“图像宰割”：简略地说就是将图像分成若干个区域（通常按物体划分），帮忙了解物体之间的关系与指标物体在图中的上下文。该工作是指标辨认相干利用的重要基石，可能助力人脸检测、主动驾驶、卫星图像剖析等。能够说，图像宰割对计算机视觉的倒退至关重要。SAM 反对主动宰割图像中的所有物体，也容许用点击或框出物体实现精准宰割，甚至可能依据批示展示多种宰割后果。这些性能能够让用户轻松地将 SAM 集成到各种零碎或利用中，比方在 AR/VR 中依据眼光凝视或语音指令抉择操作对象、据输入框中的文本形容辨认物体等。另外，SAM 的输入也可当作其余 AI 利用的输出。例如，SAM 能够帮忙零碎在视频中跟踪对象并进行遮蔽、在图像编辑中反对相似抠图或替换等性能、用于搭建 3D 场景、或进行物体拼贴等创意工作。

|SAM Overview

SAM 旨在创立一个用于图像宰割的通用根底模型，为此将钻研分为了工作、模型、数据三个互相关联的局部。它答复了三个问题：

什么样的工作可能实现零样本迁徙？将提醒（prompt）引入视觉宰割，SAM 定义了“可提醒”宰割工作。提醒在模型的零样本迁徙能力中起到了关键作用。它能够指定图像中要宰割的内容，从而在没有额定训练的状况下实现更宽泛的宰割工作。
通用模型须要什么架构？SAM 模型架构反对数据正文，并能通过提醒工程实现对各种工作的零样本迁徙。它以 Tranformers 系列的视觉模型为根底，从新衡量和抉择了组件，最终包含了一个弱小的图像编码器、一个灵便的提醒编码器、和一个轻量的掩码编码器。
怎么的数据能力满足该工作和模型的训练？SAM 数据引擎构建了一个目前最大的图像宰割数据集 SA-1B，领有超过 10 亿个掩码，专门用于图像宰割工作的训练和测试。数据收集的过程包含了三个阶段：（手动阶段）在模型辅助下进行人工标注、（半自动阶段）联合人工标注和来自模型的掩码、（全自动）齐全由模型生成掩码。

SAM 的实质是一个视觉大模型，其能力的亮点与 GPT-4 一样在于优良的零样本迁徙能力，即一个实用于不同工作的通用模型。论文中的试验后果示意 SAM 的模型成果令人惊喜，在多种工作中都展现出优良的零样本迁徙能力，其性能更是常常媲美或超过全监督模型。

相干材料：

官网：https://segment-anything.com/
论文：Segment Anything
代码：facebookresearch/segment-anything

本文由 mdnice 多平台公布