关于人工智能:行业前瞻｜Segment-Anything-解读附SA1BSegment-Anything-数据集国内免费高速下载资源

本文已获受权，局部有删改。起源：Xtreme1

自 2012 年以来，深度学习技术改革引起的人工智能热潮，这股势头曾经继续十年。在去年底 ChatGPT 的呈现，大模型的超能力齐全展示在公众的眼帘中，将人工智能行业又推向了一个全新的倒退阶段，许多研究者更是惊呼“ChatGPT 爆火后，NLP 技术不存在了” [1]。因为过来的自然语言专家，有着擅长于本人的畛域，有人专门做文本分类、有人专门做信息抽取、有人做问答、有人做浏览了解，而在大模型范式下，一个大语言模型就能实现多种NLP工作的完满对立。
援用
计算机视觉（CV）畛域，大家也都亲密关注着“大一统”模型，所谓的“ImageGPT”以及“多模态 GPT”的倒退。

4 月 5 日 Meta 公布了Segment Anything Model（SAM）——第一个图像宰割根底模型，能够称得上是以后最先进的一种图像宰割模型，其将NLP畛域的prompt范式引进CV，让模型通过prompt一键抠图，在照片或视频中对任意对象实现一键宰割，并且可能零样本迁徙到其余工作[2]，这意味着图片大模型时代曾经降临。

同时，让人不禁提问，学术界和商用落地场景应用的、耗时耗力的人工标注的标准答案（Ground truth）是否还有存在的必要？

（文末有图像宰割开源数据集举荐）

一、什么是图像宰割？

图像宰割（Image Segmentation）是图像处理中的一种技术，也是计算机视觉畛域外围工作之一。它是预测图像中每一个像素所属的类别或者物体，输入不同类别的像素级掩码。简略来说，就是将图像中的每个像素标注为属于哪一个对象，比方人、车、树等等，并精密地标注出每个物体的具体位置和形态。

大体上，图像宰割能够分为三个子工作: 实例宰割 (instance segmentation) 、语义宰割 (semantic segmentation) 、全景宰割 (panoptic segmentation)，这三个子工作都有着大量的算法与模型。他们在计算机视觉、医学影像解决、数字艺术等畛域都有宽泛的利用。

指标检测与语义宰割标注

二、“Segment Anything”我的项目公布了什么？

Meta 公布了“Segment Anything Model（SAM）”和相应的数据集（SA-1B），这是一项新的图像宰割工作、模型和数据集。

外围亮点：
1. 该模型被设计和训练为可提示性（promptable），反对文本、关键点、边界框等多模态提醒。你能够用一个点、一个框、一句话等形式轻松宰割出指定物体；甚至承受其余零碎的输出提醒，比方依据AR/VR头显传来的视觉焦点信息，来抉择对应的物体；

2. 能够非常灵活地泛化到新工作和新畛域。积攒了大量学习教训的SAM 曾经可能了解对象的个别概念，不要额定训练，即可对不相熟的物体和图像进行全自宰割标注，能够为任意图像或视频中的任何对象生成掩码；

3. 对于浓密的图片，依然有十分好的宰割效率和成果；

4. 应用高效的SAM模型构建了迄今为止最大的宰割数据集SA-1B(segment anything)，包含超过 1 亿个 Mask 图和 1100 万张合乎许可证的图片。为模型提供了短缺的训练数据，无望成为将来计算机视觉宰割模型训练和评测的经典数据集。

要晓得，以往创立精确的宰割模型“须要技术专家通过 AI 模型训练和大量人工精密标注数据进行高度专业化的工作”。而Meta 创立 SAM，旨在缩小对专业培训和专业知识的需要，让这个过程更加“平等化”，以求推动计算机视觉钻研的进一步倒退。

三、 Segment Anything Model 的成果如何？

Meta 示意，SAM 曾经把握了对物体的个别概念，能为任何图像或视频中的任何物体生成 Mask，即便在训练过程中没有遇到过这些物体和图像类型。SAM 足够通用，笼罩了宽泛的用例，并可在新的图像“畛域”（例如水下照片或细胞显微镜图像）上间接应用，无需额定训练（这种能力通常称为零样本迁徙）。

SAM与人工标注的比照

四、咱们所看到的挑战与时机

市场上早有类似的技术

在此之前咱们见过很多不错的宰割工具，例如 Photoshop 软件或 IOS 零碎中自带的抠图性能，它们都能生成不错的成果，也用不错的交互体验进步了图像处理的效率，与SAM模型有着相似的性能。

在 iOS 16 及更高版本中，您能够将照片的主题抠图进去，而后复制或共享

开源数据集的“标准答案（Ground truth）错误百出

图像算法工程师在商业我的项目中，常常会要求标注员从新标注开源数据集，这破费了不少的老本。这次要是起因是开源数据集的“标准答案（Ground truth）”并不规范，其中存在这大量的标注谬误。

对于一些细分场景的钻研时，这些人工标注是不能达到数据品质的要求的。例如，一位工程师在做交通灯的场景相干钻研时发现，COCO 等数据集的标注谬误是非常明显的。这些问题也存在于其它的出名数据集，例如 CIFAR-100 和 ImageNet。数据标注是一项容易出错的艰巨工作，其起因既有含糊的标注要求文档阐明，也有人为主观判断不一致性等。SAM模型同样也存在局部漏标、误标问题。

COCO 数据集对于红绿灯的谬误标注

无奈胜任于业余畛域

因而，前文提到的 SAM 与人工标注的比拟时，它曾经十分靠近或者在某些数据宰割的体现超过了人工标注后果时，咱们只是诧异——为什么开源数据集的品质这样差？置信也没有人会 100% 应用 ChatGPT 回复的后果，放在本人的文章中，咱们在其中不得不承受那些很有情理然而扭曲了事实的“胡言乱语”。通用大模型所训练的业余数据不够时，也无奈满足我的项目的需要。在一些谨严的学科，例如在医学诊断，主动驾驶，安防等畛域，咱们是无奈容忍这样的谬误的。对于业余畛域、非通用型图像，SAM标注不够现实。

SAM 在医学方面的数据标注并不现实，这要求具备业余背景的医生来实现此项工作

其余挑战

这里还有相似于 ChatGPT 曾经遇到的算力问题和数据安全。在理论环境中，很多上线的小型模型也无奈接受过大的运行老本等。

时机

的确，随着人工智能技术一直的倒退，传统的 NLP、CV 技术将来可能会逐步淘汰。将来的钻研方向应该聚焦于更深层次、更形象的框架下进行思考和摸索。

● 承受并利用尖端技术：革命性的新技术所带来的不应是对行业的惶恐的失望，咱们要试图去了解并利用它，这些新范式将帮忙咱们进步已有的生产效率，从而为将来的技术创新奠定松软的根底。在很多细分赛道，业余的人士仍需持续深耕。

● 软件开源：AI 技术的迅猛发展得益于开源的理念，它让每个人能够站在伟人的肩膀上，这也是咱们打造 Xtreme1 的初衷：https://github.com/xtreme1-io/xtreme1/

Xtreme1 是寰球首个开源多模态训练数据平台，通过提供 AI 赋能的软件工具、数万我的项目提炼的本体核心和丰盛的数据治理个性，来减速多模态训练数据的解决效率，进而进步 AI 工程师的建模效率。特地是在 2D & 3D 多模态交融数据方面，标注效率的晋升可达 72%。自 2022 年 9 月 15 日正式开源以来，Xtreme1 平台曾经在 2022 年 12 月 15 日成为了 LF AI & DATA 托管我的项目。

● 数据开源：没有优良的数据，AI 是无奈正确运作的。咱们最近也在钻研寰球首个多模态数据，涵盖了最新的传感器设施以及精准地人工标注数据，敬请期待~

SA-1B下载脚本与图像宰割评测数据集

最初，分享SA-1B（segment anything）数据集疾速下载脚本及其评测数据集资源：
● 下载代码：

cat ~/fb-sam.txt | parallel -j 5  --colsep $'\t'  wget -nc  -c  {2}    -O {1}

注：fb-sam.txt是跳过题目行的数据集 txt 的文件正本。

● SA-1B（segment anything）国内收费疾速下载地址：https://opendatalab.com/SA-1B

● 评测数据集资源（局部）：

ADE20K：https://opendatalab.com/ADE20K_2016

NDD20 (Northumberland Dolphin Dataset 2020)：https://opendatalab.com/NDD20

LVIS：https://opendatalab.com/LVIS

STREETS：https://opendatalab.com/STREETS

VISOR：https://opendatalab.com/VISOR

WoodScape：https://opendatalab.com/WoodScape

TrashCan：https://opendatalab.com/TrashCan

PIDray：https://opendatalab.com/PIDray

GTEA (Georgia Tech Egocentric Activity)：https://opendatalab.com/GTEA

本文作者｜张子千 Nico

本期封面图来自 Segment Anything | Meta

援用
[1] ChatGPT爆火后，NLP技术不存在了.
https://mp.weixin.qq.com/s/FknHZ_FFdwdofp5vn9ot3g；

[2] Segment Anything.
https://ai.facebook.com/blog/segment-anything-foundation-mode…；

[3] Create and share photo cutouts on your iPhone.
https://support.apple.com/en-us/HT213459；

[4] The Mislabelled Objects in COCO.
https://www.neuralception.com/mislabelled-traffic；

[5] How I found nearly 300,000 errors in MS COCO.
https://medium.com/@jamie_34747/how-i-found-nearly-300-000-er…；

[6]感激OpenDataLab提供的数据集反对，更多数据集请拜访：https://opendatalab.org.cn；

-END-
更多公开数据集，欢送拜访OpenDataLab官网查看与下载：https://opendatalab.org.cn.

关于人工智能:行业前瞻｜Segment-Anything-解读附SA1BSegment-Anything-数据集国内免费高速下载资源

一、什么是图像宰割？

二、“Segment Anything”我的项目公布了什么？

三、 Segment Anything Model 的成果如何？

四、咱们所看到的挑战与时机

市场上早有类似的技术

开源数据集的“标准答案（Ground truth）错误百出

无奈胜任于业余畛域

其余挑战

时机

SA-1B下载脚本与图像宰割评测数据集

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:行业前瞻｜Segment-Anything-解读附SA1BSegment-Anything-数据集国内免费高速下载资源

一、什么是图像宰割？

二、“Segment Anything”我的项目公布了什么？

三、 Segment Anything Model 的成果如何？

四、咱们所看到的挑战与时机

市场上早有类似的技术

开源数据集的“标准答案（Ground truth）错误百出

无奈胜任于业余畛域

其余挑战

时机

SA-1B下载脚本与图像宰割评测数据集

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复