本文已获受权,局部有删改。起源:Xtreme1
自 2012 年以来,深度学习技术改革引起的人工智能热潮,这股势头曾经继续十年。在去年底 ChatGPT 的呈现,大模型的超能力齐全展示在公众的眼帘中,将人工智能行业又推向了一个全新的倒退阶段,许多研究者更是惊呼“ChatGPT 爆火后,NLP 技术不存在了”[1]。因为过来的自然语言专家,有着擅长于本人的畛域,有人专门做文本分类、有人专门做信息抽取、有人做问答、有人做浏览了解,而在大模型范式下,一个大语言模型就能实现多种 NLP 工作的完满对立。
援用
计算机视觉(CV)畛域,大家也都亲密关注着“大一统”模型,所谓的“ImageGPT”以及“多模态 GPT”的倒退。
4 月 5 日 Meta 公布了 Segment Anything Model(SAM)——第一个图像宰割根底模型,能够称得上是以后最先进的一种图像宰割模型,其将 NLP 畛域的 prompt 范式引进 CV,让模型通过 prompt 一键抠图,在照片或视频中对任意对象实现一键宰割,并且可能零样本迁徙到其余工作[2],这意味着图片大模型时代曾经降临。
同时,让人不禁提问,学术界和商用落地场景应用的、耗时耗力的人工标注的标准答案(Ground truth)是否还有存在的必要?
(文末有图像宰割开源数据集举荐)
一、什么是图像宰割?
图像宰割(Image Segmentation)是图像处理中的一种技术,也是计算机视觉畛域外围工作之一。它是预测图像中每一个像素所属的类别或者物体,输入不同类别的像素级掩码。简略来说,就是将图像中的每个像素标注为属于哪一个对象,比方人、车、树等等,并精密地标注出每个物体的具体位置和形态。
大体上,图像宰割能够分为三个子工作: 实例宰割 (instance segmentation)、语义宰割 (semantic segmentation)、全景宰割 (panoptic segmentation),这三个子工作都有着大量的算法与模型。他们在计算机视觉、医学影像解决、数字艺术等畛域都有宽泛的利用。
指标检测与语义宰割标注
二、“Segment Anything”我的项目公布了什么?
Meta 公布了“Segment Anything Model(SAM)”和相应的数据集(SA-1B),这是一项新的图像宰割工作、模型和数据集。
外围亮点:
1. 该模型被设计和训练为可提示性(promptable),反对文本、关键点、边界框等多模态提醒。你能够用一个点、一个框、一句话等形式轻松宰割出指定物体;甚至承受其余零碎的输出提醒,比方依据 AR/VR 头显传来的视觉焦点信息,来抉择对应的物体;
2. 能够非常灵活地泛化到新工作和新畛域。积攒了大量学习教训的 SAM 曾经可能了解对象的个别概念,不要额定训练,即可对不相熟的物体和图像进行全自宰割标注,能够为任意图像或视频中的任何对象生成掩码;
3. 对于浓密的图片,依然有十分好的宰割效率和成果;
4. 应用高效的 SAM 模型构建了迄今为止最大的宰割数据集 SA-1B(segment anything),包含超过 1 亿个 Mask 图和 1100 万张合乎许可证的图片。为模型提供了短缺的训练数据,无望成为将来计算机视觉宰割模型训练和评测的经典数据集。
要晓得,以往创立精确的宰割模型“须要技术专家通过 AI 模型训练和大量人工精密标注数据进行高度专业化的工作”。而 Meta 创立 SAM,旨在缩小对专业培训和专业知识的需要,让这个过程更加“平等化”,以求推动计算机视觉钻研的进一步倒退。
三、Segment Anything Model 的成果如何?
Meta 示意,SAM 曾经把握了对物体的个别概念,能为任何图像或视频中的任何物体生成 Mask,即便在训练过程中没有遇到过这些物体和图像类型。SAM 足够通用,笼罩了宽泛的用例,并可在新的图像“畛域”(例如水下照片或细胞显微镜图像)上间接应用,无需额定训练(这种能力通常称为零样本迁徙)。
SAM 与人工标注的比照
四、咱们所看到的挑战与时机
市场上早有类似的技术
在此之前咱们见过很多不错的宰割工具,例如 Photoshop 软件或 IOS 零碎中自带的抠图性能,它们都能生成不错的成果,也用不错的交互体验进步了图像处理的效率,与 SAM 模型有着相似的性能。
在 iOS 16 及更高版本中,您能够将照片的主题抠图进去,而后复制或共享
开源数据集的“标准答案(Ground truth)错误百出
图像算法工程师在商业我的项目中,常常会要求标注员从新标注开源数据集,这破费了不少的老本。这次要是起因是开源数据集的“标准答案(Ground truth)”并不规范,其中存在这大量的标注谬误。
对于一些细分场景的钻研时,这些人工标注是不能达到数据品质的要求的。例如,一位工程师在做交通灯的场景相干钻研时发现,COCO 等数据集的标注谬误是非常明显的。这些问题也存在于其它的出名数据集,例如 CIFAR-100 和 ImageNet。数据标注是一项容易出错的艰巨工作,其起因既有含糊的标注要求文档阐明,也有人为主观判断不一致性等。SAM 模型同样也存在局部漏标、误标问题。
COCO 数据集对于红绿灯的谬误标注
无奈胜任于业余畛域
因而,前文提到的 SAM 与人工标注的比拟时,它曾经十分靠近或者在某些数据宰割的体现超过了人工标注后果时,咱们只是诧异——为什么开源数据集的品质这样差?置信也没有人会 100% 应用 ChatGPT 回复的后果,放在本人的文章中,咱们在其中不得不承受那些很有情理然而扭曲了事实的“胡言乱语”。通用大模型所训练的业余数据不够时,也无奈满足我的项目的需要。在一些谨严的学科,例如在医学诊断,主动驾驶,安防等畛域,咱们是无奈容忍这样的谬误的。对于业余畛域、非通用型图像,SAM 标注不够现实。
SAM 在医学方面的数据标注并不现实,这要求具备业余背景的医生来实现此项工作
其余挑战
这里还有相似于 ChatGPT 曾经遇到的算力问题和数据安全。在理论环境中,很多上线的小型模型也无奈接受过大的运行老本等。
时机
的确,随着人工智能技术一直的倒退,传统的 NLP、CV 技术将来可能会逐步淘汰。将来的钻研方向应该聚焦于更深层次、更形象的框架下进行思考和摸索。
● 承受并利用尖端技术:革命性的新技术所带来的不应是对行业的惶恐的失望,咱们要试图去了解并利用它,这些新范式将帮忙咱们进步已有的生产效率,从而为将来的技术创新奠定松软的根底。在很多细分赛道,业余的人士仍需持续深耕。
● 软件开源:AI 技术的迅猛发展得益于开源的理念,它让每个人能够站在伟人的肩膀上,这也是咱们打造 Xtreme1 的初衷:https://github.com/xtreme1-io/xtreme1/
Xtreme1 是寰球首个开源多模态训练数据平台,通过提供 AI 赋能的软件工具、数万我的项目提炼的本体核心和丰盛的数据治理个性,来减速多模态训练数据的解决效率,进而进步 AI 工程师的建模效率。特地是在 2D & 3D 多模态交融数据方面,标注效率的晋升可达 72%。自 2022 年 9 月 15 日正式开源以来,Xtreme1 平台曾经在 2022 年 12 月 15 日成为了 LF AI & DATA 托管我的项目。
● 数据开源:没有优良的数据,AI 是无奈正确运作的。咱们最近也在钻研寰球首个多模态数据,涵盖了最新的传感器设施以及精准地人工标注数据,敬请期待~
SA-1B 下载脚本与图像宰割评测数据集
最初,分享 SA-1B(segment anything)数据集疾速下载脚本及其评测数据集资源:
● 下载代码:
cat ~/fb-sam.txt | parallel -j 5 --colsep $'\t' wget -nc -c {2} -O {1}
注:fb-sam.txt 是跳过题目行的数据集 txt 的文件正本。
● SA-1B(segment anything)国内收费疾速下载地址:https://opendatalab.com/SA-1B
● 评测数据集资源(局部):
ADE20K:https://opendatalab.com/ADE20K_2016
NDD20 (Northumberland Dolphin Dataset 2020):https://opendatalab.com/NDD20
LVIS:https://opendatalab.com/LVIS
STREETS:https://opendatalab.com/STREETS
VISOR:https://opendatalab.com/VISOR
WoodScape:https://opendatalab.com/WoodScape
TrashCan:https://opendatalab.com/TrashCan
PIDray:https://opendatalab.com/PIDray
GTEA (Georgia Tech Egocentric Activity):https://opendatalab.com/GTEA
本文作者|张子千 Nico
本期封面图来自 Segment Anything | Meta
援用
[1] ChatGPT 爆火后,NLP 技术不存在了.
https://mp.weixin.qq.com/s/FknHZ_FFdwdofp5vn9ot3g;
[2] Segment Anything.
https://ai.facebook.com/blog/segment-anything-foundation-mode…;
[3] Create and share photo cutouts on your iPhone.
https://support.apple.com/en-us/HT213459;
[4] The Mislabelled Objects in COCO.
https://www.neuralception.com/mislabelled-traffic;
[5] How I found nearly 300,000 errors in MS COCO.
https://medium.com/@jamie_34747/how-i-found-nearly-300-000-er…;
[6]感激 OpenDataLab 提供的数据集反对,更多数据集请拜访:https://opendatalab.org.cn;
-END-
更多公开数据集,欢送拜访 OpenDataLab 官网查看与下载:https://opendatalab.org.cn.