关于计算机视觉:分割一切大模型SAM超轻量PPMobileSeg工业质检工具全景分割方案PaddleSeg全新版本等你来体验

48次阅读

共计 4798 个字符,预计需要花费 12 分钟才能阅读完成。

图像宰割是计算机视觉的一项根底技术,其指标是将图像中的像素按内容分成不同的类别。它在许多畛域有重要利用,比方主动驾驶、工业质检、医疗图像剖析、遥感图像解译等。

导读

PaddleSeg 是飞桨高性能图像宰割开发套件,在图像宰割畛域做了大量的开源工作,致力于帮忙企业在理论场景中落地 AI 利用,也帮忙初学者疾速入门直到精通。

在宽广开发者的应用、反馈和奉献之下,PaddleSeg 继续迭代降级,整体架构设计更加正当优雅,集成的模型日益丰盛,在语义宰割、交互式宰割、深度抠图、人像宰割、医学图像宰割等重点场景也逐步形成了独具特色的性能。当初,咱们非常高兴地发表,PaddleSeg 2.8 版本正式公布啦!心愿新版本的个性能给宽广开发者带来实打实的便当,更好地让图像宰割技术利用到理论场景中去,发明更大的价值!

接下来,就让咱们来看看 PaddleSeg 2.8 版本都带来了哪些新性能与个性吧~

🔥开源 飞桨版本视觉大模型 Segment Anything Model (SAM) 和演示 Demo。由 META AI 发表的 SAM 具备弱小的 zero-shot 能力,能够宰割任意物体和图像,也能够应用提醒输出宰割特定指标。

🔥 公布 超轻量级语义宰割模型 PP-MobileSeg:在 ADE20K 数据集上比照 SOTA 模型,PP-MobileSeg 的 速度晋升 42.3%、精度晋升 1.5%、参数量减少 34.9%

🔥 公布 工业质检工具 QualityInspector v0.5:提供对立可配置的算法 Pipeline,集成检测和宰割模型库,反对 3 种无监督异样检测算法,反对工业级指标评测、剖析、调优等性能。

🔥 公布 全景宰割解决方案 PanopticSeg v0.5:提供全景宰割的全流程开发性能,集成 2 个前沿高精模型,具备灵便的二次开发能力。

🔥 新增了 七个前沿语义宰割模型:MaskFormer、HRFormer、ViT-Adapter、CAE、SegNeXt、K-Net 和 LPSNet。

⭐️此外还有很多新性能和个性,比方 FastDeploy 全场景部署能力 的集成、EISeg V1.1 版本、视频抠图模型 RVM、人像抠图.NET 部署教程 等。想要理解更多详情,可至文末退出 PaddleSeg 技术交换群,同时欢送大家点击 star关注。

https://github.com/PaddlePaddle/PaddleSeg

PaddleSe g 2.8 版本具体解析

“宰割所有”大模型 SAM

Segment Anything Model(SAM)是 META AI 最近发表的研究成果,提出了图像宰割的新工作、模型和数据集。它效仿了生成式 LLM(Large Language Model, 大语言模型)的 prompt 范式,能够从不同类型的提醒中产生高质量的对象掩码,提醒类型包含点、框、掩码和文本。SAM 在各种图像宰割工作上体现出了极强的泛化能力,并且精度上不输针对各畛域数据集专门训练的传统模型。

在飞桨版本 SAM 中,咱们提供了 ViT-B、ViT-L、ViT-H 三种 Backbone 的 SAM 模型,大家能够灵便抉择、进行推理测试。SAM 模型能够和其它模型配合,做一些有意思的利用,比方 任意一个指标检测模型 + SAM = 实例宰割模型 。咱们曾经将 SAMCLIP 算法进行了联合,提供了基于飞桨 CLIP 算法的 ViT-B 模型权重文件,通过 CLIP 计算文本提醒与 SAM 宰割后果的匹配得分,从而具备通过 本文提醒 对特定指标进行宰割的能力。在接下来的工作中,咱们将逐渐补全 SAM 模型的 微调能力 ,并进行 部署侧的优化,不便大家落地利用!

另外,为了不便大家测试成果,咱们还提供了 基于 gradio 的 WebUI 利用,以及多种 prompt 形式下的预测脚本。WebUI 利用能够部署在本人的机器上应用,同时,咱们也在 AI Studio 中部署了在线版本,不便大家体验。

飞桨版 SAM 传送门

https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.8/contrib/SegmentAnything

超轻量级语义宰割模型 PP-MobileSeg

相较于 CNN 模型架构,Transformer 模型架构有更好的精度劣势。然而 Transformer 构造对算力要求高,限度了它在挪动端的广泛应用。针对这个问题,咱们提出了一个 针对挪动端设施的语义宰割模型 PP-MobileSeg。在 ADE20K 数据集上,PP-MobileSeg 和此前最佳办法相比,速度晋升 42.3%、精度晋升 1.5%、参数量减少 34.9%,实现了速度 - 精度 - 参数量之间的 SOTA 均衡。

PP-MobileSeg 与其它模型的比照状况以更好地均衡精度、速度和参数量为指标,咱们为 PP-MobileSeg 模型提出了三个翻新组件:StrideFormer 骨干网络、Aggregated Attention Module (AAM) 聚合注意力模块,和 Valid Interpolate Module (VIM) 无效插值模块。

  • StrideFormer 骨干网络

咱们应用 MobileNetV3 block 设计了一个四阶段的骨干网络,能够在缩小了参数冗余的状况下,高效提取不同感触野的特色。在骨干网络的后两个阶段,咱们还应用了 Strided Attention Module 为特色赋予全局视线。

  • AAM 聚合注意力模块**

为了无效交融特色,咱们应用集成投票的模式过滤细节特色。试验证实语义信息的晋升至关重要,因而咱们在交融特色最初环节增加语义特色,以最大水平保留语义信息。

  • VIM 无效插值模块**

咱们应用 VIM 替换原有的上采纳模块,从而显著缩小模型推理阶段的提早。在类别数很多的数据集中,单张图片中存在的语义类别数占数据集类别总数的比例是很小的,例如在 ADE20K 数据集中这个比例大概只有 10%。因而通常做法会导致大量算力用于无用类别的上采样,而 VIM 通过只插值最终预测中存在的类别,显著升高了上采样的延时。

基于三个翻新组件,PP-MobileSeg 的网络架构图如下所示:首先通过骨干网络提取并加强语义特色和细节特色,而后通过 AAM 特色交融模块产出最适宜语义宰割的特色,最初以一个简略的宰割头和专一性能优化的 VIM 上采样模块失去宰割后果。其中 AAM 和 VIM 的细节展现别离在下图的左上角和右下角,具体阐明能够参考 PP-MobileSeg 论文。

PP-MobileSeg 模型架构图

PP-MobileSeg 论文

https://arxiv.org/abs/2304.05152

PP-MobileSeg 传送门

https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.8/configs/pp_mobileseg

工业质检工具 QualityInspector

在 3C 电子、汽车、纺织化纤、金属、修建、食品、日用消费品等生产制作行业,品质检测是保障产品质量的重要一环,是企业确保产品符合标准,满足客户需要,进步竞争力的关键步骤。在深度学习时代,应用视觉技术对整机图像进行质检检测,相比人工或传统的质检办法,可能显著晋升精度和效率。因而,咱们开发了工业质检工具 QualityInspector,心愿帮忙开发者 疾速实现算法的研发、验证和调优,助力从数据标注到模型部署的全流程工业质检利用实际。目前,咱们公布了 QualityInspector V0.5 预览版本,次要个性如下:

  • 对立可配置的解决方案

反对检测、宰割单模型、检测 +RoI 宰割串联联合后处理的解决方案,简略批改配置即可轻松组合视觉套件的模型。

  • 工业级指标评估和调优

评估工业质检我的项目理论落地指标,并可间接调节后处理规定参数进行指标一键调优,不便易用。

  • 丰盛的视觉算法库

新增反对无监督异样检测算法,同时集成飞桨视觉套件的成熟算法库,笼罩图像宰割、指标检测等工作。

  • 可疾速上手的工具

反对数据格式转化工具,疾速实现检测,宰割 /RoI 宰割工作数据格式转化,同时反对数据分析工具和 EISeg 数据标注工具。

QualityInspector 缺点检测成果

欢送宽广开发者试用并反馈宝贵意见!

QualityInspector 传送门

https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.8/contrib/QualityInspector

全景宰割解决方案

PanopticSeg全景宰割是一项图像解析工作,该工作联合了语义宰割(为图像中每个像素赋予一个标签)和实例宰割(检测并宰割出图像中每一个对象实例)。PaddleSeg 2.8 版本全新推出全景宰割解决方案 PanopticSeg,旨在提供全景宰割模型训练、验证与部署的全流程开发解决方案。

  • 高精度

提供高质量的前沿全景宰割模型,开箱即用,目前曾经反对的模型包含 Mask2Former、Panoptic-DeepLab;

  • 全流程

提供全流程开发能力,买通数据集筹备、模型训练、模型推理、可视化剖析等性能,助力用户实现一站式开发工作;

  • 高性能

应用多过程异步 I/O、多卡并行训练等减速策略,联合飞桨外围框架的显存优化性能,让开发者以更低成本、更高效地实现全景宰割模型训练。

应用 PanopticSeg 在 Cityscapes 数据集中的可视化成果,顺次为原图、语义宰割后果、实例宰割后果、全景宰割后果

PanopticSeg 传送门

https://github.com/PaddlePaddle/PaddleSeg/blob/release/2.8/contrib/PanopticSeg

集成 FastDeploy 部署能力

大家训练实现宰割模型后,常常须要破费大量的工夫精力,为不同硬件开发部署程序。为了解决这个痛点,PaddleSeg 2.8 版本深刻对接了飞桨全场景 AI 推理部署工具 FastDeploy。大家应用 FastDeploy,能够疾速在 X86 CPU、NVIDIA GPU、飞腾 CPU、ARM CPU、Intel GPU、昆仑、昇腾、瑞芯微、晶晨、算能等 10+ 款硬件上部署 PaddleSeg 模型,并且反对灵便抉择 Paddle Inference、Paddle Lite、TensorRT、OpenVINO、ONNXRuntime、RKNPU2、SOPHGO  等多种推理后端!此外,FastDeploy 针对宰割模型进行了深度优化,开发了高效的图像前解决、后果后处理等功能模块,反对 FlyCV 和 CVCUDA 图像减速库,提供繁难的上手体验、极致的端到端推理性能。

语义宰割模型地硬件反对列表如下:

Matting 模型硬件反对列表如下:

FastDeploy 部署教程传送门

https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.8/deploy/fastdeploy

其它新性能与个性

深受开发者欢送的智能交互式宰割标注工具 EISeg 迎来了 V1.1 版本的降级:

  • 新增对检测指标的手工标注性能;
  • 新增对检测指标的预标注性能,反对批改预标注的标签对应关系;
  • 反对 3 种罕用的检测标注保留格局:COCO、VOC 和 YOLO。

Matting 人像抠图解决方案的降级:

  • 新增视频抠图模型 RVM,反对视频预测和背景替换;
  • 新增人像抠图.NET 部署教程(由内部开发者 @raoyutian 奉献)。

基于.NET 部署的 PaddleSeg C# 利用 demoPaddleSeg 2.8 版本也实现了一些代码重构与降级的工作,例如反对自定义 Optimizer 组件,可灵便配置训练超参;解耦 Config 和 Builder,严格校验配置信息;新增反对指数滑动均匀 EMA,助力训练过程稳固收敛。此外,在宽广开发者的踊跃反馈之下,发现并修复了若干破绽,在此对参加 PaddleSeg 我的项目奉献的开发者们示意衷心的感激!❤️

正文完
 0