Facebook-AI的DETR一种基于Transformer的目标检测方法

51次阅读

共计 1447 个字符,预计需要花费 4 分钟才能阅读完成。

作者 |PRATEEK JOSHI
编译 |VK
起源 |Analytics Vidhya

介绍

机器学习框架或库有时会更改该畛域的格局。明天,Facebook 开源了一个这样的框架,DETR(DEtection TRansformer)

在本文中,咱们将疾速理解指标检测的概念,而后间接钻研 DETR 及其带来的益处。

指标检测

在计算机视觉中,指标检测是一项工作,咱们心愿咱们的模型将对象与背景辨别开,并预测图像中存在的对象的地位和类别。以后的深度学习办法试图解决作为分类问题或回归问题或综合两者的指标检测工作。

例如,在 RCNN 算法中,从输出图像中辨认出几个感兴趣的区域。而后将这些区域分类为对象或背景,最初,应用回归模型为所标识的对象生成边界框。

另一方面,YOLO 框架(只看一次)以不同的形式解决指标检测。它在单个实例中获取整个图像,并预测这些框的边界框坐标和类概率。

要理解无关指标检测的更多信息,请参阅以下文章:

  • 根本指标检测算法的分步介绍

    https://www.analyticsvidhya.c…

  • 应用风行的 YOLO 框架进行指标检测的实用指南

    https://www.analyticsvidhya.c…

Facebook AI 引入 DETR

如上一节所述,以后的深度学习算法以多步形式执行指标检测。他们还蒙受了简直反复的问题,即误报。为简化起见,Facebook AI 的钻研人员提出了 DETR,这是一种解决物体检测问题的翻新高效办法。

论文:https://arxiv.org/pdf/2005.12…

凋谢源代码:https://github.com/facebookre…

Colab Notebook:https://colab.research.google…

这个新模型非常简单,你无需装置任何库即可应用它。DETR 借助基于 Transformer 的编码器 - 解码器体系结构将指标检测问题视为汇合预测问题。所谓汇合,是指边界框的汇合。Transformer 是在 NLP 畛域中表现出色的新型深度学习模型。

本文的作者曾经比照了 Faster R-CNN,并且在最风行的物体检测数据集之一 COCO 上评估了 DETR。

后果,DETR 获得了可比的性能。更精确地说,DETR 在大型物体上体现出显著更好的性能。然而,它在小型物体上的成果不佳。我置信钻研人员很快就会解决这个问题。

DETR 的体系结构

实际上,整个 DETR 架构很容易了解。它蕴含三个次要组件:

  • CNN 骨干网
  • 编码器 - 解码器 transformer
  • 一个简略的前馈网络

首先,CNN 骨干网从输出图像生成特色图。

而后,将 CNN 骨干网的输入转换为一维特色图,并将其作为输出传递到 Transformer 编码器。该编码器的输入是 N 个固定长度的嵌入(向量),其中 N 是模型假如的图像中的对象数。

Transformer 解码器借助本身和编码器 - 解码器留神机制将这些嵌入解码为边界框坐标。

最初,前馈神经网络预测边界框的标准化核心坐标,高度和宽度,而线性层应用 softmax 函数预测类别标签。

想法

对于所有深度学习和计算机视觉爱好者来说,这是一个十分令人兴奋的框架。非常感谢 Facebook 与社区分享其办法。

原文链接:https://www.analyticsvidhya.c…

欢送关注磐创 AI 博客站:
http://panchuang.net/

sklearn 机器学习中文官网文档:
http://sklearn123.com/

欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/

正文完
 0