关于程序员:目标检测RPN-Faster-RCNN-的主干

45次阅读

共计 1551 个字符,预计需要花费 4 分钟才能阅读完成。

动动发财的小手,点个赞吧!

在应用 R-CNN 的指标检测中,RPN 是真正的骨干,并且到目前为止已被证实十分无效。它的目标是提出在特定图像中可辨认的多个对象。

这种办法是由 Shaoqing Ren、Kaiming He、Ross Girshick 和 Jian Sun 在一篇十分受欢迎的论文“Faster R-CNN:Towards Real Time Object Detection with Region Proposal Networks”中提出的。这是一个十分风行的算法,引起了很多数据科学家、深度学习和人工智能工程师的关注。它具备微小的利用,例如检测主动驾驶汽车中的物体,帮助不同能力的人并帮忙他们等。

1. 什么是 CNN ?

CNN 翻译成卷积神经网络,这是一种十分风行的图像分类算法,通常由卷积层、激活函数层、池化(次要是 max_pooling)层组成,以在不失落大量特色的状况下升高维度。对于这篇文章,你应该晓得有一个特色图是由最初一层卷积层生成的。

例如,如果您输出猫图像或狗图像,算法能够告诉您它是狗还是猫。

但它并不止于此,弱小的计算能力带来了微小的提高。

许多预训练模型被开发为间接应用它们,而无需经验因为计算限度而训练模型的苦楚。许多模型也很受欢迎,例如 VGG-16、ResNet 50、DeepNet、ImageNet 的 AlexNet。

对于这篇特地的文章,我特地想谈谈我认为从上述论文中得出的十分聪慧的算法或想法。许多人施行 Faster R-CNN 来辨认对象,但该算法专门钻研了算法如何在已辨认对象四周获取框背地的逻辑和数学。

该算法的开发者将其称为 Region Proposal Networks,缩写为 RPN。

为了为对象所在的区域生成这些所谓的“倡议”,一个小型网络在卷积特色图上滑动,该特色图是最初一个卷积层的输入。

以上是 Faster R-CNN 的架构。RPN 为对象生成倡议。RPN 自身具备专门且独特的架构。我想进一步合成 RPN 架构。

RPN 有一个分类器和一个回归器。作者引入了锚点的概念。Anchor 是滑动窗口的中心点。对于作为 AlexNet 扩大的 ZF 模型,尺寸为 256-d,对于 VGG-16,尺寸为 512-d。分类器确定具备指标对象的提议的概率。回归对提案的坐标进行回归。对于任何图像,比例和纵横比都是两个重要参数。不晓得的敌人,纵横比 = 图片的宽度 / 图片的高度,scale 就是图片的大小。开发人员抉择了 3 种比例和 3 种纵横比。因而,每个像素总共可能有 9 个倡议,这就是 k 值的决定形式,对于这种状况,K=9,k 是锚点的数量。对于整个图像,anchors 的数量是 WHK。

该算法对平移具备鲁棒性,因而该算法的要害属性之一是平移不变性。

算法中多尺度锚点的存在导致“锚点金字塔”而不是“过滤器金字塔”,这使得它比以前提出的算法(如 Multi-Box)更省时且更具老本效益。

2. 它是如何工作的 ?

这些锚点依据两个因素调配标签:

  1. Intersection-over-union 最高的锚点与地面实况框重叠。
  2. Intersection-Over-Union Overlap 高于 0.7 的锚点。

归根结底,RPN 是一种须要训练的算法。所以咱们必定有咱们的损失函数。

i → anchor 的索引,p → 是否是物体的概率,t → 预测边界框的 4 个参数化坐标的向量,* 示意 ground truth box。cls 的 L 示意两个类的对数损失。

损失函数中带有回归项的 p 确保当且仅当对象被辨认为是时,则只有回归才算数,否则 p 将为零,因而损失函数中的回归项将变为零。

Ncls 和 Nreg 是归一化。默认状况下,λ 默认为 10,用于在同一级别上缩放分类器和回归器。

如果您想更具体地理解,这里是论文的链接:https://arxiv.org/pdf/1506.01497.pdf。

本文由 mdnice 多平台公布

正文完
 0