乐趣区

关于程序员:Region-Proposal-Network-RPN-架构详解

动动发财的小手,点个赞吧!

简介

如果您正在浏览这篇文章,那么我假如您肯定据说过用于指标检测的 RCNN 系列,如果是的话,那么您肯定遇到过 RPN,即区域提议网络。如果您不理解 RCNN 系列,那么我强烈建议您在深入研究 RPN 之前单击此处浏览这篇文章。

因而咱们晓得,在指标检测算法中,指标是生成候选框,可能蕴含咱们指标的框,这些框将通过边界框回归办法进行定位,并由分类器分类到各自的类别。

在晚期版本的物体检测算法中,这些候选框已经是通过传统的计算机视觉技术生成的。其中一种办法是“选择性搜寻”,但这种办法的毛病是它是离线的,而且计算量很大。

这就是 RPN(区域提议网络)办法通过在十分短的工夫内生成候选框和最重要的中央,这个网络能够插入任何对象检测网络,这使得它对任何对象检测模型都更有用。

RPN

CNN 从特色图学习分类的形式,RPN 也学习从特色图生成这些候选框。能够应用下图演示典型的区域提议网络

让咱们逐渐理解下面的框图

Step 1

因而,在第一步中,咱们的输出图像通过卷积神经网络,最初一层将特色映射作为输入。

Step 2

在这一步中,一个滑动窗口运行在上一步取得的特色图上。滑动窗口的大小是 n*n(这里是 3×3)。对于每个滑动窗口,都会生成一组特定的锚点,但具备 3 种不同的纵横比(1:1、1:2、2:1)和 3 种不同的比例(128、256 和 512),如下所示。

因而,对于 3 种不同的纵横比和 3 种不同的比例,每个像素总共可能有 9 个倡议。特色图大小为 WxH 的锚框总数和特色图每个地位的锚点数量 K 能够示意为 WxHxK。

下图显示了在大小为 (600, 900) 的图像的地位 (450, 350) 处的 9 个锚点。

上图中,三种色彩代表三种尺度或尺寸:128×128、256×256、512×512。

让咱们挑出棕色的盒子 / 锚点(上图中最外面的盒子)。三个盒子的高宽比别离为 1:1、1:2 和 2:1。

当初咱们有 9 个锚框用于特色图的每个地位。然而可能有很多盒子外面没有任何物体。因而模型须要理解哪个锚框可能蕴含咱们的对象。带有咱们对象的锚框能够被归类为前景,其余的将是背景。同时模型须要学习前景框的偏移量以调整以适宜对象。这将咱们带到下一步。

Step 3

锚框的定位和分类是由 Bounding box Regressor layer 和 Bounding box Classifier layer 实现的。

Bounding Box Classifier 计算 Ground Truth Box 与 anchor boxes 的 IoU 分数,并以肯定的概率将 Anchor box 分类为前景或背景。

Bounding box Regressor 层学习 x,y,w,h 值绝对于被分类为前景的 Anchor Box 的 Ground truth Box 的偏移量(或差别),其中 (x,y) 是框的核心,w 和 h 是宽度和高度。

因为 RPN 是一个模型,并且每个模型都有一个要训练的老本函数,因而 RPN 也是如此。RPN 的损失或老本函数能够写成

留神:- PN 不关怀对象的最终类(例如猫、狗、汽车或人等)是什么。它只关怀它是前景对象还是背景。

示例

让咱们用一个例子来形容 RPN 的整个概念

因而,如果咱们有一个大小为 600×800 的图像,在通过卷积神经网络 (CNN) 块后,该输出图像将放大为一个 38×56 的特色图,每个特色图地位有 9 个锚框。那么咱们将有 38569=1192 个提案或 Anchor Boxes 来思考。每个锚框都有两个可能的标签(前景或背景)。如果咱们将特色图的深度设置为 18(9 个锚点 x 2 个标签),咱们将使每个锚点都有一个向量,该向量具备示意前景和背景的两个值(称为 logit 的法线)。如果咱们将 logit 输出 softmax/logistic 回归激活函数,它将预测标签。

假如 600×800 的图像在利用 CNN 后放大 16 倍为 39×51 的特色图。feature map 中的每个地位都有 9 个 anchors,每个 anchor 都有两个可能的标签(background,foreground)。如果咱们将特色图的深度设置为 18(9 个锚点 x 2 个标签),咱们将使每个锚点都有一个向量,该向量具备示意前景和背景的两个值(通常称为 logit)。如果咱们将 logit 输出 softmax/logistic 回归激活函数,它将预测标签。当初,训练数据已蕴含特色和标签。模型将进一步训练它。

总结

区域提议网络 (RPN) 的输入是一堆框 / 提议,它们将被传递给分类器和回归器以最终查看对象的呈现。简而言之,RPN 预测一个锚点是背景还是前景的可能性,并对锚点进行细化。

本文由 mdnice 多平台公布

退出移动版