关于人工智能:恒源云Object-Detection-20年小结

2次阅读

共计 2972 个字符,预计需要花费 8 分钟才能阅读完成。

文章起源 | 恒源云社区

原文地址 |“Salute!”Object Detection 20 年 前三章小结

原文作者 | 小侥幸


Object Detection 20 年


这是 19 年末发表的一篇文章,外面提到的有些技术以当初眼光来看可能有些过期,然而我集体认为仍然是一篇很好的启蒙时读物。假使将外面每个知识点掰开嚼碎,一点点排汇。这有助于你对指标检测有一个系统性理解。

第一章 指标检测的里程碑

能够用一张很经典的图来示意指标检测的发展史

1. 概要

2012 年是深度学习的元年,那一年 AlexNet 应用卷积神经网络,突破机器学习的极限。从此开启深度学习年代。

2. 技术总结

2014 年 RCNN 的公布开启了指标检测的时代,而后指标检测开启三分天下的场面,一是以 RCNN 为代表的 two-stage detector,一是以 yolo 为代表的 one-stage detector,最初是以 ssd 为代表的中间派,准确度介于两者之间。

名称 准确度 辨认速度
RCNN
SSD
YOLO
而后几年特地是最近几年技术都是在这几个根底上倒退的,然而 2020 年 - 至今,钻研人员冲破方向放在无先验框上,趋势朝着无监督学习下来。(仅个人观点,如有异议欢送探讨)

第二章

2.SPPNET

2014 年,K. He 等人提出了空间金字塔网络 (SPPNet)。以前的 CNN 模型须要一个固定大小的输出,例如,AlexNet 的 224×224 图像。SPPNet 的次要奉献是引入了 Spatial Pyramid Pooling (SPP) 层,这使得 CNN 能够生成固定长度的输入模式,而与输出的图像大小无关,而无需对其进行从新缩放。应用 SPPNet 进行指标检测宰割时,只须要进行一次特征提取,而后生成任意尺寸的特色层,用于训练,无效的防止了反复计算卷积特色。SPPNet 比 R-CNN 快 20 倍以上,而且不就义任何探测精度 (VOC07 mAP = 59.2%)。
只管 SPPNet 无效地进步了检测速度,但依然存在一些 毛病:首先,训练依然是多阶段的,其次,SPPNet 仅微调其全连贯的层,而疏忽了先前的所有层。第二年当前,Fast R-CNN 提出并解决了这些问题。

2.1.1 传统检测器

N. Dalal 和 B. Triggs [12]最后于 2005 年提出了定向梯度直方图(HOG)特征描述器。HOG 可被认为是其时间尺度不变特色变换 [33,34] 和形态上下文 [35] 的重要改良。为了均衡特色不变性(包含平移,缩放,照度等)和非线性(辨别不同的对象类别),将 HOG 描述符设计为在平均距离的像元的密集网格上进行计算,并应用重叠的部分对比度归一化(在“块”上)以进步准确性。只管 HOG 可用于检测各种对象类别,但它次要是由行人检测问题引起的。为了检测不同大小的物体,HOG 检测器会屡次缩放输出图像,同时放弃检测窗口的大小不变。多年来,HOG 检测器始终是许多对象检测器 [13、14、36] 和各种计算机视觉利用的重要根底。
HOG(转至 https://zhuanlan.zhihu.com/p/…)

2.1.2 Milestones: CNN based Two-stage Detectors

在 2012 年,世界见证了卷积神经网络的新生 [40]。因为深度卷积网络可能学习图像的 鲁棒 (鲁棒性代表这该模型的稳定性以及扛烦扰性,如果在迁徙学习中还能够代表该模型的可迁移性)。有一个例子能够加深了解且高级的特色示意,因而自然而然的问题是, 咱们是否能够将其用于对象检测?R. Girshick 等通过提出 Regions with CNN features(RCNN)来检测物体,率先突破了僵局。从那时起,物体检测开始以前所未有的速度倒退。
在深度学习时代,对象检测能够分为两类:“Two-stage 检测”和“One-stage 检测”,其中前者将检测过程称为“从粗到精”过程,而后者则将其视为“一步实现”。
RCNN 背地的思维很简略:它始于通过 selective search 提取一组 object proposals(object candidate boxes)[42]。而后将每个 proposal 从新缩放为固定大小的图像,并输出到 ImageNet 上训练的 CNN 模型中(例如 AlexNet [40])以提取特色。最初,线性 SVM 分类器用于预测每个区域内对象的存在并辨认对象类别.
只管 RCNN 获得了长足的提高,但它的毛病也很显著:对大量重叠的 proposals(从一张图像中提取 2000 多个框)进行冗余特色计算会导致极慢的检测速度(应用 GPU,每张图像 14s)。同年晚些时候,SPPNet 提出并克服了这个问题。
总结:
selective search ——> rescale proposal ——> CNN 提取特色 ——> SVM 分类
参考:
指标检测(1)Selective Search

2.1.3 Milestones: CNN based One-stage Detectors

3 FAST R-CNN

在 2015 年,R,Girshick 提出了 Fast R-CNN 检测器,这是对 R -CNN 和 SPPNet 的进一步改良。Fast R-CNN 使咱们可能在雷同的网络配置下同时训练一个 detector 和一个 bounding box regressor。在 VOC07 数据集上,Fast RCNN 将 mAP 从 58.5%(R-CNN)进步到 70.0%,同时检测速度比 R -CNN 快 200 倍。
只管 Fast-RCNN 胜利地集成了 R -CNN 和 SPPNet 的长处,但其检测速度依然受到提议检测的限度。而后,天然会产生一个问题:“咱们能够应用 CNN 模型生成 object proposals 吗?”起初,Faster R-CNN 答复了这个问题。

4 FASTER R-CNN

2015 年,S.Ren 等人在 Fast RCNN 之后不久,提出了 Faster RCNN 检测器。Faster RCNN 是第一个端到端和第一个近实时深度学习探测器。Faster-RCNN 的次要奉献是引入了 Region Proposal Newwork(RPN),该网络使简直无代价的 region proposal 成为可能。从 R -CNN 到 Faster RCNN,对象检测零碎的大多数独立模块,例如提议检测,特征提取,边界框回归等,已逐渐集成到对立的端到端学习框架中。
只管 Faster RCNN 冲破了 Fast RCNN 的速度瓶颈,但在后续检测阶段仍存在计算冗余。起初,人们提出了各种改良措施,包含 RFCN 和 Light head RCNN。

5 FEATURE PYRAMID NETWORKS(FPN)

2017 年,T.-Y.Lin 等人提出了基于 Faster RCNN 的特色金字塔网络 (FPN)。在 FPN 之前,大多数基于深度学习的检测器只在卷积网络的顶层进行特征提取。只管卷积神经网络深层特色有利于类别辨认,但不利于对象的定位。因而,开发了具备横向连贯的自顶向下架构 FPN,用于在所有规模上构建高级特色。因为 CNN 通过其前向流传天然造成一个特色金字塔,FPN 在多尺度下检测指标方面显示了微小的提高。在一个根本的疾速 R-CNN 零碎中应用 FPN,它在(COCO mAP@.5 = 59.1%,COCO mAP@[.5,.95] = 36.2%) 的状况下,实现了最先进的单模型检测后果。FPN 当初曾经成为许多最新探测器的根本组成部分。
FPN
faster-RCNN 的训练过程以及关键点总结

未完待续……

正文完
 0