关于计算机视觉:YOWOv2优秀的实时视频动作检测框架

55次阅读

共计 630 个字符，预计需要花费 2 分钟才能阅读完成。

出品人：Towhee 技术团队顾梦佳

为时空动作检测工作设计实时框架依然是一个挑战。YOWOv2 提出了一种新鲜的实时动作检测框架，利用三维骨干和二维骨干进行精确的动作检测。通过改良，YOWOv2 显著优于 Y OWO，并且依然能够放弃实时检测。YOWOv2 在数据集 UCF101-24 上以超过 20 FPS 的速度实现了 87.0% 的视频帧 mAP 和 52.8% 的全视频 mAP。在数据集 AVA 上，YOWOv2 在提速 20 FPS 的同时实现了 21.7% 的视频帧 mAP。

Overview of YOWOv2YOWOv2

旨在检测不同规模的动作指标。为此，它精心构建了一个简略高效的二维骨干，带有特色金字塔网络，以提取不同级别的分类特色和回归特色。对于三维骨干，YOWOv2 采纳现有的高效架构 3D CNN 来节俭开发工夫。通过联合不同尺寸的三维和二维骨干，YOWOv2 公开了一系列高效的实时动作检测预训练模型，包含 YOWOv2-Tiny、YOWOv2-Medium 和 YOWOv2-Large。另外，该框架还引入了风行的动静标签调配策略和 anchor-free 机制，使 YOWOv2 紧跟先进的指标检测模型架构设计。

相干材料：

代码地址：https://github.com/yjh0410/YOWOv2
论文链接：YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time Spatio-temporal Action Detection

正文完