关于深度学习:HOI任务PPDM论文阅读精度

作者提出单阶段的 HOI 检测办法，体现 SOTA。这是第一个实时的 HOI 检测办法。传统的的 HOI 检测办法由两个阶段组成，然而它的有效性和效率受到程序和独立架构的限度。文中作者提出 PPDM 的 HOI 检测框架。在 PPDM 中，HOI 被定义为一个 point triplet<human point,interaction point,object point>，其中 human point 和 object point 是检测框的核心，interaction point 是 human point 和 object point 的中点。

PPDM 蕴含了两个并行分支，也就是 点检测分支 和点匹配分支。其中点检测分支预测是三个点，点匹配分支预测从 interaction point 到对应的 human point 和 object point 的偏移。如果 human point 和 object point 是来自同一个 interaction point，则认为它们是匹配的。

在作者新鲜的并行框架中，interaction point 隐式地为人和物的检测提供了上下文和正则化。克制孤立的检测 boxes，因为它不可能造成有意义的 HOI triplets(集体了解：人 - 物候选区独自产生，没有思考到他们之间的分割，这种状况不利于检测，所以要克制)，这减少了 HOI 的检测精度。更何况人和物检测的 boxes 只是利用在数量无限并过滤过的候选 interation point, 节俭了大量计算耗费。此外，作者了建设了一个新的数据集 HOI—A。

Introduction

传统的 HOI 办法由两个阶段组成。第一个阶段是人 - 物候选区检测。这阶段能够失去很多大量的人 - 物对候选区 (M×N)。第二阶段是预测每个人 - 物候选区的交互。这种两个阶段办法的有效性和效率受到程序性和独立性的限度。候选区的产生阶段齐全基于对象检测的置信度。 每个人 / 物候选去独自产生。组合两个候选区造成有意义的 HOItriplet 的可能性在第二阶段并没有思考(集体了解：就是摘要中所说到的受到到独立架构的限度)。所以，产生的人 - 物候选区可能品质较低，并且在第二阶段，所有人 - 物候选区须要线性扫描，开销很大。所以作者认为须要非程序性的和高耦合度的框架。

PPDM 的第一个分支预计中心点 (interation,human 和 object point)，对应大小，和两个部分偏移(human 和 object point) 的点检测。因为 interaction point 能够认为给人和物的检测提供上下文信息，也就是说，对 interation point 的预计能够隐式地加强人和物的检测(集体了解：交互点的预计须要减少感触野，因为须要人和物的信息，所以感触野的增大也有利用为人和物的检测)。第二个分支是点匹配，预计 interation point 到 human point 和 object point 的偏移。

作者奉献有三：（1）把 HOI 检测工作视为点检测和点匹配问题，并提出单阶段的 PPDM。(2)PPDM 是第一个在 HOCI—DET 和 HOI—A benchmark 中达到实时并体现 SOTA 的的 HOI 检测办法。(3)HOI-A

Related Work

略略略 ….

Parallel point dection and matching

图 3. 作者首先利用 keg-point heatmap 预测网络来提取提取特色，如 Hourglass-104 or DLA-34。a) Point Detection Branch: 基于提取的视觉特色，作者利用三个卷积模块来预测 heatmap 中的交互点，人中心点和物中心点，此外，回归的 2 -D size 和人和物的部分偏移来产生最初的 box。b) Point Matching Branch: 此分支的第一步是别离回归从交互点到人中心点到物中心点的偏移。基于预测的点和位移，第二步是每一个交互点匹配人中心点和物中心点来产生一系列的 tirplets。

图 3 中输出图像是, 通过特征提取器产生的特色。人核心示意为, 其对应的大小为，部分偏移量为，补救输入步幅引起的离散化误差。GT 人中心点对应的低分辨率点 (heatmap 产生) 为的向下取正。

Point location loss. 间接检测点比拟艰难，所以作者应用关键点预计办法将点映射到高斯核热图中。所以点检测转换为 heatmap 预计工作。三个 GT 低分辨率的点别离映射到三个高斯 heatmap，包含人中心点 heatmap , 物中心点 heatmap , 交互点 heatmap , 其中和是多通道的。在特色映射上，别离增加三个卷积网络来产生三个 heatmap。loss 函数为：

Size and offset loss. 四个卷积模块增加到特色映射来别离产生人和物的产生 2 -D size 和部分偏移。为

偏移分支有两个卷积模块组成。

Diaplacement loss:

Triplet matching: 判断人中心点和物中心点是否匹配看两个方面，一是交互点加上偏移后，靠不凑近大略的人 / 物的中心点，二是有高的置信度。

最初的 loss 为：

在推理阶段，作者首先在预测的人、物和交互点的 heatmap 上用一个 3 ×3 max-pooing 操作，而后通过对应的置信度抉择 top K 集体中心点，物中心点和交互点，最初 triplets 匹配。对于每个匹配的人中心点，最初失去的 box 为：

1. 文章解决什么问题:

解决传统的两阶段 HOI 检测问题。

2. 用本人的话论述文章思路

作者提出并行的单阶段的 HOI 检测网络，PPDM。PPDM 首先用 key-point heatmap 预测网络来提取特色，而后有两个并行分支，别离是点检测分支和点匹配分支。在点检测分支中，预测三点（人中心点、物中心点、交互点）基于对应大小，以及部分偏移。在点匹配分支中，预测交互点到人中心点和物中心点的偏移，依据置信度选取 TOP K 集体中心点、物中心点和交互点，最初匹配 triplets。

3. 关键因素

间接预测点比拟艰难，所以将点映射到高斯核热图中，将点检测转换为 heatmap 预计工作。
传统的 HOI 检测是程序性的两个阶段，先候选区检测再是预测交互，而 PPDM 则是并行分支。一个分支预测人 - 物 box 及其交互点，另一个分支则预测交互点和人 - 物中心点的偏移。
传统的 HOI 检测人 - 物检测是独自，没有思考到他们之间的分割，而 PPDM 则是人中心点 - 交互点 - 物中心点一起预计，为了更好地检测交互点，减少感触野，感触野中带有人 - 物的上下文信息，这思考到了它们之间的分割。

4. 为我所用

通过 key-point heatmap 网络，将间接点预测转换为在 heatmap 上预测。
PPDM 的并行分支别离负责不同的工作。

关于深度学习:HOI任务PPDM论文阅读精度

摘要

3.1 Overview

3.2 Point Detection

3.3 Point Matching

3.4 Loss and Inference

4 集体总结