摘要
作者提出单阶段的 HOI 检测办法,体现 SOTA。这是第一个实时的 HOI 检测办法。传统的的 HOI 检测办法由两个阶段组成,然而它的有效性和效率受到程序和独立架构的限度。文中作者提出 PPDM 的 HOI 检测框架。在 PPDM 中,HOI 被定义为一个 point triplet<human point,interaction point,object point>,其中 human point 和 object point 是检测框的核心,interaction point 是 human point 和 object point 的中点。
PPDM 蕴含了两个并行分支,也就是 点检测分支 和点匹配分支。其中点检测分支预测是三个点,点匹配分支预测从 interaction point 到对应的 human point 和 object point 的偏移。如果 human point 和 object point 是来自同一个 interaction point,则认为它们是匹配的。
在作者新鲜的并行框架中,interaction point 隐式地为人和物的检测提供了上下文和正则化。克制孤立的检测 boxes,因为它不可能造成有意义的 HOI triplets(集体了解:人 - 物候选区独自产生,没有思考到他们之间的分割,这种状况不利于检测,所以要克制),这减少了 HOI 的检测精度。更何况人和物检测的 boxes 只是利用在数量无限并过滤过的候选 interation point, 节俭了大量计算耗费。此外,作者了建设了一个新的数据集 HOI—A。
- Introduction
传统的 HOI 办法由两个阶段组成。第一个阶段是人 - 物候选区检测。这阶段能够失去很多大量的人 - 物对候选区 (M×N)。第二阶段是预测每个人 - 物候选区的交互。这种两个阶段办法的有效性和效率受到程序性和独立性的限度。候选区的产生阶段齐全基于对象检测的置信度。 每个人 / 物候选去独自产生。组合两个候选区造成有意义的 HOItriplet 的可能性在第二阶段并没有思考(集体了解:就是摘要中所说到的受到到独立架构的限度)。所以,产生的人 - 物候选区可能品质较低,并且在第二阶段,所有人 - 物候选区须要线性扫描,开销很大。所以作者认为须要非程序性的和高耦合度的框架。
PPDM 的第一个分支预计中心点 (interation,human 和 object point),对应大小,和两个部分偏移(human 和 object point) 的点检测。因为 interaction point 能够认为给人和物的检测提供上下文信息,也就是说,对 interation point 的预计能够隐式地加强人和物的检测(集体了解:交互点的预计须要减少感触野,因为须要人和物的信息,所以感触野的增大也有利用为人和物的检测)。第二个分支是点匹配,预计 interation point 到 human point 和 object point 的偏移。
作者奉献有三:(1)把 HOI 检测工作视为点检测和点匹配问题,并提出单阶段的 PPDM。(2)PPDM 是第一个在 HOCI—DET 和 HOI—A benchmark 中达到实时并体现 SOTA 的的 HOI 检测办法。(3)HOI-A
- Related Work
略略略 ….
- Parallel point dection and matching
3.1 Overview
图 3. 作者首先利用 keg-point heatmap 预测网络来提取提取特色,如 Hourglass-104 or DLA-34。a) Point Detection Branch: 基于提取的视觉特色,作者利用三个卷积模块来预测 heatmap 中的交互点,人中心点和物中心点,此外,回归的 2 -D size 和人和物的部分偏移来产生最初的 box。b) Point Matching Branch: 此分支的第一步是别离回归从交互点到人中心点到物中心点的偏移。基于预测的点和位移,第二步是每一个交互点匹配人中心点和物中心点来产生一系列的 tirplets。
3.2 Point Detection
图 3 中输出图像是, 通过特征提取器产生的特色。人核心示意为, 其对应的大小为,部分偏移量为,补救输入步幅引起的离散化误差。GT 人中心点对应的低分辨率点 (heatmap 产生) 为的向下取正。
Point location loss. 间接检测点比拟艰难,所以作者应用关键点预计办法将点映射到高斯核热图中。所以点检测转换为 heatmap 预计工作。三个 GT 低分辨率的点别离映射到三个高斯 heatmap,包含人中心点 heatmap , 物中心点 heatmap , 交互点 heatmap , 其中 和是多通道的。在特色映射上,别离增加三个卷积网络来产生三个 heatmap。loss 函数为:
Size and offset loss. 四个卷积模块增加到特色映射来别离产生人和物的产生 2 -D size 和部分偏移。为
3.3 Point Matching
偏移分支有两个卷积模块组成。
Diaplacement loss:
Triplet matching: 判断人中心点和物中心点是否匹配看两个方面,一是交互点加上偏移后,靠不凑近大略的人 / 物的中心点,二是有高的置信度。
3.4 Loss and Inference
最初的 loss 为:
在推理阶段,作者首先在预测的人、物和交互点的 heatmap 上用一个 3 ×3 max-pooing 操作,而后通过对应的置信度抉择 top K 集体中心点,物中心点和交互点,最初 triplets 匹配。对于每个匹配的人中心点,最初失去的 box 为:
4 集体总结
1. 文章解决什么问题:
解决传统的两阶段 HOI 检测问题。
2. 用本人的话论述文章思路
作者提出并行的单阶段的 HOI 检测网络,PPDM。PPDM 首先用 key-point heatmap 预测网络来提取特色,而后有两个并行分支,别离是点检测分支和点匹配分支。在点检测分支中,预测三点(人中心点、物中心点、交互点)基于对应大小,以及部分偏移。在点匹配分支中,预测交互点到人中心点和物中心点的偏移,依据置信度选取 TOP K 集体中心点、物中心点和交互点,最初匹配 triplets。
3. 关键因素
- 间接预测点比拟艰难,所以将点映射到高斯核热图中,将点检测转换为 heatmap 预计工作。
- 传统的 HOI 检测是程序性的两个阶段,先候选区检测再是预测交互,而 PPDM 则是并行分支。一个分支预测人 - 物 box 及其交互点,另一个分支则预测交互点和人 - 物中心点的偏移。
- 传统的 HOI 检测人 - 物检测是独自,没有思考到他们之间的分割,而 PPDM 则是人中心点 - 交互点 - 物中心点一起预计,为了更好地检测交互点,减少感触野,感触野中带有人 - 物的上下文信息,这思考到了它们之间的分割。
4. 为我所用
- 通过 key-point heatmap 网络,将间接点预测转换为在 heatmap 上预测。
- PPDM 的并行分支别离负责不同的工作。