摘要
作者提出单阶段的HOI检测办法,体现SOTA。这是第一个实时的HOI检测办法。传统的的HOI检测办法由两个阶段组成,然而它的有效性和效率受到程序和独立架构的限度。文中作者提出PPDM的HOI检测框架。在PPDM中,HOI被定义为一个point triplet<human point,interaction point,object point>,其中human point和object point是检测框的核心,interaction point是human point和object point的中点。
PPDM蕴含了两个并行分支,也就是点检测分支和点匹配分支。其中点检测分支预测是三个点,点匹配分支预测从interaction point到对应的human point和 object point的偏移。如果human point和object point是来自同一个interaction point,则认为它们是匹配的。
在作者新鲜的并行框架中,interaction point 隐式地为人和物的检测提供了上下文和正则化。克制孤立的检测boxes,因为它不可能造成有意义的HOI triplets(集体了解:人-物候选区独自产生,没有思考到他们之间的分割,这种状况不利于检测,所以要克制),这减少了HOI的检测精度。更何况人和物检测的boxes只是利用在数量无限并过滤过的候选interation point,节俭了大量计算耗费。此外,作者了建设了一个新的数据集HOI—A。
- Introduction
传统的HOI办法由两个阶段组成。第一个阶段是人-物候选区检测。这阶段能够失去很多大量的人-物对候选区(M×N)。第二阶段是预测每个人-物候选区的交互。这种两个阶段办法的有效性和效率受到程序性和独立性的限度。候选区的产生阶段齐全基于对象检测的置信度。每个人/物候选去独自产生。组合两个候选区造成有意义的HOItriplet的可能性在第二阶段并没有思考(集体了解:就是摘要中所说到的受到到独立架构的限度)。所以,产生的人-物候选区可能品质较低,并且在第二阶段,所有人-物候选区须要线性扫描,开销很大。所以作者认为须要非程序性的和高耦合度的框架。
PPDM的第一个分支预计中心点(interation,human和object point),对应大小,和两个部分偏移(human和object point)的点检测。因为interaction point能够认为给人和物的检测提供上下文信息,也就是说,对interation point的预计能够隐式地加强人和物的检测(集体了解:交互点的预计须要减少感触野,因为须要人和物的信息,所以感触野的增大也有利用为人和物的检测)。第二个分支是点匹配,预计interation point到human point和object point的偏移。
作者奉献有三:(1)把HOI检测工作视为点检测和点匹配问题,并提出单阶段的PPDM。(2)PPDM是第一个在HOCI—DET和HOI—A benchmark中达到实时并体现SOTA的的HOI检测办法。(3)HOI-A
- Related Work
略略略....
- Parallel point dection and matching
3.1 Overview
图3.作者首先利用keg-point heatmap预测网络来提取提取特色,如Hourglass-104 or DLA-34。a) Point Detection Branch:基于提取的视觉特色,作者利用三个卷积模块来预测heatmap中的交互点,人中心点和物中心点,此外,回归的2-D size和人和物的部分偏移来产生最初的box。b) Point Matching Branch:此分支的第一步是别离回归从交互点到人中心点到物中心点的偏移。基于预测的点和位移,第二步是每一个交互点匹配人中心点和物中心点来产生一系列的tirplets。
3.2 Point Detection
图3中输出图像是,通过特征提取器产生的特色。人核心示意为,其对应的大小为,部分偏移量为,补救输入步幅引起的离散化误差。GT人中心点对应的低分辨率点(heatmap产生)为的向下取正。
Point location loss. 间接检测点比拟艰难,所以作者应用关键点预计办法将点映射到高斯核热图中。所以点检测转换为heatmap预计工作。三个GT低分辨率的点别离映射到三个高斯heatmap,包含人中心点heatmap ,物中心点heatmap ,交互点heatmap ,其中 和是多通道的。在特色映射上,别离增加三个卷积网络来产生三个heatmap。loss 函数为:
Size and offset loss.四个卷积模块增加到特色映射来别离产生人和物的产生2-D size和部分偏移。为
3.3 Point Matching
偏移分支有两个卷积模块组成。
Diaplacement loss:
Triplet matching: 判断人中心点和物中心点是否匹配看两个方面,一是交互点加上偏移后,靠不凑近大略的人/物的中心点,二是有高的置信度。
3.4 Loss and Inference
最初的loss为:
在推理阶段,作者首先在预测的人、物和交互点的heatmap上用一个3x3 max-pooing操作,而后通过对应的置信度抉择top K集体中心点,物中心点和交互点,最初triplets匹配。对于每个匹配的人中心点,最初失去的box为:
4 集体总结
1.文章解决什么问题:
解决传统的两阶段HOI检测问题。
2.用本人的话论述文章思路
作者提出并行的单阶段的HOI检测网络,PPDM。PPDM首先用key-point heatmap预测网络来提取特色,而后有两个并行分支,别离是点检测分支和点匹配分支。在点检测分支中,预测三点(人中心点、物中心点、交互点)基于对应大小,以及部分偏移。在点匹配分支中,预测交互点到人中心点和物中心点的偏移,依据置信度选取TOP K集体中心点、物中心点和交互点,最初匹配triplets。
3.关键因素
- 间接预测点比拟艰难,所以将点映射到高斯核热图中,将点检测转换为 heatmap预计工作。
- 传统的HOI检测是程序性的两个阶段,先候选区检测再是预测交互,而PPDM则是并行分支。一个分支预测人-物box及其交互点,另一个分支则预测交互点和人-物中心点的偏移。
- 传统的HOI检测人-物检测是独自,没有思考到他们之间的分割,而PPDM则是人中心点-交互点-物中心点一起预计,为了更好地检测交互点,减少感触野,感触野中带有人-物的上下文信息,这思考到了它们之间的分割。
4.为我所用
- 通过key-point heatmap网络,将间接点预测转换为在heatmap上预测。
- PPDM的并行分支别离负责不同的工作。