关于自动驾驶:DeepRoute-Lab-AAAI22参会见闻与论文杂谈

By 元戎感知组

明天次要和大家分享的是往年 2 月底加入的 AAAI22 的一些见闻以及一些感兴趣的论文杂谈。再次安利一下咱们组最新的一篇被 AAAI22 接管的点云全景宰割的 oral paper Sparse Cross-scale Attention Network for Efficient LiDAR Panoptic Segmentation，没看过的小伙伴能够点击链接到之前的文章里查看哦。

作为人工智能的顶会之一，2022 年的 AAAI 又发明了该会议的历史投稿新高，一共收到了 9251 篇投稿，其中 9020 篇投稿进入了评审环节，然而最初的承受率则是历届最低，只有 15.0%，1349 篇论文被承受，真是越来越“卷”了。
因为疫情的起因，这次大会以线上会议的模式在虚拟空间内举办，这也是最近一些 AI 会议的罕用操作了。图里就是这次 AAAI 的主会场了，入口外是一个虚构公园，进入后右边的红色修建、左边的蓝色修建都是这次的会场的入口电梯。每个会场中除了有赞助商的地位外，还各有 6 组海报进行轮流展现，以及 2 个会议室。

AAAI22 的虚构公园

依据官网的日程表抉择你想要看的海报后，进入相应的修建，来到对应的海报展位，凑近后就会弹出选项，确认后就能够进入到全屏的 poster 页面，相似一个小型的会议，你能够和海报的主持人进行沟通发问，还是挺不便的。下图是小编在日常“接客”。如果是 Oral 的话就是在海报两侧的会议室，会有提前录好的视频进行播放，如果作者在还能够进行在线发问。

海报答疑

会议的状况就根本介绍到这里啦，上面会介绍下在会上到处“晃悠”看到的集体比拟感兴趣的工作，次要集中在主动驾驶 3D 感知相干的工作，大家有趣味能够一起来看下~

AAAI22 接管了不少和 3D 相干的论文，这里小编依据个人兴趣着重介绍上面 3 篇，次要是和 3D detection 相干，可能晋升现有网络的性能或是解决一些辣手的感知问题。

AFDetV2 是 Real-Time 3D Detection of the Waymo Open Dataset Challenge 2021 的第一名。次要的改良点是从 second stage 失去的启发。
咱们为什么须要 second stage, 一般来说有两种理由：

点云的特色能够复原因 voxelization，striding operations 或者 lack of receptive field 而损失的地位信息；
物体检测框的回归和物体的分类是两个独立的 Head，因而分类置信度可能不能对齐回归的精度

作者通过试验，验证了只用一阶段的 voxel-wise 特色也能够失去足够准确的物体框回归，因而二阶段的次要奉献来源于分类 score 的晋升，使得分类和回归的精度对齐匹配。基于这个察看，作者提出了一个性能能够媲美二阶段网络的一阶段 3D 检测器，次要提出了：

把之前的卷积替换为 self calibrated convolution block

减少一个 IoU alignment head，并且和原始的分类 score 进行简略的交融

Keypoint auxiliary supervision：add another heatmap that predicts 4 corners and the center of every object in BEV during training

因为内部挡物 (external occlusion) 和自遮挡(self occlussion)，点云在不同物体能够采样失去齐全不同的点云状态，如下图所示：

这会带来两个问题：

遮挡使得物体的点云表现形式不同，有可能导致误检；
会导致 shape missing，导致遮挡状态下预测的 bbox 的品质很低。

如果遮挡问题不存在会是怎么的呢？作者应用 shape matching 将类似车型的点云补到被遮挡的车上，发现在 KITTI 上性能能够迫近到 100%，因而影响 detection 的一个次要起因是遮挡问题。

为了解决这个问题，作者提出了 BtcDet 来学习物体形态先验，并预计点云中局部遮挡的残缺物体形态。BtcDet 首先辨认出受遮挡和信号缺失影响的区域。在这些区域中，模型预测了 probability of occupancy，表明一个区域是否蕴含物体形态。联合这个概率图，BtcDet 能够生成高质量的 3D proposals。最初，将 probability of occupancy 集成到一个 proposal refinement 模块中，生成最终的物体检测框。

遮挡问题是线上一个比拟难解决的点，尤其是当远处大车被遮挡后会导致物体框的大小和地位跳变。作者提供了一个解决这个问题的计划，还是挺有启发的。

这篇文章关注了感知畛域一个倒退的方向，即应用图像和 lidar 的 fusion 特色、应用时序特色，并且同时进行 Detection 和 Tracking 的工作。
本文提出的 3D DetecTrack 通过对相机和激光雷达交融失去的空间特色进行加权工夫聚合来结构时空特色。而后，检测器应用到上一个工夫步骤为止所保护的 tracklet 中的信息重新配置初始检测后果。Tracker 基于 Detector 产生的时空特色，利用图神经网络 (GNN) 将被检测的指标与之前跟踪的指标关联起来。

最近 CVPR 的论文也有很多相似的工作，即 Joint 3D Object Detection and Tracking，这也是一个新的值得摸索的方向

加入会议最重要的是能够和泛滥研究者一起交换钻研方向，并且能够从论文的发表来捕获钻研方向演变的蛛丝马迹。除了下面的一些论文，还有其余很多值得一读的论文，比方 SASA【4】，做的是 point based 3D detection，这个方向最近的 CVPR 也有很多工作在做。再比方下面说的 Occlusion 和 Joint 3D Object Detection and Tracking 等方向，都是为了很好的联合产业方向的钻研畛域，期待有新的 work 呈现。文末附上了文中呈现的文章以及相干的一些 AAAI22 的文章，大家感兴趣能够去看下~

【1】Hu, Yihan; Ding, Zhuangzhuang; Ge, Runzhou; Shao, Wenxin; Huang, Li; Li, Kun; Liu, Qiang. “AFDetV2: Rethinking the Necessity of the Second Stage for Object Detection from Point Clouds.” AAAI. 2022.
【2】Xu, Qiangeng; Zhong, Yiqi; Neumann, Ulrich. “Behind the Curtain: Learning Occluded Shapes for 3D Object Detection.” AAAI. 2022.
【3】Koh, Junho; Kim, Jaekyum; Yoo, Jinhyuk; Kim, Yecheol; Kum, Dongsuk; Choi, Jun Won. “Joint 3D Object Detection and Tracking Using Spatio-Temporal Representation of Camera Image and LiDAR Point Clouds.” AAAI. 2022.
【4】Chen, Chen; Chen, Zhe; Zhang, Jing; Tao, Dacheng. “SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detection.” AAAI. 2022.
【5】Liu, Xianpeng; Xue, Nan; Wu, Tianfu. “Learning Auxiliary Monocular Contexts Helps Monocular 3D Object Detection.” AAAI. 2022.
【6】He, Qingdong; Wang, Zhengning; Zeng, Hao; Zeng, Yi; Liu, Yijun. “SVGA-Net: Sparse Voxel-Graph Attention Network for 3D Object Detection from Point Clouds.” AAAI. 2022.
【7】Song, Nan; Jiang, Tianyuan; Yao, Jian. “JPV-Net: Joint Point-Voxel Representations for Accurate 3D Object Detection.” AAAI. 2022.
【8】Zhao, Na; Lee, Gim Hee. “Static-Dynamic Co-Teaching for Class-Incremental 3D Object Detection.” AAAI. 2022.

关于自动驾驶:DeepRoute-Lab-AAAI22参会见闻与论文杂谈

AAAI22 会议见闻

AAAI22 3D 指标检测论文盘点

AFDetV2: Rethinking the Necessity of the Second Stage for Object Detection from Point Clouds【1】

Behind the Curtain: Learning Occluded Shapes for 3D Object Detection【2】

Joint 3D Object Detection and Tracking Using Spatio-Temporal Representation of Camera Image and LiDAR Point Clouds【3】

总结