关于机器人:基于边缘辅助极线Transformer的多视角场景重建

童伟, 张苗苗, 李西方, 吴奇, 宋爱国. 基于边缘辅助极线 Transformer 的多视角场景重建 [J]. 电子与信息学报
编辑：一点人工一点智能
原文：基于边缘辅助极线 Transformer 的多视角场景重建

为计算机视觉畛域宽泛钻研的外围问题之一，多视角立体几何 (MVS) 通过具备重叠区域的多幅图像以及事后标定的相机参数，旨在重建出浓密的 3 维场景。该技术正广泛应用于机器人导航、虚构加强事实、无人搜救、主动驾驶等畛域。传统办法 [1] 通过多个视图间的投影关系复原 3D 点，在现实的散射计划下获得了不错的成果，但在镜面反射、弱纹理等区域难以保障精确的密集匹配。

基于深度图的 MVS[2-5]利用 2D 卷积神经网络 (CNN) 提取多视图的特色，并依据假设的深度采样值将源图像特色映射到参考视角上构建 3D 代价体，之后对代价体进行正则化从而预测出深度图，最初通过深度图交融重建出场景。基于 CNN 的办法交融了诸如镜面反射、反射先验之类的全局特色信息，因而其密集匹配更加牢靠。

特地地，Gu 等人 [2] 采纳级联的形式构建代价体并在更高的特色分辨率上精密深度图，其要害的一步是通过逐渐细化深度值的采样范畴，确保了计算资源的正当调配。支流的办法大都采纳动态或事后设定的深度采样范畴来确定深度采样值，然而因为每个像素深度值推断的不确定性不同，因而动态采样假如并不适用于所有的像素。

此外，现有的办法 [2,4,6] 采纳方差操作聚合所有视角的代价体，然而这种形式疏忽了不同视角下的像素可见性。为了应答这一问题，文献 [7] 设计 2D 网络模块生成像素可见性图来聚合多视角，文献 [8] 通过可变形卷积网络聚合跨尺度的代价体以解决弱纹理区域。然而这些办法仅仅从 2D 部分相似性的角度通过引入沉重的网络模块来学习每个视角下像素的权重，但疏忽了深度方向的 3D 一致性[9]。

为了缓解上述问题，本文提出基于边缘辅助极线 Transformer 的多阶段深度推断网络。利用极线 Transformer 的跨注意力机制显式地对不同视角下构建的代价体进行 3D 建模，并联合辅助的边缘检测分支束缚 2D 底层特色在极线方向的一致性。

此外，本文将深度值回归转换为多个采样深度值的分类问题进行求解，升高深度采样率的数目与显存占用。另一方面，本文利用概率代价体的信息熵生成不确定性图，并以此自适应调整深度值采样的范畴，进步深度范畴采样在不同区域的适应能力。

本文的次要奉献如下：

（1）提出一种多视图深度推断网络，利用基于边缘辅助的 Transformer 跨注意力机制无效地学习不同视角下代价体聚合的 3D 关联性；

（2）将深度回归转换为多深度值分类模型进行训练，并引入基于概率代价体散布的不确定性模块，动静调整深度采样距离以进步弱纹理区域的深度推断精度；

（3）与支流办法在公开数据集 DTU 和 Tanks&Temples 的试验比照表明，给定无限的内存占用与运行工夫，所提出的办法能够实现密集精确的场景重建。

本文其余部分组织如下：第 2 节介绍 MVS 的相干工作；第 3 节具体介绍所提出的 MVS 网络；第 4 节发展了与支流办法的试验比照；第 5 节进行总结。

深度学习弱小的特征提取能力，推动 MVS 畛域获得了显著倒退。基于深度学习的 MVS[10,11]场景重建的完整性与准确性品质更高，逐步取代传统的办法。Yao 等人 [4] 提出了 MVSNet 模型，利用可微的单应性映射构建老本代价体，并利用 3D 卷积模块对部分信息与多尺度上下文信息进行正则化，实现端对端的深度推断。为了缓解 3D 卷积显存占用高的问题，Yao 等人 [5] 提出了 R -MVSNet，利用 GRU(Gate Recurrent Unit)构造对代价体进行正则化，无效升高了显存占用，并解决了 MVSNet 难以估计高分辨率场景的问题。为了进步深度推断在不同场景与光照条件下的适应性能力，文献 [7] 通过自适应聚合多视角的部分特色，生成不同视角的代价体权重图。Zhang 等人 [12] 设计一种概率代价体不确定性预计的像素可见性模块，并以此聚合多视角代价体。Xi 等人 [13] 通过沿每条相机光线间接优化深度值，模仿激光扫描仪深度范畴查找，仅应用稠密的代价体就预测出精确的深度图。

为了开发计算效率高的网络，一些工作提出了由粗到精的多阶段 MVS 框架。在这些办法中，初始阶段设定的深度采样范畴笼罩了输出场景的整个深度值，依据以后预测的深度值缩短下一阶段深度采样的范畴。Cas-MVSNet[2]通过缩减因子手动放大深度范畴，实现高分辨率高质量的深度图推断。Cheng 等人 [7] 利用深度分布的方差逐步放大深度扫描范畴，在无限的显存占用下保障了场景重建的品质。Yu 等人 [14] 应用稠密代价体推断初始的低分辨率深度图，并采纳高斯 - 牛顿层逐阶段优化稠密的深度图。Wang 等人 [15] 交融了传统的立体声算法与多尺度深度推断框架。

Transformer[16]最后利用于自然语言解决工作，其弱小的近程建模能力，受到了计算机视觉畛域钻研学者的青眼。在 3D 视觉工作中，借助 Transformer 捕捉全局上下文信息方面的人造劣势，Li 等人 [17] 从序列到序列的角度建模，应用地位编码、自注意力和跨视角注意力机制捕捉代价体的特色，实现密集的双目预计。Sun 等人 [18] 提出了基于 Transformer 的部分特色匹配办法，应用注意力机制取得图像的特色描述符以建设准确的匹配，并证实这种密集匹配在弱纹理区域仍然无效。最近，Transformer 也利用到了 MVS 中。例如文献 [19] 仅利用 Transformer 的跨视角注意力机制，无效交融了不同视角的代价体。Ding 等人 [20] 以及文献 [21] 别离引入了一种全局上下文 Transformer，实现了密集鲁棒的特色匹配。

如图 1 所示，为了实现高分辨率图像语义特色的编码，给定输出图像 \(I\in R^{H×W×3} \)，本文应用金字塔特色网络 (Feature Pyramid Network, FPN) 提取多尺度特色。该网络通过屡次卷积层解决与上采样操作，输入 3 个尺度的特色图尺寸别离是输出图像的 1 /4,1/ 2 和 1。给定采样的深度值，本文通过前向平行立体将源视角的特色映射到参考图像的视角，建设多视角代价体。给定采样的深度值 \(d\)，跨视角可微矩阵变换示意为

图 1 所提多视角深度图推断网络结构

其中，\(K_i,R_i,t_i\)别离示意第 \(i\)个视角相机的内参、旋转参数、平移参数，\(n_1\) 示意参考相机的主轴。特地地，3 个阶段假设的深度采样数目别离是 16, 8 和 4。

间接应用基于方差的机制对映射至参考视角的代价体进行聚合，通常蕴含很多噪声。为了避免噪声导致代价体正则化模块产生过拟合景象，本文利用 Transformer 注意力机制摸索跨视角代价体的极线几何以及不同空间地位的全局相关性。以参考视角代价体作为 Query 特色，与源视角代价体进行特色匹配，生成注意力图以聚合多视角的代价体。最初应用 3D 卷积模块正则化聚合后的代价体，输入概率代价体以推断深度。图 2 为所提跨视角代价体聚合模块，\(C_{ref}\) 示意参考视角的代价体，\(C^i_{source}\) 示意第 i 个源视角代价体，特色图尺寸是 \(H×W×C×D\)，C 和 D 别离示意特色通道数和深度采样数。因为代价体中蕴含了丰盛的语义特色，本文采纳多重线性投影计算跨视角特征向量的类似度。如式 (2) 和式 (3) 所示，首先将每对参考视角 - 源视角的代价体映射到不同的子空间，即失去 Query 特色 \(φ_q\)、Value 特色 \(φ_v\) 和 Key 特色 \(φ_k\)；之后在子空间应用 Softmax 作为 \(T(⋅)\) 的归一化函数来计算跨视角嵌入向量的重要性；最初沿着深度方向应用投影函数 \(ρ(⋅)\) 进行线性投影，输入用于跨视角代价体聚合的注意力图

图 2 跨视角代价体聚合注意力模块

特地地，本文采纳文献 [2] 的代价体编码方式对跨视角的特色 \(C_{ref}\) 和 \(C^i_{source}\) 进行编码，失去每对跨视角代价体 \(C^i_{group}\)，其尺寸是 \(H×W×G×D \)，\(G \)示意以后尺度的特色通道数。进一步，区别于先前工作应用方差机制来聚合多视角代价体，本文采纳式 (4) 聚合跨视角的特色，失去聚合后的代价体 \(C_{agg}\)

深度推断网络在一般区域可能捕捉密集的特色匹配线索，而物体边界左近因为不足几何个性与束缚，难以保障深度推断的可靠性，为此本文进一步引入边缘特色以调整跨视角代价体的聚合。如图 1 所示，边缘检测子网络分支的输出是金字塔特征提取网络 (FPN) 输入的特色图，通过多个卷积层、上采样层以及多尺度特色的交融，失去用于后续跨视角代价体聚合的边缘特色 \(φ_{edge} \)。之后应用 1×1 的卷积层和 Softmax 激活层输入尺度为 1 / 2 的边缘图，示意每个像素疑似边缘的概率。为了束缚跨视角代价体的 2D 底层特色在深度方向的 3D 一致性，如图 2 所示，对提取到的表达能力丰盛的边缘特色 \(φ_{edge} \)，辅助用于跨视角代价体的聚合，从而进步在物体边界的深度推断可靠性。将 \(φ_{edge} \)作为源视角参考视角代价体 Query 特色的辅助输入 \(φ_{q’} \)，并计算跨视角特征向量的相似性

对多尺度深度推断网络而言，适合的深度采样范畴对于生成高质量的深度图至关重要。给定前一阶段的概率代价体，之前的办法仅仅关注单个像素的概率体散布以调整以后阶段的深度采样范畴，然而上下文信息以及邻域像素的特色与以后像素的深度采样范畴具备肯定的相关性。受到文献 [12] 利用概率体的信息熵交融多视角代价体的启发，本文以以后阶段概率体的信息熵作为不确定性子模块的输出，评测深度推断的可靠性。该模块由 5 个卷积层和激活函数层组成，输入值介于 0～1 之间。该输入值越大，阐明以后深度预计的不确定性高，应该扩充下一阶段的采样范畴以笼罩实在的深度值，反之亦然。

给定概率体的信息熵图 \(E_{est} \)，应用式 (6) 来确定下一阶段的深度采样范畴，\(λ \)是确定置信区间的超参数

区别于现有工作应用 Smooth L1 损失最小化预测值与实在值的差别，本文将深度预计转换为多采样深度值下的分类进行求解，穿插熵损失如式 (7) 所示

其中，\(\hat P(x) \)示意以后像素 x 处预测深度值的概率分布，\(P(x) \) 示意实在的深度值散布，valid 示意掩模。思考到本文较低的深度采样率，因而仅在初始阶段依据概率代价体散布的不确定性动静调整第 2 阶段的深度采样范畴。为了联结学习深度值分类及其不确定性 \(U(⋅) \)，本文对初始阶段的损失增加负对数似然最小化的束缚

此外，本文应用穿插熵函数束缚边缘检测分支的输入，实在的边缘是通过对原始图像应用 Sobel 算子提取失去的。多阶段深度推断的总损失定义为

DTU 数据集：作为大规模的 MVS 数据集，该数据集共包含 124 个场景，每个场景蕴含了 49 个视角，并在 7 种不同的照明条件下扫描失去。本文采纳与 Cas-MVSNet 雷同的训练集、验证集划分形式。

Tanks&Templates 数据集：该基准数据集蕴含了室内外不同分辨率的场景。本文在蕴含 8 个场景的 Intermediate 数据集上，应用在 DTU 数据集上已训练好的模型，验证模型的生成能力。

在训练阶段，迭代次数是 12，初始学习率为 0.001，并别离在第 6、第 8 和第 10 个迭代进行权重衰减，以防止模型陷入部分最优。模型在单个 NVIDIA RTX3090 显卡上训练，多阶段的深度采样数目别离是 16, 8 和 4，深度范畴介于 425～935 mm 之间。特地地，在测试阶段，DTU 评估集的源图像数量 NN 同样设置为 4，输出图像分辨率为 864×1152。在 Tanks&Templates 数据集的源图像数量 NN 是 6，输出图像的分辨率为 1080×2048。4.3 DTU 数据集比照后果为了验证所提模型的有效性，本文在 DTU 数据集上发展了定量与定性试验比照。表 1 所示为不同办法在 DTU 测试集的定量比照，能够看出 Gipuma[1]办法在准确性上最优，而本文重建的点云在综合性上显著优于其余支流的办法。此外，图 3(a)示意不同办法在 DTU 测试集的显存占用比照，能够看出，本文的 GPU 显存占用仅为 3311 MB，显著低于其余支流办法。

表 1 DTU 测试集上不同办法的重建后果定量比拟

图 3 不同办法的显存占用与运行工夫比照

图 4 所示为本文办法与 Cas-MVSNet 对于场景重建的定性比照。只管本文办法基于 Cas-MVSNet 框架，但在给定较低的深度采样率下，本文办法在弱纹理区域的重建更加浓密精确。此外，局部区域的重建完整性优于实在点云，这可能是因为引入基于 Transformer 的代价体聚合模块，捕捉了鲁棒的上下文感知特色，缩小了挑战区域中的匹配含糊和误匹配。

图 4 所提办法与 Cas-MVSNet 的重建后果比拟

为了验证本文办法在不同场景下的生成能力，将 DTU 训练好的模型不通过任何微调间接在 Tanks 数据集上测试。表 2 所示为不同办法的定量比照后果，相比于支流的办法，在给定非常低的深度采样率下，本文办法重建的性能依然具备竞争力，在 8 个场景的均匀 F -score 得分仅低于 AA-RMVSNet[22]。如图 5 所示，本文办法能够重建出绝对残缺的场景，这验证了所提模型的泛化能力。图 3(b)是不同办法在输出分辨率为 1080×2048 的单帧深度图预测工夫比照，能够看出本文办法的实时性仅低于 Cas-MVSNet 与 DDR-Net[23]。

表 2 不同办法在 Tanks & Temples 数据集的定量比拟

为了验证该模块的有效性，本文在 DTU 测试集上进行了定量试验比照，并以均匀绝对误差与固定阈值 (2mm, 4mm, 8mm) 下的预测精度评测深度图的品质。如表 3 所示，为了偏心地比照，本文以深度采样率为 16, 8 和 4 的 Cas-MVSNet 作为基准模型。能够看出，将深度回归转换为多深度值分类进行求解，模型的均匀绝对误差从 8.42 升高到了 8.30，而在固定的间隔阈值内，预测精度也进一步提高。此外，如表 4 所示，相比于基准模型，引入分类损失使 DTU 数据集上综合性指标从 0.372 升高至 0.357，曾经靠近表 1 中原始 Cas-MVSNet(深度采样数目为 48, 32, 8)的综合性指标 0.355，进一步验证了该模块的有效性。

表 3 DTU 测试集上融化试验定量比拟

表 4 DTU 测试集上不同模块的定量比拟(mm)

表 5 所示为多阶段的深度范畴比拟，其第 5 行和第 6 行显示采纳动静深度范畴采样机制的差别。能够看出，利用首阶段概率代价体的数值个性自适应调整次阶段的深度值采样范畴，最大采样范畴从 54.42 mm 扩充到 78.12 mm，而笼罩实在深度值的比率从 0.8891 进步到 0.9003。这表明在低采样率下，一些信息熵值较大的区域的深度预计不确定性高，而通过扩充相应的采样范畴可能进一步笼罩实在的深度值，无效进步了弱纹理和物体边界的预测精度。

表 5 DTU 测试集上动静采样模块融化试验定量比拟

为了验证基于极线 Transformer 的跨视角代价体聚合的有效性，本文对参考视角与任一源视角所构建的代价体的特色图进行可视化。如图 6 所示，以文献 [2] 采纳的 Group-wise 聚合参考视角 - 源视角代价体作为基准模型，所提出的跨视角代价体聚合机制因为束缚了参考视角和源视角的 2D 几何特色在深度方向上的一致性，弱纹理区域聚合后的特色细节更加清晰，因而聚合后的代价体抗噪能力更强。如表 3 所示，退出本文所提代价体聚合模块，均匀绝对误差从 8.30 升高到了 7.69，固定的间隔阈值内的预测精度也相应进步。此外，如表 4 所示，在代价体聚合模块中引入边缘辅助信息，DTU 数据集的综合性指标从 0.331 升高至 0.327，这可能是因为边缘底层信息的束缚，进一步提高了图像边界的深度推断的精度。

图 6 代价体聚合的特色图可视化比照

图 7 所示为深度图的定性比照，能够看出，相比于原始的 Cas-MVSNet(深度采样率 48, 32, 8)，退出分类损失模块与动静深度采样模块后，图 7(d)预测的深度图更加残缺，且在弱纹理区域的深度值激烈变动的景象较少。而本文在退出所提出的基于边缘辅助极线 Transformer 的代价体聚合模块，图 7(e)预测的深度图在弱纹理区域具备更好的抗噪能力，且在物体边界处的预测更加清晰。

本文提出一种基于边缘辅助极线 Transformer 的多视图深度推断网络。

首先将深度回归转换为多深度值的分类进行求解，能够在无限的深度采样率下保障深度推断的准确性。其次，采纳基于边缘辅助极线 Transformer 的跨视角代价体聚合模块捕捉全局上下文特色以及 3D 几何一致性特色，进步弱纹理区域的密集匹配。为了进一步提高深度推断的精度，采纳基于概率代价体的数值个性的自适应深度范畴采样机制。

相比于现有的基于 CNN 的 MVS 网络，在 DTU 和 Tanks & Temples 数据集的综合试验表明本文办法在无限的显存和运行工夫下，可能实现浓密精确的场景重建，且模型具备良好的泛化能力。

在将来的工作中，心愿进一步摸索基于 Transformer 的密集特色匹配，代替 3D CNN 对代价体进行正则化解决，升高模型对于高显存的依赖，并进步模型在挪动端部署的实用性。

关于机器人:基于边缘辅助极线Transformer的多视角场景重建

01 引言

02 相干工作

2.1 基于深度学习的 MVS

2.2 深度采样范畴设定

2.3 基于 Transformer 的特色匹配

03 试验办法

3.1 多视角 3D 代价体构建

3.2 基于边缘辅助极线 Transformer 的代价体聚合

3.2.1 基于 Transformer 的代价体聚合

3.3 动静深度范畴采样

3.4 模型训练损失

04 试验后果与剖析

4.1 数据集

4.2 试验细节

4.4 Tanks & Temples 数据集比照后果

4.5 融化试验比照

4.5.1 基于分类的深度图推断

4.5.2 动静深度值采样

4.5.3 跨视角代价体聚合

05 结束语