关于paddle:低成本全流程基于PaddleDepth和Paddle3D的三维视觉技术应用方案

现实生活中的很多利用场景都须要波及到三维信息。针对三维视觉技术利用场景简单多样、三维感知工作泛滥、流程简单等问题，飞桨为开发者提供了低成本的深度信息收集计划 PaddleDepth 以及面向主动驾驶三维感知的全流程开发套件 Paddle3D。

3D 视觉是近年来非常风行的概念。它着力于让计算机模拟人类大脑，对传感器采集到的数据进行了解和剖析。以往咱们做的二维视觉工作更多是对摄像头采集的彩色图像信息进行了解和剖析，但现实生活中，很多场景须要三维信息，因而三维视觉工作应运而生。

如下图所示，从展现的三维视觉技术利用场景能够看到，三维视觉技术在智能制作、智能无人零碎、智能医疗等畛域有极大的利用价值。

依据三维视觉技术利用场景，咱们须要对问题进行针对性建模。例如，对于智能体育场景，须要通过 3D 姿势预计技术对运动员姿势量化剖析。在主动驾驶场景下，须要通过 3D 指标检测和跟踪技术实时检测无人车旁边的车辆。

综上所述，三维视觉工作所要面对的次要场景复杂多变，咱们须要针对具体业务场景选取适合的传感器，并依据采集的数据确定工作的具体建模形式。由此，咱们发现了目前三维视觉技术落地须要解决的两大外围问题。

在数据采集上，现有三维数据采集设施存在价格昂贵、采集到的数据存在稠密或者分辨率低等问题。针对这些问题，咱们提出了飞桨深度加强开发套件 PaddleDepth。目前，罕用的深度信息采集设施分为激光雷达和 ToF（Time of Flight）设施。其中，激光雷达常利用于室外场景，它采集的深度信息较为稠密，无奈进行浓密三维重建，因而须要对深度信息进行补全。而 ToF 设施常利用于室内场景，它采集的深度信息个别以图像模式贮存，分辨率较低，因而须要对深度信息进行超分操作。此外，现有的深度设施价格较高，极大限度了其在实在场景中的利用范畴。因而咱们思考从彩色图像间接预计场景的深度信息，从而大幅度降低获取深度信息的老本，即深度信息估计。咱们在飞桨深度加强开发套件 PaddleDepth 开源了深度信息加强技术，其能够提供一个低成本的深度信息收集计划。

在 3D 感知畛域，训练、评估到部署的端到端流程非常复杂，基于此，飞桨提出了 Paddle3D，其聚焦于 3D 感知畛域，涵盖了大量的 3D 感知模型，并提供了从训练、评估到部署的全流程教程，以升高用户开发成本。

如下图所示，PaddleDepth 旨在打造一个低成本的深度信息收集计划，实现深度信息补全、深度信息超分辨和深度信息估计这三类深度信息加强技术的全笼罩。目前 PaddleDepth 共蕴含 10+ 前沿模型以及 4+ 首次开源的自研算法。

在技术影响力方面，PaddleDepth 所提出的深度信息补全、超分辨率、单 / 双目深度预计自研算法在各公开数据集中均达到 SOTA 的性能。

在开源数据集 KITTI 上，PaddleDepth 在自监督单目深度信息估计、有监督双目深度信息估计工作以及深度信息补全工作上均排名第一。在 Middlebury 数据集上，PaddleDepth 在深度超分辨率工作上排名第一，并在 ECCV2020 Robust Vision Challenge Stereo Matching task 上取得冠军，其深度信息加强技术业界当先。

以下是成果展现：

深度信息补全后果展现

相比于间接通过激光雷达失去稠密深度图，通过深度信息补全，用户可能失去浓密的深度预计后果，更好地进行三维重建。

深度补全后果

补全后点云重建后果

深度图超分辨后果展现

通过深度图像超分辨，用户可能失去更浓密的三维重建后果。

左：超分辨率后果右：原始点云后果

单目深度预计后果展现

通过单目深度预计，用户可能通过单张图片重建原始物体的三维信息。

单目深度预计后果

单目深度预计点云重建后果

双目深度预计后果展现

通过双目测距原理，用户可能更好地重建原始物体的三维信息。

双目深度预计后果

双目深度预计点云重建后果

如下图所示，通过三维重建后果比照，上述办法都可能失去较为正当的三维重建后果。其中深度补全和双目深度预计，通过激光雷达的输出和对局束缚失去的后果更为精确。

PaddleDepth- 点云重建后果展现

综上所述，针对现有三维信息采集设施的局限性，咱们提出了飞桨 PaddleDepth，以提供一个低成本的深度信息收集计划。

通过 深度图超分辨，次要用于解决采集的深度图像分辨率较低的问题；
通过 深度补全，次要用于解决采集的深度图像稠密的问题；
通过对输出彩色图像间接进行 深度预计，用户能够进一步升高三维信息收集老本。

后面提到三维感知开发工作的一个难点就是工作泛滥、流程简单，基于这样的背景咱们设计并开发了飞桨三维感知开发套件 Paddle3D。

下图是 Paddle3D 整体的架构图，最底层是框架层，基于飞桨的外围框架进行开发。在飞桨框架之上咱们提供了一些根底工具，包含常见数据集的集成和特定 3D 畛域算子等。再往上是算法层，包含不同类别的算法。最上层是工具层，集成了飞桨的其余工具。

Paddle3D 具备四个特点，包含丰盛的模型库、灵便的框架设计、端到端全流程笼罩、部署时无缝连接 Apollo。

丰盛的模型库

Paddle3D 涵盖了许多不同方向的前沿经典模型。比方基于单个相机进行的单目 3D 检测工作中的经典模型，如 SMOKE、CaDDN 等，这类办法的长处是摄像头老本较低、老本可控。Paddle3D 还集成了基于激光雷达的指标检测模型，即点云检测模型，如 PointPillars、IA-SSD 等，这类办法的长处是点云数据具备三维信息，基于点云的三维指标检测比单目 3D 的精度更高。Paddle3D 反对多模态模型，这类办法的长处是交融不同模态数据的长处，具备更好的鲁棒性。此外，Paddle3D 还反对目前比拟火的多视角检测任务模型，如 BEVFormer、PETR 等。用户能够依据本人理论场景，抉择适合的模型进行验证。

在基于点云的 3D 检测工作中，常常遇到的问题是显存与计算量都很大。为了防止这些问题，许多办法在模型构造上做了调整，将特色从三维空间映射到二维空间，来缩小模型对显存的耗费，然而带来的另一个问题是模型的精度有所升高。针对这个问题，飞桨提供的解决方案是稠密卷积 SparseConv，它通过规定表缩小有效计算，进而解决显存跟计算量的问题。

飞桨框架 2.4 版本曾经提供了相干的能力，Paddle3D 中也集成了许多应用 SparseConv 的前沿模型，比方 PV-RCNN、Voxel R-CNN 等。

能够在上图看到列出的模型精度和速度指标，成果都十分好

灵便的框架设计

Paddle3D 的框架设计可能满足不同用户的诉求，对于须要将 Paddle3D 集成到特定工作的用户来说，能够基于飞桨提供的 API 进行疾速的二次开发。

如下图所示，以模型训练为例，飞桨通过 6 个 API 疾速实现模型组网、数据集加载、优化器定义等，而后启动训练性能。对于不须要进行二次开发的用户来说，应用飞桨提供的配置文件来配置不同组件，而后通过命令行工具，即可一键启动训练。

1. 六个 API 实现模型训练，满足二次开发或者集成需要

指定训练数据集

train_dataset = KittiMonoDataset(
    dataset_root='datasets/KITTI’,  mode='train‘,
    transforms=[T.LoadImage(reader='pillow', to_chw=False), T.Gt2SmokeTarget(mode='train', num_classes=3),
        T.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])])

定义模型

model = SMOKE(backbone=DLA34(),
    head=SMOKEPredictor(num_classes=3),
    depth_ref=[28.01, 16.32],
    dim_ref=[[3.88, 1.63, 1.53], [1.78, 1.70, 0.58], [0.88, 1.73, 0.67]])

学习率更新策略

lr_scheduler = paddle.optimizer.lr.MultiStepDecay(milestones=[36000, 55000],
    learning_rate=1.25e-4)

定义优化器

optimizer = paddle.optimizer.Adam(
    learning_rate=lr_scheduler,
    parameters=model.parameters())

指定训练器

trainer = Trainer(
    model=model,
    optimizer=optimizer,
    iters=20,
    train_dataset=train_dataset)

启动训练

trainer.train()

2. 配置化繁难训练老本，一行命令启动训练

batch_size: 8
iters: 70000

train_dataset:
   type: KittiMonoDataset
   dataset_root: datasets/KITTI
   transforms:
     - type: LoadImage
       reader: pillow
       to_chw: False
     - type: Normalize
       mean: [0.485, 0.456, 0.406]
       std: [0.229, 0.224, 0.225]

lr_scheduler:
   type: MultiStepDecay
   milestones: [36000, 55000]
   learning_rate: 1.25e-4

optimizer:
   type: Adam

python tools/train.py --config configs/smoke/smoke_dla34_no_dcn_kitti.yml --iters 20 --log_interval 1 --num_worker 5

端到端全流程笼罩

从数据筹备开始，针对数据库生成的脚本，飞桨提供了对于点云数据的应用接口。在训练过程中，飞桨集成了 VisualDL，能够实时地查看训练过程中的指标。在最初的模型部署局部，提供了残缺具体的教程和部署脚本，以及对模型推理性能的极致优化。

无缝连接 Apollo

基于 Paddle3D 感知模型的开发流程实现 Paddle3D 训练模型后，将模型放到 Apollo 我的项目中，替换原有感知模型，调用相干感知接口，就能够启动主动驾驶前端软件 DreamView 查看模型的预测成果。
反对模型成果疾速验证、多模态模型高性能交融，实现主动驾驶全栈式技术计划的高效搭建。
基于 Paddle3D 的感知模型开发流程

综上所述，飞桨能够解决在三维感知工作中存在的两个难点。

三维数据采集。比方数据采集设施价格昂贵、设施采集数据分辨率较低、激光雷达采集的深度图稠密等，飞桨 PaddleDepth 为开发者提供了一个低成本的深度信息收集计划。
三维信息利用。该方向的难点包含工作建模型形式多，上手老本低等。飞桨 Paddle3D 为开发者提供了一个 3D 感知方向的全流程开发计划，涵盖了大量的 3D 感知模型，并提供了从训练、评估到部署的全流程教程，用户能够疾速进行成果验证。

关于paddle:低成本全流程基于PaddleDepth和Paddle3D的三维视觉技术应用方案

三维视觉技术利用场景

三维视觉利用难点及计划

飞桨深度加强开发套件——PaddleDepth

飞桨三维感知开发套件—Paddle3D

Just My Socks（注册教程内含优惠码）

关于paddle:低成本全流程基于PaddleDepth和Paddle3D的三维视觉技术应用方案

三维视觉技术利用场景

三维视觉利用难点及计划

飞桨深度加强开发套件——PaddleDepth

飞桨三维感知开发套件—Paddle3D

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）