关于腾讯:腾讯联合英伟达开源TensorRT插件自动生成工具TPAT

2022年3月25日，腾讯联结英伟达开发的TensorRT插件主动生成工具TPAT正式发表开源。
TensorRT是以后利用最广的GPU推理框架，但因为反对的算子数量无限，用户面临手写插件以反对算子的痛点。TPAT可能反对凋谢神经网络替换 (ONNX) 格局所有的算子，端到端生成TensorRT插件，在解放人力老本的同时，性能比照手写毫不逊色。
Github地址：https://github.com/Tencent/TPAT

背景

TensorRT是当今最快的GPU推理引擎，能够让深度学习模型在GPU上实现低提早、高吞吐量的部署，反对 Caffe，TensorFlow，Mxnet，Pytorch 等支流深度学习框架，由英伟达开发保护。业界简直所有GPU推理业务都在应用TensorRT。

然而TensorRT也存在缺点，即它的部署流程比拟繁琐，因而算法工程师提供的模型须要交由零碎工程师来部署上线，十分耗时耗力。在传统的TensorRT工作流里，手写插件往往是最耗时的一部分。

TensorRT手写算子插件难点

1. TensorRT官网只反对很无限的罕用算子(Conv/FC/BN/Relu…)，对于不反对的算子，须要用户手写插件来实现；
1. 插件的编写须要GPU和cuda常识，英伟达的工程师也通常须要1~2周工夫来编写一个算子实现；模型中如果蕴含多个不反对算子，就须要更多工夫来一一编写和调试插件。

TPAT 概览

TPAT 实现了TensorRT插件的全自动生成，TensorRT的部署和上线能根本流程化不再须要人工参加。手写插件的步骤将由TPAT代替，TPAT全自动生成一个算子插件耗时仅须要30-60分钟的工夫（该工夫用于搜寻算子的高性能CUDA Kernel），TensorRT会因而成为一个真正端到端的推理框架。

TPAT亮点

覆盖度：反对onnx/tensorflow/pyTorch所有的算子
全自动：端到端全自动生成用户指定的TensorRT Plugin
高性能：大部分算子上性能超过手写Plugin

架构设计

TPAT局部算子性能数据

咱们应用TPAT主动生成TensorRT-7.2不反对的算子，并且用TPAT优化TensorRT-7.2原生实现性能较差的算子；

比照手写Plugin

优化TensorRT原生算子

咱们对外部业务模型里的局部算子进行了测试，TPAT的性能简直全面超过CUDA工程师手写，并且端到端的设计可能大幅缩小人力投入；对于TensorRT原生的算子实现，TPAT的体现也并不逊色，AutoTune的特点可能优化TensorRT里体现不那么好的原生算子实现。

TPAT开源

后续TPAT的开源打算：

对于算子的多精度进行反对，包含Float16，Int8.
利用TPAT进行子图的优化
对于动静形态的反对

附录：TPAT 应用案例

应用TPAT反对Onehot算子（TensorRT-7.2.2.3）

输出包含了onehot算子的ONNX_Model、Onehot算子的名字、batch_size
TPAT借助TVM的Relay和AutoScheduler组件，生成高性能的CUDA Kernel；
通过模板填充后间接生成可用的onehot算子Plugin的动态链接库。