关于ml:SageMaker-Neo优化目标检测模型加速推理

摘要

该文以指标检测模型着手，演示如何一步步基于SageMaker Neo对训练后的模型文件进行编译优化，来晋升模型的推理速度。文中以yolo3_mobilenet1.0_coco模型为例，别离演示模型筹备，模型Neo编译，模型导出推理测试，可视化等过程，推理结果显示基于SageMaker Neo能够显著晋升推理速度，达到一倍以上的减速。

想学习更多人工智能与机器学习前沿案例？来2021亚马逊云科技中国峰会与业内当先的技术践行者们一起探讨交换吧！点击图片报名吧～

模型筹备

在利用SageMaker Neo编译模型之前，首先须要依据神经网络的框架筹备模型，具体能够参考官网指南Compile and Deploy Models with Neo：
https://docs.aws.amazon.com/s...

不同的框架对模型的要求各不相同，以MXNet框架为例，其模型的要求形容为：

MXNet models must be saved as a single symbol file *-symbol.json and a single parameter *.params files.

为了阐明整个SageMaker Neo优化的具体流程，该文档以
yolo3_mobilenet1.0_coco人形检测模型为例进行模型筹备，Neo编译，以及测试。

模型筹备分为两步，别离如下：

第一步：下载

yolo3_mobilenet1.0_coco人形检测模型:

wget -c https://ipc-models-zoo.s3.amazonaws.com/body-detector/body_detector_yolo3_mobilenet1.0_coco-0000.paramswget -c https://ipc-models-zoo.s3.amazonaws.com/body-detector/body_detector_yolo3_mobilenet1.0_coco-symbol.json

第二步：将上述两个文件打成.tar.gz包，即执行如下python脚本:

import tarfiletar = tarfile.open("body_detector_yolo3_mobilenet1.0_coco.tar.gz", "w:gz")for name in ["body_detector_yolo3_mobilenet1.0_coco-0000.params", "body_detector_yolo3_mobilenet1.0_coco-symbol.json"]:tar.add(name)tar.close()Python

脚本执行结束，会在当前目录生成名为

body_detector_yolo3_mobilenet1.0_coco.tar.gz

的文件，该文件为SageMaker Neo编译工作的输出。

Neo编译作业

SageMaker Neo编译作业能够间接在SageMaker控制台实现，它的输出是一个S3桶门路，优化后的模型导出也是一个S3桶门路，整个过程如下：

1.将其中生成的

body_detector_yolo3_mobilenet1.0_coco.tar.gz

上传至任意一个指定的S3桶门路，如

s3://object-det-neo/input/body_detector_yolo3_mobilenet1.0_coco.tar.gz

2.进入SageMaker控制台，点击左侧导航栏推理-编译作业，创立编译作业，输出作业名称，创立具备S3桶拜访权限的IAM角色，输出配置中的选项包含：

模型构件的地位: 模型存储的S3桶门路
数据输出配置: 即模型的推理时输出尺寸，该指南中以宽高比为3:2的图像为基准，输出尺度为
{"data": [1, 3, 416, 624]
机器学习框架: 因为该指南以MXNet为例，故抉择MXNet

3.输入配置选项包含：

指标设施/指标平台：抉择指标平
操作系统：抉择LINUX;
架构：抉择X86_64
加速器：抉择NVIDIA
编译器选项：输出
{"gpu-code": "sm_75", "trt-ver": "7.0.0", "cuda-ver": "10.1"}
S3输入地位：指定优化后的模型输入，如
s3://object-det-neo/output/
加密密钥：放弃默认（无自定义加密）

最初点击提交，期待3-5分钟，待编译作业状态显示实现后编译后的模型（如

s3://object-det-neo/output/body_detector_yolo3_mobilenet1.0_coco-LINUX_X86_64_NVIDIA.tar.gz

）便会输入到指定的S3桶地位。

EC2推理速度测试

启动EC2实例

进入EC2控制台，启动实例，抉择Amazon零碎镜像（AMI）为

Deep Learning AMI (Amazon Linux 2) Version 44.0 - ami-01f1817a8a0c23c2e，

抉择实例类型为g4dn.xlarge，点击下一步配置实例详细信息，放弃默认，点击下一步增加存储，放弃默认根卷大小95GiB，点击下一步增加标签（可选），点击下一步配置安组，放弃默认，点击审核和启动，抉择现有密钥对或创立新密钥对，点击启动。

稍等几分钟，期待实例的状态查看初始化实现后，通过terminal链接该实例：

ssh -i "your_key.pem" ec2-user@ec2-xxx-xxx-xx-xxx.compute-1.amazonaws.com

推理测试

通过SSH登录链接到实例之后，下载推理测试的代码和模型（未通过Neo优化的和通过Neo优化的），具体执行命令如下所示：

git clone https://github.com/aws-samples/amazon-ipc-ai-saas.gitcd amazon-ipc-ai-saas/source/neomkdir -p models/human_body_detectorcd models/human_body_detectorwget -c https://ipc-models-zoo.s3.amazonaws.com/body-detector/body_detector_yolo3_mobilenet1.0_coco-0000.paramswget -c https://ipc-models-zoo.s3.amazonaws.com/body-detector/body_detector_yolo3_mobilenet1.0_coco-symbol.jsoncd ../../mkdir -p models/human_body_detector_neocd models/human_body_detector_neowget -c https://ipc-models-zoo.s3.amazonaws.com/body-detector/body_detector_yolo3_mobilenet1.0_coco-LINUX_X86_64_NVIDIA.tar.gztar -zxvf body_detector_yolo3_mobilenet1.0_coco-LINUX_X86_64_NVIDIA.tar.gz

上述命令执行之后，在neo/目录下的构造如下所示：

.├── eval.py├── models│   ├── human_body_detector│   │   ├── body_detector_yolo3_mobilenet1.0_coco-0000.params│   │   └── body_detector_yolo3_mobilenet1.0_coco-symbol.json│   └── human_body_detector_neo│       ├── compiled.meta│       ├── compiled_model.json│       ├── compiled.params│       ├── compiled.so│       └── manifest└── test_1280x1920x3.jpg

装置neo-ai-dlr软件和gluoncv依赖包，参考https://github.com/neo-ai/neo...；这里测试平台为Amazon g4dn.xlarge，装置命令如下：

wget -c https://neo-ai-dlr-release.s3-us-west-2.amazonaws.com/v1.9.0/gpu/dlr-1.9.0-py3-none-any.whlsource activate mxnet_latest_p37pip3 install dlr-1.9.0-py3-none-any.whlpip3 install gluoncv==0.8.0

退回到neo/目录，执行速度评估脚本eval.py，如下所示：

python3 eval.py

运行后果会间接打印在terminal之上，同时也会将推理的后果绘制进去并保留到当前目录下（未经SageMaker Neo优化的检测后果body_det_vis.jpg，经SageMaker Neo优化后的推理模型检测后果body_det_vis_with_neo.jpg）。

未经Neo优化和通过Neo优化后的推理后果可视化别离如下所示：

能够看出SageMaker Neo的优化根本没有影响到检测的精确度，运行工夫开销输入后果如下：

[NEO Optimization Disabled] Time Cost per Frame (input size = 1x3x416x624) = 23.388335704803467 ms[NEO Optimization Enabled] Time Cost per Frame (input size = 1x3x416x624) = 10.05416750907898 ms

SageMaker Neo优化过的模型能够将推理速度晋升一倍以上，该推理工夫不含将图像进行base64解码以及resize的局部。

留神：在测试完结之后，敞开该实例，防止产生不必要的费用。

本篇作者

徐高伟
亚马逊云科技解决方案架构师
负责基于亚马逊云科技的云计算计划的征询与架构设计，致力于亚马逊云科技云服务在汽车，物联网，人工智能等行业的利用和推广。在退出亚马逊云科技之前曾在BMW无人驾驶研发核心负责机器人和人工智能专家，负责无人车环境感知，行为预测和决策布局研发。