关于机器学习:HLS-后端示例

更多 TVM 中文文档可拜访 →Apache TVM 是一个端到端的深度学习编译框架，实用于 CPU、GPU 和各种机器学习减速芯片。 | Apache TVM 中文站

TVM 反对带有 SDAccel 的 Xilinx FPGA 板，接下来介绍如何将 TVM 部署到 AWS F1 FPGA 实例。

备注：此性能仍处于测试阶段，目前无奈用 SDAccel 部署端到端神经网络。
本教程应用了两个 Python 脚本：

build.py – 用于合成 FPGA 比特流的脚本。

import tvm
 from tvm import te
 
 tgt= tvm.target.Target("sdaccel", host="llvm")
 
 n = te.var("n")
 A = te.placeholder((n,), name='A')
 B = te.placeholder((n,), name='B')
 C = te.compute(A.shape, lambda i: A[i] + B[i], name="C")
 
 s = te.create_schedule(C.op)
 px, x = s[C].split(C.op.axis[0], nparts=1)
 
 s[C].bind(px, tvm.te.thread_axis("pipeline"))
 
 fadd = tvm.build(s, [A, B, C], tgt, name="myadd")
 fadd.save("myadd.o")
 fadd.imported_modules[0].save("myadd.xclbin")
 
 tvm.contrib.cc.create_shared("myadd.so", ["myadd.o"])

run.py – 将 FPGA 作为加速器的脚本。

import tvm
 import numpy as np
 import os
 
 tgt = "sdaccel"
 
 fadd = tvm.runtime.load_module("myadd.so")
 if os.environ.get("XCL_EMULATION_MODE"):
 fadd_dev = tvm.runtime.load_module("myadd.xclbin")
 else:
 fadd_dev = tvm.runtime.load_module("myadd.awsxclbin")
 fadd.import_module(fadd_dev)
 
 dev = tvm.device(tgt, 0)
 
 n = 1024
 a = tvm.nd.array(np.random.uniform(size=n).astype("float32"), dev)
 b = tvm.nd.array(np.random.uniform(size=n).astype("float32"), dev)
 c = tvm.nd.array(np.zeros(n, dtype="float32"), dev)
 
 fadd(a, b, c)
 tvm.testing.assert_allclose(c.numpy(), a.numpy() + b.numpy())

设置

用 FPGA Developer AMI 启动实例。无需 F1 实例来进行仿真和合成，因而举荐用开销较低的实例。
设置 AWS FPGA 开发套件：

git clone https://github.com/aws/aws-fpga.git
 cd aws-fpga
 source sdaccel_setup.sh
 source ${XILINX_SDX}/settings64.sh

启用 OpenCL 前设置 TVM。

仿真

为仿真创立 emconfig.json：

emconfigutil --platform ${AWS_PLATFORM} --nd 1

将 emconfig.json 复制到 Python binary 目录下：因为以后的 Xilinx 工具包假设宿主机的二进制文件和 emconfig.json 文件处于同一门路。

cp emconfig.json $(dirname $(which python))

运行软件仿真：

export XCL_EMULATION_MODE=1
 export XCL_TARGET=sw_emu
 
 python build.py
 python run.py

运行硬件仿真：

export XCL_EMULATION_MODE=1
 export XCL_TARGET=hw_emu
 
 python build.py
 python run.py

合成

用以下脚本进行合成：

unset XCL_EMULATION_MODE
 export XCL_TARGET=hw
 
 python build.py

创立 AWS FPGA 镜像，并将其上传到 AWS S3：

${SDACCEL_DIR}/tools/create_sdaccel_afi.sh \
 -xclbin=myadd.xclbin -o=myadd \
 -s3_bucket=<bucket-name> -s3_dcp_key=<dcp-folder-name> \
 -s3_logs_key=<logs-folder-name>

这会生成 awsxclbin 文件（在 F1 实例上应用 AWS FPGA 镜像必须）。

运行

启动 Amazon EC2 F1 实例。
将 myadd.so，myadd.awsxclbin 和 run.py 复制到 F1 实例中。
设置 AWS FPGA 开发套件：

git clone https://github.com/aws/aws-fpga.git
 cd aws-fpga
 source sdaccel_setup.sh

启用 OpenCL 前设置 TVM。
以 root 身份设置环境变量：

sudo sh
 source ${INSTALL_ROOT}/setup.sh

运行：

python run.py

关于机器学习:HLS-后端示例

设置

仿真

合成

运行

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于机器学习:HLS-后端示例

设置

仿真​

合成​

运行​

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

仿真

合成

运行

发表回复取消回复