关于bootstrap:IEEE-EDGE-2020论文Astraea-以优雅的方式在边缘部署AI服务

3次阅读

共计 3809 个字符,预计需要花费 10 分钟才能阅读完成。

简介: 近日,阿里云边缘计算团队博士后付哲的论文《Astraea: Deploy AI Services at the Edge in Elegant Ways》入选 2020 年 IEEE 边缘计算国内会议(IEEE International Conference on Edge Computing),并在大会上进行了宣讲。他和他的团队如何对待以上问题,本文将为您解答。

前言

  1. 为什么说边缘计算带来了数据、计算的依据变动?
  2. 边缘 AI 是边缘计算最重要的利用之一,它的挑战是什么?
  3. 一个用于边缘计算场景的新型 AI 服务部署平台——Astraea 是如何诞生的?
  4. 如何通过 Astraea 一键化部署边缘 AI 服务?

近日,阿里云边缘计算团队博士后付哲的论文《Astraea: Deploy AI Services at the Edge in Elegant Ways》入选 2020 年 IEEE 边缘计算国内会议(IEEE International Conference on Edge Computing),并在大会上进行了宣讲。他和他的团队如何对待以上问题,本文将为您解答。

边缘计算:5G 时代对云网交融的挑战

近年来,边缘计算曾经成为信息和通信技术中最热门的钻研畛域之一。随着 5G 时代的到来,越来越多的设施连贯到互联网上,随同着视频直播、云游戏、VR/AR、主动驾驶等带宽耗费和提早敏感的利用,给云计算带来了微小的挑战。

边缘计算反对分布式计算模式,将计算和数据资源转移到凑近最终用户的边缘节点,从而为新时代的翻新利用提供高带宽、低提早和大规模连贯能力。

边缘计算带来了数据、计算散布的根本变化。5G 有以下个性:eMBB(增强型挪动宽带)、uRLLC(超牢靠低提早通信)、mMTC(大规模机器类型通信)。这些个性驱动着越来越多的数据和计算从云端转移到边缘。有行业报告示意:在 5G 时代,80% 数据和计算将产生在边缘。

边缘 AI 是边缘计算的重要利用之一

与此同时,边缘人工智能越来越受到人们的关注。Gartner 去年的一份报告显示,Edge-AI 正从其幼年期走向高峰,预计将在 2 - 5 年内达到成熟期。咱们时常在媒体报道中看到如下说法:边缘人工智能是下一波人工智能,人工智能是边缘计算中最常见的负载,人工智能是边缘计算的杀手级利用,等等。

人工智能的思维形式与人类的思维形式十分类似。一个人从过来产生的事件中吸取教训,从而失去一生的教训,如果有新的问题,他 / 她可能会从他 / 她以前学到的教训中失去解决办法。就像人类所做的一样,人工智能模型是从训练数据中训练进去的,如果有新的数据,模型就会输入后果。第一阶段称为训练,第二阶段称为推理。训练和推理是人工智能的两个次要阶段。

训练阶段须要大量的计算能力,因为它须要大量的矩阵乘法和迭代,而且即便应用 GPU 这样的硬件加速,对于简单的模型通常也须要几个小时或几天的工夫。推理阶段须要绝对较低的响应工夫,特地是对于某些对提早敏感的应用程序,如主动驾驶等等。推理的整个过程应该在不到 1 秒甚至更短的工夫内实现。随着神经网络越来越深刻和简单,海量的计算资源需要暴发,在挪动设施上进行人工智能推理变得越来越艰难。

云 - 边 - 端计算工作卸载与合作

新兴的边缘计算范式带来了一个更好的解决方案,将人工智能服务的局部计算迁徙到边缘,以缓解提早和带宽瓶颈。这存在两个关键问题:第一个问题是是否将工作从云或终端设备卸载到边缘,第二个问题是如何以适当的形式将任务分配给云、边缘和终端设备。

咱们设 P 为终端设备、边缘服务器和云服务器的解决能力,C 为计算任务量,D 为须要传输的数据,B 为终端设备与边缘节点或核心云之间的带宽。如果等式(1)成立,将计算从终端设备迁徙到边缘服务器能够缩小响应工夫。如果等式(2)成立,则将计算迁徙到边缘服务器后的性能优于迁徙到核心云。

然而,边缘 AI 仍旧存在痛点和难点。次要蕴含以下三个方面:

难部署

•AI 框架品种泛滥,算法模型难以间接部署到生产环境,提供服务调用接口

•边缘资源类型异构,不同 AI 服务对资源需要不同

难运维

•生产环境的 AI 服务须要反对服务生命全周期治理,包含版本升级、灰度公布、状态监测、主动扩缩容等等

难调度

•边缘计算是典型的分布式系统,须要为终端用户抉择适合的边缘资源提供边缘 AI 服务,同时在用户体验、算力老本和流量老本上做到最优衡量

人工智能模型的开发人员和数据科学家通常不晓得或不太关怀他们的模型在生产环境中是如何服务的。例如,在边缘部署模型时,必须思考到不同框架的 AI 模型须要不同的部署形式,同时也须要一个 API 服务器将 AI 模型对外提供给终端用户。此外,边缘人工智能服务还须要全生命周期治理的能力,包含版本升级、灰度公布、主动缩放等,以及灵便的调度能力,以优化用户体验、计算成本和流量老本之间的衡量。

Astraea 的诞生

因而,阿里云边缘计算团队提出了 Astraea — 一个实用于边缘计算场景的新型 AI 服务部署平台,它简化了部署阶段,同时充分利用了边缘计算的劣势。一个 AI 服务开发者只需提交模型、相干调用脚本和边缘资源需要,Astraea 负责镜像构建、资源分配、模型服务和状态监测等全过程,最终提供规范的 Restful API 供终端设备应用。

Astraea 具备以下长处。首先,Astraea 的用户只须要提交不到 10 行的模板配置,Astraea 可能在 1 分钟工夫内构建映像,在 5 分钟工夫内实现服务边缘部署。其次,Astraea 反对 Scikit learn、TensorFlow、Pythorch、ONNX 等多个人工智能框架,能够一键化为 AI 服务主动生成 Restful API。借助 Astraea 以及阿里云边缘节点服务,AI 服务能够下沉到间隔用户 10 公里的范畴内。同时,Astraea 基于阿里云边缘节点服务能力实现运维自动化。

如何通过 Astraea 一键化部署边缘 AI 服务

如以上视频所示,左侧是对图像进行分类的推理示例,右侧是边缘资源需要示例文件。用户只需输出 astraea build 和 astraea deploy 命令,这个 AI 服务就主动部署在指定的边缘节点上,并为用户提供可被调用的 Restful API。用户能够不便地调用这个 API 来对图像进行分类。

基于 Astraea,能够实现另外一项边缘 AI 服务:实时车牌检测服务。

应用 Raspberry Pi 4 和相适配的摄像头作为终端设备,利用 5G CPE 提供网络连接,并应用 Astraea 部署边缘 AI 服务。由视频能够看到,通过将推理转移到边缘节点,咱们在 Raspberry Pi 4 上可能实现简直实时的车牌辨认能力。

Astraea 我的项目设计和架构

模型开发人员只须要提交三项文件:第一个文件是 AI 模型,无论它依赖于哪个机器学习框架;第二个文件是用来示意如何调用模型以及返回的输入数据格式的脚本文件;第三个文件用来示意 AI 服务的元信息(包含名称、版本、API 端口等)和边缘计算资源的需要,包含 CPU、GPU、内存大小和 AI 服务要笼罩的天文区域。

Astraea 可能主动剖析提交的文件,封装模型并提供 Restful API 调用能力,构建容器映像并将其推送到边缘容器仓库。Astraea 同时解析资源需要,并相应地在指定的边缘节点中运行边缘 AI 服务。

Astraea 基于边缘节点服务平台实现以下能力:

镜像仓库:作为边缘 AI 镜像的贮存仓库,并提供镜像散发减速能力

利用公布:提供边缘 AI 服务的一键部署和灰度公布性能

监测运维:负责边缘 AI 容器状态监测和相干日志服务

对于 Astraea 的试验测评

阿里云边缘计算团队通过在低性能终端设备上实现实时对象辨认服务来评估 Astraea。在试验中,抉择 Raspberry Pi 4 作为终端设备,YOLOv3 模型来辨认图像或视频中的物体。模型的权重是在云中事后训练的,因为与边缘节点或终端设备相比,核心云数据中心有更大的能力来训练模型。同时,在试验中,抉择了位于中国杭州的边缘节点(配有 Tesla V100 GPU)。

试验架构:

试验过程中,终端设备(Raspberry Pi)捕捉图像,调用 Astraea 提供的 web 服务 API 来取得辨认后果,最初将结果显示在原始图像上。作为比拟,在第二个试验中,咱们在终端设备解决所有指标辨认的工作。

试验中测试了不同大小、不同分辨率下的检测性能。如图所示,在 Raspberry Pi 4 上的指标辨认工夫均匀为 20 秒左右,这对于实时指标辨认来说是无奈承受的。如果应用 Astraea 在边缘节点部署指标辨认服务,推理工夫均匀小于 0.1 秒。即便算上从终端设备到边缘节点的网络传输工夫,该计划均匀能够节俭 98.5% 的工夫。因而,当指标辨认工作中的推理阶段被卸载到边缘节点时,终端用户感觉到辨认速度比终端设备单机计划快 25~110 倍。此外,咱们还测试了视频中的实时指标辨认,论断是相比 Raspberry Pi 自身解决帧速率晋升了 50 倍。

论断

在本项工作中,阿里云边缘计算团队提出了边缘 AI 部署我的项目 Astraea,提供从 AI 算法模型到边缘云部署的一站式解决方案,解决模型开发者“算法落地”和“部署运维”两方面的难题。Astraea 可能自动化地实现 AI 服务在边缘节点的部署,将 AI 模型的推理过程转化为 Restful API 接口供终端用户调用,提供低时延、省带宽、广覆盖、易运维的边缘 AI 服务。试验结果表明,通过计算工作的卸载和协同,边缘 AI 服务相较于传统办法可能失去 25 倍至 110 倍的性能晋升。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0