关于人工智能:体验百度EasyEdge畅快部署超多AI芯片

2次阅读

共计 3767 个字符,预计需要花费 10 分钟才能阅读完成。

深度学习通过多年倒退,AI 曾经深入人心,事实上,在图像、文本畛域,AI 在多个产业曾经落地了诸多利用,咱们熟知的主动驾驶、语音助手,背地就大量使用了 AI 技术。
 
当下,PaddlePaddle、TensorFlow、PyTorch 这样的开源框架曾经十分弱小,为部署侧也提供了相干的开源组件,以求升高开发难度。以 PaddlePaddle 框架为例,为了反对端侧预测,提供了 PaddleLite 推理引擎;为了晋升预测性能,提供了 PaddleSlim 模型压缩工具。但即便如此,一方面,应用这些工具依然有肯定的开发门槛,另一方面因为端侧硬件、零碎品种繁多,各种减速芯片层出不穷,框架工具很难齐全反对和适配。因而,端侧部署开发工作仍存在实实在在的挑战,成为开发者将 AI 模型真正用起来的“拦路虎”。面对这些问题,是否存在一个平台,可能缩短部署开发的工夫,实现一键式部署?同时对模型进行压缩提速,实现高性能推理?

百度 EasyEdge 专为解决以上问题而生,EasyEdge 以 PaddleLite、PaddleSlim 为根底,提供了简略易用的端上部署套件,实现不写代码间接部署模型到端侧,并反对二次开发。另外,EasyEdge 也扩大了对支流端计算硬件的反对,适配更宽泛的硬件平台、操作系统、模型类型,并针对特定减速芯片应用专有的计算库,实现进一步的性能晋升。
 
 五大灵魂拷问,AI 模型端部署难点在哪里?

  • 灵魂拷问一:我的应用场景须要我将模型部署到端上,然而端上开发可能会面向嵌入式设施,操作系统也可能是 Android、iOS,有肯定的上手老本,怎样才能更轻松地把模型落地到硬件设施上?
  • 灵魂拷问二:这些年出了好多减速芯片、加速卡、边缘计算盒,价格便宜还不占地,我想晓得它们跑模型能达到什么样的精度和性能,帮忙我进行选型。
  • 灵魂拷问三:我训好的模型适配 XX 芯片,要在各种模型格局之间转来转去,有拍板大,好不容易模型格局对齐了,又有算子 OP 不反对,我该怎么办能力让它跑起来?
  • 灵魂拷问四:我想换个芯片,却发现怎么各家芯片的端上推理模型格局都不一样,又得从头适配,模型转起来想想就头大。
  • 灵魂拷问五:费了九牛二虎之力,模型在端上跑起来了,可是速度不是太现实,我想让它跑得更快,更省内存。据说量化、剪枝、蒸馏这方面挺有用,然而如同本人钻研代码耗时太久。

 EasyEdge 提供最宽泛的硬件平台适配 

上述问题是开发者在端上部署模型时常常遇到的难点,为了解决这些问题,百度推出了 EasyEdge 端与边缘 AI 服务平台。通过 EasyEdge,开发者能够便捷地将 AI 模型部署到各式各样的 AI 芯片和硬件平台上。事实上,最近 EasyEdge 又新增反对了两个新的芯片系列:Atlas300+ 鲲鹏服务器以及瑞芯微多款 NPU 芯片(以后已适配 RK3399Pro、RV1109、RV1126),下图是 EasyEdge 的适配芯片矩阵,目前,EasyEdge 反对 20+AI 芯片与硬件平台,4 大支流操作系统。

你想把模型部署到 Windows PC 上?没问题,安顿!

公布到手机上?Android 还是 iOS,轻易选!当然,Linux 零碎更加是反对的。

具体到推理芯片下面,EasyEdge 反对了很多市面上常见的硬件,除了常见的 CPU、GPU 以及后面提到的新反对的芯片,咱们还反对英伟达 Jetson 系列、比特大陆、海思 NNIE 系列、Intel VPU、支流手机上的 NPU、GPU 等芯片,以及百度自研的 EdgeBoard 系列边缘 AI 计算盒。嵌入式设施、ARM CPU,那都不是事,而且,在将来,EasyEdge 还会一直适配更多的 AI 芯片、加速卡、边缘计算盒,继续为开发者升高端侧模型适配迁徙的难度。

 EasyEdge 提供超全的模型适配 

EasyEdge 是业余的模型部署平台,曾经预置在 EasyDL 中。EasyDL 作为零门槛的 AI 开发平台,涵盖了残缺的数据处理、模型训练与优化、服务部署等性能,反对了十分残缺的模型类型,蕴含图像、文本、视频、语音、OCR 等多种场景多种类型的模型。通过 EasyDL 训练的模型能够人造应用 EasyEdge 来不便的进行端上部署。

但如果你是业余的 AI 模型开发者,手上曾经有训练好的深度学习模型,只是苦于模型部署的麻烦,也能够来 EasyEdge 公布您的端上部署包。对于这样的第三方模型,以后 EasyEdge 曾经反对了 PaddlePaddle、TensorFlow、PyTorch、Caffe、MXNet 等诸多框架以及 ONNX 模型格局,反对的算法类型也包含了图像分类、物体检测、人脸识别等业界支流的各类算法。

 EasyEdge 提供更强的端上推理性能 

为了适配诸多 AI 芯片,EasyEdge 针对不同芯片做了大量适配减速工作。因为在训练阶段,更多地关注模型成果及调优的灵活性。当训练实现后,模型就固化下来了。然而在端上部署时,关注点会变为模型的推理,在推理环节中的重点是推理性能。因而各家 AI 芯片厂商为了实现更高性能的推理能力,都在努力提高芯片的并行处理能力,或者通过 GPU 这样的超多线程并行处理,或者通过 ASIC 芯片这样极大加强芯片的单指令向量乃至矩阵解决能力。但不管怎样,线程化或者向量化带来算力微小晋升的同时,必然导致灵活性的降落。这也是为什么端侧 AI 芯片大都具备本人的模型格局和计算库。但同时也就带来了部署下面大量的适配和模型转换工作。

为此,EasyEdge 内置了弱小的模型互转工具,实现各个框架模型到对立 IR 的转换,再将对立的 IR 适配到各个端上。当模型部署到端上时,遇到有些 OP 不反对的状况时,EasyEdge 提供了大量的 OP 优化和替换操作。同时,EasyEdge 还会利用芯片的自定义 OP 性能或者底层的编程语言进行自定义 OP 的编写,以保障模型端到端地运行到 AI 芯片上。

为了让模型跑的更快更省内存,模型压缩就是推理侧十分弱小且实用的技术了。这方面,EasyEdge 不仅反对了业界当先的量化、剪枝和蒸馏技术,还可能混合应用这几项能力,在尽可能保障成果的同时达到更好的压缩成果。左下图展现了几款常见硬件的定点数算力和浮点数算力的比对,能够看到在很多硬件上定点数算力都远大于浮点数算力,对于这样的硬件,量化是十分必要的。而右图中则能够看到剪枝和蒸馏对于模型推理的减速成果,剪枝和蒸馏实质都是对根底模型在尽量不影响精度的前提下进行精简,天然模型小了,内存占用就少了,推理工夫也就短了。

 EasyEdge 内置全自动评估零碎 

EasyEdge 内置全自动评估零碎能展现模型精度、性能、内存等多维度评估指标,事实上,在 EasyEdge,当你公布模型的时候,你通常能见到这样的网页:

一次训练,多端部署。一个模型能够公布这么多的部署包,省去了一个个适配的麻烦。在这个页面上,咱们还最新上线了模型成果评估的性能,关上性能评估报告,便能看到上面这样的页面。模型的精度、在对应硬件上的推理工夫都高深莫测的展现进去了(tips:这里的推理工夫可不是教训工夫,是你的模型实在在硬件跑进去的工夫哦),有个这个报告,大家在部署前就能对本人的模型精度和性能状况了然于胸,是不是很贴心呢?

如果你抉择 SDK 的形式进行模型部署,你将获取一个功能强大的部署包:不仅有残缺且简略的接口,也有十分欠缺的 demo 工程,包含图片的推理、视频流的推理、多线程的推理等等,如果你是一个编程高手,置信你看完接口和 demo,很快就能集成 AI 的能力去进行利用开发。那如果不想写代码就想部署模型怎么办呢?安顿!

SDK 外面提供了部署 Serving 服务的能力,不必写代码,运行一下编译进去的二进制,你的模型 Serving 服务就起来了,还附带 H5 页面,能够在这个页面上拖入图片看看成果。也可能通过 http 形式去申请 Serving 服务,操作十分便捷。事实上,EasyEdge 的工具包中还有诸多相似这样不便开发和调试的小工具,限于篇幅没法一一列举,静待开发者来摸索与体验。

\
 快来训练部署你的模型吧!

置信通过后面的介绍,大家对于 EasyEdge 的多操作系统、多芯片适配的能力曾经有了大体的认知了,那无妨亲自来体验一下。

EasyDL 基于飞桨开源深度学习平台,面向企业 AI 利用开发者提供零门槛 AI 开发平台,实现零算法根底定制高精度 AI 模型。EasyDL 提供一站式的智能标注、模型训练、服务部署等全流程性能,内置丰盛的预训练模型,反对私有云、设施端、公有服务器、软硬一体计划等灵便的部署形式。筹备好你的场景数据,去训练一个模型并部署到任何你们想部署的硬件上,应用 EasyDL 高效实现不是梦!

如果你曾经有本人的模型,也能够去 EasyEdge 公布适配本人芯片的 SDK 和开发者套件哦。开发者套件应用非常简略便捷,无需关注深度学习、具体硬件等底层逻辑,只需关注输出图片和输入的辨认后果即可。

百度 AI 开发者社区 https://ai.baidu.com/forum,为全国各地开发者提供一个交换、分享、答疑解惑的平台,让开发者在研发路上不再“孤军奋战”,通过一直地交换与探讨找出更好的技术解决方案。如果你想尝试各种人工智能技术、开辟利用场景,赶快退出百度 AI 社区,你对 AI 的所有畅想,在这里都能够实现!

扫描下方二维码,增加小助手微信「京东卡、小度定制周边、神秘礼盒、行李箱」等更多福利你来拿~

正文完
 0