共计 2506 个字符,预计需要花费 7 分钟才能阅读完成。
过来三年是端侧 AI 高速倒退的几年,华为在 2020 年预言了端侧 AI 的倒退潮流,2021 年通过提供端云协同的形式使咱们的 HiAI Foundation 应用性更进一个台阶,2022 年提供视频超分端到端的解决方案,在 2023HDC 大会上,HiAI Foundation 基于硬件能力的凋谢,提供更多场景高效能的解决方案。
华为 HiAI Foundation 提供了高性能 AI 算子和丰盛的 AI 个性的接口,App 间接对应 HiAI Foundation 的 DDK。往年残缺反对了 HarmonyOS NEXT,开发者无需批改任何代码,只需依照 HarmonyOS NEXT 的要求从新编译即可运行。同时,在开发者联盟网站有 HarmonyOS NEXT 领导文档,在 Gitee 上也开源了对应的 Demo,升高大家的集成老本。
往年,华为在原有的根底上,拓展了更多端侧 AI 场景解决方案。
华为 HiAI Foundation 是基于硬件翻新架构的能力凋谢,构建了一个高性能的 NPU、CPU、GPU 算子,同时提供整网交融、AIPP 软化预处理、算子搜寻工具、异构计算等多元的根底能力,在硬件翻新架构和多元竞争根底的能力上,提供生态凋谢机制,在生态凋谢机制上提供对用户凋谢的接口 DDK 工具链、模型轻量化、算子库动静降级、开源等等机制。
华为 HiAI Foundation 次要由以下几个局部形成,首先是 HiAI Foundation DDK 推理减速平台,它次要实现与下层推理框架的接入,使开发者能够屏蔽底层硬件,可能更加聚焦于模型成果的优化。第二局部是异构计算 HCL 平台,它次要是使能各个硬件,比方 NPU、CPU、GPU。第三局部是提供对应的工具链,包含模型转换工具链、异构调优工具链。同时咱们也提供了对立的 API,通过一次开发能够做到赋能多状态的设施硬件上运行,并且华为 HiAI Foundation 能够与 HarmonyOS 实时交融。
上面以典型 AI 场景为例,从部署的角度来摸索一下华为 HiAI Foundation 是如何实现这些挑战,并最终实现这些场景的落地。
视觉类减速计划人像宰割
咱们晓得人像宰割通常用于视频中的背景替换、长短视频的弹幕穿人玩法等。华为 HiAI Foundation 通过人像宰割,通过 AIPP 软化预处理指令、模型量化,使得人像宰割达到性能和功耗的业务要求。从视频解码和开明预览流到 AIPP 推理和 GPU 渲染,有多个过程参加,华为 HiAI Foundation 不仅要进行推理,还要实现上下游的深度协同。
视频流和凋谢预览帧到模型,以人像宰割为例,人像宰割要求的输出是 RGB 格局,并且输出要求是固定的尺寸,视频解码帧和预览流进去的数据,要求反对图像预处理的指令,并且把它软化到 NPU 外面,所以人像宰割提供了包含图片缩放 resize、图片旋转 rotation、色域转换 color space convert 的能力。基于华为实验室测试后果,实现性能晋升 20%,模型大小放大 75%,精度损失 1% 以内,性能晋升 19%。
第二局部是模型在 NPU 上的高效算子推理,推理完结之后将后果送到 GPU 上做渲染。在传统计划中,NPU 和 GPU 通常是操作两块不同的内存,华为 HiAI Foundation 提供了零拷贝的接口,将 NPU 和 GPU 在同一块内存上操作,并且在格局上放弃严格统一,通过多 IP 协同 +AIPP 实现高效人像宰割计算。
在端侧部署过程中提供了模型可视化 +Profiling 工具,通过模型可视化理解 HiAI Foundation 构造,通过 Profiling 晓得 IP 的散布,包含算子在 NPU 和 GPU 的推理工夫,综合起来通过可视化工具和 Profiling 工具设计出零碎敌对的构造,设计性能最佳的模型。
通过 Profiling 工具理解到模型算子的性能不够敌对,而后把它反馈到 HiAI Foundation,咱们在反对好这些算子之后,通过端云协同的形式疾速推送到用户手中,使用户可能尽快上线业务。本次华为在端云协同助力性能优化疾速降级方面做了全面的降级,开发者无 SDK 就能够集成,相比原来繁琐的集成要求,能够做到无感集成。
语音类的减速计划语音辨认
端侧部署语音辨认实时出字、响应快,在端侧执行能够保障用户的隐衷,此外华为能做到在 NPU 上执行,稳定性高,并且能够升高云侧的资源部署老本。在语音辨认这一块,HiAI Foundation 反对的是端到端的 Transformer 模型,全副在云端推理。基于华为实验室测试后果,模型量化模型大小放大 74%,精度损失 1% 以内。
模型如图所示,反对 Transformer 模型,开发者能够依据本身的业务,依据性能和泛化性来进行定制,也能够实现高效的算子交融。
将原来须要频繁和内存交互的指令交融成一个大的算子,通过对这些要害构造进行算子交融,总共带来了 60% 的功耗收益,将右边很多小算子组成的构造交融成一个大算子,防止这些小算子频繁和内存进行交互,从而晋升了运算效率。
在端侧部署的过程中,存储空间也是开发者们关注的问题,心愿用更小的存储空间来实现更多更强的能力,所以华为提供量化工具链,通过量化工具链能够量化出更玲珑、更灵便的模型。以人像宰割和语音辨认为例,基于华为实验室测试后果,它们的存储大小可能相比 32 位浮点缩小 70% 以上,精度 WER 指标相比 32 浮点小于 1%,相应的功率也有肯定的晋升。
在端侧 AI 部署中会波及到硬件、软件和 AI 算法,所以华为通过开源的形式来减速业务,通过更多形式灵便部署。目前凋谢了推理源码的开源,通过开源能够做到和 App、第三方深度学习框架对接,同时能够基于本身的需要做灵便的定制裁剪,做到开发灵便,通过这些开源平台能和开发者沟通更便捷。通过这些开源,开发者能够疾速下载、编译,即可在华为手机上用 NPU 做推理,更高效集成业务。
将来,华为会摸索 Transformer 模型更加泛化、更高能效的场景化解决方案,同时在端云协同上也会摸索更多更高性能场景的能力反对,也会通过 ModelZoo 提供更多场景 NPU 敌对的模型构造,用户能够设计更加 NPU 敌对的模型构造。
理解更多详情 >>
拜访 HMS Core 联盟官网
获取 HMS Core 开发领导文档
关注咱们,第一工夫理解 HMS Core 最新技术资讯~