关于harmonyos:HiAI-Foundation助力端侧音视频AI能力高性能低功耗释放云侧成本

过来三年是端侧AI高速倒退的几年，华为在2020年预言了端侧AI的倒退潮流，2021年通过提供端云协同的形式使咱们的HiAI Foundation应用性更进一个台阶，2022年提供视频超分端到端的解决方案，在2023HDC大会上，HiAI Foundation基于硬件能力的凋谢，提供更多场景高效能的解决方案。

华为HiAI Foundation提供了高性能AI算子和丰盛的AI个性的接口，App间接对应HiAI Foundation的DDK。往年残缺反对了HarmonyOS NEXT，开发者无需批改任何代码，只需依照HarmonyOS NEXT的要求从新编译即可运行。同时，在开发者联盟网站有HarmonyOS NEXT领导文档，在Gitee上也开源了对应的Demo，升高大家的集成老本。

往年，华为在原有的根底上，拓展了更多端侧AI场景解决方案。

华为HiAI Foundation是基于硬件翻新架构的能力凋谢，构建了一个高性能的NPU、CPU、GPU算子，同时提供整网交融、AIPP软化预处理、算子搜寻工具、异构计算等多元的根底能力，在硬件翻新架构和多元竞争根底的能力上，提供生态凋谢机制，在生态凋谢机制上提供对用户凋谢的接口DDK工具链、模型轻量化、算子库动静降级、开源等等机制。

华为HiAI Foundation次要由以下几个局部形成，首先是HiAI Foundation DDK推理减速平台，它次要实现与下层推理框架的接入，使开发者能够屏蔽底层硬件，可能更加聚焦于模型成果的优化。第二局部是异构计算HCL平台，它次要是使能各个硬件，比方NPU、CPU、GPU。第三局部是提供对应的工具链，包含模型转换工具链、异构调优工具链。同时咱们也提供了对立的API，通过一次开发能够做到赋能多状态的设施硬件上运行，并且华为HiAI Foundation能够与HarmonyOS实时交融。

上面以典型AI场景为例，从部署的角度来摸索一下华为HiAI Foundation是如何实现这些挑战，并最终实现这些场景的落地。

视觉类减速计划人像宰割

咱们晓得人像宰割通常用于视频中的背景替换、长短视频的弹幕穿人玩法等。华为HiAI Foundation通过人像宰割，通过AIPP软化预处理指令、模型量化，使得人像宰割达到性能和功耗的业务要求。从视频解码和开明预览流到AIPP推理和GPU渲染，有多个过程参加，华为HiAI Foundation不仅要进行推理，还要实现上下游的深度协同。

视频流和凋谢预览帧到模型，以人像宰割为例，人像宰割要求的输出是RGB格局，并且输出要求是固定的尺寸，视频解码帧和预览流进去的数据，要求反对图像预处理的指令，并且把它软化到NPU外面，所以人像宰割提供了包含图片缩放resize、图片旋转rotation、色域转换color space convert的能力。基于华为实验室测试后果，实现性能晋升20%，模型大小放大75%，精度损失1%以内，性能晋升19%。

第二局部是模型在NPU上的高效算子推理，推理完结之后将后果送到GPU上做渲染。在传统计划中，NPU和GPU通常是操作两块不同的内存，华为HiAI Foundation提供了零拷贝的接口，将NPU和GPU在同一块内存上操作，并且在格局上放弃严格统一，通过多IP协同+AIPP实现高效人像宰割计算。

在端侧部署过程中提供了模型可视化+Profiling工具，通过模型可视化理解HiAI Foundation构造，通过Profiling晓得IP的散布，包含算子在NPU和GPU的推理工夫，综合起来通过可视化工具和Profiling工具设计出零碎敌对的构造，设计性能最佳的模型。

通过Profiling工具理解到模型算子的性能不够敌对，而后把它反馈到HiAI Foundation，咱们在反对好这些算子之后，通过端云协同的形式疾速推送到用户手中，使用户可能尽快上线业务。本次华为在端云协同助力性能优化疾速降级方面做了全面的降级，开发者无SDK就能够集成，相比原来繁琐的集成要求，能够做到无感集成。

语音类的减速计划语音辨认

端侧部署语音辨认实时出字、响应快，在端侧执行能够保障用户的隐衷，此外华为能做到在NPU上执行，稳定性高，并且能够升高云侧的资源部署老本。在语音辨认这一块，HiAI Foundation反对的是端到端的Transformer模型，全副在云端推理。基于华为实验室测试后果，模型量化模型大小放大74%，精度损失1%以内。

模型如图所示，反对Transformer模型，开发者能够依据本身的业务，依据性能和泛化性来进行定制，也能够实现高效的算子交融。

将原来须要频繁和内存交互的指令交融成一个大的算子，通过对这些要害构造进行算子交融，总共带来了60%的功耗收益，将右边很多小算子组成的构造交融成一个大算子，防止这些小算子频繁和内存进行交互，从而晋升了运算效率。

在端侧部署的过程中，存储空间也是开发者们关注的问题，心愿用更小的存储空间来实现更多更强的能力，所以华为提供量化工具链，通过量化工具链能够量化出更玲珑、更灵便的模型。以人像宰割和语音辨认为例，基于华为实验室测试后果，它们的存储大小可能相比32位浮点缩小70%以上，精度WER指标相比32浮点小于1%，相应的功率也有肯定的晋升。

在端侧AI部署中会波及到硬件、软件和AI算法，所以华为通过开源的形式来减速业务，通过更多形式灵便部署。目前凋谢了推理源码的开源，通过开源能够做到和App、第三方深度学习框架对接，同时能够基于本身的需要做灵便的定制裁剪，做到开发灵便，通过这些开源平台能和开发者沟通更便捷。通过这些开源，开发者能够疾速下载、编译，即可在华为手机上用NPU做推理，更高效集成业务。

将来，华为会摸索Transformer模型更加泛化、更高能效的场景化解决方案，同时在端云协同上也会摸索更多更高性能场景的能力反对，也会通过ModelZoo提供更多场景NPU敌对的模型构造，用户能够设计更加NPU敌对的模型构造。

理解更多详情>>

拜访HMS Core 联盟官网

获取HMS Core 开发领导文档

关注咱们，第一工夫理解 HMS Core 最新技术资讯~

关于harmonyos:HiAI-Foundation助力端侧音视频AI能力高性能低功耗释放云侧成本

更多文章

未能装载“software”。(com.apple.DiskManagement.disenter错误49223。- macosx catalina系统磁盘挂载出错解决办法

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能