关于android:一文搞懂华为ML-Kit数字人超简单集成

一、数字人介绍

虚构数字人是综合多模态AI能力，联合图像视觉、情绪生成、语音克隆、语义了解等多种AI技术，广泛应用于媒体新闻主播、金融客服、虚构游戏等泛滥场景。

数字人在行业中的利用：

二、HMS ML Kit数字人

HMS ML Kit数字人是依靠华为公司弱小的图像处理、语音合成、声音克隆、语义了解等AI核心技术，全新推出的综合多模态AI能力。面向教育、新闻、多媒体制作企业，提供高质量、低成本、翻新体验的内容创作模式。比照其余厂商数字人，HMS ML Kit数字人的劣势显著：

反对超高清4K影院级成果

反对大屏展现，全身细节纹理均达到等同清晰度

生成与实在背景图像无缝交融，高清分辨率下无交融痕迹

嘴唇细节、口红反光明显、纹理清晰

牙齿清晰可见，齿缝纹理清晰实在

合成成果逼真度

实在还原牙齿（非贴图）、嘴唇、甚至口红反光细节。

实在还原面部光照、对比度、暗影、酒窝等细节。

嘴部皮肤生成纹理与实在纹理无缝对接。

绝对3D主播，无动画僵硬感。

三、HMS ML Kit数字人生成数字人视频展现

从上图中咱们能够看到HMS ML Kit数字人超高清的真人视频成果，不仅口齿清晰，ML Kit数字人还对一些细节的掌控更加优良：嘴唇细节、口红反光细节、更加实在的面部发音以及粗疏的面部光照成果。

四、HMS ML Kit数字人服务集成

4.1 服务集成过程

4.1.1 提交须要生成的文本信息

调用【定制文本转虚构数字人视频接口】，将一些配置（config）和须要转化的文本（data）通过该接口传输至后端进行解决：首先，要对传输进来的data的文本字符长度进行校验，中文文本最大字符长度不得超过1000，英文文本单个字符长度不得超过3000，英文文本单词长度不得超过3000，对于传输进来的config做非空校验，而后将config和data提交，将文本文字转化为音频文件。

4.1.2 异步执行的定时工作

会有一个异步执行的定时工作解决提交的数据，调用TTS提供的算法，将文本文件转化为视频文件，并且将上一步失去的音频文件与视频文件合成起来。

4.1.3 查问文本是否转化胜利

调用【文本转虚构数字人视频后果查问接口】，实时查问异步执行的文本转视频是否曾经执行结束；如果执行结束，将会返回一个生成视频的链接。

4.1.4 依据视频链接拜访视频文件

依据【文本转虚构数字人视频后果查问接口】所返回的视频链接，拜访生成的视频文件。

4.2 服务集成的次要接口

4.2.1 定制文本转虚构数字人视频接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/submit

申请参数：

次要性能：
输出文本转换成虚构数字人视频接口，此接口为异步接口，以后版本转换须要肯定工夫，采纳离线办法，最终转换后果须要通过【文本转虚构数字人视频后果查问接口】查问。如果提交的文本曾经合成过，间接返回播放URL。

次要逻辑：
依据前端页面所传输的须要合成的文本数据data，依据config所提供的一些配置，将文本文字转化为音频文件。异步执行多线程，依据所提供的算法模型生成合乎发音的视频文件，而后将视频文件与音频文件合成起来，生成所需的数字人视频。如果提交的文本曾经合成过，间接返回播放URL。

4.2.2 文本转虚构数字人视频后果查问接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/query

申请参数：

次要性能：

依据提交文本ID批量查问转换状态。

次要逻辑：
依据前端页面所传输的合成的文本数据ID列表，即textIds字段，查问所失去的视频文件合成的工作状态，将失去的状态后果存在汇合，作为返回参数，插入到返回的申请当中。如果申请的文本已合成过，间接返回播放URL。

4.2.3文本转虚构数字人视频批量下线接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/offline

申请参数：

次要性能：
依据提交文本ID批量下线。

次要逻辑：
依据前端页面所传输的合成的文本数据ID数组，即textIds字段，对该数组内所有ID对应的视频进行下线设置，扭转其状态为下线状态，同时删除视频文件，被下线的视频无奈播放和观看。

4.3 HMS ML Kit数字人服务实现的次要性能

HMS ML Kit数字人服务的性能十分弱小：

双语发音：因为目前零碎反对中文发音和英文发音，能够传输中文文本和英文文本作为发音数据。
多个虚构主播形象：反对不同虚构主播发音，目前零碎里配置了4名虚构主播，别离为：中文女士发音，上海日报，英文女士发音，英文男士发音。
画中画视频播放：除了对虚构主播的设置以外，视频播放反对画中画即小窗播放视频，在画中画模式播放视频时，视频窗口随屏幕挪动，能够一边查看文本，一边播放视频，视频窗口还能够拖拽到任意地位，以至于不遮挡文本地位。
可调节的语速，音量，音调：能够满足不同需要的发音速度，发音音量以及发音音调。
多背景设置：能够设置不同的虚构主播背景，目前零碎内置了通明背景、绿幕、科技主题三种背景，还能够通过上传图片的形式自定义本人喜爱的背景进行设置。
字幕设置：零碎能够主动配置字幕，能够设置中文字幕，英文字幕或者双语字幕。
多布局设置：能够由参数调节虚构主播出当初屏幕当中的地位：左测，右侧，屏幕两头；以及调节虚构主播人物大小和展现全身或半身。在抉择虚构主播出当初屏幕当中的地位为右边或者左边的时候，还能够设置台标和台标呈现的地位，以及在视频当中显示须要播放的视频文件，做到视频画中画的成果，以还原实在的新闻播报的场景。

视频画中画展现：

五、结后语

作为一名开发者来说，在应用HMS ML Kit数字人生成一个视频之后，尤其是视频画中画的性能，令我叹为观止。这切切实实地还原了实在主播所处的新闻播报场景，不禁让人畅想，在完善化的数字人推广下，是否能够齐全代替真人播报呢？

更具体的开发指南参考华为开发者联盟官网

https://developer.huawei.com/consumer/cn/hms/huawei-mlkit

原文链接： https://developer.huawei.com/consumer/cn/forum/topicview?tid=0202351501845870559&fid=18
作者：say hi

关于android:一文搞懂华为ML-Kit数字人超简单集成

一、数字人介绍

二、HMS ML Kit数字人

三、HMS ML Kit数字人生成数字人视频展现

四、HMS ML Kit数字人服务集成

4.1 服务集成过程

4.1.1 提交须要生成的文本信息

4.1.2 异步执行的定时工作

4.1.3 查问文本是否转化胜利

4.1.4 依据视频链接拜访视频文件

4.2 服务集成的次要接口

4.2.1 定制文本转虚构数字人视频接口

4.2.2 文本转虚构数字人视频后果查问接口

4.2.3文本转虚构数字人视频批量下线接口

4.3 HMS ML Kit数字人服务实现的次要性能

五、结后语

更具体的开发指南参考华为开发者联盟官网

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于android:一文搞懂华为ML-Kit数字人超简单集成

一、数字人介绍

二、HMS ML Kit数字人

三、HMS ML Kit数字人生成数字人视频展现

四、HMS ML Kit数字人服务集成

4.1 服务集成过程

4.1.1 提交须要生成的文本信息

4.1.2 异步执行的定时工作

4.1.3 查问文本是否转化胜利

4.1.4 依据视频链接拜访视频文件

4.2 服务集成的次要接口

4.2.1 定制文本转虚构数字人视频接口

4.2.2 文本转虚构数字人视频后果查问接口

4.2.3文本转虚构数字人视频批量下线接口

4.3 HMS ML Kit数字人服务实现的次要性能

五、结后语

更具体的开发指南参考华为开发者联盟官网

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复