关于android:一文搞懂华为ML-Kit数字人超简单集成

76次阅读

共计 2550 个字符,预计需要花费 7 分钟才能阅读完成。

一、数字人介绍

虚构数字人是综合多模态 AI 能力,联合图像视觉、情绪生成、语音克隆、语义了解等多种 AI 技术,广泛应用于媒体新闻主播、金融客服、虚构游戏等泛滥场景。

数字人在行业中的利用:

二、HMS ML Kit 数字人

HMS ML Kit 数字人是依靠华为公司弱小的图像处理、语音合成、声音克隆、语义了解等 AI 核心技术,全新推出的综合多模态 AI 能力。面向教育、新闻、多媒体制作企业,提供高质量、低成本、翻新体验的内容创作模式。比照其余厂商数字人,HMS ML Kit 数字人的劣势显著:

反对超高清 4K 影院级成果

  • 反对大屏展现,全身细节纹理均达到等同清晰度
  • 生成与实在背景图像无缝交融,高清分辨率下无交融痕迹
  • 嘴唇细节、口红反光明显、纹理清晰
  • 牙齿清晰可见,齿缝纹理清晰实在

合成成果逼真度

  • 实在还原牙齿(非贴图)、嘴唇、甚至口红反光细节。
  • 实在还原面部光照、对比度、暗影、酒窝等细节。
  • 嘴部皮肤生成纹理与实在纹理无缝对接。
  • 绝对 3D 主播,无动画僵硬感。

三、HMS ML Kit 数字人生成数字人视频展现

从上图中咱们能够看到 HMS ML Kit 数字人超高清的真人视频成果,不仅口齿清晰,ML Kit 数字人还对一些细节的掌控更加优良:嘴唇细节、口红反光细节、更加实在的面部发音以及粗疏的面部光照成果。

四、HMS ML Kit 数字人服务集成

4.1 服务集成过程

4.1.1 提交须要生成的文本信息

调用【定制文本转虚构数字人视频接口】,将一些配置(config)和须要转化的文本(data)通过该接口传输至后端进行解决:首先,要对传输进来的 data 的文本字符长度进行校验,中文文本最大字符长度不得超过 1000,英文文本单个字符长度不得超过 3000,英文文本单词长度不得超过 3000,对于传输进来的 config 做非空校验,而后将 config 和 data 提交,将文本文字转化为音频文件。

4.1.2 异步执行的定时工作

会有一个异步执行的定时工作解决提交的数据,调用 TTS 提供的算法,将文本文件转化为视频文件,并且将上一步失去的音频文件与视频文件合成起来。

4.1.3 查问文本是否转化胜利

调用【文本转虚构数字人视频后果查问接口】,实时查问异步执行的文本转视频是否曾经执行结束;如果执行结束,将会返回一个生成视频的链接。

4.1.4 依据视频链接拜访视频文件

依据【文本转虚构数字人视频后果查问接口】所返回的视频链接,拜访生成的视频文件。

4.2 服务集成的次要接口

4.2.1 定制文本转虚构数字人视频接口

URL
http://10.33.219.58:8888/v1/vup/text2vedio/submit

申请参数

次要性能
输出文本转换成虚构数字人视频接口,此接口为异步接口,以后版本转换须要肯定工夫,采纳离线办法,最终转换后果须要通过【文本转虚构数字人视频后果查问接口】查问。如果提交的文本曾经合成过,间接返回播放 URL。

次要逻辑
依据前端页面所传输的须要合成的文本数据 data,依据 config 所提供的一些配置,将文本文字转化为音频文件。异步执行多线程,依据所提供的算法模型生成合乎发音的视频文件,而后将视频文件与音频文件合成起来,生成所需的数字人视频。如果提交的文本曾经合成过,间接返回播放 URL。

4.2.2 文本转虚构数字人视频后果查问接口

URL
http://10.33.219.58:8888/v1/vup/text2vedio/query

申请参数

次要性能

依据提交文本 ID 批量查问转换状态。

次要逻辑
依据前端页面所传输的合成的文本数据 ID 列表,即 textIds 字段,查问所失去的视频文件合成的工作状态,将失去的状态后果存在汇合,作为返回参数,插入到返回的申请当中。如果申请的文本已合成过,间接返回播放 URL。

4.2.3 文本转虚构数字人视频批量下线接口

URL
http://10.33.219.58:8888/v1/vup/text2vedio/offline

申请参数

次要性能
依据提交文本 ID 批量下线。

次要逻辑
依据前端页面所传输的合成的文本数据 ID 数组,即 textIds 字段,对该数组内所有 ID 对应的视频进行下线设置,扭转其状态为下线状态,同时删除视频文件,被下线的视频无奈播放和观看。

4.3 HMS ML Kit 数字人服务实现的次要性能

HMS ML Kit 数字人服务的性能十分弱小:

  1. 双语发音:因为目前零碎反对中文发音和英文发音,能够传输中文文本和英文文本作为发音数据。
  2. 多个虚构主播形象:反对不同虚构主播发音,目前零碎里配置了 4 名虚构主播,别离为:中文女士发音,上海日报,英文女士发音,英文男士发音。
  3. 画中画视频播放:除了对虚构主播的设置以外,视频播放反对画中画即小窗播放视频,在画中画模式播放视频时,视频窗口随屏幕挪动,能够一边查看文本,一边播放视频,视频窗口还能够拖拽到任意地位,以至于不遮挡文本地位。
  4. 可调节的语速,音量,音调:能够满足不同需要的发音速度,发音音量以及发音音调。
  5. 多背景设置:能够设置不同的虚构主播背景,目前零碎内置了通明背景、绿幕、科技主题三种背景,还能够通过上传图片的形式自定义本人喜爱的背景进行设置。
  6. 字幕设置:零碎能够主动配置字幕,能够设置中文字幕,英文字幕或者双语字幕。
  7. 多布局设置:能够由参数调节虚构主播出当初屏幕当中的地位:左测,右侧,屏幕两头;以及调节虚构主播人物大小和展现全身或半身。在抉择虚构主播出当初屏幕当中的地位为右边或者左边的时候,还能够设置台标和台标呈现的地位,以及在视频当中显示须要播放的视频文件,做到视频画中画的成果,以还原实在的新闻播报的场景。

视频画中画展现:

五、结后语

作为一名开发者来说,在应用 HMS ML Kit 数字人生成一个视频之后,尤其是视频画中画的性能,令我叹为观止。这切切实实地还原了实在主播所处的新闻播报场景,不禁让人畅想,在完善化的数字人推广下,是否能够齐全代替真人播报呢?

更具体的开发指南参考华为开发者联盟官网

https://developer.huawei.com/consumer/cn/hms/huawei-mlkit


原文链接:https://developer.huawei.com/consumer/cn/forum/topicview?tid=0202351501845870559&fid=18
作者:say hi

正文完
 0