关于语音:兴业证券打造更自然的数字人火山语音提供技术支持

50次阅读

共计 1117 个字符,预计需要花费 3 分钟才能阅读完成。

随着 AI 技术的一直成熟,越来越多金融机构将虚构数字人利用到业务场景中。虚构数字人可能突破时空限度、实现降本增效、进步服务体验,无望进一步助力金融机构数字化转型、晋升经营效率。

以兴业小知为例,与此前诸多的虚构数字人不同,小知是兴业证券携手火山引擎打造的业内首款以自有员工为原型、集“播报 + 服务”于一体的全真数字分身。作为智慧主播,数智服务官小知将在优理宝 App、兴业证券 App 以及兴业其余新媒体平台为用户解读股市行情、播报市场资讯。

兴业证券首位数智服务官小知整体来看,小知不仅从形状上深度还原了兴业证券明星投顾的形象,更重要的是其口唇形、微表情与动作也都达到了较高的仿真度与天然度。作为火山引擎金融虚构数字人解决方案的技术提供方,火山语音通过应用行业当先的非自回归模型的唇形生成网络,合成与输出文本或语音齐全匹配的唇形,准确率高达 98.55%;基于翻新的 Motion Graph 技术,数字人能够轻松做到毫秒级动作切换提早且天然无感知。

值得一提的是,数智服务官小知在火山语音当先的端到端语音合成技术加持下,还具备开心、诧异、愤恨等丰盛的情感演绎能力,还可通过管制音色的重音、进展等,赋予多样的语气,实现笑声、哭腔等非语言景象建模能力,贴近真人的同时为用户提供更有温度的服务。能够说,小知是兴业证券在数智化转型的一次重要摸索和实际。

据理解,在火山语音的“AI 虚构员工解决方案”反对下,火山引擎已建设了包含 2D、3D 卡通和 3D 超写实在内的虚构数字人产品矩阵;从场景适配登程,包含“播报型数字人”和“交互型数字人”两种类型。其中播报型数字人,即输出文本或语音,就可生成天然活泼的数字人播报视频;交互数字人作为播报型数字人的状态降级,依靠于火山语音长期积攒的成熟语音交互技术,能够做到“善听”、“会说”、“能想”,与用户面对面实时交互。

数字人产品矩阵

交互数字人集成了全双工语音交互链路,前向兼容语音以及文本输出,后向兼容 2D 与 3D 数字人表现力,整体端到端交互提早在 500ms 左右,性能成果达到业内领先水平。

多模态交互数字人技术环路

目前该计划曾经具备规范平台的疾速交付能力,面向金融、大生产、泛互等行业提供涵盖“金融客服”、“智慧导览”、“智能助理”、“虚构直播”等场景细分解决方案,为用户带来全新的互动服务和便捷体验。2022 年 6 月,火山引擎虚拟人数字平台已取得信通院首批数字人零碎根底能力认证。

在数字化浪潮之下,各行各业的虚构数字人“大战”已蓄势待发。此次兴业证券推出的虚构数字人便是打响了新年“第一枪”。在火山引擎等科技公司的加持下,让这场没有硝烟的“和平”变得更加精彩。面对这一片新蓝海,最终谁将怀才不遇,谁又将“笑到最初”,需等待时间测验。

正文完
 0