关于云计算:双11购物节国外剁手党同狂欢-阿里云视频云电商直播实时字幕

29次阅读

共计 1707 个字符,预计需要花费 5 分钟才能阅读完成。

2020 的双 11 狂潮未然提前,年度氪金剁手大会已吹响号角。

比起今年,往年分外不同,天猫双 11 早在 10 月 21 日便揭起预售大幕,8 亿人蹲守淘宝直播,仅当日的李佳琦直播间,观看人次就冲破了 1.5 亿,直至 10 月 31 日,间断长达 10 天的明星直播间和品牌商家总裁连麦均是亮点。无疑,淘宝直播在双 11 期间施展巨大作用,而电商直播已俨然成为标配输入。

与此同时,跨境电商也参加到了直播带货中来。被称为“国际版淘宝”的阿里巴巴跨境电商平台“速卖通”,面向海内买家,其平台商家也十分心愿能更好地利用直播沟通把商品卖到海内。但直播时的语言成为一大问题,外国人听不懂咱们卖什么,咱们不明确外国人想要什么,这两头的 gap 很难在直播场景下融通。而 实时语音翻译字幕,就买通了商家国外直播带货的任督二脉。

这项技术是由 阿里云视频云与达摩院独特研发而成,以实时字幕技术和 AI 能力实现直播电商场景下的实时“语言”翻译,以 214 种语言的实时翻译字幕,大规模利用于此次双 11,掀起全球性的双 11 热潮。


阿里云视频云的实时字幕技术,要做到字幕与主播的语音、画面同步输入,能力满足直播时的翻译和了解需要。那么 直播实时翻译字幕是否真的做到“实时”呢?答案是必定的。说起实时,必定要议论“提早”的概念,个别提早是指推流端到播放端的全链路端到端延迟时间。当下互联网直播对于直播提早的大略定义领域如下:1) 提早直播:20s 以上,个别是广电行业为了监播管控的须要,而做的成心提早。2) 准实时直播:10s-20s, 个别应用 HLS/DASH 等切片流式直播。3) 实时直播:5s-10s, 个别应用 RTMP/http-flv 流式直播。4) 低提早直播:2s-3s, 个别应用 srt 或者其它 UDP 等传输协定的流式直播。5) 超低提早直播:1s-2s,比方阿里云视频云的提出的 RTS 直播, 大略在 1s 左右的提早。直播的提早和链路的传输协定有很大关系,当然也和链路每个环节的缓冲有关系,咱们先看看端到端的链路,看看哪些环节可能产生提早:

从下面的链路提早图能够看到,实践上最小提早能够在 500ms。如果缩小云厂商外部链路,不走核心,比方上行和上行都是一个节点区域(边缘节点),实践上能够在 200ms 左右。而直播时 AI 翻译解决个别部署在核心,或者边缘节点,是否实时,就要看 AI 翻译引入的提早链路了:

实际上就以后 AI 翻译模块是可能实时的,然而因为每个人谈话的断句(进展)以及语音的不规范以及反复冗余字符(比方额、嗯等等)等等各种因素,导致语音辨认须要肯定语音量缓冲和上下文环境了解,才可能识别字、词、短句正确。而语音翻译须要依据辨认后的文字进行翻译,一旦文字辨认谬误,(特地是同音不同字也不同义的)进行翻译后,会错的很离谱,当然翻译自身也是非常复杂的。所以辨认模型、文字处理模型、翻译模型都须要针对特定场景进行针对性训练。然而模型自身的计算不会引入多少提早的,而另外两个提早的引入是在字、音、画同步以及二次编码上,同时为了兼容某些语速较快的人,确保字符可能显示肯定的时长,须要加些提早。能够根据整个链路提早来看,AI 翻译直播的端到端实践提早能够在 1s 左右,齐全满足直播时翻译字幕对“实时”的需要。回顾寰球速卖通的实时语音翻译,是由阿里云视频云提供全链路解决方案,进行客户直播流的接入、直播流的语音拆散、语音辨认获取字幕、而后字音画同步、合成展现,最初散发。从而通过速卖通的跨境直播,让寰球用户越过语言障碍,深度参加直播互动。

不仅是电商直播场景,包含游戏直播也能够退出实时字幕和翻译,如正在炽热进行的 2020 英雄联盟 S10 寰球总决赛,国内直播平台斗鱼,就采纳了阿里云视频云云导播台的成熟的实时语音字幕计划进行直播,赛场讲解语音通过 AI 实时辨认转化为字幕,输入导播到直播画面上,全新晋升直播游戏的观感体验。阿里云视频云的实时字幕技术,早已实现产品化,并整合到了云导播台中。欲了解,可返回阿里云官网,搜寻“视频直播”、“云导播台”。

阿里云视频云将对更多场景、更多维度进行技术摸索,推动新内容与新交互的将来,给大家带来更多的视频云体验。

阿里云视频云技术公众号分享视频云行业和技术趋势,打造“新内容”、“新交互”。

正文完
 0