共计 1866 个字符,预计需要花费 5 分钟才能阅读完成。
一年一度的英雄联盟寰球总决赛在上海落下帷幕,DWG 战败 SN 取得英雄联盟 S10 寰球总决赛冠军,LCK 时隔三年重回巅峰,祝贺 DWG。
作为电竞顶流的《英雄联盟》寰球总决赛,自 9 月揭幕以来,电竞爱好者聚焦在游戏直播平台,为了更好的为观众提供观赛体验,阿里云视频云与推出实时语音字幕零碎,并利用国内某出名游戏直播平台。
这项技术由阿里云视频云技术团队与达摩院语音辨认和 NLP 团队独特研发实现,以实时语音字幕的模式展示在 S10 赛事中。更确切的说,针对这项游戏直播场景的实时字幕技术,阿里云视频云是第一个胜利推出的先行者,据理解,即便在世界范畴内,也简直是实时字幕技术于游戏场景胜利尝试的首例。故,这也是首次利用在英雄联盟 S10 顶级赛事中,创始了游戏直播体验的先河。
在 S10 直播中,该实时字幕技术的场景重要性在于两点:第一,对始终存在的直播体验问题进行彻底改善,延长了场景的可能性 ,例如针对不能间接听赛事的、或吵闹环境导致听不分明的、或讲解人的语言不规范造成了解艰难、以及听力有点艰难的这几类人群,他们能够通过实时字幕来辅助了解,解决歧义,从而拓展了在线观看的人群。 第二,实时字幕能够让视频散发更业余,晋升直播平台对场景生产能力的专业性,特地是针对一些电竞的专有术语,能够让入门级的用户能了解其字,由字生义,由义明字,从而晋升游戏直播的体验感,疏导更多的泛电竞受众。
在游戏直播畛域,该技术的输入外围在于,针对特定游戏场景进行特定的语音辨认,并实时展现在直播流中,让散发端的观众能够借助字、音、画多维度信息了解视频内容。对于将来的游戏直播行业,它创始了游戏赛事直播的新玩法尝试,让直播实时语音辨认的技术帮忙大型赛事游戏更好的散发,对整个行业具备更多维的延展性价值。
在该项目标技术计划实际中,最外围的研发环节与攻克难点在于两方面:1. 语音辨认的准确率;2. 字、音、画三者实时且同步,而后合成展现。在这两方面,视频云与达摩院整体协同并别离攻克。达摩院次要解决语音辨认的准确率,通过特定游戏场景来训练模型,进步准确率;阿里云视频云提供全链路解决方案,进行客户直播流的接入、直播流的语音拆散、调用达摩院的语音辨认获取字幕、而后字音画同步、合成展现,最初散发。
对于实时字幕技术,阿里云视频云团队已早有积攒,起初,视频云实现的是实时插入字幕的性能,起初才逐渐实现语音实时字幕,其与实时插入字幕有一个本质区别,即,实时语音字幕是一个字幕流,同时有肯定的时效性,须要实时、字音画同步,且展现的时长机制不一样。
早在游戏直播场景的研发之前,阿里云视频云就曾胜利研发寰球速卖通(AliExpress)海内电商直播实时字幕我的项目,AliExpress 作为“国际版淘宝”的跨境电商平台,其应用的是阿里云视频云的导播台做实时语音字幕和实时翻译,进行多国多语种字幕展现,也是视频云与达摩院独特打造的世界上第一个多语言电商直播实时翻译零碎。
准确地说,以后,S10 赛事的实时字幕技术,使用了阿里云视频云导播台的成熟的实时语音字幕计划来提供该性能,S10 反对完结后,后续更多的游戏直播场景均能够更宽泛地复用这套语音字幕的直播计划,包含优酷、B 站、抖音、快手这样的视频平台。
将来在大型电比赛事直播上,阿里云视频云对实时字幕技术、实时语音技术畛域,还有新的技术空间思考:1、须要进一步晋升语音辨认的准确率;2、在利用情景上还可做实时翻译,确保多国散发;3、实现更低的延时,目前是 RTMP 提早[3-5s],实际上能够做到更优质的 RTS 提早[1-2s],从而极大晋升在线体验。
相较游戏直播、电商直播、或其余直播场景的实时语音字幕,在技术逻辑的实质上是统一的,均是字幕的同步、合成和展现,然而,不同场景,语音辨认的模型齐全不同 ,比方电商有电商的专业术语,游戏有游戏的专业术语,同时还有一些畛域俚语,所以,须要进行特定的语音辨认模型训练以实现。将来,对实时字幕【反对实时语音字幕的直播】技术的研发,阿里云视频云还有进一步的技术升级布局方向: 一方面,让用户的接入更灵便,字幕模型配置以及字幕的款式展现更不便;另一方面,反对更多的特定场景,进步特定场景的语音识别率,以此复用到更多具化场景的玩法尝试中。
通过阿里云视频云实时字幕技术,更多的圈外人轻松 get 到 S10 赛事讲解的形容,理解英雄联盟的各种梗,感触到电竞文化的魅力。
阿里云视频云将对更多场景、更多维度进行技术摸索,推动新内容与新交互的将来,给大家带来更多的视频云体验。
阿里云视频云技术公众号分享视频云行业和技术趋势,打造“新内容”、“新交互”。