关于语音:如何做好音频理解的推理优化GTC23火山语音告诉你

38次阅读

共计 1011 个字符,预计需要花费 3 分钟才能阅读完成。

现在,咱们未然进入到一个视频暴发的时代。据国内数据调研机构 IDC 预计,2025 年寰球数据空间中 80.3% 将是以视频、图片、音频为代表的非结构化数据。有权威机构显示,目前我国短视频用户规模增长尤为显著高达 9.26 亿,较 2021 年 12 月增长 2805 万,短视频未然成为全民时尚不可或缺。面对全行业视频化的大势所趋,长期面向字节跳动各大业务线,提供行业优质的 AI 语音技术能力以及全栈语音产品解决方案的火山语音或者是较有教训的实践者之一。

2022 卡塔尔世界杯期间,火山语音技术能力同步反对了上线抖音的“无障碍字幕直播间”,截至 12 月 19 日决赛,已有累计超过 1905 万人在该直播间观看了球赛,累计观看次数超过 2624 万次。赛事期间,团队通过自研推出的端到端的流式语音识别系统,着力解决了世界杯较量场景中外国球员教练员的人名辨认等难题,为观众出现更佳的字幕成果,带来更好的观赛体验。在不久之前的国家语音及图像识别产品质量检验检测核心的权威检测中,火山语音还荣获了语音辨认加强级测验检测证书,在语音辨认的根本要求以及扩大要求上均已达 AI 国检核心的最高等级规范。

长期以来,火山语音将打磨多年的 AI 语音技术能力以及全栈语音产品解决方案面向市场并通过火山引擎凋谢给内部企业,目前曾经笼罩多种语言和方言,涵盖音视频、有声浏览、语音交互、游戏、广告等泛滥行业利用场景,为抖音、剪映、飞书、番茄小说、Pico 等外围业务提供了当先的 AI 语音能力利用与拓展。

在 3 月 20 日 -23 日举办的 NVIDIA GTC 大会上,火山语音团队再次亮相,与会专家将基于音频了解技术带来独家干货分享,通过 NVIDIA 提供的推理 GPU(T4, A10, A30)详尽介绍音频了解如何做到推理减速,以及怎么广泛应用于抖音等大流量场景,更多语音技术详情点击理解:https://www.volcengine.com/pr…

线上观看请点击报名:https://www.nvidia.cn/gtc-glo…

对于 NVIDIA GTC:这是一个面向寰球 AI 开发者的大会,3 月秋季大会包含超过 650 场演讲、专家座谈会以及特地流动。寰球范畴的技术专家、开发者、钻研人员、创作者、IT 决策者和企业首领将汇聚于此,理解 AI、减速计算及其他畛域的突破性停顿。NVIDIA 创始人兼首席执行官黄仁勋将在本次 GTC 主题演讲中分享 NVIDIA 减速计算平台如何推动 AI、元宇宙、云技术和可继续计算的下一波浪潮。

正文完
 0