关于音视频:融云视角沉浸式音频与通讯技术未来趋势

20次阅读

共计 3419 个字符,预计需要花费 9 分钟才能阅读完成。

回顾互联网倒退历程,从 PC 局域网到挪动互联网,互联网应用的沉迷感逐渐晋升,虚构与事实的间隔也逐步放大。利用沉迷式音频与通信技术将来将会很大水平晋升用户的体验感,而在虚构与事实的元宇宙中,对沉迷感、参与度、永续性等方面都有很高的要求,因而将会由许多独立工具、平台、基础设施、协定等来反对其运行。随着 AR、VR、5G、云计算等技术成熟度晋升,基于沉迷式音频的通信技术在元宇宙无望逐渐从概念走向事实。

本文将和业内搭档一起摸索元宇宙技术倒退对通信行业带来的影响,将来沉迷式音频的发展趋势以及通信技术在 VR、AR、AI 行业的利用。

元宇宙概念简述
元宇宙(Metaverse)是指打造一个与现实生活平行的、体验简直无差别的虚拟世界。人类能够利用虚构身份在虚拟世界工作、社交互动、娱乐游戏,甚至交易交易。总结进去就是,在元宇宙中,你能够想什么就有什么,无边无际的想象力给予你有限的自在。

Metaverse 元宇宙所发明的独立于事实世界的虚构数字第二世界,使用户能以数字身份自在生存。VR、AR、AI 作为 Metaverse 的技术根底将迎来高速增长期。虚拟现实行业 2020 年寰球市场规模约为 900 亿元人民币,预计 2020-2024 年均增长率约为 54%。据中国信通院预测,2021 年开始寰球虚构设施出货量将减速,预计 2024 年可达 7500 万台。(数据起源:天风证券《Metaverse 钻研报告》)随着 VR 产业链的逐步完善,VR 对行业的赋能会展现出弱小的飞轮效应。

那么咱们怎么样能力从事实世界,逐步进入到元宇宙世界中去呢?

真实感的维度
如果把元宇宙场景中,用户体验到的真实感划分为两个维度:“沉迷感”和“自由度”。两个轴的终点,则是原生感知事实,例如正在浏览这篇文章的你。沉迷和自在的深度,独特决定了元宇宙中的用户体验是否足够实在。

真实感的等级

Lv1:从原生感知初步向虚拟世界迈进的阶段
Lv2:让大脑感觉局部实在的虚拟世界
Lv3:齐全骗过大脑的全真虚拟世界
Max:和原生世界深度雷同的虚拟世界

元宇宙现阶段发展趋势
现阶段元宇宙概念的产业链,例如互动体验、人机交互等,大部分能力范畴在 Lv1-Lv2 之间,仅有少部分尖端企业向 Lv3 迈进。将来阶段如何实现 Max 的指标,是否能真正实现,目前还无奈得悉。

Lv1-Lv2 范畴的产业链已日渐成熟,目前曾经实现 3D 体感电影、凋谢沙盒游戏、VR、AR、MR 游戏等利用。

如果说 Lv2 阶段的用户体验,是由某几个沉迷或自在因素沉积而成的“半实在”体验,那么降级到 Lv3 阶段的“全实在”体验,能够说是质的飞跃。“沉迷”和 ” 自在 ” 必须做到足够的深度,相辅相成。数字化的视觉和听觉感知体验是否能够齐全骗过咱们的大脑?3D 引擎是否能提供足够的自在体验?AI 是否能做到永续性、自成长?网络传输是否可实现无提早?只有任何一个因素存在缺点,就不可能真正实现“全实在”的用户体验。可见从“半实在”到“全实在”,实现难度会陡增。

到 Lv3 之后,元宇宙下一个阶段,就是实现终极目标,让人们的意识永生在虚拟世界。影响这一指标实现的因素,除硬件、软件、通信等科技因素之外,还波及到生物学和医学领域。是否能真正实现,目前来看仍是未知。

头部厂商的停顿

1.Facebook
2020 年 9 月,Facebook Connect 2020 大会上,Facebook 公布了 AR/VR 十五大重要战略规划。会上颁布的一系列 AR/VR 信息,涵盖最新硬件产品、软件产品、解决方案、开发者服务、前沿技术钻研等。

其中 VR 头显 Oculus Quest 2 依附平台提供的游戏和软件反对,曾经成为目前市场上支流的 VR 头部穿戴设施。

值得关注的是,在会上公布的 Project Aria 是 Facebook 构建的帮忙钻研人员了解 AR 眼镜所需软件和硬件的钻研设施。它应用传感器能从佩戴者角度捕获视频和音频,通过 GPS 计算地位,捕获多声道音频。

2.Apple
美国出名科技博客 Scobleizer 预测,苹果在将来一年内颁布的产品打算中,将会蕴含一款全新的 AR/VR 头显。具体来讲,苹果打算在将来十年推出多款产品,包含 AR/VR 眼镜、AR/VR 隐形眼镜(别离在 2022 年到 2025 年之间推出)。这意味着苹果要从 2D 屏幕、界面和体验向 3D 模式降级。

Scobleizer 示意:苹果 AR/VR 头显将同时笼罩使用者的双眼和双耳,戴上之后你不仅看不到四周的环境,也听不到四周的声音。也就是说,苹果 AR/VR 头显的一大特点是视觉和听觉的沉迷感,乏味的是,它并不会将使用者与外界齐全断绝,兴许能够通过 AR 透视性能让你看到和听到四周。在苹果 AR/VR 头显开机之后,你能力看到周围环境的虚构影像,并且听到四周的声音。

值得关注的还有苹果车载盘绕音频技术。Scobleizer 示意,该技术能够从汽车外部、家里等各种中央营造盘绕式声音成果。利用苹果 AR/VR 头显的 LiDAR 模组,能够实现 3D 音频在空间中的定位。通过亲自体验,他示意该技术可模仿亲临现场的音频成果。

RTC 通信技术的现状
RTC 的音频传输技术,是通过采样、量化、编码、压缩,实现模拟信号到数字信号的传输。目前罕用的是双声道的采样,即左右两个声道的立体声,再通过压缩解决,传输时占用带宽少,合乎目前大部分业务场景对传输效率的须要。随着 5G 到来,网络带宽不再是问题,在保障传输效率的根底上,人们会进而谋求 3D 沉迷式的音频体验。双声道采样将不再合乎将来需要。多声道采集(例如 Ambisonics 麦克风用四面体阵列模式采集 4 个声道)传输,或者成为将来通信技术的支流。

除了上述方法使用户实现沉迷式的音频体验,还有没有其余办法?咱们先来看一下,目前成熟的沉迷式的音频技术有哪些。

沉迷式的音频技术
目前,沉迷式音频类型次要分为三大类:基于声道 Channel based audio(CBA)、基于对象 Object based audio(OBA)、基于场景 Scene based Audio(SBA)。Scene-Based Audio 次要是用来形容场景的声场,其外围的底层算法是 HigherOrder Ambisonic(HOA)。

依据业内专家剖析的论断,将来 VR 音频业余畛域则次要是 Object based audio 和 Ambisonics(HOA)两大趋势。

那么 VR 音频技术,能够利用在哪些 VR 社交场景中呢?

与社交场景的对应
在元宇宙倒退的现阶段,社交场景次要存在于 VR 游戏、VR 直播、和 VR 社交软件上。

因为 Object based audio 有大量的数据和运算,除了声道的音频外,还有对于声源的 metadata(元数据):声源(地位、大小、速度、形态等属性)、声源所在的环境(reverb(混响)和 reflection(回声)、attenuate(衰减)、几何状态),所以它更适宜用于 VR 主机上的游戏。

Ambisonics 的特点是声源贴在提前渲染好的全景球上,所以玩家不肯定可能将声源放在场景中想放的地位,即便有声源也被压缩在了这个球上。它适宜挪动端和流媒体视频。

如何利用沉迷式音频与通信技术晋升将来体验
通过以上剖析,咱们怎么利用 RTC 的音频传输技术实现用户沉迷式的音频体验呢?

1. 间接传输沉迷格局的音频
应用 Ambisonics 技术,声音的采集和解决都交给 App 或者 VR 声音引擎,RTC 通道仅负责进行传输。

2. 预处理后交给接收端还原
对应 Object based audio 技术,声音的采集用 Ambisonics,然而在传输之前,降维到双声道进行编码和传输,这样 Web 端或挪动设施能兼容。而后接收端通过双声道数据,再还原回 Ambisonics,依据虚构场景的变动实时渲染,最初在用户端播放。

3. 通过文字与语音的转换技术实现
如果虚构场景中是二次元的世界,咱们不仅要防止人声的间接还原,还要让人物语音合乎二次元世界中的设定。
对于这种状况,能够借助融云 IM 技术,以及语音和文字的互转实现(asr 和 tts)。人声采集后先转成文字,再输出到声音建模中,最初转成二次元人物的声音。
这种办法能够让每一个玩家的语音都合乎游戏世界中的设定,从而加强沉迷感。

结束语
相干技术的一直降级提高,会使元宇宙概念持续向前倒退。VR、AR、5G、AI、业余引擎和平台等产业链的倒退,也会持续带动用户对沉迷式体验的谋求。沉迷式音频通信有可能会成为将来通信的支流。咱们对市场放弃关注,心愿和业内搭档一起深刻摸索钻研,沉迷式音频与通信技术或可成为通信业务将来的突破口。

正文完
 0