前言
本文基于资深创业者 @坚叔在「RTE 2022 翻新编程挑战赛 」宣讲流动中分享内容二次整顿。
嘉宾简介:陈坚(坚叔),国内二次元 AR/VR 资深创业者,国内第一批空间虚构数字化从业人员,取得政府颁布的数字城市专家证书,是首批数字仿真专家之一,也是最早一批提出“跨次元偶像”概念并付诸实践的人。
01 科幻作品中的虚拟世界
现在,大量科幻作品当中其实都有对虚拟世界的描述,比方《头等玩家》《刀剑神域》等,都展现了这种全沉迷式的虚拟世界,能够说这种虚拟世界是所有虚构赛道或 RTE 创业者都幻想实现的指标。既然是科幻片,那么必定不可能当下就能实现,然而不是说咱们就什么都不做只是躺平呢?当然不是。
明天咱们就来看一下,在这些描述将来几十年甚至更长时间的主观作品中,大家所向往期待的虚拟世界在已有的技术是如何实现的。
咱们抉择以《头等玩家》为原型进行介绍,因为《刀剑神域》描述的脑插管太边远了,而《头等玩家》描述的场景有一个十分具体的工夫节点—— 2045 年,他们的产品生产于 2030 年,相对来说离咱们比拟近,并且是有机会通过现有技术来实现。
咱们对《头等玩家》当中的一些科技或技术因素进行分析,其中蕴含短轴 VR 眼镜,如果大家对 VR 行业比拟注意或关注的话,会晓得很多的 VR 厂商,比方刚入局的网鱼公布的 Pancake 计划(超短焦光学计划),就是相似这种短轴 VR 眼镜。最早涉足万向跑步机的是 KAT VR,往年入局的有 step VR。这样,实际上就曾经涵盖了两大硬件,其余还包含全姿势姿势捕获、体感模仿等,图 1 梳理了相干的技术因素。
■图 1
咱们会发现,当中有一些技术曾经能够实现了,只不过老本很高,体验还没达到电影中描述的水平,导致没有方法落地。
02 咱们是如何做的
1、对科幻概念进行筛选的规范
为了将这些科幻概念变成想法,咱们对其进行了筛选,规范如图 2 所示。
■图 2
图中提到的三点其实都是十分要害的,因为首先,如果技术不能初步实现,那么这个产品就不成立;其次,比方描述几十万人同在一个场景,以当初的技术必定是不能实现的,那么是否可能降为几千人,甚至几百人,这种特定的利用场景下是成立的;最初,图中展现了 VR 眼镜,目前高规格的短轴 VR 眼镜其实还很贵,不论是 Meta 的 Oculus Quest 2 还是国内的 Pico 3,都要达到肯定的生产级别。
2、咱们最终抉择的方向
(1)(肯定精度)的用户虚拟化身
依据以上筛选规范,咱们确定了最终的抉择方向,首先就是在肯定精度下的用户虚拟化身。《头等玩家》中的虚拟化身精度是十分高的,目前如果咱们采纳空幻 5,以及 3090 甚至是 4090 的显卡独自跑一个角色,其实能够达到《头等玩家》中的成果,然而把肯定数量的虚拟化身放在一个场景中并且实时运算,那基本上是不可能的事件。因而,咱们就抉择了一个正当的终端,比方一台一般显卡的电脑,可能是 750 甚至是手机都能跑得动的虚拟化身来代表用户,如图 3 所示。
■图 3
右边是两个二次元人物,咱们测试过,大略两年前的一台 2000 块钱左右的国产安卓手机,能跑那个 200 个左右这样的角色,帧率能放弃在 30 ~ 40 帧之间。如果是左边的这种小电视人,则能够跑到几百人。
(2)(肯定数量)的多人实时交互
多人的实时交互会更加简单,除了方才提到的渲染云引擎的瓶颈和限度,还包含了大量的数据交互限度,包含用户的状态、语音、动作、表情等,其实这也是有承载下限的。所以说,要管制在肯定的数量范畴内,但在同屏或同场景的百人规模下上线的经营场景,基本上能够进行切入,如图 4 所示。
■图 4
(3)(肯定范畴)的用户发明和交易
《头等玩家》中是用户本人发明和交易,目前咱们也会开发编辑器使用户能够本人搭建场景或者做流动的交互事件,但它相当于是一个相似游戏的地图编辑器,其中的资源素材包含商城渠道,以及当初支流 3D 格局的转化,因而能够实现肯定范畴的用户发明和交易,如图 5 所示。
■图 5
3、咱们抉择的利用场景
以上三点更多的是在技术层面进行考量,这样咱们能组合出一个怎么的利用场景呢?当初市场上很多的虚构利用,能够用于会务、在线办公、购物场景、演唱会、展会等,咱们对这些场景进行调研和逐个剖析,会发现其实就是后面提到的 3 个维度。其中精度方面波及的就是用户 Avater,如果须要每一个用户的 Avater 精度都十分高,能够容许用户本人导入一个精度比拟高的模型做实时运算,同屏人数,基本上是有一个舞台,有表演者或主持人的概念,那么观众相对来说就能够弱化,他们抉择的模型精度更低,这种状况对多人实时交互的数量要求更高。
联合公司 / 团队本身的劣势,咱们抉择了娱乐、年老、社交、二次元等利用场景。针对演唱会这类娱乐场景,咱们能够确保肯定的数量、精度和实时交互,因为咱们是从虚构偶像业务开始切入虚拟世界的。另外,咱们更多的是从电竞、音乐、ACG 等多种年轻化场景进行切入,转成线上虚拟化。咱们还配置了大量虚拟空间,反对各类社交活动,最终虚构场景理论运行的产品化场景基本上同屏是 100 人左右,在这样的利用场景下,其实用户的 Avater 形象的精度基本上是满足最根本的期望值,能够把足够的资源分配给场景、道具、甚至是舞台上。此外,咱们在二次元畛域已落地大量我的项目。能力和行业资源的积攒是促使咱们做出抉择的十分重要的根据。
基于此,咱们的关注点更加聚焦,抉择以虚构偶像上演和虚构漫展作为更精准的切口,因为除了在技术层面、利用层面可行之外,它们还有一个十分重要的个性,就是市场空间足够大,而且能造成肯定的高频效应,产品越高频,越能宽泛地被用户所承受。所以即使产品有更大的利用场景或能笼罩更多的人群,也能够先关注一到两个突破口,从而使公司的倒退更加持重。
4、技术选型
(1)跨终端的渲染管线
确定突破口之后,咱们还须要做更多的工作,比方技术选型。虚拟世界中必定会波及三维引擎,另外,因为咱们的指标是要进行跨终端,所以还波及 PC、平板、手机甚至 VR 等,进行跨终端的渲染管线。咱们的技术人员在很多的这个工作来解决跨终端的算法我的项目问题,最终咱们抉择了 unity 引擎的 urp 管线,起因是当初 unity 的开发门槛相对来说比拟敌对,很多 3D UGC 生态和 unity 的兼容性也比拟好。综合思考 unity 的开发门槛,联合咱们产品的定位、UGC 的友好度以及它的性能优化,咱们最终做了这样的抉择。
(2)资产精度治理
除了渲染管线,资产精度也须要进行治理。因为方才提到,其实很多时候咱们思考的不是一场虚构流动或者一个虚构场景能反对多少人,而是更加关注同屏显示多少人。目前因为渲染性能包含引擎的渲染性能和设施的算力,所以它对在线人数的限度是远远大于由 RTC 造成的限度的。以声网为例,它的一个音频通道基本上能够保障几万人在一个频道中。另外,默认是同时开 16 个麦,并且曾经在测试一个频道同时开 128 个麦,所以目前其实 RTC 的在线承载力问题不大,所以咱们更多是从渲染层面思考承载力。这就波及设施的算力,如果运行的环境在 PC,特地是如果是云端提供的渲染节点,那么算力是齐全能够满足的,然而不可能有限反对超高精度的大量同时人员在线。我以图 6 所示的四个模型为例。
■图 6
会发现这四个模型同屏的人数其实差别很大,这四个资产中有一个是卡通写实,他的样子是卡通的,然而质感是写实的。有一个纸片人是咱们通过三渲二 技术让它看起来特地像 3D 模型。还有精密度更高的一个数字人,以及一个二次元格调然而精度更高的交融格调。
其实这四个资产的格调中,右边两个是能在手机中运行的,左边两个则不能。因为第一个人物的毛发是咱们本人写的 shader,当然如果是多个角色也无奈承载。第二个人物则次要因为它是一种 三渲二 的格调,在同屏多人的状况下能够运行,然而数量也会有限度。这外面可能看不清楚,咱们其实对人物加了一个轮廓线,如果要把轮廓线的抗锯齿拉得很高,其实也很消耗性能。至于左边两个人物基本上在手机中不可能达到这样的成果,都要进行大面积的解决。所以除了定好算法,咱们也会依据利用场景进行资产的精度治理。比方对于上演场景,咱们会把资源更多地集中在表演者身上,进步表演者的资产精度,而观众的资产精度进行管制。而对于一些偏社交的场景,比方用户聊天室,其中可能最多有十几个人,在这种状况下,咱们就会把算力和资源平均分配给每一个用户的 Avater,使其资产成果更好,精度更高,这样用户的体验就更好。
(3)实时交互数据
第三个就是最简单的实时交互数据,以虚构流动利用为例,实际上它至多蕴含了图 7 所示的数据。
■图 7
咱们会把这种实时交互的数据维度进行剖析,最初把它拆成是四种数据,如图 8 所示。
■图 8
一种是音频,比方用户间的语音互动,咱们采纳了声网的 RTC 计划。另外,在虚拟世界中其实也存在虚构的屏幕,比方发布会或演唱会的投屏,其中的视频不会放在客户端,因为这样无奈实现实时操作和数据同步。所以要用到视频流的实时散发推送,对此咱们也同样用了声网的 RTV 计划,但这个 RTV 是我起的,它属于 RTC 的视频领域。第三个就是信息,其中蕴含用户的状态,在理论场景中不可能每个用户都穿戴捕获设施,绝大部分用户在场景中其实还是显示用户状态,比方向前走、向左转、鼓掌、发文字信息等,统称为用户状态。对此,咱们采纳了声网的 RTM 计划,它以信息队列的形式进行传输,而且能够跟声网的 RTC 等进行同步。最初是咱们本人的原创技术,叫作构造数据。对于构造数据咱们目前将重点放在虚构人物的动作和表情上,次要用于表演者,如果要执行一场上演场景,以图 9 右上角的舞台为例。
■图 9
这里用户在一个虚构的三维空间中,他能够操作本人的 Avater 在舞台上自在行走,并管制实时观看的角度,这个画面是在用户侧生成的,因而不能全是视频,必须要传输台上偶像的动作和表情,这样能力在用户端接管到,以进行实时渲染。构造数据是把虚构人物或者用户的 Avater 所出现的动作表情,映射到虚拟世界中的 Avater,同时联合 异地 和多人的同时同步,能力实现像舞台效果。
所以如果说咱们要尝试复刻虚拟世界中的流动或行为,交互的数据维度是十分多元化的。所以尽管很多人可能对元宇宙的定义形形色色,然而我感觉不管怎样,元宇宙肯定是高维度的数据交互,以及高仿真的虚拟世界,这个前提我认为是必须要存在的。
03 一些倡议
接下来给大家分享一些小小的倡议。
首先,产品是斗争的艺术,因为咱们要做一款产品会遇到很多艰难,特地是实时互动的虚构产品,其在技术层面有很多局限性,须要在技术层面、老本层面和体验层面达到最佳的均衡,所以斗争的艺术也能够说是一种均衡的艺术,咱们要思考什么中央是能够斗争的以及斗争到什么水平,这其实是产品经理要着重思考的中央。
而后是多通过产品伎俩来突破技术限度。比方用户要在终端运行虚构舞台上演的场景,咱们个别会同屏显示 100 个角色,但也要思考到视觉密度、能耗发热、用户体验等。咱们在一个场景内即使用了简化模型,也会只显示 100 个观众。但如果是做一场演唱会,要求几千名观众同时在线该怎么办呢?这就须要用到产品伎俩,用户是分线路显示本人的实时虚构形象,思考到是上演场景,所以咱们设计不同线路的观众彼此之间看不到对方,但都能看到舞台上的内容,舞台内容包含表演者和被邀请下台的观众。这里线路显示受算力和其余客观因素的影响,然而不同线路的观众之间能够失常互动,包含文字交互、弹幕交互,这些都是能够跨线路运行的。咱们将线路以及声网的频道概念进行了组合。其实无论在任何一个时代技术都有存在肯定的局限性,咱们能够通过产品伎俩突破这种技术限度,使产品能够更好地满足用户体验,并能发明出更多的利用场景。
最初是和底层的技术搭档多沟通,多上开发者社区。声网当初官网上的版本只能反对一个频道有 16 集体开麦,但实际上内测的版本是能够反对 128 人是开麦的,这种内测的资格其实是跟技术合作伙伴 py 过去的。咱们跟很多的技术合作伙伴关系都十分好,不论是在 RTC 畛域、引擎畛域,还是捕获计划畛域,因而很多时候都能失去一些内测版本或者定向邀请测试版本,在这种状况下,就能得悉技术搭档将来的布局或者行将实现的指标,这些能够提前用在产品开发上,也让本人的产品在正式上线的时候具备先发劣势。
04 问答环节
1、实时交互利用的前景如何?
实时交互的前景必定是微小的,因为以前别说视频,就连看一张图片都十分侈靡,基本上都是依附文字交互,而且也是通过离线形式,当初听起来可能是天方夜谭,所以信息交互肯定是向越来越的高维度倒退的。纵观整个互联网信息交互的演变过程,你会发现两个法则,第一个就是往越来越高维度的信息方去走一维二维,再到当初三维,第二个就是交互的效率越来越高。我以大家最司空见惯的直播为例,当初的直播其实并不是真正意义的实时互动,因为加上 cdm 的延时,其实很多时候交互延时广泛在 3 秒以上,在网络不太好的状况下,直播的弹幕跟直播者的延时甚至超过 10 秒。对于这种状况,大家必定心愿延时可能进一步缩短,最终在直播的环境下实现相似视频通话的即时性,同时画质跟当初的直播没有区别。我置信这个很快就能够实现,因为包含声网在内业界曾经在测试更低延时的直播计划。我认为实时互动的赛道很宽,甚至实时互动这个词太接地气了,不然在我眼里其实实时互动比元宇宙更能描述下一代互联网的个性。
2、元宇宙和 AR、VR 等的区别是什么?
在网上有个梗——元宇宙是个筐,什么都能够往里面装。所以如果把元宇宙看成是下一代互联网,或者 3D 互联网、3D 虚拟世界,其实 AR、VR 是我了解中的元宇宙在视觉层面技术的十分要害的组成,甚至它们会成为元宇宙的主力载体。当初咱们运行的 3D 环境次要还是通过 2D 屏幕出现给观众的,它并不是真正意义上的 3D 虚拟世界,因为其中是没有纵深感的。比方我在 VR 中能十分精确地判断跟对方的间隔和防守,甚至能捕获到手来碰触对方的耳朵,这是在 2D 互联网中出现 3D 虚构事件,只是一个过渡阶段。我的了解是,AR、VR 会是元宇宙时代真正到来,或者行将到来时支流载体,也就是说,在进入元宇宙时代的时候,AR、VR 的遍及是必经的节点,而在 AR、VR 遍及之前,其波及的内容和交互反思是要按 3D 环境设计的,这又是必须要走的一步。
3、元宇宙场景次要用到的哪些技术呢?
元宇宙波及的技术太多了,首先要关注引擎,包含支流的 UE 和 unity,还有国内的新兴虚构引擎、Cocos3D、WebGL 2.0,与三维相干的引擎和开发环境大家是肯定要理解的。尽管当初也有像 Gather.town 这种 2D 的元宇宙,然而我集体认为这只是一种过渡状态,因为当初 3D 门槛比拟高,对算力要求也比拟大。这种 2D 的元宇宙更像是一个图形化的聊天室,我认为它会有瓶颈,所以当初入局的创业者我更加反对间接从 3D 切入,因为 3D 的开发环境越来越成熟,配套的生态也越来越欠缺。
第二个要把握的技术就是 RTC,因为对所有虚拟世界中的元宇宙来说交互是必然的,所以 RTC 是少不了的。我在 12 年前做过一款相似 Gather.town 的产品,然而采纳 fresh 实现,状态和当初的 Gather.town 能够说是截然不同,但这些我都基本上在 12 年前就做了,然而没有胜利,这真的和网速、机器性能都没关系,我本人剖析认为就是因为没有 RTC 技术,因为那时候我做的那个 Gather.town 的交换形式还是以文字交换为主,并没有晋升互动的效率和互动的体验,甚至这种以文字交换为主的形式跟图形可视化的环境其实是脱节的。所以我认为除了这种 3D 引擎技术,第二个推动元宇宙倒退的就是以 RTC 为代表的 rt 实时互动技术,它代表了信息交互的维度和密度。
4、声网哪些技术能够撑持虚构流动?
这里次要是我后面提到的四个数据的维度,别离是音频 RTC、视频、信息和构造数据。对于构造数据,声网当初尽管还没有推出专门的产品,但实际上声网始终也在探讨更高维度的构造数据的传输。所以我都感觉其实当初声网的这些能力对于虚构流动来说帮忙很大,当然声网也会推出一些周边能力,举荐大家关注和注意。比方声网的 AI 声纹技术,它能够在聊天室中实现实时的变声成果,但这个实时是绝对的,还是有几百毫秒的延时,然而在网络聊天中基本上与实时没有差异了。
另外,声网基于当初的 RTC 和 R rtm 技术,也曾经公布了很多 meta 系列的解决方案,比方原直播、原语流、原 K 歌、互动游戏等,这些都能够在声网官网的解决方案中都能够看到,包含其中更加具体的技术。
5、集体实现虚构流动时须要留神什么吗?
集体开发者开发实时虚构流动会有点压力和难度,当然也不是不可能,如果为集体的倒退想挑战一下,我会给以下几个倡议:第一个是不要做太简单的数据交互,先实现最根本的声音和用户状态;第二个是尽量用现成的美术素材,以独立游戏开发者为例,其实最头痛的是美术素材,所以要多用一些现成的美术素材,但这里不激励大家用盗版,然而如果不是商用,也能够思考上网搜一些可用的美术素材;第三个才是思考产品到底是本人做得完的,还是要挑战技术难度,又或者只是毕业设计,如果是想开发虚构流动作为商用,那么利用场景肯定要选得十分准,因为当初虚构流动入场团队的人数甚至过百人,集体挑这么一个大团队,就肯定要抉择精确的利用场景,不要怕这个场景小,最好抉择小到其余团队不违心去干的场景。
对于「RTE 2022 翻新编程挑战赛」
RTE(Real Time Engagement)翻新编程挑战赛,是声网自 2019 年开始,一年一度面向寰球 RTC(Real Time Communication)开发者、编程爱好者与极客举办的在线黑客马拉松。
本届大赛,咱们共分为 2 个赛道,赛道一将持续延用经典赛题「声网 SDK 利用开发」。与此同时,往年咱们还特地推出赛道二的新赛题「场景化白板插件利用开发」,给开发者提出更为聚焦的解题方向,摸索场景利用与技术能力的边界。