2022 年 2 月 4 日,冬奥会正式揭幕。在开幕式及冬奥会赛事过程中,人工智能、5G、AR、裸眼 3D 和云等多种硬科技大显身手。其中,作为元宇宙场景入口和连贯纽带的虚构数字人技术尤为引人注目。本次冬奥会的手语主播和气象主播均为虚构数字人。
- 虚构手语主播:央视虚构手语主播在冬奥会新闻播报、赛事直播和现场采访中,为听障人士提供实时手语翻译服务。该虚构主播为超写实的虚构数字人,表情、口型、毛发、服饰等均高度靠近真人。
- 虚构气象主播:以冯殊为训练对象的 AI 虚拟人冯小殊,在北京冬奥会期间将继续播报冬奥观赛天气状况,为公众提供衰弱指南。
本文将率领大家由冬奥 AI 主播走进虚构数字人,具体理解其外延、技术实现、倒退现状以及颇具前景的应用领域。
1. 什么是虚构数字人:高度拟人、天然互动
拟数字人最早可追溯到 20 世纪 80 年代。1982 年,日本动画《超时空要塞》播出后,制作方将女主角林明美包装成演唱动画插曲的歌手,并制作了音乐专辑,世界上第一位虚构歌姬由此诞生。此时的虚构数字人以手绘为主。21 世纪初,计算机图形学(CG, Computer Graphics)和动作捕获技术逐步成熟,在虚构数字人的制作中失去广泛应用,如“初音将来”,其晚期形象便是利用 CG 技术合成。近 5 年来,得益于人工智能技术的飞速发展和利用,虚构数字人制作更加便捷、精准和智能。在 AI 技术加持下,虚构数字人形象可达到写实级真切水平,且具备情感表白和沟通交流的智能交互能力。
目前市场中探讨的虚构数字人次要为 AI 加持下高仿真、可互动的虚构数字人,虚拟化、数字化和拟人化是其外围因素。
虚拟化:存在于非物理世界中,目前次要以图片、视频、实时直播、实时动画等形式存在于 APP、小程序、软硬一体显示设施等中;将来,VR 设施与全息投影也将成为其重要存在形式。
数字化:依赖多项数字化技术,包含 CG(Computer Graphics,利用计算机进行视觉设计和生产)、语音辨认、图像识别、动作捕获等相干技术。
拟人化:虚拟人在表面、行为以及思维与交互方面,均与人高度类似。
- 表面:具备特定的面貌、性别和性情等人物特色。虚构数字人的表面会受到虚构数字人类别(如间接借用真人形象、高保真建模、风格化)、制作细节(对汗毛、皮肤、头发等细节的建模)、渲染程度、设计审美等影响。
- 行为:具备用语言、面部表情和肢体动作表白的能力。虚构数字人的行为表现会受到驱动形式(真人驱动、智能驱动等)、训练数据、驱动模型精度等影响。
- 互动:具备辨认外界环境、并能与人交换互动的能力。虚构数字人的交互能力会受到语音辨认能力、自然语言了解及解决程度、常识图谱、事后设置知识库等的影响。
2. 技术实现:多模态 AI 和算力为外围撑持
虚构数字人次要由三大核心技术环节作为撑持:建模(即虚构数字人形象的生成),驱动(即辨认用户的用意,并依据用户以后用意决定数字人后续的语音和动作,驱动虚构数字人与用户开启下一轮交互)和渲染(让虚构数字人的皮肤纹理等变得实在,形象更加拟人)。这些技术环节均离不开人工智能技术的加持和算力资源的反对。
2.1 建模:计算机视觉技术加持
目前的建模次要仍依附 CG(Computer Graphics,计算机图形学)和动态扫描技术。但其老本昂扬,环球影业使用 CG 技术还原已逝世的保罗在《速度与激情 7》中的表演,相干渲染成本增加了约 5000 万美元。此外,CG 技术合成的虚拟人也面临形象毛糙、仿真度有余的挑战。
近年来,随着人工智能技术的倒退,利用深度学习的动静三维重建技术逐步露出矛头。动静三维重建技术次要采纳摄像机阵列采集几何状态、纹理、材质、三维静止信息等动态数据,同时联合光场中所有光线的方向和角度数据,为建模提供丰盛、精密的信息,晋升建模的成果。
同时,AI 技术也大大降低了建模的门槛。拟人的表情动作,如简略的皱眉,也会牵动骨骼、肌肉、皮肤的一系列变动。用传统的手工形式去调整工作量微小,而利用 AI 技术可大幅升高工作量。
2.2 驱动:多模态 AI 技术赋能
依据互动驱动形式的差别,虚构数字人可分为真人驱动型和 AI 驱动型两大类。真人驱动型虚构数字人由真人的动作表白配合动作捕获技术,驱动虚拟人与观众进行实时交互。AI 驱动型虚构数字人则通过智能零碎主动读取并解析辨认外界输出信息,依据解析后果决策虚构数字人后续的输入文本,而后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。
图 1 虚构数字人的分类 - 技术角度
真人驱动型虚构数字人的核心技术撑持为动作捕获技术。支流的动作捕获技术为光学捕获和惯性捕获,但设施较为低廉。往年来,随着深度学习技术和表情、动作辨认等算法的提高,基于计算机视觉的动作捕获逐步衰亡,具备高价、简略、易用的劣势,一般的摄像头联合优质的辨认算法也能实现良好的驱动。
AI 驱动的虚构数字人则需依赖多模态人工智能技术,综合使用视觉、听觉等多种“感官”,让 AI 形象更加拟人。具体技术次要包含:
- 语音辨认(ASR):听觉感知,实现“听得见”
- 自然语言解决(NLP):精确了解用户的需要,即“听得懂”
- 语音合成(TTS):回应与互动,且语言表达合乎真人发声习惯
- 语音驱动面部动画(ADFA):通过语音驱动虚构数字人唇形的变动
相比于繁多模态的算法开发,多模态模型的开发训练更加简单,波及多模态表征学习、模态转换、对齐、多模态交融和协同学习等简单技术细节和大规模训练需要。因而,高易用性的开发生产工具和高性能的计算引擎,对于晋升虚构数字人开发生产效率,升高训练老本同样至关重要。
2.3 渲染:大规模算力撑持
渲染技术用于晋升虚拟人的真切水平,可分为实时渲染和离线渲染,对于精密度要求较高、时效性要求低的场景则可采纳离线渲染,游戏和实时交互场景则须要实时渲染。因为算力资源和传输速度的限度,实时渲染在画质和成果的体现仍有较大晋升空间。
虚构数字人渲染需耗费大量算力资源,对企业来说是一项巨额老本收入,极大限度了虚构数字人的摸索与利用。目前绝大多数企业算力的治理仍绝对粗放,算力资源的高效利用和精细化治理无望无效升高虚构数字人开发制作老本,促成其利用落地。
综上,从虚构数字人制作全生命周期技术需要来看,多模态 AI 技术和短缺的算力撑持是外围,而易用、高性能的 AI 开发生产工具和高效的算力资源管理则是促成其落地利用的根底保障。白海科技新一代 AI 开发生产平台 -IDP,提供兼具交互式编程和工程化性能的易用 IDE、高性能分布式计算引擎和精细化的资源调度治理(包含资源隔离、工作级别的断点续跑、主动休眠等),可无效减速虚构数字人的开发,升高算力资源耗费。
3. 技术利用现状与趋势:游戏畛域或大有可为
目前虚构数字人已在金融客服、媒体主播、游戏角色等畛域失去利用。在去中心化的 Web 3.0 和元宇宙趋势下,咱们认为集体或社区经营的数字化身类虚拟人商业化前景广大,游戏赛道或是其首当其冲的暴发畛域。
图 2 虚构数字人的利用分类
近期:RPG 游戏精品化的需要
随着监管趋紧和游戏玩家数量趋于饱和,我国游戏行业目前已进入存量博弈阶段。在强烈的竞争环境下,为用户提供更加丰盛和沉迷式的体验成为要害胜利因素。近期典型的案例就是 ARPG 游戏《原神》,凭借品质和口碑,吸引了大量流量。丰盛精美的虚拟化身是《原神》最重要的组成成分之一。截止版本 2.2,《原神》可玩角色数量已达 41 个。制作团队预计每年为《原神》新增大概 17 个角色,这对凋谢世界 ARPG 来说并非一个小数目。
从游戏类别来看,与虚构数字人高度相干的角色类游戏(包含角色扮演类游戏和多人竞技类游戏)在我国游戏营收奉献居于首位,在移动游戏中营收占比~35%。该类游戏的精品化,将利好虚构数字人技术的利用落地。虚构数字人技术可能无效简化和放慢游戏动画制作过程,让游戏中更多的虚构角色都具备丰盛的肢体动作和精密的面部表情,给玩家带来更沉迷的游戏体验。
图 3 中国游戏市场趋势
中远期:元宇宙游戏对数字身份的需要
游戏作为事实的模仿和延长,状态与元宇宙十分相似,有可能成为元宇宙最先利用的场景。微软首席执行官萨蒂亚·纳德拉在微软收买动视暴雪后示意:“在现在的所有平台上,游戏是最具生机、最让人兴奋的娱乐类别,将来将会在元宇宙平台的倒退中施展关键作用。”
从技术角度讲,元宇宙游戏的外围是去中心化,凋谢社交与自主发明,用户能够应用多平台互通、平安、自治的数字身份,与其玩家进行互动。凋谢的元宇宙游戏世界将晋升对虚构数字人的需要。例如,在目前公认最靠近元宇宙游戏的 Roblox 中,每个人都能够自定义数字身份来与别人进行社交,包含查看左近玩家、线上派对和会议、虚构音乐会等。
目前虚构数字人市场仍处于后期培养阶段,但市场对其关注度已持续上升,将会有越来越多的企业投入虚构数字人产业链。游戏企业在虚构数字人需要和落地场景层面具备得天独厚的劣势,在技术的无力加持下,无望基于数字身份重塑游戏理念。
4. IDP 助力游戏企业减速 AI 利用与翻新
游戏的设计、制作、用户经营等全生命周期与人工智能各子技术都有穿插,是人工智能技术利用落地,实现社交智能 (Social Intelligence)、情感交互(Affective Interaction) 和通用智能 (General Intelligence) 等指标的现实场景。
除升高虚构数字人开发利用门槛外,IDP 在对于游戏企业智能用户剖析、游戏智能生产设计与优化方面也同样具备降本增效、减速迭代的作用。在游戏企业宽泛拥抱 AI 技术的过程中,IDP 将同企业一起,高效率、低成本地实现 AI 的翻新利用,促成游戏企业的智能化颠覆式翻新。
图 4 IDP 减速游戏企业 AI 翻新—用户洞察与经营剖析
图 5 IDP 减速游戏企业 AI 翻新—游戏生产设计
【参考资料】
- 德勤征询,元宇宙系列白皮书—将来已来,2021.12
- 国盛证券,虚拟人的“灵魂”是什么?2021.12
- 中国人工智能产业倒退联盟,虚构数字人倒退白皮书,2020
- 申港证券,微软收买动视暴雪 元宇宙生态布局再下一城,2022.01
理解 IDP: https://baihai.co/
关注 IDP: 公众号 Baihai IDP