关于云计算:四种-AI-技术方案教你拥有自己的-Avatar-形象

39次阅读

共计 4195 个字符,预计需要花费 11 分钟才能阅读完成。

大火的 Avatar 到底是什么?

随着元宇宙概念的大火,Avatar 这个词也开始越来越多呈现在人们的视线。2009 年,一部由詹姆斯・卡梅隆执导 3D 科幻大片《阿凡达》让很多人意识了 Avatar 这个英语单词。不过,很多人并不知道这个单词并非导演杜撰的,而是来自梵文,是印度教中的一个重要术语。依据剑桥英语词典解释,Avatar 目前次要蕴含三种含意。


avatar 在剑桥词典的翻译后果 © Cambridge University Press

最后,Avatar 起源于梵文 avatarana,由 ava(off,down)+ tarati(cross over)形成,字面意思是“下凡”,指的是神灵来临世间的化身,通常特指主神毗湿奴 (VISHNU) 下凡化作人形或者兽形的状态。后于 1784 年进入英语词语中。

1985 年切普・莫宁斯塔和约瑟夫・罗梅罗在为卢卡斯影视公司 Lucasfilm Games (LucasArts) 设计网络角色扮演游戏 Habitat 时应用了 Avatar 这个词来指代用户网络形象。而后在 1992 年,科幻小说家 Neal Stephenson 撰写的《Snow Crash》一书中形容了一个平行于事实世界的元宇宙。所有的事实世界中的人在元宇宙中都有一个网络分身 Avatar,这一次也是该词首次呈现在公众媒体。

互联网时代,Avatar 一词开始被程序员们宽泛应用在软件系统中,用于代表用户集体或其性情的一个图像,即咱们常说的“头像”或“集体秀”。这个头像能够是网络游戏或者虚拟世界里三维平面的图像,也能够是网络论坛或社区里罕用的二维立体图像。它是能够代表用户自己的一个标志物。

从 QQ 秀到 Avatar

现在反对让用户创立属于本人的头像曾经成为了各种软件应用的标配,用户应用的头像也随着技术倒退从一般 2D 形象倒退到了 3D 形象。里程碑事件当属 2017 年,苹果在 iPhone X 公布了新性能 ——Animoji,应用面部辨认传感器来检测用户面部表情变动,同时用麦克风记录用户的声音,并最终生成可恶的 3D 动画表情符号,用户能够通过 iMessage 与敌人分享表情符号。然而第一代不反对用户自定义形象,仅支持系统内置的动物卡通头像。随后更新的 Animoji 二代开始反对用户自由化捏脸,生成风格化的人脸头像。以后不少场景中能够看到自动化捏脸性能,仅通过拍摄一张或几张照片,主动生成合乎用户人脸特点的 CG 模型,但背地依赖于简单的 CG 建模及渲染技术支持。

Avatar 也能够跳过低廉的 CG 建模及渲染流程,通过机器学习算法将拍摄人脸进行“风格化”。即自动化将指标训练格调迁徙、与拍摄者原本的面目特色做交融,创立合乎用户脸部特色的风格化人脸 Avatar。

人脸风格化 Avatar 的四种技术实现路线

什么是人脸风格化?

所谓人脸风格化,就是将实在的人脸头像转换为特定的格调头像,例如卡通格调、动漫格调、油画格调,如下图所示:

基本上说,实现人脸风格化可通过纹理贴图、格调迁徙、循环反抗网络和隐变量映射等几种技术路线实现。

纹理贴图

纹理贴图个别是给定一张样本图片,通过算法主动将该图片的纹理逐像素或逐块贴到指标人脸上,造成一种正当天然、可随动的人脸面具 [1]。


[1] 中样例图片

格调迁徙

格调迁徙是给定一张或一组格调照片,基于学习办法从格调图片中提取出格调编码、从指标人脸图片中提出内容编码,通过两组编码自动化生成对应的风格化图片 [2, 3]。只更改了人脸图片的外表纹理,而无奈正当地保留或调整人脸的构造属性、造成有意义的结构性格调扭转。

[3] 中样例图片

循环反抗网络

采纳循环反抗网络的办法,通过利用循环反抗网络及其重建束缚来训练失去可实现没有成对训练样本的风格化成果。往往配合应用格调迁徙,即别离提取格调编码和内容编码。针对人脸的风格化也会显示建模并依据指标格调属性对人脸构造信息做形变(如基于人脸关键点)。但因为循环反抗网络短少对两头后果束缚(如 A ->B->A 中的 B) 导致最终生成成果不可控、不稳固(即无奈保障 A ->B 的合理性)[4]。

[4] 中样例图片

隐变量映射

隐变量映射个别将一个事后训练好的实在人脸生成模型、利用一组格调图片往指标格调微调,从而取得一个对应的人脸格调化生成模型 [5, 6]。采纳一个编码网络将输出人脸图片映射成或基于多步的优化失去该图片对应的隐变量,并将该变量作为人脸格调化生成模型的输出,从而失去该人脸图片对应的风格化图片。其中基于优化的隐变量映射办法往往失去比拟好的成果,但在理论运行时须要大量计算。映射后的隐变量尽管蕴含了人脸的全局信息,但容易失落原输出人脸的细节特色,容易造成生成的成果无奈反映出集体辨识特色和细节表情。



[5] 中样例图片(来自 https://toonify.photos/)

[6] 中样例图片

阿里云视频云自研卡通智绘 Avatar

2020 年,由阿里云视频云自研的卡通智绘 Avatar 横空出世,取得了业界注目。在 2021 年 10 月的云栖大会上,阿里云视频云的卡通智绘我的项目亮相阿里云开发者展台,近 2000 名参会者争相体验,成为了大会爆款。

阿里云卡通智绘采纳了隐变量映射的技术计划,对输出人脸图片,挖掘其显著特色(如眼睛大小,鼻型等),能够自动化生成具备集体特色的虚构形象(即风格化后的成果)。

首先利用自有的海量有版权的高清人脸数据集通过无监督的形式训练一个能够生成高清人脸图片的模型,即实在人脸模拟器,在隐变量的管制下生成大量不同人脸特色的高清人脸图片。利用收集的大量指标格调图片(指标格调图片无需跟实在人脸一一对应)微调该模型、失去风格化模拟器。实在人脸模拟器和风格化模拟器共享隐变量,即一个隐变量能够映射失去一对“伪”人脸图片及其对应的风格化图片。


通过采样大量的隐变量,咱们能够失去大量涵盖不同人脸属性(性别、年龄、表情、发型、是否戴眼镜等)的数据对,从而用来训练图像翻译网络。基于人脸先天的结构性(如眼睛、鼻子等)以及实在人脸和风格化后虚构形象的结构性差别(如卡通形象的眼睛往往又大又圆),在网络中退出部分区域相关性计算模块以及人脸重建的束缚,从而训练失去的网络生成的虚构形象既活泼可恶、又具备集体特色。

模型设计

基于人脸先天的结构性(如眼睛、鼻子等)以及实在人脸和风格化后虚构形象的结构性差别(如卡通形象的眼睛往往又大又圆),在网络中退出部分区域相关性计算模块(即心愿真人的眼睛和虚构形象的眼睛的特色有肯定对应关系)以及人脸重建的束缚,从而使生成的虚构形象既活泼可恶、又具备集体特色。

成果展现:

Avatar 的将来

得益于 AI 技术的高速倒退,咱们当初曾经领有了制作虚拟人技术,但置信这所有只是开始。在可预感的将来,Avatar 将作为元宇宙数字居民的数字化身,越来越频繁的呈现在虚拟世界中。而 Avatar 也将成为虚拟世界中的极其重要的一项数字资产。

最初援用扎克伯格对数字人的一段形容,“虚拟世界的特色是存在感,即你能够真切感受到另一个人或在另外一个中央。发明、虚拟人和数字对象将成为咱们表白自我的外围,这将带来全新的体验和经济机会。”

“The defining quality of the metaverse is presence, which is this feeling that you’re really there with another person or in another place,”Mr. Zuckerberg told analysts in July.“Creation, avatars, and digital objects are going to be central to how we express ourselves, and this is going to lead to entirely new experiences and economic opportunities.”

参考文献:
[1] Aneta Texler, Ondřej Texler, Michal Kučera, Menglei Chai, and Daniel Sýkora. FaceBlit: Instant Real-time Example-based Style Transfer to Facial Videos, In Proceedings of the ACM in Computer Graphics and Interactive Techniques, 4(1), 2021.
[2] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. A Neural Algorithm of Artistic Style. Journal of Vision September 2016, Vol.16, 326.
[3] Vincent Dumoulin, Jonathon Shlens, and Manjunath Kudlur. A Learned Representation for Artistic Style. In International Conference on Learning Representations 2017.
[4] Kaidi Cao, Jing Liao, and Lu Yuan. CariGANs: Unpaired Photo-to-Caricature Translation. In ACM Transactions on Graphics (Siggraph Asia 2018).
[5] Justin N. M. Pinkney and Doron Adler. Resolution Dependent GAN Interpolation
for Controllable Image Synthesis Between Domains. In NeurIPS 2020 Workshop.
[6] Guoxian Song, Linjie Luo, Jing Liu, Wan-Chun Ma, Chunpong Lai, Chuanxia Zheng, and Tat-Jen Cham. AgileGAN: Stylizing Portraits by Inversion-Consistent Transfer Learning. In ACM Transactions on Graphics (Siggraph 2021).

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

正文完
 0