共计 1043 个字符,预计需要花费 3 分钟才能阅读完成。
JoJoGAN 是一种 One-Shot 格调迁徙模型,可让将人脸图像的格调迁徙为另一种格调。
训练时,模型接管一个款式参考图像并疾速生成一个款式映射器,在推理时映射器将承受输出并将款式利用于输出,输出图像与款式联合,生成最终图像。
尽管叫做 JoJoGAN,但它能够学习任何格调,例如下图。
JoJoGAN 工作流程
第 1 步:GAN 反演
通常,GAN 从输出的潜在噪声中生成图像。GAN 反演意味着从给定的图像中取得相应的潜在噪声。
对款式参考图像 y 进行编码以取得潜在款式代码 w = T(y),而后从中取得一组款式参数 s。
对于 GAN 逆变器(编码器 T)的抉择,论文的钻研人员比拟了 e4e、II2S 和 ReStyle。他们发现 ReStyle 提供了最精确的重建,从而更好地保留了输出的特色和属性。
第 2 步:训练集
通过应用 StyleGAN 的格调混合机制,能够创立一个训练集来微调 StyleGAN。
假如 StyleGAN 有 26 个格调调制层,那么定义一个掩码 M {0, 1}²⁶,它是一个长度为 26 的数组,存储 0 或 1。通过在不同层中关上 (1) 和敞开 (0) M,咱们能够混合 s 和 s(FC(zᵢ)) 为咱们的训练集创立许多对 (sᵢ, y)。应用 sᵢ = M · s+(1−M) · s(FC(zᵢ)). 生成新的款式代码。
StyleGAN 只是在不同的格调调制层中混合不同的格调代码以创立不同的输入,这里就不具体介绍了,如果又简直咱们再找相干的文章进行具体介绍。
第 3 步:微调
通过应用训练集 s,能够微调 StyleGAN 强制从这些格调混合代码 s 中生成靠近格调参考图像 y。
微调步骤就是学习了从任何格调的图像到特定格调的图像的映射(即格调参考 y),但保留了整体空间内容(即该人的面部 / 身份)。
第 4 步:风格化新面孔
在微调 StyleGAN 之后,能够简略地将输出反转为款式代码,而后应用微调后的 StyleGAN 生成图像(它将指标款式利用于生成的图像)。
后果展现
看着成果要比其余一些模型好一些。
最初咱们再看一下 JOJO 成果的比照(笑):
虚伪的 GAN 钻研:
实在的需要,咱们真正须要的格调迁徙:
论文地址如下,有趣味的看看吧
[1] M. Chong and D. Forsyth,“JoJoGAN: One-Shot Face Stylization”, arXiv.org, 2022. https://arxiv.org/abs/2112.11641
源代码也已公布
https://www.overfit.cn/post/12e213388e654d55807c06ffdd37f968
作者:Steins