关于人工智能:论文解释SeFa-在潜在空间中为-GAN-寻找语义向量

45次阅读

共计 2051 个字符,预计需要花费 6 分钟才能阅读完成。

动机

GAN 中的生成器通常以随机采样的潜在向量 z 作为输出,生成高保真图像。通过扭转潜在向量 z,咱们能够扭转输入图像。

然而,为了扭转输入图像中的特定属性(例如头发色彩、面部表情、姿态、性别等),咱们须要晓得挪动潜在向量 z 的特定方向。

以前的一些文章试图以监督的形式解释潜在的语义。他们通常标记数据集并训练属性分类器来预测图像的标签,而后计算每个标签的潜在代码 z 的方向向量。尽管这项工作有一些无监督的办法,但它们中的大多数都须要模型训练和数据采样。

论文提出了一种名为 SeFa 的关闭模式和无监督办法,能够无需数据采样和模型训练并找出这些方向向量来扭转输入图像中的不同属性。

  • 关闭模式的解决方案是具备无限数量的规范操作的数学表达式。
  • “无监督”一词意味着咱们不须要标记数据集。

挪动潜在代码

为了有意义地扭转潜在代码,须要首先辨认一个语义上有意义的方向向量 n。新的潜在代码计算为 z’=z+αn,其中 α 是朝向 n 方向的步数。

问题是咱们如何找出语义上有意义的方向向量 n?

相干钻研——PCA 办法

在之前发表的论文 GANSpace: Discovering Interpretable GAN Controls 中,Härkönen 等人对采样数据进行主成分剖析(PCA)以找出潜在空间中的次要方向向量。

揭示一下,PCA 是一种找出大变动轴的工具

咱们以 StyleGAN 中的生成器为例。在进入每个中间层之前,潜在代码 z 将被发送到全连贯层 (FC)。

提出的办法如下:首先采样 N 个随机向量 {z₁, z₂, …, zₙ},而后将它们输出 FC 层以取得投影输入 {w₁, w₂, …, wₙ}。因而,咱们将 PCA 利用于这些 {w₁, w₂, …, wₙ} 值以取得 k 维根底 V。

给定一个由 w 定义的新图像,能够通过扭转 PCA 坐标 x 对其进行编辑,而后将其输出合成网络,如下所示。

尽管这种 PCA 办法是无监督的,但它须要数据采样,并且效率低下。然而提到这种办法,因为它与明天的主题——SeFa 有相似之处。

SeFa – 语义合成

最先进的 GAN 模型通常由多个层组成。每一层都学习从一个空间到另一个空间的转换。论文的重点钻研第一个变换,它能够表述为仿射变换,如下所示。

如果咱们将 z’=z+αn 利用于输出潜在代码,则第一个转换公式能够简化如下。

因为 G₁(z+αn)=G₁(z)+αAn,咱们晓得如果给定一个潜在码 z 和方向向量 n,则能够通过在变换后的投影码上加上 αAn 来实现编辑过程。

从这个角度来看,权重参数 A 应该蕴含图像变动的基本知识。因而,能够通过合成 A 来发现重要的潜在方向。

SeFa 算法相似于之前的 PCA 办法。然而它不是将 PCA 利用于投影的潜在代码 G₁(z)=y,而是间接将十分类似的过程利用于投影层的权重(G₁ 的权重)。

就像 PCA 一样,这个过程也是为了找出在 A 的投影后可能导致较大变动的方向向量。它被表述为以下优化问题。

要找出 k 个最重要的方向 {n₁, n₂, …, nₖ}:

这里的 N = [n₁, n₂, …, nₖ] 对应于 top-k 语义

为了避免方程在 ||nᵢ|| 时产生解 → ∞,咱们将 nᵢ 限度为单位向量,并将拉格朗日乘数 {λ₁, λ₂, …, λₖ} 引入方程。

通过对每个 nᵢ 进行偏导,咱们有:

这与 PCA 十分类似,惟一的区别是 SeFa 办法将协方差矩阵 S 替换为 AᵀA,其中 A 是 G₁ 的权重。

其中 λ 是特征值,n 是特征向量

SeFa 不是计算协方差矩阵的特征向量,而是计算 AᵀA 的特征向量。因而不须要采样任何数据来计算投影向量的协方差矩阵。这使得算法更容易和更快,也使它成为关闭模式。

泛化性

论文展现了他们如何将 SeFa 算法利用于以下 3 种类型的 GAN 模型:PGGAN、StyleGAN 和 BigGANs。以下是显示他们每个人如何将潜在向量 z 输出到他们的生成器的简要图表。

PGGAN

PGGAN 生成器就像传统的生成器一样,其中潜在代码 z 在进入合成网络之前被馈送到全连贯层 (FC)。对于这种生成器构造,SeFa 钻研了从潜在代码到特色图的转换。(第一个 FC 层的权重)

StyleGAN

在 StyleGAN 生成器中,潜在代码被转换为款式代码,而后被发送到每个卷积层。SeFa 算法非常灵活,因而它反对解释所有或任何层子集。沿第一轴连贯所有指标层的权重参数(即 A),造成更大的变换矩阵。

BigGAN

在 BigGAN 生成器中,潜在代码将被输出初始特色图和每个卷积层。BigGAN 的剖析能够看作是上述两种 GAN 的组合。

后果

援用

[1] E. Härkönen, A. Hertzmann, J. Lehtinen and S. Paris,“GANSpace: Discovering Interpretable GAN Controls”, arXiv.org, 2022.

[2] Y. Shen and B. Zhou,“Closed-Form Factorization of Latent Semantics in GANs”, arXiv.org, 2022.

https://www.overfit.cn/post/e9e614d774f743509fc9ede06e8c16f9

作者:Steins

正文完
 0