关于算法:Google风格迁移Linear名字太长放不下CVPR2019

33次阅读

共计 1668 个字符，预计需要花费 5 分钟才能阅读完成。

依据原论文的思路简略过一遍。

论文名称：Learning Linear Transformations for Fast Image and Video Style Transfer
论文收录于 CVPR2019
我的项目地址 Github

$F_c$ 示意内容图像的特色图；$F_s$示意格调图像的特色图；
$F_d$ 示意变换后的特征向量；$\bar{F}$ 示意具备 0 均值的矢量化特色图 $F$(也就是 F 减去 F 的均值)；
$\phi_s$ 示意所需格调的“虚构”特色图（$\phi_s=\phi(F_s)$，在 AdaIN/WCT 中，$\phi_s=F_s$）
$T$ 示意学习矩阵；
$N$ 示意像素量，即 $N=H\times W$；$C$ 示意通道数；
阐明：

为什么这里 $\bar{F}$只减去均值不除以方差呢？是因为前面须要用方差计算协方差矩阵。
2. 推导（Image）
2.1. 求解指标
先给出优化指标公式
$$
F^*_d = arg\min_{F_d} \frac{1}{NC} \|\bar{F_d}\bar{F_d}^{\top} -\bar{\phi_s}\bar{\phi_s}^{\top} \|^2_F \tag{1} \\
s.t. \bar{F_d} = T \bar{F_c}.
$$

指标含意是为了最小化 $F_d$和 $\phi_s$之间的核心协方差。核心协方差就是将样本均值挪动到原点再计算协方差，这就是为什么 $\bar{F}$只减去均值。也就是说咱们 冀望减去均值后的内容特色通过学习矩阵 $T$变换后靠近风格特征。留个问题：为什么这里应用的是协方差？

将公式 $1$中的约束条件代入可知，当

$$
T\bar{F}_c\bar{F}_c^{\top}T^{\top} = \bar{\phi_s}\bar{\phi_s}^{\top} \tag{2}
$$

时，指标函数最小。

$\bar{F_c}$的核心协方差：$cov(F_c)=\bar{F}_c\bar{F}_c^{\top}=V_cD_cV_c^{\top}$；对应的奇怪值合成（SVD）：$cov(\phi_s)=\bar{\phi_s}\bar{\phi_s}^{\top}=V_sD_sV_s^{\top} $。所以，依据这两个公式，能够容易失去公式 $2$的一组解：

$$
T=(V_sD^{\frac{1}{2}}_sV_s^{\top})U(V_cD^{-\frac{1}{2}}_cV_c^{\top}) \tag{3}
$$

其中，$U\in R^{C\times C}$是 $C$维正交群。

由此，能够看出 $T$仅由内容特色协方差和风格特征协方差确定。

当给定一个 $T$时，变换后的特色 $\bar{F_d}$ 加上 $mean(F_s)$ 与指标格调的均值和协方差统计值对齐。（与后面那句加粗的话在肯定水平上等价）

当初的问题是 $T$怎么失去，有后面能够晓得 $T$仅取决于内容和格调，一种可行的办法是应用网络将两个图片间接输入为 $C \times C$的矩阵。
由等式 $3$得，内容和格调是拆散的，所以能够应用两个独立的 CNNs 来提取各自的特色。
从等式 $2$能够推断出 CNNs 能够有三种输出的形式：1. 图片（c/s）2. 特色图（$F_c$/$F_s$）3. 协方差矩阵（$cov(F_c)$/$cov(F_s)$）。所以选哪种呢？还是每种都行呢？
在这里，作者心愿输入 $T$的模块能够灵便适应所有内容图像和任意形态区域（就是大小能够不一样），所以形式 1 和形式 2 不实用，因为容易晓得 $T=\bar{\phi_s}U\bar{F_c}^{-1}$，那么这就要求内容和格调的维度特色须要雷同；还有另一点，因为 $T$形容的是格调变换，侧重于形容全局统计量变动而不是图像空间信息。所以综合以上这两点，抉择形式 3，输出协方差，输入 $C\times C$两头矩阵，而后这两个矩阵相乘失去 $T$。

正文完