论文介绍 FreeControl: 无需额定训练实现文本到图像的空间操控!
论文介绍 FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
关注微信公众号: DeepGo
我的项目地址:https://genforce.github.io/freecontrol/
论文地址:https://arxiv.org/abs/2312.07536
本文介绍一种新鲜的图像编辑算法 FreeControl,容许用户在不须要额定训练的状况下,对预训练的文本到图像 (T2I) 扩散模型进行空间管制。它通过剖析和合成两个阶段工作,首先从指标概念生成种子图像,并对它们的扩散特色进行主成分剖析 (PCA) 以取得线性子空间作为语义根底。而后,在合成阶段,应用构造疏导和外观疏导来确保生成的图像在结构上与领导图像统一,同时在外观上与同一种子未进行构造管制生成的图像类似。
上图展现了 FreeControl 办法如何实现对(Stable Diffusion)稳固扩散模型的无训练条件管制。此图分为两个局部(a)和(b),演示了 FreeControl 如何在给定任何模态的输出条件图像下,实现对预训练文本到图像扩散模型的零样本管制。(a)局部:阐明了 FreeControl 如何容许用户在没有任何额定训练的状况下,对预训练的文本到图像扩散模型进行空间管制。这一点突出了 FreeControl 在解决输出条件和文本形容之间存在抵触时,如何在空间和图像 - 文本对齐之间实现良好均衡的能力。它反对一些难以结构训练对的条件类型(例如,借用行中的 2D 点云和网格投影)。(b)局部:与 ControlNet 相比,FreeControl 在解决疏导图像和文本形容之间存在抵触的状况下,实现了空间和图像 - 文本对齐之间的良好均衡。此外,它反对多种条件类型,例如 2D 投影的点云和网格,在这些状况下,构建训练对是艰难的。
问题、挑战和奉献
该论文尝试解决的次要问题和挑战是如何在不须要额定训练的状况下,为预训练的文本到图像(T2I)扩散模型提供精密的空间管制。现有的办法,如 ControlNet,尽管可能提供空间管制,但须要为每种空间条件、模型架构和模型文件训练额定的模块,这既耗时又费劲,且难以适应一直演变的模型架构和个性化的模型。此外,这些办法面临高训练老本、可扩展性差和由训练计划导致的限度,如管制信号难以从图像中推断、模型偏向于优先思考空间条件而非文本形容等问题。
上图提供了 FreeControl 办法的概述,展现了如何在无需额定训练的状况下,对任何预训练的文本到图像(T2I)扩散模型进行管制。该图分为两个次要局部:分析阶段(a)和合成阶段(b),展现了从指标概念(例如,“man”)生成种子图像到最终生成具备控制结构和外观的图像的整个过程。(a) 分析阶段:在此阶段,FreeControl 应用预训练的扩散模型为指标概念生成种子图像,并对这些图像的扩散特色执行主成分剖析(PCA)。通过这种剖析,取得了作为语义根底的线性子空间。这一步骤的要害是构建一个工夫依赖的根底 $B_t$,代表语义构造。(b) 合成阶段:在此阶段,FreeControl 利用构造疏导和外观疏导来生成最终图像。构造疏导应用在分析阶段失去的语义根底,确保生成图像在结构上与输出条件图像对齐。同时,外观疏导促成从雷同种子但未经构造管制生成的兄弟图像($\bar{I}$)到最终图像($I$)的外观转移,使得 $I$ 在内容和格调上与 $\bar{I}$ 类似,但构造上遵循输出条件图像($I_g$)。
办法概述
FreeControl 分为两个阶段:分析阶段 和合成阶段。
- 分析阶段:通过对种子图像的扩散特色进行主成分剖析(PCA),造成工夫依赖的基 $B_t$,作为语义构造示意。
- 合成阶段:构造疏导帮忙在疏导图像 $I_g$ 的领导下构建输入图像 $I$ 的构造模板,而外观疏导从雷同种子生成的兄弟图像 $\bar{I}$ 中借用外观细节。
语义构造示意
在实现文本到图像(T2I)扩散的零样本空间管制时,关键在于须要一种对图像模态不变的语义图像构造的对立示意。依据最近的钻研,自监督的 Vision Transformers 和 T2I 扩散模型中的自注意力特色(即键和查问)被认为是图像构造的弱小描述符。因而,作者假如操纵这些自注意力特色是实现可控 T2I 扩散的要害。
- 间接注入办法的局限性:在 Plug-and-Play(PnP)办法中,尝试间接将疏导图像($I_g$)的自注意力权重(或等效的特色)注入到图像 $I$ 的扩散过程中。这种办法容易引入外观透露,即不仅传递了 $I_g$ 的构造,还传递了外观细节的痕迹,特地是当 $I_g$ 和 $I$ 属于不同模态时(例如,深度图与天然图像),这在可控生成中是一个问题。
- 图像构造与外观的拆散 :
为了拆散图像的构造和外观,作者借鉴了 Transformer 特色可视化的办法,对一组语义类似图像的自注意力特色执行主成分剖析(PCA)。作者的要害察看是,次要的 PCs 造成了一个语义根底;它与不同图像模态中的对象姿势、形态和场景形成体现出强烈的相关性。作者利用这个根底作为语义构造示意,并在分析阶段取得这些根底。 -
语义根底的获取 :
首先收集一组 $N_s$ 张图像 $\{I_s\}$,这些图像与文本提醒 $c$ 共享指标概念,应用经文本提醒 $\tilde{c}$ 批改后的 $\epsilon_\theta$ 生成,$\tilde{c}$ 将概念标记插入到成心放弃通用的模板中(例如,“一张带背景的 [] 照片。”)。这使得 $\{I_s\}$ 笼罩了多样的对象形态、姿势、外观以及图像形成和格调,对于语义根底的表白性至关重要。
通过对 $\{I_s\}$ 执行 DDIM 逆向,以取得大小为 $N_s \times C \times H \times W$ 的工夫依赖扩散特色 $\{F_{t}^s\}$,产生 $N_s \times H \times W$ 个不同的特征向量,对其执行 PCA 以取得工夫依赖的语义根底 $B_t$ 作为前 $N_b$ 个主成分:$$
B_t = [p^{(1)}_t, p^{(2)}_t, \ldots, p^{(N_b)}_t] \sim PCA(\{F_{t}^s\})
$$直观地讲,$B_t$ 逾越了不同图像模态的语义空间 $S_t$,容许在合成阶段将图像构造从 $I_g$ 流传到 $I$。
一旦计算出来,$B_t$ 能够被雷同的文本提醒重复使用,或由具备相干概念的提醒共享。因而,根底构建的老本能够在合成阶段的屡次运行中摊派。
生成阶段
合成阶段通过疏导将生成的图像 $I$ 与疏导图像 $I_g$ 进行条件化。首先,作者用语义根底 $B_t$ 表白 $I_g$ 的语义构造。(ps: 原文的公式不知为何都在表白的时候,将大写字母成了小写,如 M 写成 m,留神辨别)
-
疏导图像的逆变换:
作者对 $I_g$ 执行 DDIM 逆变换,以获取尺寸为 $C \times H \times W$ 的扩散特色 $F_{t}^g$,并将其投影到 $B_t$ 上,失去其语义坐标 $S_{t}^g$,尺寸为 $N_b \times H \times W$。为了部分管制前景构造,作者进一步从概念标记的穿插注意力图中派生出掩码 $M$(尺寸 $H \times W$),全局管制时 $M$ 设置为 1(尺寸 $H \times W$)。接下来介绍如何应用构造疏导来生成具备控制结构的 $I$。
-
构造疏导:
在每个去噪步骤 $t$,作者通过将扩散特色 $F_t$ 从 $\epsilon_\theta$ 投影到 $B_t$ 上,取得语义坐标 $S_t$。构造疏导的能量函数 $g_s$ 能够表白为:$$
g_s(S_t; S_{t}^g, M) = \frac{\sum_{i,j} m_{ij} \left\| [s_t]_{ij} – [s_{t}^{g}]_{ij} \right\|^2_2}{\sum_{i,j} m_{ij}} + w \cdot \frac{\sum_{i,j} (1 – m_{ij}) \left\| \max([s_t]_{ij} – \tau_t, 0) \right\|^2_2}{\sum_{i,j} (1 – m_{ij})}
$$其中,$i$ 和 $j$ 是 $S_t$、$S_{t}^g$ 和 $M$ 的空间索引,$w$ 是均衡权重。阈值 $\tau_t$ 定义为:
$$
\tau_t = \max_{ij \text{ s.t.} m_{ij} = 0} [s_{gt}]_{ij}
$$直观来说,$[s_t]_{ij} > \tau_t$ 表明前景构造的存在。直观上,前向项疏导 $I$ 的构造与 $I_g$ 在前景中对齐,而当 $M \neq 1$ 时,后向项通过克制背景中的假构造来帮忙雕刻出前景。
-
外观疏导 :
受 DSG 启发,作者将图像外观示意为 $\{v_t^{(k)}\}_{k=1}^{N_a \leq N_b}$,即扩散特色 $F_t$ 的加权空间均值:$$
v_t^{(k)} = \frac{\sum_{i,j} \sigma([s_t^{(k)}]_{ij}) [f_t]_{ij}}{\sum_{i,j} \sigma([s_t^{(k)}]_{ij})}
$$其中,$i$ 和 $j$ 是 $S_t$ 和 $F_t$ 的空间索引,$k$ 是 $[s_t]_{ij}$ 的通道索引,$\sigma$ 是 Sigmoid 函数。作者将 $S_t$ 用作权重,以便不同的 $v_t^{(k)}$ 编码不同语义组件的外观。对于 $I$ 和 $\bar{I}$,作者在每个工夫步骤 $t$ 别离计算 $\{v_t^{(k)}\}$ 和 $\{\bar{v}_t^{(k)}\}$。
外观疏导的能量函数 $g_a$ 能够表白为:$$
g_a\left(\left\{v_t^{(k)}\right\}; \left\{\tilde{v}_t^{(k)}\right\}\right) = \frac{\sum_{k=1}^{N_a} \left\| v_t^{(k)} – \tilde{v}_t^{(k)} \right\|^2}{N_a},
$$它惩办外观示意之间的差别,从而促成从 $\bar{I}$ 到 $I$ 的外观转移。
(DSG:Diffusion self-guidance for controllable image generation) -
疏导生成过程 :
最初,作者通过构造和外观疏导以及无分类器疏导,失去批改后的分数预计 $\hat{\epsilon}_t$:$$
\hat{\epsilon}_t = (1+s) \epsilon_\theta(x_t; t, c) – s \epsilon_\theta(x_t; t, \emptyset) + \lambda_s g_s + \lambda_a g_a
$$其中,$s$、$\lambda_s$ 和 $\lambda_a$ 是各自疏导的强度。
试验后果
上图展现了 FreeControl 在反对多种管制信号和三个次要版本的 Stable Diffusion 模型下,生成的图像如何严密遵循文本提醒,同时展现了与输出图像的强烈空间对齐。这突显了 FreeControl 在各种条件下的适用性和成果。
总结
FreeControl 反对多种管制条件、模型架构和自定义模型文件,可能解决大多数现有无训练方法失败的挑战性输出条件,并且与基于训练的办法相比,实现了竞争性的合成品质。通过在多个预训练的 T2I 模型上的宽泛定性和定量试验,FreeControl 展现了其优越的性能。
只管它依赖于 DDIM 逆转过程来提取领导图像的两头特色和计算合成阶段的额定梯度,这导致了推理工夫的减少。心愿这项工作能为可控的视觉内容创作提供新的见解和剖析。
更多细节请参阅论文原文
关注微信公众号: DeepGo
本文由 mdnice 多平台公布