< 上一个 | 内容 | 下一个 >

2.4.5 ControlNet

ControlNet30是一种控制预训练大型扩散模型的方法,它可以支持额外的输入条件。通过端到端的学习方式,即使在训练数据集很小的情况下,ControlNet 也能够有效地学习特定任务的条件输入,同时保证训练速度与微调扩散模型相当。ControlNet 能够成功地增强诸如 Stable Diffusion 这类大型扩散模型,使其能够支持边缘图、分割图、关键点等条件输入,丰富了大型扩散模型的控制策略,促进其应用发展。

1. ControlNet 网络设计

image

image

image

image

image

Stable Diffusion 模型基本上是一个U-net 结构,包含一个编码器、中间块和一个带有跳跃连接的解码器。如果不加ControlNet,扩散模型原始的神经网络 输入 后获得 ,其参数用 表示,则:


image

image

image

image

ControlNet 对神经网络模块的输入条件进行操作,进一步控制网络的整体行为。它将模型原始的网络参数 固定,并复制了一个原始模型分支 ,在此基础上应用了外部条件向量 进行训练,并将施加控制条件的分支通过零卷积和原始模型分支逐层相加。这种设计的优势在于它能够避免在小数据集上过拟合,并保留对数十亿张图像学习的原始大模型能力。加了控制条件之后,将原始网络的输出修改为:


30 Rombach R., et al. High-resolution image synthesis with latent diffusion models[C]. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684-10695, 2022.


image

image

其中零卷积层 (zero convolution)的初始化权重和偏置都为 0,两层零卷积的参数为 。

需要注意的是,未经训练的 ControlNet 分支输出为零,因此添加到原始网络的数值也为零。这对原始网络没有任何影响,确保了原网络性能的完整保留。

2. 基于稳定扩散的ControlNet

1)训练过程如下:

原始的Stable Diffusion 的优化目标如下:

image


image

image

image

image

在采样 经过网络 进行去噪后,与原始特征经过网络后得到的潜变量计算L2 损失,而 ControlNet 的训练目标改进为:


image

image

image

其中网络 增量了两个控制条件,文字条件 和任务指定的条件 ,例如Canny 边缘图等。

2ControlNet 的应用如下:

ControlNet 的 推 理 过 程 中 使 用 DDIM31(Denoising Diffusion Implicit Models) 的采样方式,默认使用 20 个时间步长.在这个推理过程中,用户可以选择不同的 prompt 模式来指导生成图像,其中 prompt可以为空字符串、默认的“专业、详细、高质量图像”语句、利用 BLIP32等模型自动生成的图像标注,或者用户自定义的词句。实验发现ControlNet 在各种不同条件任务中都能取得较高质量的生成结果。 Canny 边缘检测图。当使用简单的 Canny 边缘检测来提取图像的

纹理信息时,可以通过这些纹理信息生成各种不同风格的图像,这些


31 Song J., et al. Denoising diffusion implicit models[J]. arXiv preprint arXiv:2010.02502, 2020.


32 Li, J., et al. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation[J]. International Conference on Machine Learning. PMLR, 2022.


图像呈现出逼真而生动的效果。



image


来源:ControlNet[4]


2-5 ControlNet 基于 Canny 边缘条件生成结果图


人体姿势图。基于学习的姿势估计方法令从人体姿势关键点到自然图像的转换也轻而易举,这类条件控制模型为各种人机交互、动画、虚拟现实等应用领域带来了更广阔的发展空间。



image


2-6 ControlNet 基于人体姿势条件生成结果图(来源:ControlNet33



33 Ho J., et al. Denoising diffusion probabilistic models[J]. Advances in neural information processing


卡通线图。利用网络上的卡通插图提取线描并生成彩色图像, ControlNet 能够从卡通插图中捕捉线条轮廓,然后将其填充上合适的色彩,使得上色过程变得自然而轻松,同时呈现出生动的笔触效果。


image


2-7 ControlNet 基于卡通线图条件生成结果图(来源:ControlNet34