< 上一个 | 内容 | 下一个 >

2.4.3 Stable Diffusion

2.4.3.1. Stable Diffusion 的背景介绍

2015 年,一篇研究论文将统计物理学中的扩散模型引入到机器学习领域,为生成高质量图像样本提供了新思路13。它通过正向和逆向的扩散过程生成图像,其中正向过程逐步破坏数据分布的结构,逆向过程恢复图像的细节和结构。这也正是最近大火的基于扩散模型的方法 (Stale Diffusion14ControlNet15) 所使用的基本思想。

初始阶段生成的图像质量较差,而在五年后,另一篇由加州伯克


12 Rombach R., et al. High-resolution image synthesis with latent diffusion models[C]. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684-10695, 2022.

13 Sohl-Dickstein J., et al. Deep unsupervised learning using nonequilibrium thermodynamics[C].


International conference on machine learning. PMLR, pages 2256-2265, 2015


14 Ramesh A., et al. Hierarchical text-conditional image generation with clip latents[J]. arXiv preprint arXiv:2204.06125, 2022.

15Rombach R., et al. High-resolution image synthesis with latent diffusion models[C]. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684-10695, 2022


利分校发表的开创性的研究论文提出了去噪扩散概率模型 (DDPMs)16DDPM 是一种扩散生成模型,由两个参数化的马尔可夫链组成,它利用变分推断17在有限时间内生成与原始数据分布一致的样本。前向链逐渐将高斯噪声引入数据,使其分布趋近于标准高斯分布,而逆向链则通过参数化的高斯转换核逐步恢复原始数据分布。扩散模型在图像合成、计算机视觉、自然语言处理等领域展现出优异性能。

尽管扩散模型已经在图像数据上取得了最先进的合成结果,扩散模型高昂的计算成本仍让众多研究人员望而却步。为了解决这个问题, 潜在扩散模型 (Latent Diffusion Model, LDM)18 的开发者 CompVis Runway ML 将扩散模型应用于强大的预训练自编码器的潜在空间中,兼顾计算复杂度和图像细节的平衡。LDM 在图像修复、条件图像合成等任务中取得了新的最优结果,并在多模态训练中拥有很好的表现。后续 Stability AI 也一同联合开源了LDM 的预训练模型,称为稳定扩散 (Stable Diffusion)19。为了实现稳定扩散,研究人员使用了低秩矩阵来估计参数更新,从而在保持高质量图像生成的同时大幅减少了参数的数量。这种参数高效性能够在相对较小的计算资源下生成高质量的图像样本,该特性使得稳定扩散方法迅速席卷图像生成领域。



16 Ho J., et al. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.

17 Blei D. M., et al. Variational inference: A review for statisticians[J]. Journal of the American statistical Association, 2017, 112(518): 859-877.

18 Ramesh A., et al. Hierarchical text-conditional image generation with clip latents[J]. arXiv preprint arXiv:2204.06125, 2022.

19 https://stability.ai/blog/stable-diffusion-public-release


2.4.3.2 Stable Diffusion 的基本原理

1)去噪扩散概率模型(DDPM)是一种基于扩散模型的生成模型,用于对数据进行建模和生成。扩散模型的基本思想是通过一个前向的迭代扩散过程逐渐将高斯噪声引入数据,使其分布逐渐趋近于标准高斯分布。然后,通过学习一个逆向的扩散过程,将模糊的图像恢复到清晰的状态,从而重建数据中的结构。

为了训练DDPM,研究团队采用了去噪评分匹配框架。这种框架通过前向扩散过程将图像转化为噪声来定义图像的分布。通过训练去噪函数,使其最小化去噪评分匹配损失,DDPM 可以从随机噪声中生成高质量的样本。



image


2-3 DDPM 生成结果图(来源:DDPM20)


DDPM 在图像合成任务中表现出色,并在计算机视觉、自然语言处理、波形信号处理、多模态建模、分子图建模和时间序列建模等领域展示了优异的性能。它在无条件图像合成方面已被证明胜过生成对



20 Ho J., et al. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.

抗网络 (GAN) 21,尽管 GAN 在图像质量方面表现出色,但这些模型往往捕捉到的多样性较少,难以训练并容易出现模式崩溃问题。在图 3-3 中,左图是 DDPM CelebA-HQ 数据集上通过去噪评分匹配训练后生成的高分辨率人脸图像,右图展示了 DDPM CIFAR10 上仅依靠纯噪声生成的图片,即无条件合成的图片。

2DPM 包括前向过程(forward process)和反向过程(reverse process),其中前向过程又称为扩散过程(diffusion process)。

image

image

image

image

扩散过程 (diffusion process),指对数据逐渐增加高斯噪音直至数据变成随机噪音的过程。对于原始数据 ,扩散过程的每一步都生成一个带噪音的数据 ,通过共计 步对上一步数据 逐渐增加高斯噪音。

image

image

image

与将数据噪声化的前向过程相反,反向过程(reverse process)是一个去噪过程,当反向过程每一步的真实分布 已知,那么从第 步的随机噪声图像 开始逐渐去噪便能生成真实图像。反向过程可定义为一个由一系列用神经网络参数化的高斯分布组成的马尔可夫链。

模型设计方面,DDPM 采用的是一个基于残差模块 (residual block) 和注意力模块 (attention block) U-Net 模型。U-Net 属于编码器-解码器 (encoder-decoder) 架构,其中编码器分成不同的 stages,每个stage 都包含下采样模块来降低特征的空间大小。与编码器相反,解码器将压缩的特征逐渐恢复。U-Net 在解码器模块中还引入了跳连接 (skip connection),合并了编码器中间得到的同维度特征,这有利于网络的优化。

2.4.3.3 稳定扩散原理

稳定扩散(Stable Diffusion)是一种图像生成框架,通过在潜在


21 Dhariwal P., et al. Diffusion models beat gans on image synthesis[J]. Advances in neural information


processing systems, 2021, 34: 8780-8794.


image

image

image

image

image

空间上训练扩展的潜在扩散模型(Latent Diffusion ModelLDM)来生成高质量的图像样本。在稳定扩散的第一阶段,引入一个自编码器 (AutoEncoder) 来学习特征的潜在表示,接着用编码器 对原始图像进行压缩编码,得到图像的低维表征 ,然后将 在潜在表示空间 (latent space) 中进行扩散操作,最后将反向过程后的低维表征通过解码器 恢复到原始图像空间。由于 是经过压缩的潜在特征,其尺寸远小于原始图像,可显著降低扩散模型的计算成本。第二阶段的扩散过程与标准扩散模型类似,通过逐步引入噪声模糊潜在表示,然后逐步恢复图像的细节和结构。但稳定扩散中引入了条件机制 (Conditioning Mechanism),将交叉注意力 (cross-attention) 作为通用条件实现多模态训练。通过这种扩散过程,模型能够生成多样化且与条件信号相关的高质量图像样本。

实验结果表明(图 3-4),相较于在像素空间上进行扩散建模(Pixel Baseline #1),将扩散建模应用于潜在空间(LDM #1,2,3)能够在降低复杂度和保留图像细节方面取得显著优势。此外,条件机制的设计令稳定扩散能够更好地控制生成图像的多样性和真实性,它可以根据不同的条件生成多种语义合理图像。


Input GT Pixel Baseline #1 LDM #1 LDM #2 LDM #3


image


2-4 Stable Diffusion 的生成结果图(来源:Stable Diffusion22)


22 Rombach R., et al. High-resolution image synthesis with latent diffusion models[C]. In Proceedings of the