Stable Diffusion是一种基于潜在扩散模型的算法,由CompVis和Runway团队于2021年12月提出。该算法通过像素空间、潜在空间和条件之间的数据流动实现图像处理和生成。它利用图像编码器将图像压缩为低维潜在表示,并在潜在空间中添加噪声来启动扩散过程。通过CLIP文本编码器将描述语转换为去噪过程的条件。通过去噪步骤,可以获得生成图像的潜在表示,去噪过程可以灵活地使用文本、图像或其他形式的条件。最后,图像解码器将潜在表示转换回像素空间,生成最终的图像。Stable Diffusion引入了潜在扩散的方式来减少计算代价,这对图像处理和生成领域具有重要意义。U-Net是Stable Diffusion的关键组件,包括编码器和解码器,利用ResNet块进行图像的压缩和解压缩,并通过捷径连接来避免信息丢失。交叉注意力层进一步增强了U-Net的性能,用于调节文本嵌入的输出。这些技术为高效的图像处理和生成提供了新的可能性。