multidiffusion-upscaler-for-automatic1111是 Stable Diffusion WebUI(Automatic1111)的一个功能强大的扩展,它的核心目标是 解决在有限显存(VRAM)下生成或放大超高分辨率图像(如2K、4K甚至更高)的难题。
项目地址:https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111
普通的Stable Diffusion模型在生成高分辨率图像时,会消耗巨大的显存,这导致了许多只有6GB、8GB甚至更少显存的显卡用户无法生成高质量的大图。直接生成大图还容易出现“重复对象”、“肢体扭曲”等问题。
这个扩展通过几种先进的“分块”技术,将一个大图像分割成多个小方块进行处理,然后再无缝地拼接回来,从而极大地降低了显存需求。
它集成了多种前沿的算法,主要包括:
这是项目的核心功能,它通过将生成过程分解到多个重叠的图块上,来模拟一次性生成整个高分辨率图像的效果。它复现了以下算法:
Mixture of Diffusers: 一种协调多个扩散过程的方法。
MultiDiffusion: 通过统一的噪声采样和去噪步骤,保证图块间的一致性。
DemoFusion: 一种专注于高质量图像放大的新技术。
应用场景:
1、文生图: 生成超宽的 panoramas(全景图)、竖屏海报或任何自定义尺寸的超大图像。
2、图生图: 对现有图像进行超高倍率的放大和细节增强,效果远优于传统的放大算法。
VAE(变分自编码器)是Stable Diffusion中用于编码和解码图像的组件,它在处理高分辨率图像时同样是显存消耗大户。Tiled VAE 将VAE的编码和解码过程也进行分块处理,进一步释放了显存压力,使得处理超大图像成为可能。
这是一个非常强大的功能,允许你在图像的不同区域使用不同的提示词。例如,你可以在画面的左边描述一个女孩,在右边描述一个男孩,并让他们处于不同的场景中,从而在一张图内实现复杂的多主题构图。
用于图生图过程中的噪声反转步骤,确保在放大和重绘时能更好地保持原始图像的结构和内容。
1、支持 ControlNet: 可以在生成超大图像时使用线稿、姿势等控制条件。
2、支持 StableSR: 一个专注于超分辨率的模型。
3、支持 SDXL: 支持最新的Stable Diffusion XL模型(实验性)。
4、支持 DemoFusion: 集成最新的放大算法。
1、文生图超大图像: 可以生成细节丰富的城市天际线夜景等全景图。
2、图生图放大: 将一张低分辨率图像放大4倍后,细节(如毛发、纹理)得到了惊人的增强和修复。
3、区域提示控制::成功在单张图像中生成了多个不同的角色;为角色精确控制不同身体部位的服装和姿态(如生成完整的全身像)。
4、ControlNet支持: 利用线稿控制,重绘出风格迥异但结构精准的复杂场景(如示例中的“清明上河图”风格重绘)。
multidiffusion-upscaler-for-automatic1111 是一个革命性的工具,它极大地拓展了 Stable Diffusion 的创作边界。对于广大拥有中低端显卡的用户来说,它让生成商业级超高分辨率图像从“不可能”变成了“可能”。无论是制作壁纸、艺术创作、概念设计还是图像修复放大,这个扩展都提供了强大而实用的解决方案。
简单来说,如果你在使用 Automatic1111 WebUI 并且想要生成或放大高清大图,这个扩展几乎是必备的。