sd-webui-controlnet 是一个为 AUTOMATIC1111 的 Stable Diffusion WebUI 设计的扩展插件。它的核心功能是将 ControlNet 模型集成到 WebUI 中,使用户能够通过输入额外的控制图(如边缘检测、姿态、深度图等)来精确地控制 Stable Diffusion 模型的图像生成过程。这种集成是动态的,无需预先合并模型。
项目地址
项目地址:https://github.com/Mikubill/sd-webui-controlnet
核心价值
该项目极大地增强了 Stable Diffusion 的可控性。用户不再仅仅依赖于文本提示词,而是可以通过一张输入图片(例如,一张线稿、一个人体姿势图或一张深度图)来严格约束生成图像的构图、布局、形态和空间关系,从而实现精准的图像创作。
主要特性与功能
广泛的模型支持
- 完美支持所有 ControlNet 1.0/1.1 模型(如 Canny、Depth、OpenPose、Scribble 等)。
- 支持 T2I-Adapter 模型。
- 支持最新的模型和技术,如 ControlNet++、PuLID、IP-Adapter 等。
与 WebUI 深度集成
- 完美支持高分辨率修复:自动为初始生成和高分辨率修复两个阶段生成不同尺寸的控制图。
- 完美支持 img2img 和 Inpaint:与 WebUI 的所有图像绘制设置、蒙版类型和缩放模式无缝协作。
- 支持几乎所有的放大脚本,如 Ultimate SD Upscale 和 Tiled VAE/Diffusion。
“Pixel-Perfect” 模式
- 启用后,用户无需手动设置预处理器分辨率。ControlNet 会自动计算最佳分辨率,使控制信号与 Stable Diffusion 的潜在空间完美对齐,从而获得最佳效果。
多种控制模式
取代了旧版的“Guess Mode”,提供了三种控制模式来平衡提示词和控制信号的影响力:
- Balanced:平衡模式,提示词和控制信号同等重要。
- My prompt is more important:提示词更重要,逐步减弱 ControlNet 的影响。
- ControlNet is more important:ControlNet 更重要,让 ControlNet 有更大的“猜测”空间来补充提示词未描述的细节。
Reference-Only 控制
- 这是一个无需控制模型的预处理器。它允许 Stable Diffusion 直接参考另一张图像的风格、颜色和内容进行生成,效果比传统的 Inpaint 参考方法更好且更少失真。
多 ControlNet
- 允许在单次生成中同时使用多个 ControlNet 单元,例如结合线稿控制构图和姿势控制人物动作,实现极其复杂的控制。
用户友好的界面
- 提供了清晰的预处理器预览功能。
- 简化和重组了部分 UI,提升了易用性。
安装与使用
安装扩展
- 在 WebUI 的 "Extensions" 标签页中,选择 "Install from URL"。
- 输入项目地址:https://github.com/Mikubill/sd-webui-controlnet.git。
- 点击 "Install",然后重启 WebUI。
下载模型
- 从项目的 Wiki 页面 下载所需的 ControlNet 模型文件(.pth)。
- 将其放入 stable-diffusion-webui/extensions/sd-webui-controlnet/models 目录。
- 在 WebUI 中刷新模型列表。
技术亮点
- 动态注入:无需修改原始 SD 模型,实现了灵活的即插即用。
- 高性能:通过 --xformers 和 "Low VRAM" 模式优化,可以在较低的硬件配置(如 4GB VRAM)上运行。
- API 支持:提供了完整的 API,方便其他脚本和外部程序调用,便于集成到自动化工作流中。
- 持续更新:项目非常活跃,不断集成最新的控制技术和模型(如 Depth Anything V2, Anyline, Marigold 等)。
应用场景示例
- 线稿上色:将黑白线稿作为控制图,生成色彩丰富的图像。
- 姿势控制:给定一张人体姿势图,生成符合该姿势的特定人物或角色。
- 建筑设计:使用深度图或法线图来控制生成建筑的效果图,保持正确的三维结构。
- 风格迁移:使用 reference-only 功能,将一张图片的风格迁移到另一张图片的构图上。
- 图像编辑:通过 Inpaint 和 ControlNet 结合,精准地修改图像的局部内容。
总结
sd-webui-controlnet 是 Stable Diffusion 生态中一个里程碑式的扩展。它将 AI 图像生成从“基于提示词的随机艺术创作”部分地带入了“可控、可规划的数字内容创作”领域,为艺术家、设计师和开发者提供了前所未有的控制精度,是专业级 AI 绘画工作流中不可或缺的工具。