Stable Diffusion web UI 是一个基于 Gradio 库构建的 Web 界面,用于著名的文本生成图像模型 Stable Diffusion。该项目由 AUTOMATIC1111 创建和维护,旨在为用户提供一个功能极其丰富、易于使用且高度可定制的前端工具,极大地降低了使用 Stable Diffusion 模型的技术门槛,使其成为 AI 绘画领域最受欢迎的开源工具之一。
项目地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui
该项目集成了海量功能,远超 Stable Diffusion 原始模型的基础能力。以下是一些核心和亮点的功能:
txt2img: 根据文本描述生成图像。
img2img: 根据输入图像和文本描述,对原图进行修改、重绘或风格转换。
Inpainting: 对图像中特定区域进行重绘,同时保持其他部分不变。
Outpainting: 扩展图像的画布,智能地补全图像边缘的内容。
注意力控制: 通过 (keyword) 或 (keyword:1.2) 等语法,调整提示词中特定关键词的权重,让模型更关注某些元素。
无令牌限制: 突破原版模型 75 个令牌的限制,可以输入更长的、描述更复杂的提示词。
提示词矩阵: 一次生成多张图像,以测试不同提示词组合的效果。
负面提示词: 指定不希望出现在图像中的内容。
样式管理: 保存常用的提示词组合为“样式”,方便一键调用。
Extras 标签页: 集成了多种强大的图像放大和修复工具,包括:
RealESRGAN/ESRGAN: 通用图像超分辨率放大。
GFPGAN/CodeFormer: 专门用于修复和增强人脸。
SwinIR/Swin2SR: 其他类型的神经网络放大器。
Stable Diffusion Upscale: 使用 SD 模型本身进行高质量的放大。
Checkpoint 模型管理: 支持动态加载和切换不同的大模型。
模型合并: 提供图形化界面,允许用户合并多个模型以创造新风格。
训练功能: 支持训练多种个性化模型:
Textual Inversion: 训练嵌入,让模型学习特定概念或物体。
Hypernetworks: 一种影响模型风格的附加神经网络。
LoRA: 一种轻量级、高效的微调方法,可以修改模型风格或角色,非常流行。
参数保存与读取: 生成参数会自动保存在图片文件中,可以拖拽图片到 UI 中自动读取参数。
CLIP Interrogator: “图生文”功能,可以分析一张图片并推测出其可能的提示词。
X/Y/Z 图表: 用于系统地比较不同参数(如采样器、步数、CFG Scale)对生成结果的影响。
历史记录: 通过扩展,可以方便地浏览和管理之前生成的所有图像。
中断生成: 可以在生成过程中的任意时刻中断。
自定义脚本: 拥有强大的扩展系统,社区开发了成千上万的扩展插件,可以添加新功能、新模型和新UI。
API 支持: 提供了 API 接口,允许其他程序调用其功能,便于集成到工作流中。
该项目支持在多种硬件和操作系统上运行:
推荐配置: 使用 NVidia GPU,并按照相应的 Wiki 指南安装 CUDA 等依赖。
其他支持: 也支持 AMD GPU、Intel CPU/GPU 以及 Apple Silicon Mac。
Windows: 安装 Python 3.10.6 和 Git 后,直接运行 webui-user.bat 脚本,该脚本会自动完成大部分环境配置。
Linux: 安装依赖后,运行 webui.sh 脚本。
预发布包: Windows 用户也可以直接下载发布的 zip 包,运行其中的 update.bat 和 run.bat。
对于没有强大本地硬件的用户,项目 Wiki 也列出了许多在线服务(如 Google Colab)可供使用。
Stable Diffusion web UI 不仅仅是一个“界面”,它已经发展成为一个功能极其全面的 AI 绘画生态系统。它将 Stable Diffusion 模型的强大能力与社区的创造力相结合,通过直观的 Web 界面,为艺术家、开发者和爱好者提供了无与伦比的灵活性和控制力。其活跃的社区和丰富的扩展生态,使其持续成为探索和应用生成式 AI 艺术的首选工具。