Stable Diffusion 是一个开源的文本到图像生成模型,属于潜在扩散模型。它能够根据文本描述生成高质量的图像,同时还支持图像修改、图像修复、图像超分辨率等多种功能。
项目地址:https://github.com/Stability-AI/stablediffusion
Stable Diffusion web UI:https://github.com/AUTOMATIC1111/stable-diffusion-webui
入门教程:https://www.runoob.com/python3/python-ai-draw.html
模型下载1(需要魔法):https://huggingface.co/CompVis/stable-diffusion-v-1-4-original
模型下载2(需要魔法):https://civitai.com/
根据文本提示生成高质量图像
支持不同分辨率输出(512×512和768×768)
使用CLIP ViT-H/14文本编码器
深度条件生成:基于深度信息进行图像到图像的转换,保持原始图像结构
经典img2img:基于文本提示对现有图像进行风格转换
图像修复:对图像中缺失部分进行智能填充
提供4倍超分辨率模型
可用于真实图像和生成图像的质量提升
Stable UnCLIP 2.1支持图像变体和混合操作
基于CLIP图像嵌入的条件生成
U-Net架构:865M参数,用于扩散过程
VAE编码器:下采样因子为8的自动编码器
文本编码器:OpenCLIP ViT-H/14
v-prediction:使用速度预测而非噪声预测
Stable Diffusion 2.0(2022年11月):
1、全新训练的768×768分辨率模型
2、改用OpenCLIP作为文本编码器
3、新增深度引导、图像修复、超分辨率模型
Stable Diffusion 2.1(2022年12月):
1、基于2.0版本微调
2、使用较宽松的NSFW过滤
3、提供768×768和512×512两个版本
Stable UnCLIP 2.1(2023年3月):
1、支持图像变体生成
2、基于CLIP ViT-L和ViT-H图像嵌入
python scripts/txt2img.py --prompt "描述文本" --ckpt <模型路径> --config <配置路径>python scripts/gradio/depth2img.py configs/stable-diffusion/v2-midas-inference.yaml <模型路径>python scripts/gradio/superresolution.py configs/stable-diffusion/x4-upscaling.yaml <模型路径>1、PyTorch 1.12.1
2、torchvision 0.13.1
3、transformers 4.19.2
4、diffusers
5、invisible-watermark
1、推荐安装xformers库以提高GPU效率
2、支持Intel CPU优化(通过Intel Extension for PyTorch)
1、代码采用MIT许可证
2、模型权重采用CreativeML Open RAIL++-M许可证
项目强调模型可能反映训练数据中的偏见,不建议在没有额外安全机制的产品中使用。模型主要用于研究目的。
Stable Diffusion建立在多个开源项目基础上,特别感谢:
1、CompVis和RunwayML的原始实现
2、LAION提供的大规模数据集
3、OpenAI的ADM代码库
4、Hugging Face的模型托管支持
@misc{rombach2021highresolution,
title={High-Resolution Image Synthesis with Latent Diffusion Models},
author={Robin Rombach and Andreas Blattmann and Dominik Lorenz and Patrick Esser and Björn Ommer},
year={2021},
eprint={2112.10752},
archivePrefix={arXiv},
primaryClass={cs.CV}
}Stable Diffusion代表了文本到图像生成技术的重要进展,为创作者和研究人员提供了强大的图像生成工具,同时保持了开源和可访问的特性。