Stable Diffusion AI绘画开源项目:详细使用方法与核心特性解析

2024-06-21 李腾 88 次阅读 0 次点赞
Stable Diffusion是一个基于潜在扩散模型的开源文本到图像生成系统,能够根据文本描述生成高质量图像。本文全面解析其技术架构、核心特性包括文本到图像生成、图像修改、超分辨率等功能,提供详细的安装配置指南、系统要求和使用方法,涵盖基础文本生成、深度条件生成、图像超分辨率等实战操作,并介绍版本演进历程和社区贡献,为开发者和研究者提供完整的AI绘画解决方案。

Stable Diffusion 是一个开源的文本到图像生成模型,属于潜在扩散模型。它能够根据文本描述生成高质量的图像,同时还支持图像修改、图像修复、图像超分辨率等多种功能。

常用地址

项目地址:https://github.com/Stability-AI/stablediffusion

Stable Diffusion web UI:https://github.com/AUTOMATIC1111/stable-diffusion-webui

入门教程:https://www.runoob.com/python3/python-ai-draw.html

模型下载1(需要魔法):https://huggingface.co/CompVis/stable-diffusion-v-1-4-original

模型下载2(需要魔法):https://civitai.com/

核心特性

1. 文本到图像生成

根据文本提示生成高质量图像

支持不同分辨率输出(512×512和768×768)

使用CLIP ViT-H/14文本编码器

2. 图像修改功能

深度条件生成:基于深度信息进行图像到图像的转换,保持原始图像结构

经典img2img:基于文本提示对现有图像进行风格转换

图像修复:对图像中缺失部分进行智能填充

3. 图像超分辨率

提供4倍超分辨率模型

可用于真实图像和生成图像的质量提升

4. 图像变体生成

Stable UnCLIP 2.1支持图像变体和混合操作

基于CLIP图像嵌入的条件生成

技术架构

核心组件

U-Net架构:865M参数,用于扩散过程

VAE编码器:下采样因子为8的自动编码器

文本编码器:OpenCLIP ViT-H/14

v-prediction:使用速度预测而非噪声预测

版本演进

Stable Diffusion 2.0(2022年11月):

1、全新训练的768×768分辨率模型

2、改用OpenCLIP作为文本编码器

3、新增深度引导、图像修复、超分辨率模型

Stable Diffusion 2.1(2022年12月):

1、基于2.0版本微调

2、使用较宽松的NSFW过滤

3、提供768×768和512×512两个版本

Stable UnCLIP 2.1(2023年3月):

1、支持图像变体生成

2、基于CLIP ViT-L和ViT-H图像嵌入

使用方法

基础文本到图像生成

python scripts/txt2img.py --prompt "描述文本" --ckpt <模型路径> --config <配置路径>

深度条件生成

python scripts/gradio/depth2img.py configs/stable-diffusion/v2-midas-inference.yaml <模型路径>

图像超分辨率

python scripts/gradio/superresolution.py configs/stable-diffusion/x4-upscaling.yaml <模型路径>

系统要求

基础环境

1、PyTorch 1.12.1

2、torchvision 0.13.1

3、transformers 4.19.2

4、diffusers

5、invisible-watermark

性能优化

1、推荐安装xformers库以提高GPU效率

2、支持Intel CPU优化(通过Intel Extension for PyTorch)

重要说明

许可证

1、代码采用MIT许可证

2、模型权重采用CreativeML Open RAIL++-M许可证

责任声明

项目强调模型可能反映训练数据中的偏见,不建议在没有额外安全机制的产品中使用。模型主要用于研究目的。

社区贡献

Stable Diffusion建立在多个开源项目基础上,特别感谢:

1、CompVis和RunwayML的原始实现

2、LAION提供的大规模数据集

3、OpenAI的ADM代码库

4、Hugging Face的模型托管支持

引用

@misc{rombach2021highresolution,
      title={High-Resolution Image Synthesis with Latent Diffusion Models}, 
      author={Robin Rombach and Andreas Blattmann and Dominik Lorenz and Patrick Esser and Björn Ommer},
      year={2021},
      eprint={2112.10752},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Stable Diffusion代表了文本到图像生成技术的重要进展,为创作者和研究人员提供了强大的图像生成工具,同时保持了开源和可访问的特性。

本文由人工编写,AI优化,转载请注明原文地址: Stable Diffusion完整使用指南:从安装到AI绘画实战教程

评论 (2)

登录后发表评论
林小兔2025-11-25 18:25:58
教程太实用了!特别是整理好的项目地址和模型下载链接,省去了我到处找资源的时间。请问对于新手来说,从哪个模型开始练习生成效果会比较好?
超腾开源2025-11-25 19:57:10
可以试试GhostMix、Counterfeit、ChilloutMix。