What are Stable Diffusion models used for?

Stable Diffusion models generate images from text prompts for concept art, product mockups, portraits, marketing assets, and more. They’re flexible, run locally or in the cloud, and support add-ons like LoRA and ControlNet.

Which Stable Diffusion model should I choose: SD 1.5, SD 2.1, or SDXL?

Pick SDXL for the best open-source fidelity and realism, especially for products and portraits. Choose SD 1.5 for stylized or anime art due to its vast LoRA ecosystem; SD 2.1 is a middle ground with cleaner conditioning.

How do I get consistent results from Stable Diffusion models?

Use a fixed seed, moderate CFG (often 5–7 for SDXL), and change one setting at a time. ControlNet ensures structure, while LoRAs add style without retraining the entire model.

What is the difference between LoRA and ControlNet in Stable Diffusion?

LoRA teaches a base model new styles or subjects via a lightweight adapter, while ControlNet provides structural guidance like pose, depth, or edges. Use them together for accurate and stylish outputs.

How can I improve image quality from Stable Diffusion?

Increase resolution thoughtfully (1.5×–2× per pass), use SDXL’s Refiner at low denoise, and inpaint problem areas. Keep prompts concise, balance lighting terms, and test a few samplers such as DPM++ 2M.

什么是 Stable Diffusion 模型？文本到图像 AI 的实用现代指南

大胆飞跃：你的文字现在可以描绘图像了

想象一下，你输入“一只水彩狐狸在下雨的小巷里，在灯笼下阅读”，然后眼睁睁地看着一幅生动的插图在几秒钟内实现。这就是 Stable Diffusion 模型每天都在上演的奇迹——开放、灵活的文本到图像系统，为从营销模型到独立游戏资产的一切提供支持。但是，它们是如何工作的？你应该使用哪些模型？以及如何在没有超级计算机的情况下获得专业级的结果？

本指南用简单的语言分解 Stable Diffusion 模型。我们将介绍生态系统，如何选择正确的 checkpoint，何时使用 LoRA 与 ControlNet，以及实现一致、高质量生成的实际步骤。

什么是 Stable Diffusion 模型？

从核心上讲，Stable Diffusion 是一种扩散模型，经过训练可以将噪声转换为基于文本提示的图像。它是“潜在的”，因为它在压缩图像空间中运行，使其速度快且相对轻量。

模型以“checkpoint”（主要大脑）的形式出现，并且可以使用较小的适配器（如 LoRA 和 Textual Inversions）进行扩展，以实现风格或主题控制。

该系列包括 SD 1.x（经典的开放生态系统）、SD 2.x（具有不同文本编码器的新架构）和 SDXL（更高的保真度，更好的构图和细节）。

重要原因：Stable Diffusion 模型对本地友好、可定制且由社区驱动。你可以在单个 GPU 或云上运行它们，微调样式，并为特定任务换入适配器。

Stable Diffusion 生态系统一览（问题引导）

我应该考虑哪些基础模型？

SD 1.5：社区主力。拥有大量的 LoRA/Textual Inversion 支持；非常适合风格化的艺术、概念设计、动漫和插图。

SD 2.1：更简洁的架构和深度/边缘条件改进，但与 1.5 相比，适配器库更小。

SDXL (Base + Refiner)：开放世界中最好的保真度。更连贯的人物、排版和光照。非常适合产品拍摄、海报、逼真的场景和可升级输出。

什么是流行的衍生品和专用 checkpoint？

Realistic Vision / DreamShaper (1.5 系列)：平衡的真实感和风格；适用于肖像和通用。

Juggernaut / Photon (SDXL 系列)：SDXL 中具有高细节和照片真实感。

动漫模型（Anything, AOM, Counterfeit）：与动漫/漫画对齐的风格化输出。

Inpainting 模型：专门用于编辑图像的某些部分，并实现无缝融合。

适配器呢？

LoRA：小型附加组件，无需完全重新训练即可教基础模型一种新的风格、角色或产品外观。

ControlNet：结构指导（姿势、深度、边缘、涂鸦）。确保布局准确性——考虑产品角度、建筑和一致的姿势。

Textual Inversion（embeddings）：代表学习概念的 Prompt 令牌（例如，特定徽标或艺术主题）。

Stable Diffusion 模型实际上是如何生成图像的（简单过程）

从噪声开始：模型从潜在空间中的随机噪声开始。

引导去噪：经过 20-50 个步骤，它会根据你的 prompt 指导，朝着图像的方向去噪。

条件：你的文本 prompt（通过文本编码器）引导去噪；ControlNet 或图像 prompt 提供结构。

解码：最终的潜在空间被解码为全分辨率图像。

你可以通过以下方式控制该过程：

引导比例 (CFG)：值越高，越严格地遵循 prompt；太高可能会显得过度。典型范围：SDXL 为 3-9，1.5 为 5-12。

采样器和步骤：DPM++ 2M 和 Euler a 很受欢迎。通常 20-35 步就足够了；SDXL 通常在 ~25 步时看起来很棒。

种子：种子固定噪声起点。相同的种子 + 相同的设置 = 可重现的结果。

为你的目标选择正确的 Stable Diffusion 模型（列表文章）

超逼真肖像：SDXL + 以真实感为中心的 checkpoint（例如，Juggernaut），如果需要，还可以使用具有肤色感知的 LoRA。

风格化的概念艺术：SD 1.5 + DreamShaper 或特定的艺术风格 LoRA；以 768×768 开始以获得更多细节。

营销/产品图片：SDXL Base + ControlNet-Depth，用于获得准确的产品几何形状；添加一个 Refiner pass，在 0.2-0.4 denoise 时获得清晰的完成效果。

动漫和角色艺术：基于 1.5 的动漫 checkpoint（Anything, AOM）+ 姿势 ControlNet，用于获得动态构图。

建筑室内设计：SDXL + ControlNet-Edge/Lineart；考虑使用平铺放大以获得适合打印的分辨率。

文本和 UI 模型：SDXL 在可读的伪文本方面表现更好；对于真实文本，在外部组成布局并进行 inpaint。

始终有效的 Prompt（带示例）

强大的 Prompt 是具体且分层的。使用角色 + 主题 + 场景 + 风格 + 光照 + 镜头。

照片级产品：“一个陶瓷手冲咖啡滴滤器在胡桃木台面上的工作室照片，柔和的晨光，85mm 镜头，浅景深，SDXL，高细节，产品展示。”

社论肖像：“阳光明媚的共享办公空间中软件工程师的坦率肖像，自然的皮肤纹理，柔和的轮廓光，柯达 Portra 400 美学，SDXL 真实感。”

概念艺术：“黄昏时分的古代沙漠城市，砂岩拱门，漂浮的灯笼，引人注目的比例，如画的笔触，电影般的氛围，体积雾，32 位颜色，SD 1.5 DreamShaper。”

动漫角色：“霓虹灯雨巷中的女主角，反光的积水，动态姿势，动作线条，鲜艳的调色板，动漫线条，1.5 Anything v4。”

使用否定 Prompt 来避免缺陷：“糟糕的解剖结构，多余的手指，模糊，水印，变形的文本，低对比度。”保持否定集中——太多可能会相互冲突。

使用 ControlNet 进行控制和一致性（实用且直接）

姿势 (OpenPose)：从参考照片复制身体姿势——非常适合一致性至关重要的广告系列。

深度：在探索材料和风格的同时，保留产品或建筑的 3D 结构。

Canny/Lineart：维护徽标、包装或 UI 框架的边缘；非常适合品牌准确的迭代。

Scribble：草绘一个布局，让模型填充细节——快速构思故事板。

工作流程提示：从 ControlNet 开始构建结构，然后迭代 Prompt 和 LoRA 来调整风格。锁定种子以进行 A/B 测试；一次只更改一个变量。

LoRA 与完全微调与 Textual Inversion（优点和缺点）

LoRA：

优点：轻量级，训练速度快，可堆叠。非常适合添加风格/角色。

缺点：可能会过度拟合或与其他 LoRA 冲突；需要 Prompt 规范。

完全微调（DreamBooth、SDXL 训练）：

优点：深度控制，最适合专有产品目录或品牌风格指南。

缺点：成本高昂，速度较慢，难以在模型升级中保持。

Textual Inversion：

优点：体积小，易于共享，适合抽象主题或调色板。

缺点：不如 LoRA 具有表现力；在基础模型中可能很脆弱。

决策规则：从强大的基础（通常是 SDXL）开始，添加 LoRA 来调整风格，只有在需要企业级一致性时才进行完全微调。

分辨率、放大和 SDXL Refiner

原生画布：

SD 1.5：512×512 默认值；放大或使用 hires fix 获得更大的输出。

SDXL：1024×1024 原生；提供更清晰的细节和文本处理。

放大选项：潜在的放大器、ESRGAN 变体和专用的 SDXL 放大器。每次 pass 放大 1.5 倍-2 倍，以避免伪影。

Refiner (SDXL)：一个辅助模型，用于抛光中/高频细节。在 Base 之后，以 0.2-0.4 denoise 使用 SDXL Refiner 以获得有光泽的结果。

常见错误——以及如何修复它们（故障排除）

过高的 CFG：刺眼的对比度和塑料皮肤。解决方案：降低到 3-7 (SDXL) 或 5-9 (1.5) 并重新平衡光照。

太多的 LoRA：风格冲突和混乱。解决方案：以适中的权重使用 1-2 个；首先单独测试。

每次都使用随机种子：输出不一致。解决方案：在拨入 Prompt 时固定种子；之后随机化。

过于详细的 Prompt：相互冲突的说明。解决方案：保留核心描述并添加 3-5 个风格提示。

涂抹的文本：使用参考进行 inpaint 文本区域；考虑在模型外部合成文本。

道德使用、许可和安全

源数据问题：社区模型可能会从广泛的 Web 数据中学习。对于商业工作，请检查模型许可证和你所在组织的政策。

隐私：未经同意，避免在专有或个人图像上进行训练。

安全过滤器：许多 UI 都包含内容过滤器；负责任地配置，尤其是在团队设置中。

你可以复制的实用、循序渐进的工作流程

选择基础：SDXL Base 用于真实感；1.5 用于风格化/动漫。

准备 Prompt：编写清晰的 1-2 句话 Prompt，外加一个简短的否定列表。

设置参数：1024×1024 (SDXL) 或 768×768 (1.5)，步骤 ~25，CFG 5-7 (SDXL) 或 7-9 (1.5)。

如果结构很重要，请添加 ControlNet（姿势/深度/边缘）。

使用固定种子进行测试；生成 4-8 个变体进行比较。

选择一个最喜欢的，然后进行细化：调整光照形容词，调整 LoRA 权重或切换采样器。

放大 1.5 倍-2 倍；对于 SDXL，以 0.2-0.3 denoise 运行 Refiner。

最后润色：Inpaint 问题区域（手、文本、小物体）并导出。

工具以及 Sider.AI 的作用

值得注意的是：如果你从事研究、Prompt 和迭代工作，那么统一的工作区会有所帮助。像 Sider.AI 这样的工具可以简化 Prompt 版本控制，并排比较生成结果，并存储预设（基础模型 + LoRA + ControlNet 堆栈）。这样可以节省时间并减少“神秘设置”。如果进行协作，请寻找共享 Prompt 库、运行历史记录和固定种子等功能，以便团队成员可以完全重现结果。

主要收获

Stable Diffusion 模型是灵活的、对本地友好的，并且可以高度定制用于文本到图像。

SDXL 提供当今最好的开放模型保真度；1.5 在风格化艺术和社区 LoRA 方面仍然表现出色。

ControlNet 保证结构；LoRA 注入风格。从简单开始，根据需要添加控制。

一致性来自固定种子、适度的 CFG 和增量变化。

对于生产，记录设置并使用捕获版本和参数的工作区。

下一步是什么？

尝试 SDXL 进行照片级拍摄：通过 ControlNet-Depth 创建一小组具有受控角度的产品图片。

构建风格 LoRA：在 20-50 张精心挑选的图像上进行微调，以编码你的品牌外观。

创建一个可重现的管道：锁定种子，编写简短的 Prompt 模板，并跟踪每个可交付成果的设置。

常见问题解答

Q1：Stable Diffusion 模型用于什么？ Stable Diffusion 模型从文本 Prompt 生成图像，用于概念艺术、产品模型、肖像、营销资产等。它们很灵活，可以在本地或云端运行，并支持 LoRA 和 ControlNet 等附加组件。

Q2：我应该选择哪个 Stable Diffusion 模型：SD 1.5、SD 2.1 还是 SDXL？选择 SDXL 以获得最佳的开源保真度和真实感，尤其是在产品和肖像方面。由于其庞大的 LoRA 生态系统，请选择 SD 1.5 用于风格化或动漫艺术；SD 2.1 是一个具有更清晰条件的中间地带。

Q3：如何从 Stable Diffusion 模型中获得一致的结果？使用固定种子，适度的 CFG（SDXL 通常为 5-7），并且一次更改一个设置。ControlNet 确保结构，而 LoRA 添加风格而无需重新训练整个模型。

Q4：Stable Diffusion 中 LoRA 和 ControlNet 有什么区别？ LoRA 通过轻量级适配器教导基础模型新的风格或主题，而 ControlNet 提供结构指导，例如姿势、深度或边缘。将它们一起使用可以获得准确且时尚的输出。

Q5：如何提高 Stable Diffusion 的图像质量？周到地提高分辨率（每次 pass 1.5 倍-2 倍），在低 denoise 下使用 SDXL 的 Refiner，并 inpaint 问题区域。保持 Prompt 简洁，平衡光照术语，并测试一些采样器，例如 DPM++ 2M。