大胆飞跃:你的文字现在可以描绘图像了
想象一下,你输入“一只水彩狐狸在下雨的小巷里,在灯笼下阅读”,然后眼睁睁地看着一幅生动的插图在几秒钟内实现。这就是 Stable Diffusion 模型每天都在上演的奇迹——开放、灵活的文本到图像系统,为从营销模型到独立游戏资产的一切提供支持。但是,它们是如何工作的?你应该使用哪些模型?以及如何在没有超级计算机的情况下获得专业级的结果?
本指南用简单的语言分解 Stable Diffusion 模型。我们将介绍生态系统,如何选择正确的 checkpoint,何时使用 LoRA 与 ControlNet,以及实现一致、高质量生成的实际步骤。
什么是 Stable Diffusion 模型?
- 从核心上讲,Stable Diffusion 是一种扩散模型,经过训练可以将噪声转换为基于文本提示的图像。它是“潜在的”,因为它在压缩图像空间中运行,使其速度快且相对轻量。
- 模型以“checkpoint”(主要大脑)的形式出现,并且可以使用较小的适配器(如 LoRA 和 Textual Inversions)进行扩展,以实现风格或主题控制。
- 该系列包括 SD 1.x(经典的开放生态系统)、SD 2.x(具有不同文本编码器的新架构)和 SDXL(更高的保真度,更好的构图和细节)。
重要原因:Stable Diffusion 模型对本地友好、可定制且由社区驱动。你可以在单个 GPU 或云上运行它们,微调样式,并为特定任务换入适配器。
Stable Diffusion 生态系统一览(问题引导)
我应该考虑哪些基础模型?
- SD 1.5:社区主力。拥有大量的 LoRA/Textual Inversion 支持;非常适合风格化的艺术、概念设计、动漫和插图。
- SD 2.1:更简洁的架构和深度/边缘条件改进,但与 1.5 相比,适配器库更小。
- SDXL (Base + Refiner):开放世界中最好的保真度。更连贯的人物、排版和光照。非常适合产品拍摄、海报、逼真的场景和可升级输出。
什么是流行的衍生品和专用 checkpoint?
- Realistic Vision / DreamShaper (1.5 系列):平衡的真实感和风格;适用于肖像和通用。
- Juggernaut / Photon (SDXL 系列):SDXL 中具有高细节和照片真实感。
- 动漫模型(Anything, AOM, Counterfeit):与动漫/漫画对齐的风格化输出。
- Inpainting 模型:专门用于编辑图像的某些部分,并实现无缝融合。
适配器呢?
- LoRA:小型附加组件,无需完全重新训练即可教基础模型一种新的风格、角色或产品外观。
- ControlNet:结构指导(姿势、深度、边缘、涂鸦)。确保布局准确性——考虑产品角度、建筑和一致的姿势。
- Textual Inversion(embeddings):代表学习概念的 Prompt 令牌(例如,特定徽标或艺术主题)。
Stable Diffusion 模型实际上是如何生成图像的(简单过程)
- 引导去噪:经过 20-50 个步骤,它会根据你的 prompt 指导,朝着图像的方向去噪。
- 条件:你的文本 prompt(通过文本编码器)引导去噪;ControlNet 或图像 prompt 提供结构。
你可以通过以下方式控制该过程:
- 引导比例 (CFG):值越高,越严格地遵循 prompt;太高可能会显得过度。典型范围:SDXL 为 3-9,1.5 为 5-12。
- 采样器和步骤:DPM++ 2M 和 Euler a 很受欢迎。通常 20-35 步就足够了;SDXL 通常在 ~25 步时看起来很棒。
- 种子:种子固定噪声起点。相同的种子 + 相同的设置 = 可重现的结果。
为你的目标选择正确的 Stable Diffusion 模型(列表文章)
- 超逼真肖像:SDXL + 以真实感为中心的 checkpoint(例如,Juggernaut),如果需要,还可以使用具有肤色感知的 LoRA。
- 风格化的概念艺术:SD 1.5 + DreamShaper 或特定的艺术风格 LoRA;以 768×768 开始以获得更多细节。
- 营销/产品图片:SDXL Base + ControlNet-Depth,用于获得准确的产品几何形状;添加一个 Refiner pass,在 0.2-0.4 denoise 时获得清晰的完成效果。
- 动漫和角色艺术:基于 1.5 的动漫 checkpoint(Anything, AOM)+ 姿势 ControlNet,用于获得动态构图。
- 建筑室内设计:SDXL + ControlNet-Edge/Lineart;考虑使用平铺放大以获得适合打印的分辨率。
- 文本和 UI 模型:SDXL 在可读的伪文本方面表现更好;对于真实文本,在外部组成布局并进行 inpaint。
始终有效的 Prompt(带示例)
强大的 Prompt 是具体且分层的。使用角色 + 主题 + 场景 + 风格 + 光照 + 镜头。
- 照片级产品:“一个陶瓷手冲咖啡滴滤器在胡桃木台面上的工作室照片,柔和的晨光,85mm 镜头,浅景深,SDXL,高细节,产品展示。”
- 社论肖像:“阳光明媚的共享办公空间中软件工程师的坦率肖像,自然的皮肤纹理,柔和的轮廓光,柯达 Portra 400 美学,SDXL 真实感。”
- 概念艺术:“黄昏时分的古代沙漠城市,砂岩拱门,漂浮的灯笼,引人注目的比例,如画的笔触,电影般的氛围,体积雾,32 位颜色,SD 1.5 DreamShaper。”
- 动漫角色:“霓虹灯雨巷中的女主角,反光的积水,动态姿势,动作线条,鲜艳的调色板,动漫线条,1.5 Anything v4。”
使用否定 Prompt 来避免缺陷:“糟糕的解剖结构,多余的手指,模糊,水印,变形的文本,低对比度。”保持否定集中——太多可能会相互冲突。
使用 ControlNet 进行控制和一致性(实用且直接)
- 姿势 (OpenPose):从参考照片复制身体姿势——非常适合一致性至关重要的广告系列。
- 深度:在探索材料和风格的同时,保留产品或建筑的 3D 结构。
- Canny/Lineart:维护徽标、包装或 UI 框架的边缘;非常适合品牌准确的迭代。
- Scribble:草绘一个布局,让模型填充细节——快速构思故事板。
工作流程提示:从 ControlNet 开始构建结构,然后迭代 Prompt 和 LoRA 来调整风格。锁定种子以进行 A/B 测试;一次只更改一个变量。
LoRA 与完全微调与 Textual Inversion(优点和缺点)
- 优点:轻量级,训练速度快,可堆叠。非常适合添加风格/角色。
- 缺点:可能会过度拟合或与其他 LoRA 冲突;需要 Prompt 规范。
- 完全微调(DreamBooth、SDXL 训练):
- 优点:深度控制,最适合专有产品目录或品牌风格指南。
- 缺点:不如 LoRA 具有表现力;在基础模型中可能很脆弱。
决策规则:从强大的基础(通常是 SDXL)开始,添加 LoRA 来调整风格,只有在需要企业级一致性时才进行完全微调。
分辨率、放大和 SDXL Refiner
- SD 1.5:512×512 默认值;放大或使用 hires fix 获得更大的输出。
- SDXL:1024×1024 原生;提供更清晰的细节和文本处理。
- 放大选项:潜在的放大器、ESRGAN 变体和专用的 SDXL 放大器。每次 pass 放大 1.5 倍-2 倍,以避免伪影。
- Refiner (SDXL):一个辅助模型,用于抛光中/高频细节。在 Base 之后,以 0.2-0.4 denoise 使用 SDXL Refiner 以获得有光泽的结果。
常见错误——以及如何修复它们(故障排除)
- 过高的 CFG:刺眼的对比度和塑料皮肤。解决方案:降低到 3-7 (SDXL) 或 5-9 (1.5) 并重新平衡光照。
- 太多的 LoRA:风格冲突和混乱。解决方案:以适中的权重使用 1-2 个;首先单独测试。
- 每次都使用随机种子:输出不一致。解决方案:在拨入 Prompt 时固定种子;之后随机化。
- 过于详细的 Prompt:相互冲突的说明。解决方案:保留核心描述并添加 3-5 个风格提示。
- 涂抹的文本:使用参考进行 inpaint 文本区域;考虑在模型外部合成文本。
道德使用、许可和安全
- 源数据问题:社区模型可能会从广泛的 Web 数据中学习。对于商业工作,请检查模型许可证和你所在组织的政策。
- 安全过滤器:许多 UI 都包含内容过滤器;负责任地配置,尤其是在团队设置中。
你可以复制的实用、循序渐进的工作流程
- 选择基础:SDXL Base 用于真实感;1.5 用于风格化/动漫。
- 准备 Prompt:编写清晰的 1-2 句话 Prompt,外加一个简短的否定列表。
- 设置参数:1024×1024 (SDXL) 或 768×768 (1.5),步骤 ~25,CFG 5-7 (SDXL) 或 7-9 (1.5)。
- 如果结构很重要,请添加 ControlNet(姿势/深度/边缘)。
- 使用固定种子进行测试;生成 4-8 个变体进行比较。
- 选择一个最喜欢的,然后进行细化:调整光照形容词,调整 LoRA 权重或切换采样器。
- 放大 1.5 倍-2 倍;对于 SDXL,以 0.2-0.3 denoise 运行 Refiner。
- 最后润色:Inpaint 问题区域(手、文本、小物体)并导出。
值得注意的是:如果你从事研究、Prompt 和迭代工作,那么统一的工作区会有所帮助。像 Sider.AI 这样的工具可以简化 Prompt 版本控制,并排比较生成结果,并存储预设(基础模型 + LoRA + ControlNet 堆栈)。这样可以节省时间并减少“神秘设置”。如果进行协作,请寻找共享 Prompt 库、运行历史记录和固定种子等功能,以便团队成员可以完全重现结果。 主要收获
- Stable Diffusion 模型是灵活的、对本地友好的,并且可以高度定制用于文本到图像。
- SDXL 提供当今最好的开放模型保真度;1.5 在风格化艺术和社区 LoRA 方面仍然表现出色。
- ControlNet 保证结构;LoRA 注入风格。从简单开始,根据需要添加控制。
下一步是什么?
- 尝试 SDXL 进行照片级拍摄:通过 ControlNet-Depth 创建一小组具有受控角度的产品图片。
- 构建风格 LoRA:在 20-50 张精心挑选的图像上进行微调,以编码你的品牌外观。
- 创建一个可重现的管道:锁定种子,编写简短的 Prompt 模板,并跟踪每个可交付成果的设置。
常见问题解答
Q1:Stable Diffusion 模型用于什么?
Stable Diffusion 模型从文本 Prompt 生成图像,用于概念艺术、产品模型、肖像、营销资产等。它们很灵活,可以在本地或云端运行,并支持 LoRA 和 ControlNet 等附加组件。
Q2:我应该选择哪个 Stable Diffusion 模型:SD 1.5、SD 2.1 还是 SDXL?
选择 SDXL 以获得最佳的开源保真度和真实感,尤其是在产品和肖像方面。由于其庞大的 LoRA 生态系统,请选择 SD 1.5 用于风格化或动漫艺术;SD 2.1 是一个具有更清晰条件的中间地带。
Q3:如何从 Stable Diffusion 模型中获得一致的结果?
使用固定种子,适度的 CFG(SDXL 通常为 5-7),并且一次更改一个设置。ControlNet 确保结构,而 LoRA 添加风格而无需重新训练整个模型。
Q4:Stable Diffusion 中 LoRA 和 ControlNet 有什么区别?
LoRA 通过轻量级适配器教导基础模型新的风格或主题,而 ControlNet 提供结构指导,例如姿势、深度或边缘。将它们一起使用可以获得准确且时尚的输出。
Q5:如何提高 Stable Diffusion 的图像质量?
周到地提高分辨率(每次 pass 1.5 倍-2 倍),在低 denoise 下使用 SDXL 的 Refiner,并 inpaint 问题区域。保持 Prompt 简洁,平衡光照术语,并测试一些采样器,例如 DPM++ 2M。