What are diffusion models in AI art generation?

Diffusion models learn to reverse a noising process, turning random noise into images that match your prompt. By denoising step by step with learned guidance, they create detailed, coherent art.

How do text prompts guide diffusion models?

A text encoder turns your prompt into embeddings that steer denoising at every step. With classifier-free guidance, you control how strongly the image adheres to your prompt.

Why use latent diffusion instead of pixel diffusion?

Latent diffusion operates in a compressed space, making generation far faster and more memory-efficient while maintaining high quality. It enables higher resolutions and practical editing workflows.

Which sampler is best for AI art with diffusion models?

It depends on your goals: DDIM for speed, Euler a for textured detail, and DPM++ variants for sharpness and stability. Try 25–40 steps with DPM++ as a strong starting point.

How can I fix common diffusion artifacts like extra fingers?

Use negative prompts (e.g., 'extra fingers, deformed hands'), lower guidance scale slightly, increase steps, or apply a refiner model. ControlNet with pose guidance also improves anatomy.

جادوی پشت پیکسل‌ها: توضیح مدل‌های انتشار برای تولید هنر هوش مصنوعی

چه چیزی باعث می‌شود مدل‌های انتشار جادویی به نظر برسند؟

یک بوم خال‌خالیِ منفرد از نویز به‌آرامی به یک پرتره فوتورئالیستی، یک منظره شهری آبرنگی یا یک روباه نئون-سایبرپانک تغییر شکل می‌دهد. اگر شاهد شکوفایی هنر هوش مصنوعی از تاری استاتیک به تصاویر دقیق بوده‌اید، مدل‌های انتشار را در عمل دیده‌اید. در این بررسی عمیق، ما توضیح خواهیم داد که چگونه مدل‌های انتشار برای تولید هنر هوش مصنوعی کار می‌کنند، چرا از روش‌های قبلی بهتر عمل می‌کنند و چگونه می‌توانید مانند یک مدیر خلاق آن‌ها را هدایت کنید—بدون نیاز به مدرک دکترا.

ما لحن را عملی و راه‌حل‌محور نگه خواهیم داشت: توضیحات واضح، مثال‌های واقعی و نکات عملی برای به دست آوردن نتایج بهتر از سیستم‌های انتشار مدرن.

از مدل‌های انتشار برای تولید هنر هوش مصنوعی توضیح داده شد

مدل‌های انتشار، نویز تصادفی را با معکوس کردن یک فرایند نویزدهی، گام‌به‌گام، به تصاویر منسجم تبدیل می‌کنند.

آن‌ها از طریق مجموعه‌داده‌های عظیم و راهنمایی (مانند اعلان‌های متنی) که تصویر را به سمت هدف شما هدایت می‌کنند، نویززدایی را یاد می‌گیرند.

مواد اصلی: انتشار رو به جلو (اضافه کردن نویز)، فرایند معکوس (حذف نویز)، یک نویزگیر U-Net، برنامه‌های زمانی نویز و مقیاس‌های راهنمایی.

انواع جدیدتر (انتشار نهفته، مدل‌های سازگاری، جریان‌های اصلاح‌شده و انتشار ویدیو) تولید را سریع‌تر، واضح‌تر و قابل کنترل‌تر می‌کنند.

بردهای عملی: ساختار اعلان اصلی، مقیاس راهنمایی، مراحل، seedها و شرطی‌سازی مرجع (تصویر، طرح‌بندی، سبک) را مسلط شوید.

ایده بزرگ: یاد بگیرید که واقعیت را از حالت نویزی خارج کنید

در هسته اصلی مدل‌های انتشار که برای تولید هنر هوش مصنوعی توضیح داده شده‌اند، یک حلقه شگفت‌آور ساده وجود دارد:

فرایند رو به جلو: یک تصویر واقعی را بگیرید و به‌تدریج نویز گاوسی را در طی مراحل زیادی اضافه کنید تا به نویز خالص تبدیل شود.

فرایند معکوس: یک شبکه عصبی را آموزش دهید تا آن نویز را حذف کند، یک مرحله در یک زمان، تا زمانی که یک تصویر تمیز را بازسازی کند.

در طول آموزش، مدل به‌طور مکرر هم تصویر تمیز و هم نسخه نویزی آن را می‌بیند و یاد می‌گیرد که خود نویز (یا تصویر تمیز) را پیش‌بینی کند. پس از آموزش، می‌توانید از نویز خالص شروع کنید و فرایند معکوس را اجرا کنید تا یک تصویر کاملاً جدید ایجاد کنید که با اعلان شما مطابقت داشته باشد.

چرا این‌قدر خوب کار می‌کند: پیش‌بینی نویز آسان‌تر و پایدارتر از پیش‌بینی مستقیم پیکسل‌ها است و پالایش چندمرحله‌ای جزئیات غنی و انسجام جهانی ایجاد می‌کند.

آناتومی یک مدل انتشار (بدون سردرد ریاضی)

بیایید مدل‌های انتشار را که برای تولید هنر هوش مصنوعی توضیح داده شده‌اند، با اجزای اصلی باز کنیم:

برنامه زمانی نویز: یک جدول زمانی که تصمیم می‌گیرد چه مقدار نویز در هر مرحله در آموزش اضافه شود—و در طول تولید حذف شود. برنامه‌های زمانی رایج شامل خطی یا کسینوسی است. آن‌ها وضوح، جزئیات و پایداری را شکل می‌دهند.

ستون فقرات نویزگیر (اغلب U-Net): یک شبکه عصبی کانولوشنال با اتصالات پرشی که نویز را در هر مرحله تخمین می‌زند. U-Netها در حفظ ساختار در حین تیز کردن جزئیات عالی هستند.

تعبیه زمان: مدل باید بداند در کدام مرحله است. تعبیه‌های سینوسی یا آموخته‌شده آن اطلاعات «زمان» را وارد می‌کنند.

شرطی‌سازی: سس مخفی. متن (از طریق رمزگذارهای شبیه CLIP)، مراجع تصویر، تعبیه‌های سبک، نقشه‌های طرح‌بندی یا حتی نقشه‌های عمق/لبه، نویزگیر را به سمت آنچه می‌خواهید هدایت می‌کنند.

نمونه‌بردار: الگوریتمی که فرایند معکوس را اجرا می‌کند (به عنوان مثال، DDPM، DDIM، PLMS، Euler، DPM++). نمونه‌بردارهای مختلف سرعت، وضوح و واقع‌گرایی را تغییر می‌دهند.

از پیکسل‌ها به حالت‌های نهفته: چرا Stable Diffusion این‌قدر سریع است

مدل‌های انتشار اولیه مستقیماً روی فضای پیکسل کار می‌کردند—نتایج زیبا، اما کند. مدل‌های انتشار نهفته (LDMها) تصاویر را با استفاده از یک Autoencoder Variational (VAE) به یک فضای نهفته کوچک‌تر و آموخته‌شده فشرده می‌کنند. انتشار در این فضای فشرده اتفاق می‌افتد، سپس یک رمزگشا دوباره به وضوح کامل نمونه‌برداری می‌کند.

مزایایی که می‌توانید احساس کنید:

10–50 برابر سرعت بیشتر در مقابل انتشار فضای پیکسل.

وضوح بالاتر بدون محاسبات نمایی.

انتقال سبک و ویرایش‌های تصویر عملی‌تر می‌شوند.

این ستون فقرات ابزارهای محبوب هنر هوش مصنوعی است، جایی که مدل‌های انتشار که برای تولید هنر هوش مصنوعی توضیح داده شده‌اند، اغلب به این معنی است: «انتشار نهفته شرطی متنی با یک رمزگذار متن قوی».

متن به تصویر: چگونه کلمات شما نویز را هدایت می‌کنند

شرطی‌سازی متن، کلمات را به بردارهایی تبدیل می‌کند که جهت نویززدایی را در هر مرحله تغییر می‌دهند. در عمل:

یک رمزگذار متن (به عنوان مثال، CLIP، T5) «یک خط آسمان آبرنگی در هنگام غروب، رنگ‌های پاستلی، نورپردازی ملایم» را به تعبیه‌ها تبدیل می‌کند.

مدل انتشار در کنار نویز نهفته به این تعبیه‌ها توجه می‌کند.

یک تکنیک راهنمایی (مانند راهنمایی بدون طبقه‌بندی) تأثیر متن را نسبت به تصویر «غیر شرطی» قبلی تقویت می‌کند.

تنظیم متن به تصویر یک هنر است:

مقیاس راهنمایی: مقادیر بالاتر تصویر را به اعلان شما نزدیک‌تر می‌کند (واقعی‌تر)، اما خیلی زیاد می‌تواند باعث ایجاد مصنوعات یا اشباع بیش از حد شود. سعی کنید از 5 تا 9 شروع کنید.

مراحل: مراحل بیشتر اغلب نتایج صاف‌تر و دقیق‌تری ایجاد می‌کند. 20–40 یک نقطه شیرین برای بسیاری از نمونه‌بردارها است.

اعلان‌های منفی: به مدل بگویید از چه چیزهایی اجتناب کند («تار»، «انگشتان اضافی»، «کنتراست پایین»)—برای صیقل دادن خروجی‌ها بسیار مؤثر است.

تصویر به تصویر، نقاشی داخلی و کنترل: فراتر از متن خالص

مدل‌های انتشار که برای تولید هنر هوش مصنوعی توضیح داده شده‌اند، فقط در مورد اعلان‌های متنی نیستند. شما می‌توانید ساختار، ترکیب و سبک را با موارد زیر راهنمایی کنید:

تصویر به تصویر: یک تصویر منبع به همراه یک اعلان ارائه دهید. یک پارامتر قدرت میزان انحراف خروجی از منبع را کنترل می‌کند.

نقاشی داخلی: یک ناحیه را برای تغییر ماسک کنید. مدل فقط آن ناحیه را پر می‌کند و با زمینه ترکیب می‌شود تا ویرایش‌های یکپارچه انجام شود (به حذف شی یا تغییر لباس فکر کنید).

ControlNetها: شبکه‌های اضافی که فرایند انتشار را بر اساس لبه‌ها، ژست، عمق یا تقسیم‌بندی شرطی می‌کنند و کنترل سطح پیکسل را بر طرح‌بندی و ژست می‌دهند.

LoRA/Embeddings: آداپتورهای سبک‌وزن یا توکن‌های آموخته‌شده که سبک‌ها یا کاراکترهای جدید را بدون آموزش مجدد مدل کامل وارد می‌کنند.

رمزگشایی نمونه‌بردارها: چرا تصاویر شما با Euler یا DPM++ متفاوت به نظر می‌رسند

نمونه‌بردارها مسیر انتشار معکوس را کنترل می‌کنند. آن‌ها را به عنوان لنزهای دوربین مختلف برای یک صحنه یکسان در نظر بگیرید:

DDIM: مسیرهای سریع و هموار با مراحل کمتر—یک خط پایه خوب با هدف کلی.

PLMS: چند مرحله‌ای شبه خطی، جزئیات و پایداری را با سرعت متوسط بهبود می‌بخشد.

Euler/Euler a: بافت‌های واضح. «Euler a» تصادفی بودن کنترل‌شده را اضافه می‌کند.

DPM++ (2M/2S/3M): پیشرفته‌ترین برای وضوح و قوام در مراحل کمتر.

نکته عملی: اگر یک تصویر بیش از حد صاف به نظر می‌رسد، Euler a یا DPM++ 2M SDE را امتحان کنید. اگر بیش از حد نویزی است، مراحل را افزایش دهید یا یک نمونه‌بردار قطعی مانند DDIM را امتحان کنید.

Seedها و قابلیت تکرار: تصادفات خوشایند را قابل تکرار کنید

یک seed نویز تصادفی را مقداردهی اولیه می‌کند. seed را نگه دارید تا همان ترکیب را با تغییرات کوچک بازتولید کنید:

همان seed + همان اعلان + همان تنظیمات = نتایج تقریباً یکسان.

seed را تغییر دهید تا ترکیبات مختلف را به سرعت بررسی کنید.

از sweepهای seed برای یافتن طرح‌بندی‌های امیدوارکننده استفاده کنید، سپس مقیاس راهنمایی و مراحل را تنظیم کنید.

چرا انتشار از رویکردهای قدیمی برای هنر بهتر است

GANها (شبکه‌های مولد تخاصمی) سال‌ها استاندارد طلایی بودند، اما از فروپاشی حالت و ناپایداری آموزش رنج می‌بردند. مدل‌های خودرگرسیون (مانند ژنراتورهای تصویر مبتنی بر ترانسفورماتور اولیه) می‌توانند با کیفیت بالا باشند اما کند هستند.

مدل‌های انتشار که برای تولید هنر هوش مصنوعی توضیح داده شده‌اند، مزایای آشکاری را نشان می‌دهند:

پایداری: آموزش ساده‌تر و قوی‌تر از GANها است.

تنوع: مسائل فروپاشی حالت کمتر، امکان سبک‌ها و ترکیبات متنوع.

جزئیات: پالایش چندمرحله‌ای بافت‌های واضح و انسجام جهانی ایجاد می‌کند.

کنترل: روش‌های شرطی‌سازی (متن، تصویر، ControlNetها) جهت‌دهی دقیق را فراهم می‌کنند.

در زیر کاپوت: نگاهی اجمالی به هدف

اکثر مدل‌های انتشار یاد می‌گیرند که نویز ε اضافه شده در هر مرحله t را پیش‌بینی کنند، و شکاف بین نویز پیش‌بینی شده و نویز واقعی را به حداقل می‌رسانند. راهنمایی بدون طبقه‌بندی با اجرای دو بار مدل کار می‌کند—یک بار با اعلان شما و یک بار «غیر شرطی»—و ترکیب خروجی‌ها برای سوق دادن به سمت اعلان شما.

شما برای استفاده خوب از آن‌ها به معادلات نیاز ندارید، اما تشخیص این تنظیم توضیح می‌دهد که چرا مقیاس راهنمایی مهم است: خیلی کم و تصویر منحرف می‌شود. خیلی زیاد و بیش از حد به توکن‌های اعلان متصل می‌شود و مصنوعات را وارد می‌کند.

دفترچه راه عملی: به دست آوردن نتایج بهتر به طور مداوم

در اینجا یک گردش کار آزمایش شده برای تبدیل مدل‌های انتشار که برای تولید هنر هوش مصنوعی توضیح داده شده‌اند، به خروجی‌های قابل اعتماد وجود دارد:

اعلان خود را ساختار دهید

با موضوع شروع کنید: «یک پرتره از یک کاشف نقره‌ای مو»

اصلاح‌کننده‌ها را اضافه کنید: سبک، دوران، نورپردازی، پالت رنگ

رسانه را مشخص کنید: آبرنگ، روغن، فوتورئالیستی، فیلم 35 میلی‌متری

نکات ترکیب را وارد کنید: نمای نزدیک، زاویه باز، قانون یک‌سوم

با برچسب‌های کیفیت به‌طور کم مصرف به پایان برسانید: «تمرکز واضح، جزئیات بالا، رنگ پوست طبیعی»

پارامترهای اصلی را تنظیم کنید

مراحل: 25–40 برای تعادل سرعت/کیفیت؛ 60+ برای صحنه‌های پیچیده

مقیاس راهنمایی: 5–9 معمولی. 3–12 را برای یادگیری مرزها بررسی کنید

وضوح: از 512–768 در لبه کوتاه شروع کنید. در صورت نیاز با upscalerهای با کیفیت بالا، نمونه‌برداری کنید

نمونه‌بردار: DDIM را برای سرعت، DPM++ را برای وضوح، Euler a را برای بافت امتحان کنید

اعلان‌های منفی را مسلط شوید

منفی‌های رایج: «وضوح پایین، تار، مصنوعات jpeg، انگشتان اضافی، دست‌های تغییر شکل یافته، علامت تجاری، متن»

منفی‌های خاص صحنه: «مه آلود، سایه‌های تند، رنگ‌های شسته شده»

از مراجع استفاده کنید

تصویر به تصویر با قدرت 0.25–0.6 برای حفظ ساختار اما تکامل سبک

ControlNet با لبه‌های Canny یا نقشه‌های عمق برای طرح‌بندی سازگار در یک سری

با seedها تکرار کنید

هنگامی که ترکیب را دوست دارید، یک seed را قفل کنید. راهنمایی و مراحل را برای صیقل دادن تغییر دهید

دسته‌های تغییرات را انجام دهید: seed ثابت، لرزش تصادفی نویز کوچک

پس از پردازش هوشمندانه

از یک VAE قوی یا upscaler خارجی (نهفته یا مبتنی بر انتشار) برای حفظ جزئیات استفاده کنید

رنگ‌بندی روشن یا نویززدایی در یک ویرایشگر عکس برای درخشش نهایی

فرمان پیشرفته: سبک، شخصیت‌ها و صحنه‌ها به صورت تکراری

کتابخانه‌های LoRA: LoRAهای سبک را با وزن‌های کم (0.4–0.8) برای تأثیر ظریف وصل کنید. دو مورد را به جای یک مورد سنگین به‌آرامی روی هم قرار دهید تا تعادل بهتری داشته باشید.

وارونگی متنی: توکن‌های سفارشی را برای یک شخصیت تجاری، محصول یا سبک هنری خاص که می‌خواهید دوباره استفاده کنید، یاد بگیرید.

کنترل چند شرطی: نقشه‌های ژست + عمق + عادی را برای سازگاری سینمایی در سراسر فریم‌ها یا پنل‌ها ترکیب کنید.

صیقل دهنده‌ها: از یک مدل انتشار ثانویه در مراحل بعدی برای تیز کردن چهره‌ها یا بافت‌ها استفاده کنید.

سرعت بخشیدن بدون از دست دادن روح

مدل‌های انتشار که برای تولید هنر هوش مصنوعی توضیح داده شده‌اند، اغلب یک نگرانی را ایجاد می‌کنند: سرعت. گزینه‌ها عبارتند از:

مراحل کمتر + نمونه‌بردارهای بهتر (DPM++ 2M، DDIM با eta تنظیم شده)

مدل‌های تقطیر شده یا سازگاری که نتایج چند مرحله‌ای را در مراحل بسیار کمتری تقریب می‌زنند

نمونه‌برداری نهفته: کوچک ایجاد کنید، سپس با بهبود جزئیات، نمونه‌برداری کنید

شتاب سخت‌افزاری: با xFormers، توجه فلش، TensorRT یا ONNX runtimes بهینه‌سازی کنید

فراتر از عکس‌ها: انتشار ویدیو و راهنمایی حرکت

انتشار ویدیو، انتشار تصویر را در طول زمان گسترش می‌دهد: مدل یک دنباله را با توجه زمانی نویززدایی می‌کند و انسجام را در سراسر فریم‌ها حفظ می‌کند. سیگنال‌های کنترلی مانند جریان نوری یا دنباله‌های ژست حرکت را راهنمایی می‌کنند. انتظار داشته باشید:

سینماگراف‌های حلقه‌پذیر و حلقه‌های کوتاه

انیمیشن شخصیت سازگار که توسط ژست‌های کلیدی هدایت می‌شود

مدل‌های متن به ویدیو که شات‌ها را با حرکت دوربین و تداوم نور سنتز می‌کنند

اخلاق و ایمنی: بررسی قدرت خلاقانه

با قدرت تولیدی بزرگ، مسئولیت نیز همراه است:

رضایت و استناد: به حقوق هنرمندان احترام بگذارید. در صورت امکان از مجموعه‌داده‌های دارای مجوز یا opt-in استفاده کنید.

جانبداری و نمایندگی: اعلان‌ها و مجموعه‌داده‌ها می‌توانند جانبداری‌های اجتماعی را منعکس کنند—به‌طور صریح با آن‌ها مقابله کنید.

جلوگیری از سوء استفاده: واترمارک‌ها، فراداده منشأ (به عنوان مثال، C2PA) و فیلترهای محتوا به کاهش آسیب کمک می‌کنند.

عیب‌یابی: وقتی نتایج به سمت اشتباه می‌روند

بیش از حد به اعلان متصل می‌شوید: مقیاس راهنمایی را کاهش دهید یا صفت‌ها را ساده کنید.

اشکالات آناتومی: «از نظر آناتومی صحیح» را اضافه کنید، از یک صیقل دهنده خاص چهره یا دست استفاده کنید یا کنترل ژست را ارائه دهید.

بافت‌های گل آلود: مراحل را افزایش دهید، یک نمونه‌بردار متفاوت را امتحان کنید یا تهاجمی بودن اعلان منفی را کاهش دهید.

تکرار یا کاشی‌کاری: seed را تغییر دهید، نکات ترکیب را تغییر دهید یا «بدون کاشی‌کاری» را به اعلان منفی اضافه کنید.

ارزش توجه: ساده‌سازی گردش‌های کار خلاقانه با هوش مصنوعی کمکی

اگر در حال تکرار اعلان‌ها، آزمایش نمونه‌بردارها و سازماندهی نتایج هستید، یک فضای کاری که نسخه‌ها، seedها و تنظیمات را هماهنگ نگه می‌دارد، می‌تواند ساعت‌ها در وقت شما صرفه‌جویی کند. به هر حال، ابزارهایی مانند {Sider.AI} می‌توانند به شما در تهیه پیش نویس اعلان‌های ساختاریافته، مقایسه نسل‌ها در کنار هم و خلاصه کردن تغییرات پارامتر کمک کنند تا یاد بگیرید که چه چیزی در واقع تصویر را بهبود بخشیده است. به خصوص زمانی که در حال دستکاری LoRAها، ControlNetها و seedهای متعدد در یک خلاصه پروژه هستید، بسیار مفید است.

نکات کلیدی که می‌توانید امروز روی آن‌ها عمل کنید

در مورد کنترل‌ها فکر کنید: موضوع، سبک، ترکیب، نورپردازی و رسانه.

ساده شروع کنید. پس از قفل کردن ترکیب، اصلاح‌کننده‌ها را اضافه کنید.

با مقیاس راهنمایی و مراحل مانند نوردهی و ISO رفتار کنید—آن‌ها را عمداً تنظیم کنید.

از اعلان‌های منفی، ControlNetها و seedها برای دقت و تکرارپذیری استفاده کنید.

از صیقل دهنده‌ها و upscalerها برای صیقل دادن آماده برای تولید استفاده کنید.

مسیر پیش رو برای مدل‌های انتشار

مدل‌های انتشار که برای تولید هنر هوش مصنوعی توضیح داده شده‌اند، هنوز به سرعت در حال تکامل هستند. انتظار داشته باشید:

نمونه‌بردارهای حتی سریع‌تر از طریق آموزش سازگاری و جریان‌های اصلاح‌شده

شرطی‌سازی چندوجهی قوی‌تر (طرح‌ها، ضربات صوتی، نمودارهای طرح‌بندی)

حفظ بهتر شخصیت و هویت در سراسر صحنه‌ها و فیلم‌ها

برچسب‌های منشأ بومی و پیش‌فرض‌های ایمن‌تر

جادوی پشت پیکسل‌ها اصلاً جادو نیست—این یک رقص منظم بین نویز و ساختار است که توسط هدف شما هدایت می‌شود. کنترل‌ها را مسلط کنید و انتشار کمتر به یک قرعه‌کشی و بیشتر به یک ساز تبدیل می‌شود.

سوالات متداول

{Q1: مدل‌های انتشار در تولید هنر هوش مصنوعی چیست؟\nمدل‌های انتشار یاد می‌گیرند که یک فرایند نویزدهی را معکوس کنند و نویز تصادفی را به تصاویری تبدیل کنند که با اعلان شما مطابقت داشته باشند. با نویززدایی گام به گام با راهنمایی آموخته شده، آنها هنر دقیق و منسجمی را ایجاد می‌کنند.}{Q2: چگونه اعلان‌های متنی مدل‌های انتشار را هدایت می‌کنند؟\nیک رمزگذار متن اعلان شما را به تعبیه‌هایی تبدیل می‌کند که نویززدایی را در هر مرحله هدایت می‌کنند. با راهنمایی بدون طبقه‌بندی، شما کنترل می‌کنید که تصویر چقدر محکم به اعلان شما پایبند باشد.}{Q3: چرا به جای انتشار پیکسل از انتشار نهفته استفاده کنیم؟\nانتشار نهفته در یک فضای فشرده عمل می‌کند و تولید را بسیار سریع‌تر و با حافظه کارآمدتر می‌کند و در عین حال کیفیت بالایی را حفظ می‌کند. این امر وضوح بالاتر و گردش‌های کار ویرایش عملی را ممکن می‌سازد.}{Q4: کدام نمونه‌بردار برای هنر هوش مصنوعی با مدل‌های انتشار بهترین است؟\nاین بستگی به اهداف شما دارد: DDIM برای سرعت، Euler a برای جزئیات بافت‌دار و انواع DPM++ برای وضوح و پایداری. 25 تا 40 مرحله را با DPM++ به عنوان یک نقطه شروع قوی امتحان کنید.}{Q5: چگونه می‌توانم مصنوعات انتشار رایج مانند انگشتان اضافی را برطرف کنم؟\nاز اعلان‌های منفی (به عنوان مثال، «انگشتان اضافی، دست‌های تغییر شکل یافته») استفاده کنید، مقیاس راهنمایی را کمی کاهش دهید، مراحل را افزایش دهید یا یک مدل صیقل دهنده را اعمال کنید. ControlNet با راهنمایی ژست نیز آناتومی را بهبود می‌بخشد.}