What are diffusion models in AI art generation?

Diffusion models learn to reverse a noising process, turning random noise into images that match your prompt. By denoising step by step with learned guidance, they create detailed, coherent art.

How do text prompts guide diffusion models?

A text encoder turns your prompt into embeddings that steer denoising at every step. With classifier-free guidance, you control how strongly the image adheres to your prompt.

Why use latent diffusion instead of pixel diffusion?

Latent diffusion operates in a compressed space, making generation far faster and more memory-efficient while maintaining high quality. It enables higher resolutions and practical editing workflows.

Which sampler is best for AI art with diffusion models?

It depends on your goals: DDIM for speed, Euler a for textured detail, and DPM++ variants for sharpness and stability. Try 25–40 steps with DPM++ as a strong starting point.

How can I fix common diffusion artifacts like extra fingers?

Use negative prompts (e.g., 'extra fingers, deformed hands'), lower guidance scale slightly, increase steps, or apply a refiner model. ControlNet with pose guidance also improves anatomy.

"പിക്സലുകൾക്ക് പിന്നിലെ മാജിക്: AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകൾ വിശദീകരിക്കുന്നു"

ഡിഫ്യൂഷൻ മോഡലുകൾ ഒരു മാന്ത്രികാനുഭവം നൽകുന്നത് എന്തുകൊണ്ട്?

ഒറ്റ കുത്തുകളുള്ള കാൻവാസ് പതിയെ ഒരു ഫോട്ടോ റിയലിസ്റ്റിക് പോർട്രെയ്‌റ്റോ, വാട്ടർ കളർ സിറ്റിസ്‌കേപ്പോ, നിയോൺ-സൈബർപങ്ക് കുറുക്കനോ ആയി മാറുന്നു. AI ആർട്ട് സ്റ്റാറ്റിക് ഫസിൽ നിന്ന് വിശദമായ ചിത്രങ്ങളായി വികസിക്കുന്നത് നിങ്ങൾ കണ്ടിട്ടുണ്ടെങ്കിൽ, അവിടെ ഡിഫ്യൂഷൻ മോഡലുകൾ പ്രവർത്തിക്കുന്നത് നിങ്ങൾ കണ്ടിട്ടുണ്ട്. ഈ ആഴത്തിലുള്ള പഠനത്തിൽ, AI ആർട്ട് ജനറേഷനായി ഡിഫ്യൂഷൻ മോഡലുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു, പഴയ രീതികളെക്കാൾ ഇത് എങ്ങനെ മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു, ഒരു PhD ഇല്ലാതെ തന്നെ ഒരു ക്രിയേറ്റീവ് ഡയറക്ടറെപ്പോലെ നിങ്ങൾക്ക് എങ്ങനെ അവയെ നയിക്കാം എന്നതിനെക്കുറിച്ച് നമ്മുക്ക് ചർച്ച ചെയ്യാം.

ഞങ്ങൾ ഇവിടെ ലളിതവും ഫലപ്രദവുമായ രീതിയാണ് പിന്തുടരുന്നത്: വ്യക്തമായ വിശദീകരണങ്ങൾ, ലോകോത്തര ഉദാഹരണങ്ങൾ, ആധുനിക ഡിഫ്യൂഷൻ സിസ്റ്റങ്ങളിൽ നിന്ന് മികച്ച ഫലങ്ങൾ നേടാനുള്ള എളുപ്പവഴികൾ എന്നിവ ഇതിൽ ഉണ്ടായിരിക്കും.

AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകളുടെ വിശദീകരണം

ഓരോ ഘട്ടത്തിലും നോയിസ് കുറച്ച്, ക്രമരഹിതമായ നോയിസിനെ ഡിഫ്യൂഷൻ മോഡലുകൾ വ്യക്തമായ ചിത്രങ്ങളാക്കി മാറ്റുന്നു.

വലിയ ഡാറ്റാ സെറ്റുകളും, നിങ്ങളുടെ താൽപ്പര്യത്തിനനുസരിച്ച് ചിത്രം ലഭിക്കാൻ സഹായിക്കുന്ന ടെക്സ്റ്റ് പ്രോംപ്റ്റുകൾ പോലുള്ള മാർഗ്ഗനിർദ്ദേശങ്ങളും ഉപയോഗിച്ച് അവ നോയിസ് കുറയ്ക്കാൻ പഠിക്കുന്നു.

പ്രധാന ചേരുവകൾ: ഫോർവേഡ് ഡിഫ്യൂഷൻ (നോയിസ് ചേർക്കുക), റിവേഴ്സ് പ്രോസസ് (നോയിസ് നീക്കം ചെയ്യുക), ഒരു യു-നെറ്റ് ഡിനോയിസർ, നോയിസ് ഷെഡ്യൂളുകൾ, ഗൈഡൻസ് സ്കെയിലുകൾ.

പുതിയ വകഭേദങ്ങൾ (ലേറ്റന്റ് ഡിഫ്യൂഷൻ, കൺസിസ്റ്റൻസി മോഡലുകൾ, റെക്റ്റിഫൈഡ് ഫ്ലോകൾ, വീഡിയോ ഡിഫ്യൂഷൻ) ജനറേഷൻ വേഗത്തിലും വ്യക്തതയിലും കൂടുതൽ നിയന്ത്രണത്തിലും ആക്കുന്നു.

പ്രായോഗികമായ കാര്യങ്ങൾ: പ്രോംപ്റ്റ് ഘടന, ഗൈഡൻസ് സ്കെയിൽ, സ്റ്റെപ്സ്, സീഡുകൾ, റഫറൻസ് കണ്ടീഷനിംഗ് (ഇമേജ്, ലേഔട്ട്, സ്റ്റൈൽ) എന്നിവയിൽ ശ്രദ്ധിക്കുക.

പ്രധാന ആശയം: യാഥാർത്ഥ്യത്തിലെ നോയിസ് ഇല്ലാതാക്കാൻ പഠിക്കുക

AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകളുടെ പ്രധാന ഭാഗം അത്ഭുതപ്പെടുത്തുന്ന ലളിതമായ ഒരു ലൂപ്പാണ്:

ഫോർവേഡ് പ്രോസസ്: ഒരു യഥാർത്ഥ ചിത്രം എടുത്ത്, ക്രമേണ ഗൗസിയൻ നോയിസ് ചേർത്ത് അത് പൂർണ്ണമായും നോയിസ് ആകുന്നതുവരെ തുടരുക.

റിവേഴ്സ് പ്രോസസ്: ന്യൂറൽ നെറ്റ്‌വർക്കിനെ പരിശീലിപ്പിച്ച്, ഓരോ ഘട്ടത്തിലും നോയിസ് നീക്കം ചെയ്ത് വ്യക്തമായ ചിത്രം പുനർനിർമ്മിക്കുക.

പരിശീലന വേളയിൽ, മോഡൽ വൃത്തിയുള്ള ചിത്രവും അതിന്റെ നോയിസ് നിറഞ്ഞ പതിപ്പും ആവർത്തിച്ച് കാണുകയും നോയിസ് അല്ലെങ്കിൽ വൃത്തിയുള്ള ചിത്രം പ്രവചിക്കാൻ പഠിക്കുകയും ചെയ്യുന്നു. പരിശീലനം കഴിഞ്ഞാൽ, നിങ്ങൾക്ക് ശുദ്ധമായ നോയിസിൽ നിന്ന് ആരംഭിച്ച് നിങ്ങളുടെ പ്രോംപ്റ്റുമായി പൊരുത്തപ്പെടുന്ന ഒരു പുതിയ ചിത്രം നിർമ്മിക്കാൻ റിവേഴ്സ് പ്രോസസ്സ് പ്രവർത്തിപ്പിക്കാൻ കഴിയും.

ഇത് എങ്ങനെ നന്നായി പ്രവർത്തിക്കുന്നു: പിക്സലുകൾ നേരിട്ട് പ്രവചിക്കുന്നതിനേക്കാൾ എളുപ്പവും സ്ഥിരതയുമുള്ള ഒന്നാണ് നോയിസ് പ്രവചിക്കുന്നത്. കൂടാതെ മൾട്ടി-സ്റ്റെപ് റിഫൈൻമെന്റ് മികച്ച വിശദാംശങ്ങളും ആഗോളപരമായ ഒത്തിണക്കവും നൽകുന്നു.

ഒരു ഡിഫ്യൂഷൻ മോഡലിന്റെ ഘടന (ഗണിതപരമായ തലവേദനയില്ലാതെ)

AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകളെ പ്രധാന ഘടകങ്ങളുമായി നമുക്ക് പരിചയപ്പെടാം:

നോയിസ് ഷെഡ്യൂൾ: പരിശീലനത്തിൽ ഓരോ ഘട്ടത്തിലും എത്ര നോയിസ് ചേർക്കണം - എത്രത്തോളം നീക്കം ചെയ്യണം എന്ന് തീരുമാനിക്കുന്ന ടൈംടേബിൾ. ലീനിയർ അല്ലെങ്കിൽ കൊസൈൻ പോലുള്ള പൊതുവായ ഷെഡ്യൂളുകൾ മൂർച്ച, വിശദാംശം, സ്ഥിരത എന്നിവ രൂപപ്പെടുത്തുന്നു.

ഡിനോയിസർ ബാക്ക്ബോൺ (U-Net): ഓരോ ഘട്ടത്തിലും നോയിസ് കണക്കാക്കുന്ന സ്കിപ്പ് കണക്ഷനുകളുള്ള ഒരു കൺവോൾഷണൽ ന്യൂറൽ നെറ്റ്‌വർക്ക്. വിശദാംശങ്ങൾ മൂർച്ച കൂട്ടുന്നതിനിടയിൽ ഘടന നിലനിർത്തുന്നതിൽ U-Net മികച്ചതാണ്.

ടൈം എംബെഡിംഗ്: മോഡലിന് ഏത് ഘട്ടത്തിലാണ് ഉള്ളതെന്ന് അറിയണം; സൈനുസോയ്ഡൽ അല്ലെങ്കിൽ ലേൺഡ് എംബെഡിംഗുകൾ ആ "സമയം" വിവരങ്ങൾ നൽകുന്നു.

കണ്ടീഷനിംഗ്: രഹസ്യ ചേരുവ. ടെക്സ്റ്റ് (CLIP പോലുള്ള എൻകോഡറുകൾ വഴി), ഇമേജ് റഫറൻസുകൾ, സ്റ്റൈൽ എംബെഡിംഗുകൾ, ലേഔട്ട് മാപ്പുകൾ അല്ലെങ്കിൽ ഡെപ്ത്/എഡ്ജ് മാപ്പുകൾ എന്നിവ നിങ്ങൾ ആഗ്രഹിക്കുന്നതിലേക്ക് ഡിനോയിസറെ നയിക്കുന്നു.

സാംപ്ലർ: റിവേഴ്സ് പ്രോസസ്സ് പ്രവർത്തിപ്പിക്കുന്ന അൽഗോരിതം (ഉദാഹരണത്തിന്, DDPM, DDIM, PLMS, യൂലർ, DPM++). വ്യത്യസ്ത സാംപ്ലറുകൾ വേഗത, മൂർച്ച, റിയലിസം എന്നിവ മാറ്റുന്നു.

പിക്സലുകളിൽ നിന്ന് ലേറ്റന്റുകളിലേക്ക്: എന്തുകൊണ്ട് സ്റ്റേബിൾ ഡിഫ്യൂഷൻ വളരെ വേഗത്തിൽ പ്രവർത്തിക്കുന്നു

ആദ്യകാല ഡിഫ്യൂഷൻ മോഡലുകൾ പിക്സൽ സ്പേസിൽ നേരിട്ടാണ് പ്രവർത്തിച്ചത് - മനോഹരമായ ഫലങ്ങൾ, പക്ഷേ വേഗത കുറവായിരുന്നു. ലേറ്റന്റ് ഡിഫ്യൂഷൻ മോഡലുകൾ (LDM) ഒരു വേരിയേഷണൽ ഓട്ടോഎൻകോഡർ (VAE) ഉപയോഗിച്ച് ചിത്രങ്ങളെ ചെറിയ ലേറ്റന്റ് സ്പേസിലേക്ക് കംപ്രസ് ചെയ്യുന്നു. ഡിഫ്യൂഷൻ ഈ കോംപാക്ട് സ്പേസിൽ നടക്കുന്നു, തുടർന്ന് ഒരു ഡീകോഡർ പൂർണ്ണ റെസല്യൂഷനിലേക്ക് അപ്‌സാമ്പിൾ ചെയ്യുന്നു.

നിങ്ങൾക്ക് അനുഭവിക്കാൻ കഴിയുന്ന നേട്ടങ്ങൾ:

പിക്സൽ-സ്പേസ് ഡിഫ്യൂഷനേക്കാൾ 10–50x വേഗത.

എക്സ്പോണൻഷ്യൽ കമ്പ്യൂട്ട് ഇല്ലാതെ ഉയർന്ന റെസല്യൂഷൻ.

സ്റ്റൈൽ ട്രാൻസ്ഫറും ഇമേജ് എഡിറ്റുകളും കൂടുതൽ എളുപ്പമാക്കുന്നു.

പ്രചാരമുള്ള AI ആർട്ട് ടൂളുകളുടെ പ്രധാന ഭാഗമാണിത്, ഇവിടെ AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകൾ എന്നാൽ: "ശക്തമായ ടെക്സ്റ്റ് എൻകോഡറുള്ള ടെക്സ്റ്റ്-കണ്ടീഷണൽ ലേറ്റന്റ് ഡിഫ്യൂഷൻ".

ടെക്സ്റ്റ്-ടു-ഇമേജ്: നിങ്ങളുടെ വാക്കുകൾ എങ്ങനെ നോയിസിനെ നിയന്ത്രിക്കുന്നു

ഓരോ ഘട്ടത്തിലും ഡിനോയിസിംഗ് ദിശയെ സ്വാധീനിക്കുന്ന വെക്റ്ററുകളിലേക്ക് ടെക്സ്റ്റ് കണ്ടീഷനിംഗ് വാക്കുകളെ മാറ്റുന്നു. ഉദാഹരണത്തിന്:

ഒരു ടെക്സ്റ്റ് എൻകോഡർ (ഉദാഹരണത്തിന്, CLIP, T5) "ഒരു വാട്ടർ കളർ സ്കൈലൈൻ, പാസ്തൽ ടോണുകൾ, മൃദുവായ ലൈറ്റിംഗ്" എന്നിവയെ എംബെഡിംഗുകളാക്കി മാറ്റുന്നു.

ലേറ്റന്റ് നോയിസിനൊപ്പം ഡിഫ്യൂഷൻ മോഡൽ ഈ എംബെഡിംഗുകളിൽ ശ്രദ്ധിക്കുന്നു.

ഒരു ഗൈഡൻസ് ടെക്നിക്ക് (ക്ലാസിഫയർ-ഫ്രീ ഗൈഡൻസ് പോലെ) "അൺകണ്ടീഷണൽ" ഇമേജ് മുൻഗണനയുമായി താരതമ്യം ചെയ്യുമ്പോൾ ടെക്സ്റ്റിന്റെ സ്വാധീനം വർദ്ധിപ്പിക്കുന്നു.

ടെക്സ്റ്റ്-ടു-ഇമേജ് ട്യൂൺ ചെയ്യുന്നത് ഒരു കലയാണ്:

ഗൈഡൻസ് സ്കെയിൽ: ഉയർന്ന മൂല്യങ്ങൾ നിങ്ങളുടെ പ്രോംപ്റ്റിന് അനുസരിച്ച് ചിത്രം മാറ്റുന്നു (കൂടുതൽ കൃത്യമായി), എന്നാൽ വളരെ ഉയർന്നാൽ അത് കൃത്രിമത്വമോ അല്ലെങ്കിൽ അമിത നിറമോ ഉണ്ടാക്കാം. 5–9 വരെ പരീക്ഷിച്ചുനോക്കുക.

സ്റ്റെപ്സ്: കൂടുതൽ സ്റ്റെപ്സ് സാധാരണയായി മിനുസമാർന്നതും വിശദവുമായ ഫലങ്ങൾ നൽകുന്നു; പല സാംപ്ലറുകൾക്കും 20–40 വരെ നല്ലതാണ്.

നെഗറ്റീവ് പ്രോംപ്റ്റുകൾ: ഒഴിവാക്കേണ്ട കാര്യങ്ങൾ മോഡലിനോട് പറയുക ("മങ്ങിയത്," "കൂടുതൽ വിരലുകൾ," "കുറഞ്ഞ കോൺട്രാസ്റ്റ്") - ഔട്ട്പുട്ടുകൾ മെച്ചപ്പെടുത്തുന്നതിന് ഇത് വളരെ ഫലപ്രദമാണ്.

ഇമേജ്-ടു-ഇമേജ്, ഇൻപെയിന്റിംഗ്, കണ്ട്രോൾ: ശുദ്ധമായ ടെക്സ്റ്റിനപ്പുറം

AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകൾ ടെക്സ്റ്റ് പ്രോംപ്റ്റുകളെക്കുറിച്ച് മാത്രമല്ല. ഘടന, കോമ്പോസിഷൻ, ശൈലി എന്നിവ താഴെ പറയുന്നവ ഉപയോഗിച്ച് നിങ്ങൾക്ക് നിയന്ത്രിക്കാനാകും:

ഇമേജ്-ടു-ഇമേജ്: ഒരു സോഴ്സ് ഇമേജും ഒരു പ്രോംപ്റ്റും നൽകുക. ഔട്ട്പുട്ട് സോഴ്സിൽ നിന്ന് എത്രത്തോളം വ്യതിചലിക്കണം എന്ന് സ്ട്രെങ്ത് പാരാമീറ്റർ നിയന്ത്രിക്കുന്നു.

ഇൻപെയിന്റിംഗ്: മാറ്റം വരുത്താനായി ഒരു ഭാഗം മാസ്ക് ചെയ്യുക. മോഡൽ ആ ഭാഗം മാത്രം പൂരിപ്പിക്കുന്നു, തടസ്സമില്ലാത്ത എഡിറ്റിംഗിനായി ചുറ്റുപാടുമായി യോജിപ്പിക്കുന്നു (ഒബ്ജക്റ്റ് നീക്കം ചെയ്യുക അല്ലെങ്കിൽ വസ്ത്രം മാറ്റുക).

കൺട്രോൾനെറ്റുകൾ: ലേഔട്ടിന്റെയും പോസിന്റെയും പിക്സൽ-ലെവൽ നിയന്ത്രണം നൽകുന്ന എഡ്ജുകൾ, പോസ്, ഡെപ്ത് അല്ലെങ്കിൽ സെഗ്മെന്റേഷൻ എന്നിവയിൽ ഡിഫ്യൂഷൻ പ്രോസസ്സിനെ കണ്ടീഷൻ ചെയ്യുന്ന അധിക നെറ്റ്വർക്കുകൾ.

LoRA/എംബെഡിംഗുകൾ: മുഴുവൻ മോഡലിനെയും വീണ്ടും പരിശീലിപ്പിക്കാതെ തന്നെ പുതിയ ശൈലികളോ കഥാപാത്രങ്ങളോ ചേർക്കുന്ന ലൈറ്റ് വെയ്റ്റ് അഡാപ്റ്ററുകൾ അല്ലെങ്കിൽ ലേൺഡ് ടോക്കണുകൾ.

സാംപ്ലറുകൾ ഡീകോഡ് ചെയ്തു: യൂലർ അല്ലെങ്കിൽ DPM++ ഉപയോഗിച്ച് നിങ്ങളുടെ ചിത്രങ്ങൾ വ്യത്യസ്തമായി കാണപ്പെടുന്നത് എന്തുകൊണ്ട്

സാംപ്ലറുകൾ റിവേഴ്സ് ഡിഫ്യൂഷൻ ട്രാജക്ടറിയെ നിയന്ത്രിക്കുന്നു. ഒരേ രംഗത്തിന് വ്യത്യസ്ത ക്യാമറ ലെൻസുകൾ എന്ന് ഇതിനെക്കുറിച്ച് ചിന്തിക്കുക:

DDIM: കുറഞ്ഞ സ്റ്റെപ്പുകളുള്ള വേഗതയേറിയതും മിനുസമാർന്നതുമായ ട്രാജക്ടറികൾ - നല്ല പൊതു-ഉദ്ദേശ്യത്തിനുള്ള അടിസ്ഥാനം.

PLMS: സ്യൂഡോ-ലീനിയർ മൾട്ടിസ്റ്റെപ്പ് മിതമായ വേഗതയിൽ വിശദാംശങ്ങളും സ്ഥിരതയും മെച്ചപ്പെടുത്തുന്നു.

യൂലർ/യൂലർ a: വ്യക്തമായ ടെക്സ്ചറുകൾ; "യൂലർ a" നിയന്ത്രിത ക്രമരഹിതമായ സ്വഭാവം ചേർക്കുന്നു.

DPM++ (2M/2S/3M): കുറഞ്ഞ സ്റ്റെപ്പുകളിൽ മൂർച്ചയ്ക്കും സ്ഥിരതയ്ക്കും അത്യാധുനികം.

പ്രായോഗികമായ ടിപ്പ്: ഒരു ചിത്രം അമിതമായി മിനുസമാർന്നതായി തോന്നുകയാണെങ്കിൽ, യൂലർ a അല്ലെങ്കിൽ DPM++ 2M SDE പരീക്ഷിക്കുക. ഇത് വളരെ അധികം നോയിസ് നിറഞ്ഞതാണെങ്കിൽ, സ്റ്റെപ്സ് കൂട്ടുക അല്ലെങ്കിൽ DDIM പോലുള്ള ഒരു ഡിറ്റർമിനിസ്റ്റിക് സാംപ്ലർ പരീക്ഷിക്കുക.

സീഡുകളും പുനർനിർമ്മാണവും: സന്തോഷകരമായ അപകടങ്ങൾ ആവർത്തിക്കാവുന്നതാക്കുക

ഒരു സീഡ് ക്രമരഹിതമായ നോയിസ് ആരംഭിക്കുന്നു. ചെറിയ വ്യത്യാസങ്ങളോടെ ഒരേ കോമ്പോസിഷൻ പുനർനിർമ്മിക്കാൻ സീഡ് സൂക്ഷിക്കുക:

ഒരേ സീഡ് + ഒരേ പ്രോംപ്റ്റ് + ഒരേ ക്രമീകരണങ്ങൾ = ഏതാണ്ട് സമാനമായ ഫലങ്ങൾ.

വ്യത്യസ്ത കോമ്പോസിഷനുകൾ വേഗത്തിൽ കണ്ടെത്താൻ സീഡ് മാറ്റുക.

പ്രോംപ്റ്റിംഗ് ലേഔട്ടുകൾ കണ്ടെത്താൻ സീഡ് സ്വീപ്പുകൾ ഉപയോഗിക്കുക, തുടർന്ന് ഗൈഡൻസ് സ്കെയിലും സ്റ്റെപ്സും നന്നായി ട്യൂൺ ചെയ്യുക.

കലയ്ക്കായി ഡിഫ്യൂഷൻ പഴയ സമീപനങ്ങളെ മറികടക്കുന്നത് എന്തുകൊണ്ട്

GAN- കൾ (ജനറേറ്റീവ് അഡ്വേഴ്സറിയൽ നെറ്റ്വർക്കുകൾ) വർഷങ്ങളായി സ്വർണ്ണ നിലവാരമായിരുന്നു, പക്ഷേ മോഡ് കൊളാപ്‌സിംഗ്, പരിശീലനത്തിലെ സ്ഥിരതയില്ലായ്മ എന്നിവ കാരണം ബുദ്ധിമുട്ടി. ഓട്ടോറിഗ്രസീവ് മോഡലുകൾക്ക് (ആദ്യകാല ട്രാൻസ്ഫോർമർ അടിസ്ഥാനമാക്കിയുള്ള ഇമേജ് ജനറേറ്ററുകൾ പോലെ) ഉയർന്ന നിലവാരമുണ്ടാകാം, പക്ഷേ വേഗത കുറവായിരിക്കും.

AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകൾ വ്യക്തമായ ഗുണങ്ങൾ കാണിക്കുന്നു:

സ്ഥിരത: GAN-കളെക്കാൾ പരിശീലനം ലളിതവും ശക്തവുമാണ്.

വൈവിധ്യം: കുറഞ്ഞ മോഡ് കൊളാപ്‌സ് പ്രശ്‌നങ്ങൾ, വ്യത്യസ്ത ശൈലികളും കോമ്പോസിഷനുകളും സാധ്യമാക്കുന്നു.

വിശദാംശങ്ങൾ: മൾട്ടി-സ്റ്റെപ്പ് റിഫൈൻമെന്റ് വ്യക്തമായ ടെക്സ്ചറുകളും ആഗോളപരമായ ഒത്തിണക്കവും നൽകുന്നു.

നിയന്ത്രണം: കണ്ടീഷനിംഗ് രീതികൾ (ടെക്സ്റ്റ്, ഇമേജ്, ControlNets) മികച്ച ദിശാബോധം നൽകുന്നു.

അടിസ്ഥാനം: ലക്ഷ്യത്തിലേക്കുള്ള എളുപ്പവഴി

മിക്ക ഡിഫ്യൂഷൻ മോഡലുകളും ഓരോ ഘട്ടത്തിലും t ചേർക്കുന്ന നോയിസ് ε പ്രവചിക്കാൻ പഠിക്കുന്നു, പ്രവചിച്ചതും യഥാർത്ഥവുമായ നോയിസ് തമ്മിലുള്ള അന്തരം കുറയ്ക്കുന്നു. ക്ലാസിഫയർ-ഫ്രീ ഗൈഡൻസ് നിങ്ങളുടെ പ്രോംപ്റ്റ് ഉപയോഗിച്ച് ഒരു തവണയും "അൺകണ്ടീഷണൽ" ആയി ഒരു തവണയും മോഡൽ പ്രവർത്തിപ്പിച്ച് ഔട്ട്പുട്ടുകൾ സംയോജിപ്പിച്ച് നിങ്ങളുടെ പ്രോംപ്റ്റിലേക്ക് മാറ്റം വരുത്തുന്നതിലൂടെ പ്രവർത്തിക്കുന്നു.

അവ നന്നായി ഉപയോഗിക്കാൻ നിങ്ങൾക്ക് സമവാക്യങ്ങൾ ആവശ്യമില്ല, പക്ഷേ ഈ സജ്ജീകരണം തിരിച്ചറിയുന്നത് എന്തുകൊണ്ട് ഗൈഡൻസ് സ്കെയിൽ പ്രധാനമാണെന്ന് വിശദീകരിക്കുന്നു: വളരെ കുറഞ്ഞാൽ ചിത്രം വ്യതിചലിക്കുന്നു; വളരെ ഉയർന്നാൽ അത് പ്രോംപ്റ്റ് ടോക്കണുകൾക്ക് അനുസൃതമാവുകയും കൃത്രിമത്വങ്ങൾ അവതരിപ്പിക്കുകയും ചെയ്യുന്നു.

പ്രായോഗികമായ പ്ലേബുക്ക്: സ്ഥിരമായി മികച്ച ഫലങ്ങൾ നേടൽ

AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകളെ വിശ്വസനീയമായ ഔട്ട്പുട്ടുകളാക്കി മാറ്റാനുള്ള ഒരുworkflow ഇതാ:

നിങ്ങളുടെ പ്രോംപ്റ്റ് രൂപപ്പെടുത്തുക

വിഷയം ഉപയോഗിച്ച് ആരംഭിക്കുക: "വെള്ളി മുടിയുള്ള ഒരു പര്യവേക്ഷകന്റെ ചിത്രം"

മോഡിഫയറുകൾ ചേർക്കുക: ശൈലി, കാലഘട്ടം, ലൈറ്റിംഗ്, വർണ്ണ പാലറ്റ്

മീഡിയം വ്യക്തമാക്കുക: വാട്ടർ കളർ, ഓയിൽ, ഫോട്ടോറിയലിസ്റ്റിക്, 35mm ഫിലിം

കോമ്പോസിഷൻ സൂചനകൾ ഉൾപ്പെടുത്തുക: ക്ലോസപ്പ്, വൈഡ് ആംഗിൾ, റൂൾ-ഓഫ്-തേർഡ്സ്

ഗുണനിലവാര ടാഗുകൾ മിതമായി ഉപയോഗിച്ച് അവസാനിപ്പിക്കുക: "കൃത്യമായ ഫോക്കസ്, ഉയർന്ന വിശദാംശം, സ്വാഭാവിക ചർമ്മത്തിന്റെ നിറം"

പ്രധാന പാരാമീറ്ററുകൾ ട്യൂൺ ചെയ്യുക

സ്റ്റെപ്സ്: വേഗത/ഗുണനിലവാര ബാലൻസിനായി 25–40; സങ്കീർണ്ണമായ രംഗങ്ങൾക്ക് 60+

ഗൈഡൻസ് സ്കെയിൽ: 5–9 സാധാരണമാണ്; അതിരുകൾ പഠിക്കാൻ 3–12 വരെ പരീക്ഷിക്കുക

റെസല്യൂഷൻ: ചെറിയ അറ്റത്ത് 512–768-ൽ ആരംഭിക്കുക; ആവശ്യമെങ്കിൽ ഉയർന്ന നിലവാരമുള്ള അപ്‌സ്‌കെയിലറുകൾ ഉപയോഗിച്ച് അപ്‌സാമ്പിൾ ചെയ്യുക

സാംപ്ലർ: വേഗതയ്ക്കായി DDIM, മൂർച്ചയ്ക്കായി DPM++, ടെക്സ്ചറിനായി യൂലർ a എന്നിവ പരീക്ഷിക്കുക

നെഗറ്റീവ് പ്രോംപ്റ്റുകൾ പഠിക്കുക

പൊതുവായ നെഗറ്റീവുകൾ: "കുറഞ്ഞ റെസ്, മങ്ങിയത്, jpeg ആർട്ടിഫാക്റ്റുകൾ, അധിക വിരലുകൾ, രൂപഭേദം സംഭവിച്ച കൈകൾ, വാട്ടർമാർക്ക്, ടെക്സ്റ്റ്"

രംഗത്തിന് പ്രത്യേകമായ നെഗറ്റീവുകൾ: "മൂടൽമഞ്ഞ്, കഠിനമായ നിഴലുകൾ, കഴുകിയ നിറങ്ങൾ"

റഫറൻസുകൾ ഉപയോഗിക്കുക

ഘടന നിലനിർത്താനും ശൈലി വികസിപ്പിക്കാനും 0.25–0.6 ശക്തിയുള്ള ഇമേജ്-ടു-ഇമേജ് ഉപയോഗിക്കുക

ഒരു പരമ്പരയിലുടനീളം സ്ഥിരമായ ലേഔട്ടിനായി Canny എഡ്ജുകളോ ഡെപ്ത് മാപ്പുകളോ ഉള്ള ControlNet ഉപയോഗിക്കുക

സീഡുകൾ ഉപയോഗിച്ച് ആവർത്തിക്കുക

കോമ്പോസിഷൻ ഇഷ്ടപ്പെടുമ്പോൾ ഒരു സീഡ് ലോക്ക് ചെയ്യുക; മിനുക്കുപണികൾക്കായി ഗൈഡൻസും സ്റ്റെപ്സും മാറ്റുക

വേരിയേഷൻ ബാച്ചുകൾ ചെയ്യുക: സീഡ് ഫിക്സ് ചെയ്തു, ചെറിയ ക്രമരഹിതമായ നോയിസ്

സമർത്ഥമായി പോസ്റ്റ്-പ്രോസസ്സ് ചെയ്യുക

വിശദാംശങ്ങൾ നിലനിർത്താൻ ശക്തമായ VAE അല്ലെങ്കിൽ ബാഹ്യ അപ്‌സ്‌കെയിലർ (ലേറ്റന്റ് അല്ലെങ്കിൽ ഡിഫ്യൂഷൻ അടിസ്ഥാനമാക്കിയുള്ളത്) ഉപയോഗിക്കുക

അന്തിമ മിനുക്കുപണിക്കായി ഒരു ഫോട്ടോ എഡിറ്ററിൽ ലൈറ്റ് കളർ ഗ്രേഡിംഗ് ചെയ്യുക അല്ലെങ്കിൽ ഡീനോയിസ് ചെയ്യുക

വിപുലമായ സ്റ്റിയറിംഗ്: ശൈലി, കഥാപാത്രങ്ങൾ, ആവർത്തിച്ചുള്ള രംഗങ്ങൾ

LoRA ലൈബ്രറികൾ: സൂക്ഷ്മമായ സ്വാധീനത്തിനായി കുറഞ്ഞ വെയ്റ്റുകളിൽ (0.4–0.8) ശൈലി LoRA-കൾ അറ്റാച്ചുചെയ്യുക; മികച്ച ബാലൻസിനായി ഒരെണ്ണം കനത്തിൽ ഉപയോഗിക്കുന്നതിനുപകരം രണ്ടെണ്ണം നേരിയ രീതിയിൽ അടുപ്പിക്കുക.

ടെക്സ്റ്റ്വൽ ഇൻവേർഷൻ: നിങ്ങൾ വീണ്ടും ഉപയോഗിക്കാൻ ആഗ്രഹിക്കുന്ന ഒരു ബ്രാൻഡ് കഥാപാത്രത്തിനോ ഉൽപ്പന്നത്തിനോ അല്ലെങ്കിൽ പ്രത്യേക ആർട്ട് ശൈലിക്കോ വേണ്ടി ഇഷ്ടമുള്ള ടോക്കണുകൾ പഠിക്കുക.

മൾട്ടി-കണ്ടീഷൻ കണ്ട്രോൾ: ഫ്രെയിമുകളിലോ പാനലുകളിലോ സിനിമാറ്റിക് സ്ഥിരതയ്ക്കായി പോസ് + ഡെപ്ത് + നോർമൽ മാപ്പുകൾ സംയോജിപ്പിക്കുക.

റിഫൈനറുകൾ: മുഖങ്ങളോ ടെക്സ്ചറുകളോ മൂർച്ച കൂട്ടാൻ പിന്നീടുള്ള ഘട്ടങ്ങളിൽ ഒരു സെക്കൻഡറി ഡിഫ്യൂഷൻ മോഡൽ ഉപയോഗിക്കുക.

ആത്മാവ് നഷ്ടപ്പെടാതെ വേഗത്തിലാക്കുക

AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകൾ പലപ്പോഴും ഒരു ആശങ്ക ഉയർത്തുന്നു: വേഗത. ഇതിനുള്ള വഴികൾ:

കുറഞ്ഞ സ്റ്റെപ്സ് + മികച്ച സാംപ്ലറുകൾ (ട്യൂൺ ചെയ്ത eta-യുള്ള DPM++ 2M, DDIM)

കുറഞ്ഞ സ്റ്റെപ്പുകളിൽ മൾട്ടി-സ്റ്റെപ്പ് ഫലങ്ങളെ സമീപിക്കുന്ന ഡിസ്റ്റിൽഡ് അല്ലെങ്കിൽ കൺസിസ്റ്റൻസി മോഡലുകൾ

ലേറ്റന്റ് അപ്‌സ്‌കെയിലിംഗ്: ചെറുതായി ഉണ്ടാക്കുക, തുടർന്ന് വിശദാംശങ്ങൾ മെച്ചപ്പെടുത്തി അപ്‌സ്‌കെയിൽ ചെയ്യുക

ഹാർഡ്‌വെയർ ആക്‌സിലറേഷൻ: xFormers, ഫ്ലാഷ് അറ്റൻഷൻ, TensorRT അല്ലെങ്കിൽ ONNX റൺടൈമുകൾ ഉപയോഗിച്ച് ഒപ്റ്റിമൈസ് ചെയ്യുക

സ്റ്റില്ലുകൾക്കപ്പുറം: വീഡിയോ ഡിഫ്യൂഷനും മോഷൻ ഗൈഡൻസും

വീഡിയോ ഡിഫ്യൂഷൻ സമയത്തിനനുസരിച്ച് ഇമേജ് ഡിഫ്യൂഷൻ വ്യാപിപ്പിക്കുന്നു: ടെമ്പോറൽ അറ്റൻഷനോടുകൂടി മോഡൽ ഒരു സീക്വൻസിനെ ഡീനോയിസ് ചെയ്യുന്നു, ഫ്രെയിമുകളിലുടനീളം സ്ഥിരത നിലനിർത്തുന്നു. ഒപ്റ്റിക്കൽ ഫ്ലോ അല്ലെങ്കിൽ പോസ് സീക്വൻസുകൾ പോലുള്ള കണ്ട്രോൾ സിഗ്നലുകൾ ചലനത്തെ നയിക്കുന്നു. പ്രതീക്ഷിക്കുക:

ലൂപ്പ് ചെയ്യാവുന്ന സിനിമോഗ്രാഫുകളും ചെറിയ റീലുകളും

കീ പോസുകൾ നൽകുന്ന സ്ഥിരമായ ക്യാരക്ടർ ആനിമേഷൻ

കാമറ ചലനവും ലൈറ്റിംഗ് തുടർച്ചയുമുള്ള ഷോട്ടുകൾ സമന്വയിപ്പിക്കുന്ന ടെക്സ്റ്റ്-ടു-വീഡിയോ മോഡലുകൾ

ധാർമ്മികതയും സുരക്ഷയും: ക്രിയേറ്റീവ് പവർ പരിശോധന

വലിയ ജനറേറ്റീവ് ശക്തി ലഭിക്കുമ്പോൾ ഉത്തരവാദിത്തവുമുണ്ട്:

സമ്മതവും ആട്രിബ്യൂഷനും: ആർട്ടിസ്റ്റുകളുടെ അവകാശങ്ങളെ മാനിക്കുക; സാധ്യമാകുമ്പോൾ ലൈസൻസുള്ള അല്ലെങ്കിൽ ഒപ്റ്റ്-ഇൻ ഡാറ്റാ സെറ്റുകൾ ഉപയോഗിക്കുക.

പക്ഷപാതം, പ്രാതിനിധ്യം: പ്രോംപ്റ്റുകൾക്കും ഡാറ്റാ സെറ്റുകൾക്കും സാമൂഹിക പക്ഷപാതങ്ങൾ പ്രതിഫലിപ്പിക്കാൻ കഴിയും - അവയെ വ്യക്തമായി എതിർക്കുക.

ദുരുപയോഗം തടയൽ: വാട്ടർമാർക്കുകൾ, പ്രൊവെനൻസ് മെറ്റാഡാറ്റ (ഉദാഹരണത്തിന്, C2PA), ഉള്ളടക്ക ഫിൽട്ടറുകൾ എന്നിവ ദോഷം കുറയ്ക്കാൻ സഹായിക്കുന്നു.

ട്രബിൾഷൂട്ടിംഗ്: എപ്പോൾ ഫലങ്ങൾ തെറ്റായി പോകുന്നു

പ്രോംപ്റ്റിലേക്ക് അമിതമായി ചേരുമ്പോൾ: ഗൈഡൻസ് സ്കെയിൽ കുറയ്ക്കുക അല്ലെങ്കിൽ വിശേഷണങ്ങൾ ലളിതമാക്കുക.

ഘടനയിലെ തകരാറുകൾ: "അനാട്ടമിക്കലി കറക്ട്" ചേർക്കുക, ഒരു മുഖമോ കൈ-നിർദ്ദിഷ്ട റിഫൈനറോ ഉപയോഗിക്കുക, അല്ലെങ്കിൽ പോസ് കണ്ട്രോൾ നൽകുക.

ചളി പോലെയുള്ള ടെക്സ്ചറുകൾ: സ്റ്റെപ്സ് കൂട്ടുക, മറ്റൊരു സാംപ്ലർ പരീക്ഷിക്കുക, അല്ലെങ്കിൽ നെഗറ്റീവ് പ്രോംപ്റ്റിന്റെ ആക്രമണാത്മക സ്വഭാവം കുറയ്ക്കുക.

ആവർത്തനം അല്ലെങ്കിൽ ടൈലിംഗ്: സീഡ് മാറ്റുക, കോമ്പോസിഷൻ സൂചനകൾ മാറ്റുക, അല്ലെങ്കിൽ നെഗറ്റീവ് പ്രോംപ്റ്റിലേക്ക് "നോ ടൈലിംഗ്" ചേർക്കുക.

ശ്രദ്ധിക്കേണ്ടത്: AI സഹായത്തോടെ ക്രിയേറ്റീവ് വർക്ക്ഫ്ലോകൾ ലളിതമാക്കുന്നു

നിങ്ങൾ പ്രോംപ്റ്റുകൾ ആവർത്തിക്കുകയാണെങ്കിൽ, സാംപ്ലറുകൾ പരീക്ഷിക്കുകയാണെങ്കിൽ, ഫലങ്ങൾ ക്രമീകരിക്കുകയാണെങ്കിൽ, പതിപ്പുകളും സീഡുകളും ക്രമീകരണങ്ങളും ഒരേപോലെ നിലനിർത്തുന്നത് മണിക്കൂറുകൾ ലാഭിക്കാൻ സഹായിക്കും. Sider.AI പോലുള്ള ടൂളുകൾക്ക് ഘടനാപരമായ പ്രോംപ്റ്റുകൾ തയ്യാറാക്കാനും, തലമുറകളെ അടുത്തടുത്ത് താരതമ്യം ചെയ്യാനും, പാരാമീറ്റർ മാറ്റങ്ങൾ സംഗ്രഹിക്കാനും നിങ്ങളെ സഹായിക്കാനാവും, അതുവഴി എന്താണ് ചിത്രത്തെ മെച്ചപ്പെടുത്തിയത് എന്ന് നിങ്ങൾക്ക് പഠിക്കാൻ സാധിക്കും. ഒരു പ്രോജക്റ്റ് ബ്രീഫിൽ LoRA-കളും ControlNet-കളും ഒന്നിലധികം സീഡുകളും നിങ്ങൾ കൈകാര്യം ചെയ്യുമ്പോൾ ഇത് വളരെ ഉപകാരപ്രദമാകും.

ഇന്ന് നിങ്ങൾക്ക് പ്രവർത്തിപ്പിക്കാൻ കഴിയുന്ന പ്രധാന കാര്യങ്ങൾ

സബ്ജക്റ്റ്, ശൈലി, കോമ്പോസിഷൻ, ലൈറ്റിംഗ്, മീഡിയം എന്നിവയിൽ ശ്രദ്ധിക്കുക.

ലളിതമായി തുടങ്ങുക; കോമ്പോസിഷൻ ഉറപ്പിച്ച ശേഷം മോഡിഫയറുകൾ ചേർക്കുക.

ഗൈഡൻസ് സ്കെയിലിനെയും സ്റ്റെപ്സിനെയും എക്സ്പോഷറും ISO-യും പോലെ പരിഗണിക്കുക - ബോധപൂർവ്വം ട്യൂൺ ചെയ്യുക.

കൃത്യതയ്ക്കും ആവർത്തനത്തിനുമായി നെഗറ്റീവ് പ്രോംപ്റ്റുകൾ, ControlNet-കൾ, സീഡുകൾ എന്നിവ ഉപയോഗിക്കുക.

ഉൽപ്പാദനത്തിന് തയ്യാറായ മിനുക്കുപണികൾക്കായി റിഫൈനറുകളും അപ്‌സ്‌കെയിലറുകളും ഉപയോഗിക്കുക.

ഡിഫ്യൂഷൻ മോഡലുകൾക്കുള്ള മുന്നോട്ടുള്ള വഴി

AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകൾ ഇപ്പോഴും അതിവേഗം വികസിച്ചുകൊണ്ടിരിക്കുകയാണ്. പ്രതീക്ഷിക്കുക:

കൺസിസ്റ്റൻസി പരിശീലനത്തിലൂടെയും റെക്റ്റിഫൈഡ് ഫ്ലോകളിലൂടെയും വേഗതയേറിയ സാംപ്ലറുകൾ

ശക്തമായ മൾട്ടിമോഡൽ കണ്ടീഷനിംഗ് (സ്കെച്ചുകൾ, ഓഡിയോ ബീറ്റുകൾ, ലേഔട്ട് ഗ്രാഫുകൾ)

രംഗങ്ങളിലും വീഡിയോകളിലുമുള്ള മികച്ച കഥാപാത്രവും വ്യക്തിത്വ സംരക്ഷണവും

തദ്ദേശീയ പ്രൊവെനൻസ് ടാഗുകളും സുരക്ഷിതമായ സ്ഥിരമായ ഓപ്ഷനുകളും

പിക്സലുകൾക്ക് പിന്നിലെ മാന്ത്രികത ഒട്ടും മാന്ത്രികമല്ല - നിങ്ങളുടെ ഉദ്ദേശ്യത്താൽ നയിക്കപ്പെടുന്ന നോയിസും ഘടനയും തമ്മിലുള്ള ചിട്ടയായ നൃത്തമാണിത്. നിയന്ത്രണങ്ങൾ പഠിക്കുക, അപ്പോൾ ഡിഫ്യൂഷൻ ഭാഗ്യപരീക്ഷയെക്കാൾ ഉപരി ഒരുപകരണം പോലെ ഉപയോഗിക്കാം.

FAQ

Q1: AI ആർട്ട് ജനറേഷനിൽ ഡിഫ്യൂഷൻ മോഡലുകൾ എന്തൊക്കെയാണ്? ഡിഫ്യൂഷൻ മോഡലുകൾ ഒരു നോയിസിംഗ് പ്രോസസ്സിനെ മാറ്റാൻ പഠിക്കുന്നു, നിങ്ങളുടെ പ്രോംപ്റ്റുമായി പൊരുത്തപ്പെടുന്ന ക്രമരഹിതമായ നോയിസിനെ ചിത്രങ്ങളാക്കി മാറ്റുന്നു. പഠിച്ച ഗൈഡൻസിലൂടെ ഓരോ ഘട്ടത്തിലും ഡീനോയിസ് ചെയ്യുന്നതിലൂടെ അവ വിശദവും വ്യക്തവുമായ കല സൃഷ്ടിക്കുന്നു.

Q2: ടെക്സ്റ്റ് പ്രോംപ്റ്റുകൾ എങ്ങനെയാണ് ഡിഫ്യൂഷൻ മോഡലുകളെ നയിക്കുന്നത്? ഒരു ടെക്സ്റ്റ് എൻകോഡർ നിങ്ങളുടെ പ്രോംപ്റ്റിനെ ഓരോ ഘട്ടത്തിലും ഡീനോയിസിംഗിനെ നയിക്കുന്ന എംബെഡിംഗുകളാക്കി മാറ്റുന്നു. ക്ലാസിഫയർ-ഫ്രീ ഗൈഡൻസ് ഉപയോഗിച്ച്, നിങ്ങളുടെ ചിത്രം നിങ്ങളുടെ പ്രോംപ്റ്റിനോട് എത്രത്തോളം ചേർന്ന് നിൽക്കണമെന്ന് നിങ്ങൾക്ക് നിയന്ത്രിക്കാനാകും.

Q3: പിക്സൽ ഡിഫ്യൂഷനുപകരം ലേറ്റന്റ് ഡിഫ്യൂഷൻ ഉപയോഗിക്കുന്നത് എന്തുകൊണ്ട്? ലേറ്റന്റ് ഡിഫ്യൂഷൻ ഒരു കംപ്രസ് ചെയ്ത സ്പേസിൽ പ്രവർത്തിക്കുന്നു, ഇത് ഉയർന്ന നിലവാരം നിലനിർത്തുന്നതോടൊപ്പം ജനറേഷൻ കൂടുതൽ വേഗത്തിലും മെമ്മറി ലാഭിക്കുന്നതുമാക്കുന്നു. ഇത് ഉയർന്ന റെസല്യൂഷനുകളും പ്രായോഗികമായ എഡിറ്റിംഗ് വർക്ക്ഫ്ലോകളും സാധ്യമാക്കുന്നു.

Q4: ഡിഫ്യൂഷൻ മോഡലുകളുള്ള AI ആർട്ടിന് ഏത് സാംപ്ലറാണ് മികച്ചത്? ഇത് നിങ്ങളുടെ ലക്ഷ്യങ്ങളെ ആശ്രയിച്ചിരിക്കുന്നു: വേഗതയ്ക്ക് DDIM, ടെക്സ്ചർഡ് വിശദാംശങ്ങൾക്ക് യൂലർ a, മൂർച്ചയ്ക്കും സ്ഥിരതയ്ക്കും DPM++ വകഭേദങ്ങൾ. DPM++ ഉപയോഗിച്ച് 25–40 സ്റ്റെപ്പുകൾ ഒരു നല്ല പോയിന്റായി തുടങ്ങാവുന്നതാണ്.

Q5: അധിക വിരലുകൾ പോലുള്ള സാധാരണ ഡിഫ്യൂഷൻ ആർട്ടിഫാക്റ്റുകൾ എങ്ങനെ പരിഹരിക്കാനാകും? നെഗറ്റീവ് പ്രോംപ്റ്റുകൾ ഉപയോഗിക്കുക (ഉദാഹരണത്തിന്, 'അധിക വിരലുകൾ, രൂപഭേദം സംഭവിച്ച കൈകൾ'), ഗൈഡൻസ് സ്കെയിൽ ചെറുതായി കുറയ്ക്കുക, സ്റ്റെപ്സ് വർദ്ധിപ്പിക്കുക അല്ലെങ്കിൽ ഒരു റിഫൈനർ മോഡൽ ഉപയോഗിക്കുക. പോസ് ഗൈഡൻസുള്ള ControlNet ശരീരഘടനയെ മെച്ചപ്പെടുത്തുന്നു.