ഡിഫ്യൂഷൻ മോഡലുകൾ ഒരു മാന്ത്രികാനുഭവം നൽകുന്നത് എന്തുകൊണ്ട്?
ഒറ്റ കുത്തുകളുള്ള കാൻവാസ് പതിയെ ഒരു ഫോട്ടോ റിയലിസ്റ്റിക് പോർട്രെയ്റ്റോ, വാട്ടർ കളർ സിറ്റിസ്കേപ്പോ, നിയോൺ-സൈബർപങ്ക് കുറുക്കനോ ആയി മാറുന്നു. AI ആർട്ട് സ്റ്റാറ്റിക് ഫസിൽ നിന്ന് വിശദമായ ചിത്രങ്ങളായി വികസിക്കുന്നത് നിങ്ങൾ കണ്ടിട്ടുണ്ടെങ്കിൽ, അവിടെ ഡിഫ്യൂഷൻ മോഡലുകൾ പ്രവർത്തിക്കുന്നത് നിങ്ങൾ കണ്ടിട്ടുണ്ട്. ഈ ആഴത്തിലുള്ള പഠനത്തിൽ, AI ആർട്ട് ജനറേഷനായി ഡിഫ്യൂഷൻ മോഡലുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു, പഴയ രീതികളെക്കാൾ ഇത് എങ്ങനെ മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു, ഒരു PhD ഇല്ലാതെ തന്നെ ഒരു ക്രിയേറ്റീവ് ഡയറക്ടറെപ്പോലെ നിങ്ങൾക്ക് എങ്ങനെ അവയെ നയിക്കാം എന്നതിനെക്കുറിച്ച് നമ്മുക്ക് ചർച്ച ചെയ്യാം.
ഞങ്ങൾ ഇവിടെ ലളിതവും ഫലപ്രദവുമായ രീതിയാണ് പിന്തുടരുന്നത്: വ്യക്തമായ വിശദീകരണങ്ങൾ, ലോകോത്തര ഉദാഹരണങ്ങൾ, ആധുനിക ഡിഫ്യൂഷൻ സിസ്റ്റങ്ങളിൽ നിന്ന് മികച്ച ഫലങ്ങൾ നേടാനുള്ള എളുപ്പവഴികൾ എന്നിവ ഇതിൽ ഉണ്ടായിരിക്കും.
AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകളുടെ വിശദീകരണം
- ഓരോ ഘട്ടത്തിലും നോയിസ് കുറച്ച്, ക്രമരഹിതമായ നോയിസിനെ ഡിഫ്യൂഷൻ മോഡലുകൾ വ്യക്തമായ ചിത്രങ്ങളാക്കി മാറ്റുന്നു.
- വലിയ ഡാറ്റാ സെറ്റുകളും, നിങ്ങളുടെ താൽപ്പര്യത്തിനനുസരിച്ച് ചിത്രം ലഭിക്കാൻ സഹായിക്കുന്ന ടെക്സ്റ്റ് പ്രോംപ്റ്റുകൾ പോലുള്ള മാർഗ്ഗനിർദ്ദേശങ്ങളും ഉപയോഗിച്ച് അവ നോയിസ് കുറയ്ക്കാൻ പഠിക്കുന്നു.
- പ്രധാന ചേരുവകൾ: ഫോർവേഡ് ഡിഫ്യൂഷൻ (നോയിസ് ചേർക്കുക), റിവേഴ്സ് പ്രോസസ് (നോയിസ് നീക്കം ചെയ്യുക), ഒരു യു-നെറ്റ് ഡിനോയിസർ, നോയിസ് ഷെഡ്യൂളുകൾ, ഗൈഡൻസ് സ്കെയിലുകൾ.
- പുതിയ വകഭേദങ്ങൾ (ലേറ്റന്റ് ഡിഫ്യൂഷൻ, കൺസിസ്റ്റൻസി മോഡലുകൾ, റെക്റ്റിഫൈഡ് ഫ്ലോകൾ, വീഡിയോ ഡിഫ്യൂഷൻ) ജനറേഷൻ വേഗത്തിലും വ്യക്തതയിലും കൂടുതൽ നിയന്ത്രണത്തിലും ആക്കുന്നു.
- പ്രായോഗികമായ കാര്യങ്ങൾ: പ്രോംപ്റ്റ് ഘടന, ഗൈഡൻസ് സ്കെയിൽ, സ്റ്റെപ്സ്, സീഡുകൾ, റഫറൻസ് കണ്ടീഷനിംഗ് (ഇമേജ്, ലേഔട്ട്, സ്റ്റൈൽ) എന്നിവയിൽ ശ്രദ്ധിക്കുക.
പ്രധാന ആശയം: യാഥാർത്ഥ്യത്തിലെ നോയിസ് ഇല്ലാതാക്കാൻ പഠിക്കുക
AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകളുടെ പ്രധാന ഭാഗം അത്ഭുതപ്പെടുത്തുന്ന ലളിതമായ ഒരു ലൂപ്പാണ്:
- ഫോർവേഡ് പ്രോസസ്: ഒരു യഥാർത്ഥ ചിത്രം എടുത്ത്, ക്രമേണ ഗൗസിയൻ നോയിസ് ചേർത്ത് അത് പൂർണ്ണമായും നോയിസ് ആകുന്നതുവരെ തുടരുക.
- റിവേഴ്സ് പ്രോസസ്: ന്യൂറൽ നെറ്റ്വർക്കിനെ പരിശീലിപ്പിച്ച്, ഓരോ ഘട്ടത്തിലും നോയിസ് നീക്കം ചെയ്ത് വ്യക്തമായ ചിത്രം പുനർനിർമ്മിക്കുക.
പരിശീലന വേളയിൽ, മോഡൽ വൃത്തിയുള്ള ചിത്രവും അതിന്റെ നോയിസ് നിറഞ്ഞ പതിപ്പും ആവർത്തിച്ച് കാണുകയും നോയിസ് അല്ലെങ്കിൽ വൃത്തിയുള്ള ചിത്രം പ്രവചിക്കാൻ പഠിക്കുകയും ചെയ്യുന്നു. പരിശീലനം കഴിഞ്ഞാൽ, നിങ്ങൾക്ക് ശുദ്ധമായ നോയിസിൽ നിന്ന് ആരംഭിച്ച് നിങ്ങളുടെ പ്രോംപ്റ്റുമായി പൊരുത്തപ്പെടുന്ന ഒരു പുതിയ ചിത്രം നിർമ്മിക്കാൻ റിവേഴ്സ് പ്രോസസ്സ് പ്രവർത്തിപ്പിക്കാൻ കഴിയും.
ഇത് എങ്ങനെ നന്നായി പ്രവർത്തിക്കുന്നു: പിക്സലുകൾ നേരിട്ട് പ്രവചിക്കുന്നതിനേക്കാൾ എളുപ്പവും സ്ഥിരതയുമുള്ള ഒന്നാണ് നോയിസ് പ്രവചിക്കുന്നത്. കൂടാതെ മൾട്ടി-സ്റ്റെപ് റിഫൈൻമെന്റ് മികച്ച വിശദാംശങ്ങളും ആഗോളപരമായ ഒത്തിണക്കവും നൽകുന്നു.
ഒരു ഡിഫ്യൂഷൻ മോഡലിന്റെ ഘടന (ഗണിതപരമായ തലവേദനയില്ലാതെ)
AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകളെ പ്രധാന ഘടകങ്ങളുമായി നമുക്ക് പരിചയപ്പെടാം:
- നോയിസ് ഷെഡ്യൂൾ: പരിശീലനത്തിൽ ഓരോ ഘട്ടത്തിലും എത്ര നോയിസ് ചേർക്കണം - എത്രത്തോളം നീക്കം ചെയ്യണം എന്ന് തീരുമാനിക്കുന്ന ടൈംടേബിൾ. ലീനിയർ അല്ലെങ്കിൽ കൊസൈൻ പോലുള്ള പൊതുവായ ഷെഡ്യൂളുകൾ മൂർച്ച, വിശദാംശം, സ്ഥിരത എന്നിവ രൂപപ്പെടുത്തുന്നു.
- ഡിനോയിസർ ബാക്ക്ബോൺ (U-Net): ഓരോ ഘട്ടത്തിലും നോയിസ് കണക്കാക്കുന്ന സ്കിപ്പ് കണക്ഷനുകളുള്ള ഒരു കൺവോൾഷണൽ ന്യൂറൽ നെറ്റ്വർക്ക്. വിശദാംശങ്ങൾ മൂർച്ച കൂട്ടുന്നതിനിടയിൽ ഘടന നിലനിർത്തുന്നതിൽ U-Net മികച്ചതാണ്.
- ടൈം എംബെഡിംഗ്: മോഡലിന് ഏത് ഘട്ടത്തിലാണ് ഉള്ളതെന്ന് അറിയണം; സൈനുസോയ്ഡൽ അല്ലെങ്കിൽ ലേൺഡ് എംബെഡിംഗുകൾ ആ "സമയം" വിവരങ്ങൾ നൽകുന്നു.
- കണ്ടീഷനിംഗ്: രഹസ്യ ചേരുവ. ടെക്സ്റ്റ് (CLIP പോലുള്ള എൻകോഡറുകൾ വഴി), ഇമേജ് റഫറൻസുകൾ, സ്റ്റൈൽ എംബെഡിംഗുകൾ, ലേഔട്ട് മാപ്പുകൾ അല്ലെങ്കിൽ ഡെപ്ത്/എഡ്ജ് മാപ്പുകൾ എന്നിവ നിങ്ങൾ ആഗ്രഹിക്കുന്നതിലേക്ക് ഡിനോയിസറെ നയിക്കുന്നു.
- സാംപ്ലർ: റിവേഴ്സ് പ്രോസസ്സ് പ്രവർത്തിപ്പിക്കുന്ന അൽഗോരിതം (ഉദാഹരണത്തിന്, DDPM, DDIM, PLMS, യൂലർ, DPM++). വ്യത്യസ്ത സാംപ്ലറുകൾ വേഗത, മൂർച്ച, റിയലിസം എന്നിവ മാറ്റുന്നു.
പിക്സലുകളിൽ നിന്ന് ലേറ്റന്റുകളിലേക്ക്: എന്തുകൊണ്ട് സ്റ്റേബിൾ ഡിഫ്യൂഷൻ വളരെ വേഗത്തിൽ പ്രവർത്തിക്കുന്നു
ആദ്യകാല ഡിഫ്യൂഷൻ മോഡലുകൾ പിക്സൽ സ്പേസിൽ നേരിട്ടാണ് പ്രവർത്തിച്ചത് - മനോഹരമായ ഫലങ്ങൾ, പക്ഷേ വേഗത കുറവായിരുന്നു. ലേറ്റന്റ് ഡിഫ്യൂഷൻ മോഡലുകൾ (LDM) ഒരു വേരിയേഷണൽ ഓട്ടോഎൻകോഡർ (VAE) ഉപയോഗിച്ച് ചിത്രങ്ങളെ ചെറിയ ലേറ്റന്റ് സ്പേസിലേക്ക് കംപ്രസ് ചെയ്യുന്നു. ഡിഫ്യൂഷൻ ഈ കോംപാക്ട് സ്പേസിൽ നടക്കുന്നു, തുടർന്ന് ഒരു ഡീകോഡർ പൂർണ്ണ റെസല്യൂഷനിലേക്ക് അപ്സാമ്പിൾ ചെയ്യുന്നു.
നിങ്ങൾക്ക് അനുഭവിക്കാൻ കഴിയുന്ന നേട്ടങ്ങൾ:
- പിക്സൽ-സ്പേസ് ഡിഫ്യൂഷനേക്കാൾ 10–50x വേഗത.
- എക്സ്പോണൻഷ്യൽ കമ്പ്യൂട്ട് ഇല്ലാതെ ഉയർന്ന റെസല്യൂഷൻ.
- സ്റ്റൈൽ ട്രാൻസ്ഫറും ഇമേജ് എഡിറ്റുകളും കൂടുതൽ എളുപ്പമാക്കുന്നു.
പ്രചാരമുള്ള AI ആർട്ട് ടൂളുകളുടെ പ്രധാന ഭാഗമാണിത്, ഇവിടെ AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകൾ എന്നാൽ: "ശക്തമായ ടെക്സ്റ്റ് എൻകോഡറുള്ള ടെക്സ്റ്റ്-കണ്ടീഷണൽ ലേറ്റന്റ് ഡിഫ്യൂഷൻ".
ടെക്സ്റ്റ്-ടു-ഇമേജ്: നിങ്ങളുടെ വാക്കുകൾ എങ്ങനെ നോയിസിനെ നിയന്ത്രിക്കുന്നു
ഓരോ ഘട്ടത്തിലും ഡിനോയിസിംഗ് ദിശയെ സ്വാധീനിക്കുന്ന വെക്റ്ററുകളിലേക്ക് ടെക്സ്റ്റ് കണ്ടീഷനിംഗ് വാക്കുകളെ മാറ്റുന്നു. ഉദാഹരണത്തിന്:
- ഒരു ടെക്സ്റ്റ് എൻകോഡർ (ഉദാഹരണത്തിന്, CLIP, T5) "ഒരു വാട്ടർ കളർ സ്കൈലൈൻ, പാസ്തൽ ടോണുകൾ, മൃദുവായ ലൈറ്റിംഗ്" എന്നിവയെ എംബെഡിംഗുകളാക്കി മാറ്റുന്നു.
- ലേറ്റന്റ് നോയിസിനൊപ്പം ഡിഫ്യൂഷൻ മോഡൽ ഈ എംബെഡിംഗുകളിൽ ശ്രദ്ധിക്കുന്നു.
- ഒരു ഗൈഡൻസ് ടെക്നിക്ക് (ക്ലാസിഫയർ-ഫ്രീ ഗൈഡൻസ് പോലെ) "അൺകണ്ടീഷണൽ" ഇമേജ് മുൻഗണനയുമായി താരതമ്യം ചെയ്യുമ്പോൾ ടെക്സ്റ്റിന്റെ സ്വാധീനം വർദ്ധിപ്പിക്കുന്നു.
ടെക്സ്റ്റ്-ടു-ഇമേജ് ട്യൂൺ ചെയ്യുന്നത് ഒരു കലയാണ്:
- ഗൈഡൻസ് സ്കെയിൽ: ഉയർന്ന മൂല്യങ്ങൾ നിങ്ങളുടെ പ്രോംപ്റ്റിന് അനുസരിച്ച് ചിത്രം മാറ്റുന്നു (കൂടുതൽ കൃത്യമായി), എന്നാൽ വളരെ ഉയർന്നാൽ അത് കൃത്രിമത്വമോ അല്ലെങ്കിൽ അമിത നിറമോ ഉണ്ടാക്കാം. 5–9 വരെ പരീക്ഷിച്ചുനോക്കുക.
- സ്റ്റെപ്സ്: കൂടുതൽ സ്റ്റെപ്സ് സാധാരണയായി മിനുസമാർന്നതും വിശദവുമായ ഫലങ്ങൾ നൽകുന്നു; പല സാംപ്ലറുകൾക്കും 20–40 വരെ നല്ലതാണ്.
- നെഗറ്റീവ് പ്രോംപ്റ്റുകൾ: ഒഴിവാക്കേണ്ട കാര്യങ്ങൾ മോഡലിനോട് പറയുക ("മങ്ങിയത്," "കൂടുതൽ വിരലുകൾ," "കുറഞ്ഞ കോൺട്രാസ്റ്റ്") - ഔട്ട്പുട്ടുകൾ മെച്ചപ്പെടുത്തുന്നതിന് ഇത് വളരെ ഫലപ്രദമാണ്.
ഇമേജ്-ടു-ഇമേജ്, ഇൻപെയിന്റിംഗ്, കണ്ട്രോൾ: ശുദ്ധമായ ടെക്സ്റ്റിനപ്പുറം
AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകൾ ടെക്സ്റ്റ് പ്രോംപ്റ്റുകളെക്കുറിച്ച് മാത്രമല്ല. ഘടന, കോമ്പോസിഷൻ, ശൈലി എന്നിവ താഴെ പറയുന്നവ ഉപയോഗിച്ച് നിങ്ങൾക്ക് നിയന്ത്രിക്കാനാകും:
- ഇമേജ്-ടു-ഇമേജ്: ഒരു സോഴ്സ് ഇമേജും ഒരു പ്രോംപ്റ്റും നൽകുക. ഔട്ട്പുട്ട് സോഴ്സിൽ നിന്ന് എത്രത്തോളം വ്യതിചലിക്കണം എന്ന് സ്ട്രെങ്ത് പാരാമീറ്റർ നിയന്ത്രിക്കുന്നു.
- ഇൻപെയിന്റിംഗ്: മാറ്റം വരുത്താനായി ഒരു ഭാഗം മാസ്ക് ചെയ്യുക. മോഡൽ ആ ഭാഗം മാത്രം പൂരിപ്പിക്കുന്നു, തടസ്സമില്ലാത്ത എഡിറ്റിംഗിനായി ചുറ്റുപാടുമായി യോജിപ്പിക്കുന്നു (ഒബ്ജക്റ്റ് നീക്കം ചെയ്യുക അല്ലെങ്കിൽ വസ്ത്രം മാറ്റുക).
- കൺട്രോൾനെറ്റുകൾ: ലേഔട്ടിന്റെയും പോസിന്റെയും പിക്സൽ-ലെവൽ നിയന്ത്രണം നൽകുന്ന എഡ്ജുകൾ, പോസ്, ഡെപ്ത് അല്ലെങ്കിൽ സെഗ്മെന്റേഷൻ എന്നിവയിൽ ഡിഫ്യൂഷൻ പ്രോസസ്സിനെ കണ്ടീഷൻ ചെയ്യുന്ന അധിക നെറ്റ്വർക്കുകൾ.
- LoRA/എംബെഡിംഗുകൾ: മുഴുവൻ മോഡലിനെയും വീണ്ടും പരിശീലിപ്പിക്കാതെ തന്നെ പുതിയ ശൈലികളോ കഥാപാത്രങ്ങളോ ചേർക്കുന്ന ലൈറ്റ് വെയ്റ്റ് അഡാപ്റ്ററുകൾ അല്ലെങ്കിൽ ലേൺഡ് ടോക്കണുകൾ.
സാംപ്ലറുകൾ ഡീകോഡ് ചെയ്തു: യൂലർ അല്ലെങ്കിൽ DPM++ ഉപയോഗിച്ച് നിങ്ങളുടെ ചിത്രങ്ങൾ വ്യത്യസ്തമായി കാണപ്പെടുന്നത് എന്തുകൊണ്ട്
സാംപ്ലറുകൾ റിവേഴ്സ് ഡിഫ്യൂഷൻ ട്രാജക്ടറിയെ നിയന്ത്രിക്കുന്നു. ഒരേ രംഗത്തിന് വ്യത്യസ്ത ക്യാമറ ലെൻസുകൾ എന്ന് ഇതിനെക്കുറിച്ച് ചിന്തിക്കുക:
- DDIM: കുറഞ്ഞ സ്റ്റെപ്പുകളുള്ള വേഗതയേറിയതും മിനുസമാർന്നതുമായ ട്രാജക്ടറികൾ - നല്ല പൊതു-ഉദ്ദേശ്യത്തിനുള്ള അടിസ്ഥാനം.
- PLMS: സ്യൂഡോ-ലീനിയർ മൾട്ടിസ്റ്റെപ്പ് മിതമായ വേഗതയിൽ വിശദാംശങ്ങളും സ്ഥിരതയും മെച്ചപ്പെടുത്തുന്നു.
- യൂലർ/യൂലർ a: വ്യക്തമായ ടെക്സ്ചറുകൾ; "യൂലർ a" നിയന്ത്രിത ക്രമരഹിതമായ സ്വഭാവം ചേർക്കുന്നു.
- DPM++ (2M/2S/3M): കുറഞ്ഞ സ്റ്റെപ്പുകളിൽ മൂർച്ചയ്ക്കും സ്ഥിരതയ്ക്കും അത്യാധുനികം.
പ്രായോഗികമായ ടിപ്പ്: ഒരു ചിത്രം അമിതമായി മിനുസമാർന്നതായി തോന്നുകയാണെങ്കിൽ, യൂലർ a അല്ലെങ്കിൽ DPM++ 2M SDE പരീക്ഷിക്കുക. ഇത് വളരെ അധികം നോയിസ് നിറഞ്ഞതാണെങ്കിൽ, സ്റ്റെപ്സ് കൂട്ടുക അല്ലെങ്കിൽ DDIM പോലുള്ള ഒരു ഡിറ്റർമിനിസ്റ്റിക് സാംപ്ലർ പരീക്ഷിക്കുക.
സീഡുകളും പുനർനിർമ്മാണവും: സന്തോഷകരമായ അപകടങ്ങൾ ആവർത്തിക്കാവുന്നതാക്കുക
ഒരു സീഡ് ക്രമരഹിതമായ നോയിസ് ആരംഭിക്കുന്നു. ചെറിയ വ്യത്യാസങ്ങളോടെ ഒരേ കോമ്പോസിഷൻ പുനർനിർമ്മിക്കാൻ സീഡ് സൂക്ഷിക്കുക:
- ഒരേ സീഡ് + ഒരേ പ്രോംപ്റ്റ് + ഒരേ ക്രമീകരണങ്ങൾ = ഏതാണ്ട് സമാനമായ ഫലങ്ങൾ.
- വ്യത്യസ്ത കോമ്പോസിഷനുകൾ വേഗത്തിൽ കണ്ടെത്താൻ സീഡ് മാറ്റുക.
- പ്രോംപ്റ്റിംഗ് ലേഔട്ടുകൾ കണ്ടെത്താൻ സീഡ് സ്വീപ്പുകൾ ഉപയോഗിക്കുക, തുടർന്ന് ഗൈഡൻസ് സ്കെയിലും സ്റ്റെപ്സും നന്നായി ട്യൂൺ ചെയ്യുക.
കലയ്ക്കായി ഡിഫ്യൂഷൻ പഴയ സമീപനങ്ങളെ മറികടക്കുന്നത് എന്തുകൊണ്ട്
GAN- കൾ (ജനറേറ്റീവ് അഡ്വേഴ്സറിയൽ നെറ്റ്വർക്കുകൾ) വർഷങ്ങളായി സ്വർണ്ണ നിലവാരമായിരുന്നു, പക്ഷേ മോഡ് കൊളാപ്സിംഗ്, പരിശീലനത്തിലെ സ്ഥിരതയില്ലായ്മ എന്നിവ കാരണം ബുദ്ധിമുട്ടി. ഓട്ടോറിഗ്രസീവ് മോഡലുകൾക്ക് (ആദ്യകാല ട്രാൻസ്ഫോർമർ അടിസ്ഥാനമാക്കിയുള്ള ഇമേജ് ജനറേറ്ററുകൾ പോലെ) ഉയർന്ന നിലവാരമുണ്ടാകാം, പക്ഷേ വേഗത കുറവായിരിക്കും.
AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകൾ വ്യക്തമായ ഗുണങ്ങൾ കാണിക്കുന്നു:
- സ്ഥിരത: GAN-കളെക്കാൾ പരിശീലനം ലളിതവും ശക്തവുമാണ്.
- വൈവിധ്യം: കുറഞ്ഞ മോഡ് കൊളാപ്സ് പ്രശ്നങ്ങൾ, വ്യത്യസ്ത ശൈലികളും കോമ്പോസിഷനുകളും സാധ്യമാക്കുന്നു.
- വിശദാംശങ്ങൾ: മൾട്ടി-സ്റ്റെപ്പ് റിഫൈൻമെന്റ് വ്യക്തമായ ടെക്സ്ചറുകളും ആഗോളപരമായ ഒത്തിണക്കവും നൽകുന്നു.
- നിയന്ത്രണം: കണ്ടീഷനിംഗ് രീതികൾ (ടെക്സ്റ്റ്, ഇമേജ്, ControlNets) മികച്ച ദിശാബോധം നൽകുന്നു.
അടിസ്ഥാനം: ലക്ഷ്യത്തിലേക്കുള്ള എളുപ്പവഴി
മിക്ക ഡിഫ്യൂഷൻ മോഡലുകളും ഓരോ ഘട്ടത്തിലും t ചേർക്കുന്ന നോയിസ് ε പ്രവചിക്കാൻ പഠിക്കുന്നു, പ്രവചിച്ചതും യഥാർത്ഥവുമായ നോയിസ് തമ്മിലുള്ള അന്തരം കുറയ്ക്കുന്നു. ക്ലാസിഫയർ-ഫ്രീ ഗൈഡൻസ് നിങ്ങളുടെ പ്രോംപ്റ്റ് ഉപയോഗിച്ച് ഒരു തവണയും "അൺകണ്ടീഷണൽ" ആയി ഒരു തവണയും മോഡൽ പ്രവർത്തിപ്പിച്ച് ഔട്ട്പുട്ടുകൾ സംയോജിപ്പിച്ച് നിങ്ങളുടെ പ്രോംപ്റ്റിലേക്ക് മാറ്റം വരുത്തുന്നതിലൂടെ പ്രവർത്തിക്കുന്നു.
അവ നന്നായി ഉപയോഗിക്കാൻ നിങ്ങൾക്ക് സമവാക്യങ്ങൾ ആവശ്യമില്ല, പക്ഷേ ഈ സജ്ജീകരണം തിരിച്ചറിയുന്നത് എന്തുകൊണ്ട് ഗൈഡൻസ് സ്കെയിൽ പ്രധാനമാണെന്ന് വിശദീകരിക്കുന്നു: വളരെ കുറഞ്ഞാൽ ചിത്രം വ്യതിചലിക്കുന്നു; വളരെ ഉയർന്നാൽ അത് പ്രോംപ്റ്റ് ടോക്കണുകൾക്ക് അനുസൃതമാവുകയും കൃത്രിമത്വങ്ങൾ അവതരിപ്പിക്കുകയും ചെയ്യുന്നു.
പ്രായോഗികമായ പ്ലേബുക്ക്: സ്ഥിരമായി മികച്ച ഫലങ്ങൾ നേടൽ
AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകളെ വിശ്വസനീയമായ ഔട്ട്പുട്ടുകളാക്കി മാറ്റാനുള്ള ഒരുworkflow ഇതാ:
- നിങ്ങളുടെ പ്രോംപ്റ്റ് രൂപപ്പെടുത്തുക
- വിഷയം ഉപയോഗിച്ച് ആരംഭിക്കുക: "വെള്ളി മുടിയുള്ള ഒരു പര്യവേക്ഷകന്റെ ചിത്രം"
- മോഡിഫയറുകൾ ചേർക്കുക: ശൈലി, കാലഘട്ടം, ലൈറ്റിംഗ്, വർണ്ണ പാലറ്റ്
- മീഡിയം വ്യക്തമാക്കുക: വാട്ടർ കളർ, ഓയിൽ, ഫോട്ടോറിയലിസ്റ്റിക്, 35mm ഫിലിം
- കോമ്പോസിഷൻ സൂചനകൾ ഉൾപ്പെടുത്തുക: ക്ലോസപ്പ്, വൈഡ് ആംഗിൾ, റൂൾ-ഓഫ്-തേർഡ്സ്
- ഗുണനിലവാര ടാഗുകൾ മിതമായി ഉപയോഗിച്ച് അവസാനിപ്പിക്കുക: "കൃത്യമായ ഫോക്കസ്, ഉയർന്ന വിശദാംശം, സ്വാഭാവിക ചർമ്മത്തിന്റെ നിറം"
- പ്രധാന പാരാമീറ്ററുകൾ ട്യൂൺ ചെയ്യുക
- സ്റ്റെപ്സ്: വേഗത/ഗുണനിലവാര ബാലൻസിനായി 25–40; സങ്കീർണ്ണമായ രംഗങ്ങൾക്ക് 60+
- ഗൈഡൻസ് സ്കെയിൽ: 5–9 സാധാരണമാണ്; അതിരുകൾ പഠിക്കാൻ 3–12 വരെ പരീക്ഷിക്കുക
- റെസല്യൂഷൻ: ചെറിയ അറ്റത്ത് 512–768-ൽ ആരംഭിക്കുക; ആവശ്യമെങ്കിൽ ഉയർന്ന നിലവാരമുള്ള അപ്സ്കെയിലറുകൾ ഉപയോഗിച്ച് അപ്സാമ്പിൾ ചെയ്യുക
- സാംപ്ലർ: വേഗതയ്ക്കായി DDIM, മൂർച്ചയ്ക്കായി DPM++, ടെക്സ്ചറിനായി യൂലർ a എന്നിവ പരീക്ഷിക്കുക
- നെഗറ്റീവ് പ്രോംപ്റ്റുകൾ പഠിക്കുക
- പൊതുവായ നെഗറ്റീവുകൾ: "കുറഞ്ഞ റെസ്, മങ്ങിയത്, jpeg ആർട്ടിഫാക്റ്റുകൾ, അധിക വിരലുകൾ, രൂപഭേദം സംഭവിച്ച കൈകൾ, വാട്ടർമാർക്ക്, ടെക്സ്റ്റ്"
- രംഗത്തിന് പ്രത്യേകമായ നെഗറ്റീവുകൾ: "മൂടൽമഞ്ഞ്, കഠിനമായ നിഴലുകൾ, കഴുകിയ നിറങ്ങൾ"
- ഘടന നിലനിർത്താനും ശൈലി വികസിപ്പിക്കാനും 0.25–0.6 ശക്തിയുള്ള ഇമേജ്-ടു-ഇമേജ് ഉപയോഗിക്കുക
- ഒരു പരമ്പരയിലുടനീളം സ്ഥിരമായ ലേഔട്ടിനായി Canny എഡ്ജുകളോ ഡെപ്ത് മാപ്പുകളോ ഉള്ള ControlNet ഉപയോഗിക്കുക
- സീഡുകൾ ഉപയോഗിച്ച് ആവർത്തിക്കുക
- കോമ്പോസിഷൻ ഇഷ്ടപ്പെടുമ്പോൾ ഒരു സീഡ് ലോക്ക് ചെയ്യുക; മിനുക്കുപണികൾക്കായി ഗൈഡൻസും സ്റ്റെപ്സും മാറ്റുക
- വേരിയേഷൻ ബാച്ചുകൾ ചെയ്യുക: സീഡ് ഫിക്സ് ചെയ്തു, ചെറിയ ക്രമരഹിതമായ നോയിസ്
- സമർത്ഥമായി പോസ്റ്റ്-പ്രോസസ്സ് ചെയ്യുക
- വിശദാംശങ്ങൾ നിലനിർത്താൻ ശക്തമായ VAE അല്ലെങ്കിൽ ബാഹ്യ അപ്സ്കെയിലർ (ലേറ്റന്റ് അല്ലെങ്കിൽ ഡിഫ്യൂഷൻ അടിസ്ഥാനമാക്കിയുള്ളത്) ഉപയോഗിക്കുക
- അന്തിമ മിനുക്കുപണിക്കായി ഒരു ഫോട്ടോ എഡിറ്ററിൽ ലൈറ്റ് കളർ ഗ്രേഡിംഗ് ചെയ്യുക അല്ലെങ്കിൽ ഡീനോയിസ് ചെയ്യുക
വിപുലമായ സ്റ്റിയറിംഗ്: ശൈലി, കഥാപാത്രങ്ങൾ, ആവർത്തിച്ചുള്ള രംഗങ്ങൾ
- LoRA ലൈബ്രറികൾ: സൂക്ഷ്മമായ സ്വാധീനത്തിനായി കുറഞ്ഞ വെയ്റ്റുകളിൽ (0.4–0.8) ശൈലി LoRA-കൾ അറ്റാച്ചുചെയ്യുക; മികച്ച ബാലൻസിനായി ഒരെണ്ണം കനത്തിൽ ഉപയോഗിക്കുന്നതിനുപകരം രണ്ടെണ്ണം നേരിയ രീതിയിൽ അടുപ്പിക്കുക.
- ടെക്സ്റ്റ്വൽ ഇൻവേർഷൻ: നിങ്ങൾ വീണ്ടും ഉപയോഗിക്കാൻ ആഗ്രഹിക്കുന്ന ഒരു ബ്രാൻഡ് കഥാപാത്രത്തിനോ ഉൽപ്പന്നത്തിനോ അല്ലെങ്കിൽ പ്രത്യേക ആർട്ട് ശൈലിക്കോ വേണ്ടി ഇഷ്ടമുള്ള ടോക്കണുകൾ പഠിക്കുക.
- മൾട്ടി-കണ്ടീഷൻ കണ്ട്രോൾ: ഫ്രെയിമുകളിലോ പാനലുകളിലോ സിനിമാറ്റിക് സ്ഥിരതയ്ക്കായി പോസ് + ഡെപ്ത് + നോർമൽ മാപ്പുകൾ സംയോജിപ്പിക്കുക.
- റിഫൈനറുകൾ: മുഖങ്ങളോ ടെക്സ്ചറുകളോ മൂർച്ച കൂട്ടാൻ പിന്നീടുള്ള ഘട്ടങ്ങളിൽ ഒരു സെക്കൻഡറി ഡിഫ്യൂഷൻ മോഡൽ ഉപയോഗിക്കുക.
ആത്മാവ് നഷ്ടപ്പെടാതെ വേഗത്തിലാക്കുക
AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകൾ പലപ്പോഴും ഒരു ആശങ്ക ഉയർത്തുന്നു: വേഗത. ഇതിനുള്ള വഴികൾ:
- കുറഞ്ഞ സ്റ്റെപ്സ് + മികച്ച സാംപ്ലറുകൾ (ട്യൂൺ ചെയ്ത eta-യുള്ള DPM++ 2M, DDIM)
- കുറഞ്ഞ സ്റ്റെപ്പുകളിൽ മൾട്ടി-സ്റ്റെപ്പ് ഫലങ്ങളെ സമീപിക്കുന്ന ഡിസ്റ്റിൽഡ് അല്ലെങ്കിൽ കൺസിസ്റ്റൻസി മോഡലുകൾ
- ലേറ്റന്റ് അപ്സ്കെയിലിംഗ്: ചെറുതായി ഉണ്ടാക്കുക, തുടർന്ന് വിശദാംശങ്ങൾ മെച്ചപ്പെടുത്തി അപ്സ്കെയിൽ ചെയ്യുക
- ഹാർഡ്വെയർ ആക്സിലറേഷൻ: xFormers, ഫ്ലാഷ് അറ്റൻഷൻ, TensorRT അല്ലെങ്കിൽ ONNX റൺടൈമുകൾ ഉപയോഗിച്ച് ഒപ്റ്റിമൈസ് ചെയ്യുക
സ്റ്റില്ലുകൾക്കപ്പുറം: വീഡിയോ ഡിഫ്യൂഷനും മോഷൻ ഗൈഡൻസും
വീഡിയോ ഡിഫ്യൂഷൻ സമയത്തിനനുസരിച്ച് ഇമേജ് ഡിഫ്യൂഷൻ വ്യാപിപ്പിക്കുന്നു: ടെമ്പോറൽ അറ്റൻഷനോടുകൂടി മോഡൽ ഒരു സീക്വൻസിനെ ഡീനോയിസ് ചെയ്യുന്നു, ഫ്രെയിമുകളിലുടനീളം സ്ഥിരത നിലനിർത്തുന്നു. ഒപ്റ്റിക്കൽ ഫ്ലോ അല്ലെങ്കിൽ പോസ് സീക്വൻസുകൾ പോലുള്ള കണ്ട്രോൾ സിഗ്നലുകൾ ചലനത്തെ നയിക്കുന്നു. പ്രതീക്ഷിക്കുക:
- ലൂപ്പ് ചെയ്യാവുന്ന സിനിമോഗ്രാഫുകളും ചെറിയ റീലുകളും
- കീ പോസുകൾ നൽകുന്ന സ്ഥിരമായ ക്യാരക്ടർ ആനിമേഷൻ
- കാമറ ചലനവും ലൈറ്റിംഗ് തുടർച്ചയുമുള്ള ഷോട്ടുകൾ സമന്വയിപ്പിക്കുന്ന ടെക്സ്റ്റ്-ടു-വീഡിയോ മോഡലുകൾ
ധാർമ്മികതയും സുരക്ഷയും: ക്രിയേറ്റീവ് പവർ പരിശോധന
വലിയ ജനറേറ്റീവ് ശക്തി ലഭിക്കുമ്പോൾ ഉത്തരവാദിത്തവുമുണ്ട്:
- സമ്മതവും ആട്രിബ്യൂഷനും: ആർട്ടിസ്റ്റുകളുടെ അവകാശങ്ങളെ മാനിക്കുക; സാധ്യമാകുമ്പോൾ ലൈസൻസുള്ള അല്ലെങ്കിൽ ഒപ്റ്റ്-ഇൻ ഡാറ്റാ സെറ്റുകൾ ഉപയോഗിക്കുക.
- പക്ഷപാതം, പ്രാതിനിധ്യം: പ്രോംപ്റ്റുകൾക്കും ഡാറ്റാ സെറ്റുകൾക്കും സാമൂഹിക പക്ഷപാതങ്ങൾ പ്രതിഫലിപ്പിക്കാൻ കഴിയും - അവയെ വ്യക്തമായി എതിർക്കുക.
- ദുരുപയോഗം തടയൽ: വാട്ടർമാർക്കുകൾ, പ്രൊവെനൻസ് മെറ്റാഡാറ്റ (ഉദാഹരണത്തിന്, C2PA), ഉള്ളടക്ക ഫിൽട്ടറുകൾ എന്നിവ ദോഷം കുറയ്ക്കാൻ സഹായിക്കുന്നു.
ട്രബിൾഷൂട്ടിംഗ്: എപ്പോൾ ഫലങ്ങൾ തെറ്റായി പോകുന്നു
- പ്രോംപ്റ്റിലേക്ക് അമിതമായി ചേരുമ്പോൾ: ഗൈഡൻസ് സ്കെയിൽ കുറയ്ക്കുക അല്ലെങ്കിൽ വിശേഷണങ്ങൾ ലളിതമാക്കുക.
- ഘടനയിലെ തകരാറുകൾ: "അനാട്ടമിക്കലി കറക്ട്" ചേർക്കുക, ഒരു മുഖമോ കൈ-നിർദ്ദിഷ്ട റിഫൈനറോ ഉപയോഗിക്കുക, അല്ലെങ്കിൽ പോസ് കണ്ട്രോൾ നൽകുക.
- ചളി പോലെയുള്ള ടെക്സ്ചറുകൾ: സ്റ്റെപ്സ് കൂട്ടുക, മറ്റൊരു സാംപ്ലർ പരീക്ഷിക്കുക, അല്ലെങ്കിൽ നെഗറ്റീവ് പ്രോംപ്റ്റിന്റെ ആക്രമണാത്മക സ്വഭാവം കുറയ്ക്കുക.
- ആവർത്തനം അല്ലെങ്കിൽ ടൈലിംഗ്: സീഡ് മാറ്റുക, കോമ്പോസിഷൻ സൂചനകൾ മാറ്റുക, അല്ലെങ്കിൽ നെഗറ്റീവ് പ്രോംപ്റ്റിലേക്ക് "നോ ടൈലിംഗ്" ചേർക്കുക.
ശ്രദ്ധിക്കേണ്ടത്: AI സഹായത്തോടെ ക്രിയേറ്റീവ് വർക്ക്ഫ്ലോകൾ ലളിതമാക്കുന്നു
നിങ്ങൾ പ്രോംപ്റ്റുകൾ ആവർത്തിക്കുകയാണെങ്കിൽ, സാംപ്ലറുകൾ പരീക്ഷിക്കുകയാണെങ്കിൽ, ഫലങ്ങൾ ക്രമീകരിക്കുകയാണെങ്കിൽ, പതിപ്പുകളും സീഡുകളും ക്രമീകരണങ്ങളും ഒരേപോലെ നിലനിർത്തുന്നത് മണിക്കൂറുകൾ ലാഭിക്കാൻ സഹായിക്കും. Sider.AI പോലുള്ള ടൂളുകൾക്ക് ഘടനാപരമായ പ്രോംപ്റ്റുകൾ തയ്യാറാക്കാനും, തലമുറകളെ അടുത്തടുത്ത് താരതമ്യം ചെയ്യാനും, പാരാമീറ്റർ മാറ്റങ്ങൾ സംഗ്രഹിക്കാനും നിങ്ങളെ സഹായിക്കാനാവും, അതുവഴി എന്താണ് ചിത്രത്തെ മെച്ചപ്പെടുത്തിയത് എന്ന് നിങ്ങൾക്ക് പഠിക്കാൻ സാധിക്കും. ഒരു പ്രോജക്റ്റ് ബ്രീഫിൽ LoRA-കളും ControlNet-കളും ഒന്നിലധികം സീഡുകളും നിങ്ങൾ കൈകാര്യം ചെയ്യുമ്പോൾ ഇത് വളരെ ഉപകാരപ്രദമാകും. ഇന്ന് നിങ്ങൾക്ക് പ്രവർത്തിപ്പിക്കാൻ കഴിയുന്ന പ്രധാന കാര്യങ്ങൾ
- സബ്ജക്റ്റ്, ശൈലി, കോമ്പോസിഷൻ, ലൈറ്റിംഗ്, മീഡിയം എന്നിവയിൽ ശ്രദ്ധിക്കുക.
- ലളിതമായി തുടങ്ങുക; കോമ്പോസിഷൻ ഉറപ്പിച്ച ശേഷം മോഡിഫയറുകൾ ചേർക്കുക.
- ഗൈഡൻസ് സ്കെയിലിനെയും സ്റ്റെപ്സിനെയും എക്സ്പോഷറും ISO-യും പോലെ പരിഗണിക്കുക - ബോധപൂർവ്വം ട്യൂൺ ചെയ്യുക.
- കൃത്യതയ്ക്കും ആവർത്തനത്തിനുമായി നെഗറ്റീവ് പ്രോംപ്റ്റുകൾ, ControlNet-കൾ, സീഡുകൾ എന്നിവ ഉപയോഗിക്കുക.
- ഉൽപ്പാദനത്തിന് തയ്യാറായ മിനുക്കുപണികൾക്കായി റിഫൈനറുകളും അപ്സ്കെയിലറുകളും ഉപയോഗിക്കുക.
ഡിഫ്യൂഷൻ മോഡലുകൾക്കുള്ള മുന്നോട്ടുള്ള വഴി
AI ആർട്ട് ജനറേഷനായുള്ള ഡിഫ്യൂഷൻ മോഡലുകൾ ഇപ്പോഴും അതിവേഗം വികസിച്ചുകൊണ്ടിരിക്കുകയാണ്. പ്രതീക്ഷിക്കുക:
- കൺസിസ്റ്റൻസി പരിശീലനത്തിലൂടെയും റെക്റ്റിഫൈഡ് ഫ്ലോകളിലൂടെയും വേഗതയേറിയ സാംപ്ലറുകൾ
- ശക്തമായ മൾട്ടിമോഡൽ കണ്ടീഷനിംഗ് (സ്കെച്ചുകൾ, ഓഡിയോ ബീറ്റുകൾ, ലേഔട്ട് ഗ്രാഫുകൾ)
- രംഗങ്ങളിലും വീഡിയോകളിലുമുള്ള മികച്ച കഥാപാത്രവും വ്യക്തിത്വ സംരക്ഷണവും
- തദ്ദേശീയ പ്രൊവെനൻസ് ടാഗുകളും സുരക്ഷിതമായ സ്ഥിരമായ ഓപ്ഷനുകളും
പിക്സലുകൾക്ക് പിന്നിലെ മാന്ത്രികത ഒട്ടും മാന്ത്രികമല്ല - നിങ്ങളുടെ ഉദ്ദേശ്യത്താൽ നയിക്കപ്പെടുന്ന നോയിസും ഘടനയും തമ്മിലുള്ള ചിട്ടയായ നൃത്തമാണിത്. നിയന്ത്രണങ്ങൾ പഠിക്കുക, അപ്പോൾ ഡിഫ്യൂഷൻ ഭാഗ്യപരീക്ഷയെക്കാൾ ഉപരി ഒരുപകരണം പോലെ ഉപയോഗിക്കാം.
FAQ
Q1: AI ആർട്ട് ജനറേഷനിൽ ഡിഫ്യൂഷൻ മോഡലുകൾ എന്തൊക്കെയാണ്?
ഡിഫ്യൂഷൻ മോഡലുകൾ ഒരു നോയിസിംഗ് പ്രോസസ്സിനെ മാറ്റാൻ പഠിക്കുന്നു, നിങ്ങളുടെ പ്രോംപ്റ്റുമായി പൊരുത്തപ്പെടുന്ന ക്രമരഹിതമായ നോയിസിനെ ചിത്രങ്ങളാക്കി മാറ്റുന്നു. പഠിച്ച ഗൈഡൻസിലൂടെ ഓരോ ഘട്ടത്തിലും ഡീനോയിസ് ചെയ്യുന്നതിലൂടെ അവ വിശദവും വ്യക്തവുമായ കല സൃഷ്ടിക്കുന്നു.
Q2: ടെക്സ്റ്റ് പ്രോംപ്റ്റുകൾ എങ്ങനെയാണ് ഡിഫ്യൂഷൻ മോഡലുകളെ നയിക്കുന്നത്?
ഒരു ടെക്സ്റ്റ് എൻകോഡർ നിങ്ങളുടെ പ്രോംപ്റ്റിനെ ഓരോ ഘട്ടത്തിലും ഡീനോയിസിംഗിനെ നയിക്കുന്ന എംബെഡിംഗുകളാക്കി മാറ്റുന്നു. ക്ലാസിഫയർ-ഫ്രീ ഗൈഡൻസ് ഉപയോഗിച്ച്, നിങ്ങളുടെ ചിത്രം നിങ്ങളുടെ പ്രോംപ്റ്റിനോട് എത്രത്തോളം ചേർന്ന് നിൽക്കണമെന്ന് നിങ്ങൾക്ക് നിയന്ത്രിക്കാനാകും.
Q3: പിക്സൽ ഡിഫ്യൂഷനുപകരം ലേറ്റന്റ് ഡിഫ്യൂഷൻ ഉപയോഗിക്കുന്നത് എന്തുകൊണ്ട്?
ലേറ്റന്റ് ഡിഫ്യൂഷൻ ഒരു കംപ്രസ് ചെയ്ത സ്പേസിൽ പ്രവർത്തിക്കുന്നു, ഇത് ഉയർന്ന നിലവാരം നിലനിർത്തുന്നതോടൊപ്പം ജനറേഷൻ കൂടുതൽ വേഗത്തിലും മെമ്മറി ലാഭിക്കുന്നതുമാക്കുന്നു. ഇത് ഉയർന്ന റെസല്യൂഷനുകളും പ്രായോഗികമായ എഡിറ്റിംഗ് വർക്ക്ഫ്ലോകളും സാധ്യമാക്കുന്നു.
Q4: ഡിഫ്യൂഷൻ മോഡലുകളുള്ള AI ആർട്ടിന് ഏത് സാംപ്ലറാണ് മികച്ചത്?
ഇത് നിങ്ങളുടെ ലക്ഷ്യങ്ങളെ ആശ്രയിച്ചിരിക്കുന്നു: വേഗതയ്ക്ക് DDIM, ടെക്സ്ചർഡ് വിശദാംശങ്ങൾക്ക് യൂലർ a, മൂർച്ചയ്ക്കും സ്ഥിരതയ്ക്കും DPM++ വകഭേദങ്ങൾ. DPM++ ഉപയോഗിച്ച് 25–40 സ്റ്റെപ്പുകൾ ഒരു നല്ല പോയിന്റായി തുടങ്ങാവുന്നതാണ്.
Q5: അധിക വിരലുകൾ പോലുള്ള സാധാരണ ഡിഫ്യൂഷൻ ആർട്ടിഫാക്റ്റുകൾ എങ്ങനെ പരിഹരിക്കാനാകും?
നെഗറ്റീവ് പ്രോംപ്റ്റുകൾ ഉപയോഗിക്കുക (ഉദാഹരണത്തിന്, 'അധിക വിരലുകൾ, രൂപഭേദം സംഭവിച്ച കൈകൾ'), ഗൈഡൻസ് സ്കെയിൽ ചെറുതായി കുറയ്ക്കുക, സ്റ്റെപ്സ് വർദ്ധിപ്പിക്കുക അല്ലെങ്കിൽ ഒരു റിഫൈനർ മോഡൽ ഉപയോഗിക്കുക. പോസ് ഗൈഡൻസുള്ള ControlNet ശരീരഘടനയെ മെച്ചപ്പെടുത്തുന്നു.