Cum să folosești ComfyUI: Un ghid practic, pas cu pas, pentru începători
Dacă ai auzit că ComfyUI este „bazat pe noduri și super puternic”, dar te-ai simțit intimidat de toate cutiile și firele, nu ești singurul. Vestea bună: odată ce înveți câteva concepte de bază – checkpoint-uri, encoderi, samplere și decodoare – vei construi fluxuri de lucru pentru imagini ca un profesionist. Acest ghid practic te va învăța cum să folosești ComfyUI de la instalare până la primele imagini SDXL, plus fluxuri de lucru pentru ControlNet, LoRA-uri și reglarea calității/performanței.
Până la final, vei ști exact cum să folosești ComfyUI pentru a realiza generări de imagini consistente, repetabile și flexibile, fără presupuneri.
Ce este ComfyUI și de ce să-l folosești?
ComfyUI este o interfață vizuală, bazată pe noduri, pentru Stable Diffusion, care îți permite să-ți proiectezi pipeline-ul de imagini pas cu pas. În loc de un singur buton „Generează”, conectezi noduri – fiecare gestionând o sarcină distinctă, cum ar fi încărcarea unui model, codificarea textului, eșantionarea latenților sau decodarea imaginii finale. Este rapid, modular și transparent – perfect pentru învățare, experimentare și fluxuri de lucru de producție.
Pornire rapidă: Instalează și lansează ComfyUI
- Windows/macOS/Linux: Urmează depozitul oficial și ghidurile de instalare ale comunității. Poți utiliza instalarea manuală (Python + dependențe) sau metodele împachetate, în funcție de platforma și GPU-ul tău. Wiki-ul ComfyUI oferă configurarea pas cu pas pentru Windows, macOS (inclusiv Apple Silicon) și Linux.
- Modele: Plasează checkpoint-urile Stable Diffusion (de exemplu, SDXL base/refiner sau SD 1.5) în folderul
models/checkpoints. Pune fișierele VAE în models/vae, LoRA-urile în models/loras, modelele ControlNet în models/controlnet.
- Lansare: Rulează scriptul de pornire pentru sistemul tău de operare; ComfyUI se deschide în browserul tău. Canvas-ul este locul unde vei conecta nodurile.
Sfat: Păstrează driverele GPU și CUDA toolkit actualizate pentru o performanță optimă.
Concept de bază: Fluxul minim text-to-image
Fluxul text-to-image de bază al ComfyUI (stil SD 1.5) arată astfel:
- Ieșire: componente UNet, CLIP și VAE
- Nod: CLIP Text Encode (Pozitiv)
- Nod: CLIP Text Encode (Negativ)
- Ieșire: Încorporări de condiționare pentru ghidare
- Intrări: UNet, condiționare pozitivă/negativă, seed, pași, sampler (de exemplu, DPM++ 2M Karras) și scala CFG
Acest grafic de bază – Checkpoint → CLIP (poz/neg) → KSampler → VAE Decode → Save – este fundația pentru aproape tot ce vei face în ComfyUI.
Flux de lucru SDXL: Base + (Opțional) Refiner
SDXL folosește encoderi de text duali și beneficiază adesea de o trecere de rafinare.
- Încarcă SDXL Base: Folosește un checkpoint compatibil cu SDXL. Multe șabloane SDXL includ doi encoderi CLIP (pentru context mare/mic). Alimentează atât prompt-urile pozitive, cât și cele negative.
- KSampler (Base): Generează latenți la 1024×1024 (sau ținta ta). Salvează latenții sau imaginile decodificate.
- Refiner opțional: Încarcă checkpoint-ul SDXL Refiner și rulează o trecere KSampler suplimentară condiționată de ieșirea de bază, apoi decodifică cu VAE.
Acest proces în două etape poate îmbunătăți semnificativ detaliile și coerența la rezoluții mai mari.
Practic: Construiește-ți primul grafic ComfyUI
- Începe de la un șablon: În bara laterală, încarcă un exemplu text-to-image încorporat.
- Înlocuiește checkpoint-ul: Selectează modelul tău SDXL sau SD 1.5.
- Scrie prompt-ul tău: Folosește nodurile CLIP pozitive și negative. Exemplu:
- Pozitiv: „portret cinematografic, iluminare moale de studio, obiectiv de 85 mm, foarte detaliat, granulație de film”
- Negativ: „încețoșat, rezoluție scăzută, deformat, degete suplimentare, filigran”
- Pași: 20–35 pentru echilibru viteză/calitate
- Sampler: DPM++ 2M Karras (de încredere) sau Euler a (rapid)
- CFG: 4.5–7.5 (mai mare împinge prompt-ul mai tare, dar poate suprasatura)
- Seed: Fixează-l pentru reproductibilitate; variază pentru explorare
- Rezoluție: Pentru SD 1.5, începe la 512×512 sau 768×768. Pentru SDXL, 1024×1024 funcționează bine.
- Decodifică și salvează: Adaugă VAE Decode → Save Image. Dă clic pe Queue Prompt pentru a genera.
Înțelegerea nodurilor cheie (pe înțelesul tuturor)
- Checkpoint Loader: Încarcă modelul tău de difuzie (UNet), encoderul(ii) de text (CLIP) și VAE. Gândește-te la el ca la „motorul + creierul lingvistic + traducătorul de imagini”.
- CLIP Text Encode: Transformă prompt-ul tău în încorporări numerice pe care modelul le înțelege. Folosește atât encoderi de text pozitivi, cât și negativi.
- KSampler: Inima sintezei imaginii. Reduce zgomotul latent ghidat de prompt-ul tău și de metoda de eșantionare pe parcursul unui număr de pași.
- VAE Decode: Traduce latenții finali într-o imagine vizibilă. Schimbarea VAE-urilor modifică fidelitatea culorilor/contrastului.
- Save Image: Scrie ieșirea pe disc cu metadate, astfel încât să poți recrea rezultatele mai târziu.
Pentru o scufundare mai profundă în aceste elemente de bază, vezi defalcări ușor de înțeles pentru începători și explicații ale nodurilor.
Power-Ups: LoRA, ControlNet și Image-to-Image
Folosește LoRA pentru controlul stilului sau al subiectului
- Adaugă un nod LoRA Loader și conectează-l la ramura modelului tău.
- Putere: Începe în jurul valorii de 0.6–0.8; ajustează în funcție de intensitatea stilului sau de supraadaptare.
- LoRA-uri multiple: Lanțuiește sau combină, dar ai grijă la conflicte; scade puterile atunci când stivuiești.
Adaugă ControlNet pentru o compoziție precisă
- Nodurile ControlNet îți permit să direcționezi compoziția folosind o hartă de intrare (Canny, Depth, OpenPose etc.).
- Flux tipic: Încarcă modelul ControlNet → Preprocesează imaginea ta ghid (de exemplu, muchie Canny) → Alimentează condiționarea ControlNet în KSampler împreună cu condiționarea textului tău.
- Pondere: 0.5–1.2 este un început bun. Prea mare poate copleși prompt-ul tău.
Image-to-Image sau Inpainting
- Înlocuiește zgomotul inițial cu un latent de imagine prin VAE Encode.
- Ajustează puterea de denoise în KSampler pentru a controla cât de mult din imaginea originală rămâne.
- Pentru inpainting, folosește o intrare de mască și un pipeline de sampler care ține cont de inpaint.
Reglarea calității: Prompt-uri, CFG, Samplere și Seed-uri
- Ingineria prompt-urilor: Folosește descriptori concisi, nu paragrafe. Ordinea contează mai puțin decât claritatea, dar păstrează atributele critice în față.
- Scăzut (3–5): Mai creativ, mai puțină aderență la prompt
- Ridicat (9–12): Aderență puternică, poate crea artefacte
- DPM++ 2M Karras: Curat, de încredere
- Euler a: Rapid și expresiv, excelent pentru previzualizări
- UniPC / Heun / DDIM: Merită testat; rezultatele variază în funcție de model
- Seed fix = rezultate reproductibile
- Seed variat = explorează diversitatea
Sfaturi de performanță pentru randări fluide
- Bugetarea VRAM: Scade rezoluția, pașii sau dimensiunea lotului dacă atingi OOM. SDXL la 1024×1024 poate necesita 8–12 GB VRAM, în funcție de noduri.
- Precizie pe jumătate: Activează fp16 acolo unde este acceptat pentru economii mari de memorie, cu o pierdere neglijabilă de calitate.
- Tiling și upscaleri latenți: Generează mai mic, apoi upscalează printr-un nod upscaler latent sau un model upscaler de imagine pentru a economisi VRAM.
- Caching: Reutilizează codificările CLIP și VAE-urile decodificate între rulări atunci când prompt-urile nu se schimbă.
- Evită ramurile inutile: Nodurile suplimentare deconectate consumă în continuare memorie atunci când sunt executate în aceeași coadă.
Organizarea fluxurilor de lucru ca un profesionist
- Grupează nodurile: Folosește cadre/etichete pentru a organiza secțiunile (Prompt, Model, Sampler, Ieșire etc.).
- Panouri de parametri: Creează noduri de „control” (de exemplu, casete de prompt goale, glisoare) în partea de sus pentru o reglare ușoară.
- Salvează/partajează: Exportă JSON-ul fluxului tău de lucru și păstrează o notă cu
modelele folosite pentru reproductibilitate.
- Versionare: Păstrează grafice separate pentru SD 1.5, SDXL și pipeline-uri specializate (anime, fotorealism, depth-to-image etc.).
Depanarea problemelor comune
- VAE greșit sau VAE Decode lipsă
- Denoise prea scăzut (de exemplu, <0.2 în img2img)
- Încearcă un alt VAE; unele VAE-uri îmbunătățesc contrastul vizibil
- Scade CFG sau schimbă samplerul
- Nimic nu se schimbă între rulări:
- Seed-ul este fix; activează randomizare sau setează un seed nou
- Memorie insuficientă (OOM):
- Reduce rezoluția, pașii sau dimensiunea lotului; treci la fp16
- Închide alte aplicații GPU; simplifică stivele ControlNet/LoRA
- Modelul nu a fost găsit / nod roșu:
- Verifică căile fișierelor și folderele modelului; confirmă extensiile fișierelor
Învață mai repede cu fluxuri de lucru pre-construite
Tutorialele video și seriile pentru începători pot accelera curba de învățare cu grafice gata de rulare pe care le poți întrerupe și diseca. Tutorialele scrise și wiki-urile oferă explicații ale nodurilor și pași de instalare actualizați pentru a te menține la curent.
Avansat: Modularizarea și extinderea graficelor tale
- API/Noduri externe: Unele tutoriale acoperă conectarea ComfyUI la servicii AI externe prin noduri speciale, permițând pipeline-uri hibride și descărcarea sarcinilor grele.
- Biblioteci de noduri și extensii: Explorează nodurile comunității pentru schedulere, upscaleri și preprocesare (poziție, adâncime, segmentare). Verifică întotdeauna compatibilitatea cu versiunea ta de ComfyUI.
- Refineri SDXL și samplere înlănțuite: Rulează denoise în etape (base → refiner) sau chiar samplere multiple pentru amestecarea stilistică.
De remarcat: Accelerarea prompt-urilor cu Sider.AI
Dacă iterezi frecvent pe prompt-uri, referințe sau descrieri, s-ar putea să ai nevoie de un partener pentru a face brainstorming și a rafina variațiile. Apropo, Sider.AI te poate ajuta să schițezi rapid prompt-uri structurate, să generezi liste de prompt-uri negative și să rezumi experimentele tale de flux de lucru, astfel încât să nu pierzi urma între rulări. Poți să-l încerci aici: Un flux de lucru simplu SDXL pentru începători (copiază acest model)
- Checkpoint Loader (SDXL Base)
- CLIP Text Encode (Pozitiv) — „fotografie de produs ultra-detaliată, iluminare softbox, obiectiv de 50 mm, suprafață reflectorizantă”
- CLIP Text Encode (Negativ) — „rezoluție scăzută, estompare a mișcării, filigran, dezordine de fundal”
- KSampler: 1024×1024, 28 pași, DPM++ 2M Karras, CFG 5.5, seed fix
Add-on-uri opționale:
- Trecere de rafinare cu checkpoint SDXL Refiner la 10–15 pași
- ControlNet (Depth) cu o siluetă simplă de obiect pentru aspect
- LoRA la 0.6 pentru un anumit brand sau stil artistic
Puncte cheie
- Puterea ComfyUI vine din transparența sa – construiește-ți pipeline-ul nod cu nod.
- Lanțul de bază text-to-image este simplu: Checkpoint → CLIP (poz/neg) → KSampler → VAE Decode → Save.
- SDXL beneficiază de encoderi duali și de o trecere de rafinare opțională pentru detalii.
- LoRA-urile și ControlNet îți oferă controlul stilului și precizia compoziției.
- Reglează CFG, samplerul și seed-ul pentru calitate și consistență; gestionează VRAM cu fp16 și rezoluții sensibile.
- Organizează fluxurile de lucru și versionează-le pentru o iterație fără dureri.
Pașii următori
- Instalează ComfyUI urmând instrucțiunile repo/wiki și lansează un flux de lucru eșantion.
- Reconstruiește lanțul minim de la zero pentru a consolida elementele de bază.
- Adaugă ControlNet și un LoRA, apoi testează A/B setările samplerului și CFG.
- Salvează și partajează JSON-ul fluxului tău de lucru cu note despre modele, seed-uri și parametri.
Generare fericită – și bun venit în lumea calmă și controlabilă a ComfyUI.
Întrebări frecvente
Î1: Cum instalez și rulez ComfyUI pe Windows, macOS sau Linux?
Urmează depozitul oficial și wiki-ul comunității pentru pași specifici platformei, locații de foldere de modele și dependențe. După instalare, lansează serverul local și deschide ComfyUI în browserul tău pentru a începe conectarea nodurilor.
Î2: Care este cel mai simplu flux de lucru ComfyUI pentru text-to-image?
Încarcă un checkpoint, codifică prompt-uri pozitive și negative cu CLIP, rulează un KSampler, decodifică cu VAE, apoi salvează imaginea. Acest lanț este fundamentul modului de a utiliza ComfyUI eficient pentru majoritatea generațiilor.
Î3: Cum folosesc SDXL în ComfyUI?
Folosește un checkpoint SDXL cu encoderi de text duali, apoi adaugă opțional o trecere de rafinare pentru detalii mai bune. Rulează la 1024×1024 cu CFG echilibrat (în jur de 5–7) și un sampler eficient, cum ar fi DPM++ 2M Karras.
Î4: Pot adăuga ControlNet și LoRA în același flux de lucru ComfyUI?
Da. Încarcă nodurile tale LoRA și ControlNet, conectează-le la condiționările modelului și KSampler și reglează ponderile (de exemplu, 0.6–0.8 pentru LoRA, ~0.5–1.2 pentru ControlNet). Urmărește utilizarea VRAM și reduce rezoluția sau pașii dacă atingi OOM.
Î5: De ce imaginile mele ComfyUI au contrast scăzut sau sunt estompate?
Încearcă un VAE diferit, scade CFG sau schimbă samplerele. Unele VAE-uri produc culori și contrast mai fidele; ajustări mici pot remedia rapid rezultatele estompate.