How do I install and run ComfyUI on Windows, macOS, or Linux?

Follow the official repo and the community wiki for platform-specific steps, model folder locations, and dependencies. After installation, launch the local server and open ComfyUI in your browser to start wiring nodes.,.

What’s the simplest ComfyUI workflow for text-to-image?

Load a checkpoint, encode positive and negative prompts with CLIP, run a KSampler, decode with VAE, then save the image. This chain is the foundation for how to use ComfyUI effectively for most generations.,.

How do I use SDXL in ComfyUI?

Use an SDXL checkpoint with dual text encoders, then optionally add a refiner pass for better detail. Run at 1024×1024 with balanced CFG (around 5–7) and an efficient sampler like DPM++ 2M Karras..

Can I add ControlNet and LoRA in the same ComfyUI workflow?

Yes. Load your LoRA and ControlNet nodes, connect them to the model and KSampler conditionings, and tune weights (e.g., 0.6–0.8 for LoRA, ~0.5–1.2 for ControlNet). Watch VRAM usage and reduce resolution or steps if you hit OOM.

Why are my ComfyUI images low‑contrast or washed out?

Try a different VAE, lower CFG, or switch samplers. Some VAEs produce more faithful color and contrast; small adjustments can fix washed-out results quickly.

Com utilitzar ComfyUI: Una guia pràctica, pas a pas, per a principiants

Si has sentit que ComfyUI és "basat en nodes i súper potent" però t'has sentit intimidat per totes les caixes i cables, no ets l'únic. La bona notícia: una vegada que aprenguis uns quants conceptes bàsics (checkpoints, encoders, samplers i decoders), construiràs fluxos de treball d'imatge com un professional. Aquesta guia pràctica et mostra com utilitzar ComfyUI des de la instal·lació fins a les teves primeres imatges SDXL, a més de fluxos de treball per a ControlNet, LoRAs i l'ajust de qualitat/rendiment.

Al final, sabràs exactament com utilitzar ComfyUI per fer generacions d'imatges consistents, repetibles i flexibles sense conjectures.

Què és ComfyUI i per què utilitzar-lo?

ComfyUI és una interfície visual basada en nodes per a Stable Diffusion que et permet dissenyar el teu pipeline d'imatge pas a pas. En comptes d'un sol botó "Generar", connectes nodes, cadascun dels quals gestiona una tasca diferent, com ara carregar un model, codificar text, mostrejar latents o descodificar la imatge final. És ràpid, modular i transparent: perfecte per a l'aprenentatge, l'experimentació i els fluxos de treball de producció.

Inici ràpid: instal·lar i llançar ComfyUI

Windows/macOS/Linux: Segueix el repositori oficial i les guies d'instal·lació de la comunitat. Pots utilitzar la instal·lació manual (Python + dependències) o els mètodes empaquetats depenent de la teva plataforma i GPU. La wiki de ComfyUI proporciona una configuració pas a pas per a Windows, macOS (incloent-hi Apple Silicon) i Linux.

Models: Col·loca els teus checkpoints de Stable Diffusion (per exemple, SDXL base/refiner o SD 1.5) a la carpeta models/checkpoints. Posa els fitxers VAE a models/vae, els LoRAs a models/loras, els models ControlNet a models/controlnet.

Llançament: Executa l'script d'inici per al teu sistema operatiu; ComfyUI s'obre al teu navegador. El canvas és on connectaràs els nodes.

Consell: Mantén els controladors de la teva GPU i el kit d'eines CUDA actualitzats per obtenir el millor rendiment.

Concepte bàsic: el flux de treball mínim de text a imatge

El flux bàsic de text a imatge de ComfyUI (estil SD 1.5) té aquest aspecte:

Carrega el model

Node: Checkpoint Loader

Sortida: components UNet, CLIP i VAE

Codifica les indicacions

Node: CLIP Text Encode (Positive)

Node: CLIP Text Encode (Negative)

Sortida: Insercions de condicionament per a la guia

Genera latents

Node: KSampler

Entrades: UNet, condicionament positiu/negatiu, llavor, passos, sampler (per exemple, DPM++ 2M Karras) i escala CFG

Sortida: Imatge latent

Descodifica la imatge

Node: VAE Decode

Sortida: Imatge

Desa la sortida

Node: Save Image

Aquest gràfic bàsic (Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save) és la base de gairebé tot el que faràs a ComfyUI.

Flux de treball SDXL: Base + (Opcional) Refiner

SDXL utilitza codificadors de text duals i sovint es beneficia d'un pas de refiner.

Carrega SDXL Base: Utilitza un checkpoint compatible amb SDXL. Moltes plantilles SDXL inclouen dos codificadors CLIP (per a context gran/petit). Introdueix indicacions positives i negatives.

KSampler (Base): Genera latents a 1024×1024 (o el teu objectiu). Desa els latents o les imatges descodificades.

Refiner opcional: Carrega el checkpoint SDXL Refiner i executa un pas KSampler addicional condicionat a la sortida base, després descodifica amb VAE.

Aquest procés de dues etapes pot millorar significativament el detall i la coherència a resolucions més altes.

Pràctica: Construeix el teu primer gràfic ComfyUI

Comença amb una plantilla: A la barra lateral, carrega un exemple integrat de text a imatge.

Substitueix el checkpoint: Selecciona el teu model SDXL o SD 1.5.

Escriu la teva indicació: Utilitza els nodes CLIP Positiu i Negatiu. Exemple:

Positiu: “retrat cinematogràfic, il·luminació suau d'estudi, objectiu de 85 mm, molt detallat, gra de pel·lícula”

Negatiu: “borrós, baixa resolució, deformat, dits extra, marca d'aigua”

Configuració de KSampler:

Passos: 20–35 per a l'equilibri velocitat/qualitat

Sampler: DPM++ 2M Karras (fiable) o Euler a (ràpid)

CFG: 4.5–7.5 (més alt empeny la indicació amb més força, però pot sobresaturar)

Llavor: Fixa-la per a la reproduïbilitat; varia-la per a l'exploració

Resolució: Per a SD 1.5, comença a 512×512 o 768×768. Per a SDXL, 1024×1024 funciona bé.

Descodifica i desa: Afegeix VAE Decode → Save Image. Fes clic a Queue Prompt per generar.

Comprensió dels nodes clau (en llenguatge planer)

Checkpoint Loader: Carrega el teu model de difusió (UNet), el(s) codificador(s) de text (CLIP) i VAE. Pensa-hi com el teu "motor + cervell lingüístic + traductor d'imatges".

CLIP Text Encode: Converteix la teva indicació en insercions numèriques que el model entén. Utilitza codificadors de text positius i negatius.

KSampler: El cor de la síntesi d'imatges. Elimina el soroll latent guiat per la teva indicació i el mètode de sampler en un nombre de passos.

VAE Decode: Tradueix els latents finals en una imatge visible. Canviar els VAE canvia la fidelitat del color/contrast.

Save Image: Escriu la sortida al disc amb metadades perquè puguis recrear els resultats més tard.

Per a una immersió més profunda en aquests blocs de construcció, consulta desglossaments amigables per a principiants i explicacions de nodes.

Potenciadors: LoRA, ControlNet i Imatge a Imatge

Utilitza LoRA per al control d'estil o tema

Afegeix un node LoRA Loader i connecta'l a la teva branca de model.

Força: Comença al voltant de 0.6–0.8; ajusta'l en funció de la intensitat de l'estil o el sobreajust.

LoRAs múltiples: En cadena o fusiona, però vigila els conflictes; redueix les forces en apilar.

Afegeix ControlNet per a una composició precisa

Els nodes ControlNet et permeten dirigir la composició utilitzant un mapa d'entrada (Canny, Depth, OpenPose, etc.).

Flux típic: Carrega el model ControlNet → Preprocessa la teva imatge guia (per exemple, vora Canny) → Introdueix el condicionament ControlNet a KSampler juntament amb el teu condicionament de text.

Pes: 0.5–1.2 és un bon punt de partida. Massa alt pot sobrepassar la teva indicació.

Imatge a Imatge o Inpainting

Substitueix el soroll inicial per un latent d'imatge mitjançant VAE Encode.

Ajusta la força de denoise a KSampler per controlar la quantitat d'imatge original que queda.

Per a inpainting, utilitza una entrada de màscara i un pipeline de sampler conscient d'inpaint.

Ajust de qualitat: indicacions, CFG, Samplers i llavors

Enginyeria d'indicacions: Utilitza descriptors concisos, no paràgrafs. L'ordre importa menys que la claredat, però mantén els atributs crítics al davant.

Escala CFG:

Baixa (3–5): Més creatiu, menys adherència a la indicació

Mitjana (6–8): Equilibrat

Alta (9–12): Adherència forta, pot crear artefactes

Elecció del sampler:

DPM++ 2M Karras: Net, fiable

Euler a: Ràpid i expressiu, ideal per a previsualitzacions

UniPC / Heun / DDIM: Val la pena provar-ho; els resultats varien segons el model

Llavors:

Llavor fixa = resultats reproduïbles

Varia la llavor = explora la diversitat

Consells de rendiment per a renders suaus

Pressupost de VRAM: Redueix la resolució, els passos o la mida del lot si arribes a OOM. SDXL a 1024×1024 pot requerir 8–12 GB de VRAM depenent dels nodes.

Precisió mitja: Activa fp16 on sigui compatible per a grans estalvis de memòria amb una pèrdua de qualitat negligible.

Tessel·lació i upscalers latents: Genera més petit, després augmenta mitjançant un node upscaler latent o un model upscaler d'imatge per estalviar VRAM.

Emmagatzematge a la memòria cau: Reutilitza les codificacions CLIP i els VAE descodificats entre execucions quan les indicacions no canvien.

Evita branques innecessàries: Els nodes desconnectats addicionals encara consumeixen memòria quan s'executen a la mateixa cua.

Organització de fluxos de treball com un professional

Agrupa nodes: Utilitza marcs/etiquetes per organitzar seccions (Indicació, Model, Sampler, Sortida, etc.).

Panells de paràmetres: Crea nodes de “control” (per exemple, quadres d'indicació buits, lliscants) a la part superior per facilitar l'ajust.

Desa/comparteix: Exporta el teu JSON de flux de treball i guarda una nota de models used per a la reproduïbilitat.

Control de versions: Mantén gràfics separats per a SD 1.5, SDXL i pipelines especialitzats (anime, fotoreal, profunditat a imatge, etc.).

Resolució de problemes comuns

Imatges negres o en blanc:

VAE incorrecte o falta VAE Decode

Denoise massa baix (per exemple, <0.2 en img2img)

Colors esvaïts:

Prova un altre VAE; alguns VAE milloren el contrast notablement

Redueix CFG o canvia el sampler

Res no canvia entre les execucions:

La llavor està fixada; activa l'aleatorització o estableix una nova llavor

Sense memòria (OOM):

Redueix la resolució, els passos o la mida del lot; canvia a fp16

Tanca altres aplicacions de GPU; simplifica les piles ControlNet/LoRA

Model no trobat / node vermell:

Verifica els camins dels fitxers i les carpetes del model; confirma les extensions dels fitxers

Aprèn més ràpidament amb fluxos de treball preconstruïts

Les explicacions en vídeo i les sèries per a principiants poden accelerar la teva corba d'aprenentatge amb gràfics llestos per executar que pots posar en pausa i disseccionar. Els tutorials escrits i les wikis proporcionen explicacions de nodes i passos d'instal·lació actualitzats per mantenir-te al dia.

Avançat: Modularització i extensió dels teus gràfics

API/Nodes externs: Alguns tutorials cobreixen la connexió de ComfyUI a serveis d'IA externs mitjançant nodes especials, habilitant pipelines híbrids i descarregant tasques pesades.

Biblioteques i extensions de nodes: Explora els nodes de la comunitat per a schedulers, upscalers i preprocessament (pose, profunditat, segmentació). Comprova sempre la compatibilitat amb la teva versió de ComfyUI.

Refiners SDXL i samplers encadenats: Executa denoise per etapes (base → refiner) o fins i tot múltiples samplers per a la combinació estilística.

Val la pena destacar: accelerar la sol·licitud amb Sider.AI

Si iteres freqüentment sobre indicacions, referències o descripcions, pot ser que vulguis un company per fer pluja d'idees i refinar les variacions. Per cert, Sider.AI et pot ajudar a redactar ràpidament indicacions estructurades, generar llistes d'indicacions negatives i resumir els teus experiments de flux de treball perquè no perdis la pista entre les execucions. Pots provar-ho aquí:

Un flux de treball d'inici SDXL senzill (copia aquest patró)

Checkpoint Loader (SDXL Base)

CLIP Text Encode (Positive) — “foto de producte ultra-detallada, il·luminació de softbox, objectiu de 50 mm, superfície reflectant”

CLIP Text Encode (Negative) — “baixa resolució, desenfocament de moviment, marca d'aigua, desordre de fons”

KSampler: 1024×1024, 28 passos, DPM++ 2M Karras, CFG 5.5, llavor fixa

VAE Decode → Save Image

Complementos opcionals:

Pas de refiner amb el checkpoint SDXL Refiner a 10–15 passos

ControlNet (Depth) amb una silueta d'objecte senzilla per a la disposició

LoRA a 0.6 per a una marca o estil artístic específic

Principals conclusions

El poder de ComfyUI prové de la seva transparència: construeix el teu pipeline node per node.

La cadena bàsica de text a imatge és senzilla: Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save.

SDXL es beneficia de codificadors duals i un pas de refiner opcional per obtenir detalls.

LoRAs i ControlNet et donen control d'estil i precisió de composició.

Ajusta CFG, sampler i llavor per obtenir qualitat i consistència; gestiona VRAM amb fp16 i resolucions sensibles.

Organitza els fluxos de treball i fes-ne versions per a una iteració sense problemes.

Passos següents

Instal·la ComfyUI seguint les instruccions del repositori/wiki i llança un flux de treball d'exemple.

Reconstrueix la cadena mínima des de zero per consolidar els conceptes bàsics.

Afegeix ControlNet i un LoRA, després prova A/B la configuració de sampler i CFG.

Desa i comparteix el teu JSON de flux de treball amb notes sobre models, llavors i paràmetres.

Feliç generació i benvingut al món tranquil i controlable de ComfyUI.

Preguntes freqüents

P1: Com instal·lo i executo ComfyUI a Windows, macOS o Linux? Segueix el repositori oficial i la wiki de la comunitat per obtenir passos específics de la plataforma, ubicacions de carpetes de models i dependències. Després de la instal·lació, llança el servidor local i obre ComfyUI al teu navegador per començar a connectar nodes.

P2: Quin és el flux de treball més senzill de ComfyUI per a text a imatge? Carrega un checkpoint, codifica indicacions positives i negatives amb CLIP, executa un KSampler, descodifica amb VAE i, a continuació, desa la imatge. Aquesta cadena és la base de com utilitzar ComfyUI de manera eficaç per a la majoria de les generacions.

P3: Com utilitzo SDXL a ComfyUI? Utilitza un checkpoint SDXL amb codificadors de text duals, després afegeix opcionalment un pas de refiner per obtenir un millor detall. Executa a 1024×1024 amb CFG equilibrat (al voltant de 5–7) i un sampler eficient com DPM++ 2M Karras.

P4: Puc afegir ControlNet i LoRA al mateix flux de treball de ComfyUI? Sí. Carrega els teus nodes LoRA i ControlNet, connecta'ls al model i als condicionaments KSampler i ajusta els pesos (per exemple, 0.6–0.8 per a LoRA, ~0.5–1.2 per a ControlNet). Vigila l'ús de VRAM i redueix la resolució o els passos si arribes a OOM.

P5: Per què les meves imatges de ComfyUI tenen poc contrast o estan esvaïdes? Prova un VAE diferent, redueix CFG o canvia els samplers. Alguns VAE produeixen un color i un contrast més fidels; petits ajustaments poden solucionar els resultats esvaïts ràpidament.