Com utilitzar ComfyUI: Una guia pràctica, pas a pas, per a principiants
Si has sentit que ComfyUI és "basat en nodes i súper potent" però t'has sentit intimidat per totes les caixes i cables, no ets l'únic. La bona notícia: una vegada que aprenguis uns quants conceptes bàsics (checkpoints, encoders, samplers i decoders), construiràs fluxos de treball d'imatge com un professional. Aquesta guia pràctica et mostra com utilitzar ComfyUI des de la instal·lació fins a les teves primeres imatges SDXL, a més de fluxos de treball per a ControlNet, LoRAs i l'ajust de qualitat/rendiment.
Al final, sabràs exactament com utilitzar ComfyUI per fer generacions d'imatges consistents, repetibles i flexibles sense conjectures.
Què és ComfyUI i per què utilitzar-lo?
ComfyUI és una interfície visual basada en nodes per a Stable Diffusion que et permet dissenyar el teu pipeline d'imatge pas a pas. En comptes d'un sol botó "Generar", connectes nodes, cadascun dels quals gestiona una tasca diferent, com ara carregar un model, codificar text, mostrejar latents o descodificar la imatge final. És ràpid, modular i transparent: perfecte per a l'aprenentatge, l'experimentació i els fluxos de treball de producció.
Inici ràpid: instal·lar i llançar ComfyUI
- Windows/macOS/Linux: Segueix el repositori oficial i les guies d'instal·lació de la comunitat. Pots utilitzar la instal·lació manual (Python + dependències) o els mètodes empaquetats depenent de la teva plataforma i GPU. La wiki de ComfyUI proporciona una configuració pas a pas per a Windows, macOS (incloent-hi Apple Silicon) i Linux.
- Models: Col·loca els teus checkpoints de Stable Diffusion (per exemple, SDXL base/refiner o SD 1.5) a la carpeta
models/checkpoints. Posa els fitxers VAE a models/vae, els LoRAs a models/loras, els models ControlNet a models/controlnet.
- Llançament: Executa l'script d'inici per al teu sistema operatiu; ComfyUI s'obre al teu navegador. El canvas és on connectaràs els nodes.
Consell: Mantén els controladors de la teva GPU i el kit d'eines CUDA actualitzats per obtenir el millor rendiment.
Concepte bàsic: el flux de treball mínim de text a imatge
El flux bàsic de text a imatge de ComfyUI (estil SD 1.5) té aquest aspecte:
- Sortida: components UNet, CLIP i VAE
- Node: CLIP Text Encode (Positive)
- Node: CLIP Text Encode (Negative)
- Sortida: Insercions de condicionament per a la guia
- Entrades: UNet, condicionament positiu/negatiu, llavor, passos, sampler (per exemple, DPM++ 2M Karras) i escala CFG
Aquest gràfic bàsic (Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save) és la base de gairebé tot el que faràs a ComfyUI.
Flux de treball SDXL: Base + (Opcional) Refiner
SDXL utilitza codificadors de text duals i sovint es beneficia d'un pas de refiner.
- Carrega SDXL Base: Utilitza un checkpoint compatible amb SDXL. Moltes plantilles SDXL inclouen dos codificadors CLIP (per a context gran/petit). Introdueix indicacions positives i negatives.
- KSampler (Base): Genera latents a 1024×1024 (o el teu objectiu). Desa els latents o les imatges descodificades.
- Refiner opcional: Carrega el checkpoint SDXL Refiner i executa un pas KSampler addicional condicionat a la sortida base, després descodifica amb VAE.
Aquest procés de dues etapes pot millorar significativament el detall i la coherència a resolucions més altes.
Pràctica: Construeix el teu primer gràfic ComfyUI
- Comença amb una plantilla: A la barra lateral, carrega un exemple integrat de text a imatge.
- Substitueix el checkpoint: Selecciona el teu model SDXL o SD 1.5.
- Escriu la teva indicació: Utilitza els nodes CLIP Positiu i Negatiu. Exemple:
- Positiu: “retrat cinematogràfic, il·luminació suau d'estudi, objectiu de 85 mm, molt detallat, gra de pel·lícula”
- Negatiu: “borrós, baixa resolució, deformat, dits extra, marca d'aigua”
- Configuració de KSampler:
- Passos: 20–35 per a l'equilibri velocitat/qualitat
- Sampler: DPM++ 2M Karras (fiable) o Euler a (ràpid)
- CFG: 4.5–7.5 (més alt empeny la indicació amb més força, però pot sobresaturar)
- Llavor: Fixa-la per a la reproduïbilitat; varia-la per a l'exploració
- Resolució: Per a SD 1.5, comença a 512×512 o 768×768. Per a SDXL, 1024×1024 funciona bé.
- Descodifica i desa: Afegeix VAE Decode → Save Image. Fes clic a Queue Prompt per generar.
Comprensió dels nodes clau (en llenguatge planer)
- Checkpoint Loader: Carrega el teu model de difusió (UNet), el(s) codificador(s) de text (CLIP) i VAE. Pensa-hi com el teu "motor + cervell lingüístic + traductor d'imatges".
- CLIP Text Encode: Converteix la teva indicació en insercions numèriques que el model entén. Utilitza codificadors de text positius i negatius.
- KSampler: El cor de la síntesi d'imatges. Elimina el soroll latent guiat per la teva indicació i el mètode de sampler en un nombre de passos.
- VAE Decode: Tradueix els latents finals en una imatge visible. Canviar els VAE canvia la fidelitat del color/contrast.
- Save Image: Escriu la sortida al disc amb metadades perquè puguis recrear els resultats més tard.
Per a una immersió més profunda en aquests blocs de construcció, consulta desglossaments amigables per a principiants i explicacions de nodes.
Potenciadors: LoRA, ControlNet i Imatge a Imatge
Utilitza LoRA per al control d'estil o tema
- Afegeix un node LoRA Loader i connecta'l a la teva branca de model.
- Força: Comença al voltant de 0.6–0.8; ajusta'l en funció de la intensitat de l'estil o el sobreajust.
- LoRAs múltiples: En cadena o fusiona, però vigila els conflictes; redueix les forces en apilar.
Afegeix ControlNet per a una composició precisa
- Els nodes ControlNet et permeten dirigir la composició utilitzant un mapa d'entrada (Canny, Depth, OpenPose, etc.).
- Flux típic: Carrega el model ControlNet → Preprocessa la teva imatge guia (per exemple, vora Canny) → Introdueix el condicionament ControlNet a KSampler juntament amb el teu condicionament de text.
- Pes: 0.5–1.2 és un bon punt de partida. Massa alt pot sobrepassar la teva indicació.
Imatge a Imatge o Inpainting
- Substitueix el soroll inicial per un latent d'imatge mitjançant VAE Encode.
- Ajusta la força de denoise a KSampler per controlar la quantitat d'imatge original que queda.
- Per a inpainting, utilitza una entrada de màscara i un pipeline de sampler conscient d'inpaint.
Ajust de qualitat: indicacions, CFG, Samplers i llavors
- Enginyeria d'indicacions: Utilitza descriptors concisos, no paràgrafs. L'ordre importa menys que la claredat, però mantén els atributs crítics al davant.
- Baixa (3–5): Més creatiu, menys adherència a la indicació
- Mitjana (6–8): Equilibrat
- Alta (9–12): Adherència forta, pot crear artefactes
- DPM++ 2M Karras: Net, fiable
- Euler a: Ràpid i expressiu, ideal per a previsualitzacions
- UniPC / Heun / DDIM: Val la pena provar-ho; els resultats varien segons el model
- Llavor fixa = resultats reproduïbles
- Varia la llavor = explora la diversitat
Consells de rendiment per a renders suaus
- Pressupost de VRAM: Redueix la resolució, els passos o la mida del lot si arribes a OOM. SDXL a 1024×1024 pot requerir 8–12 GB de VRAM depenent dels nodes.
- Precisió mitja: Activa fp16 on sigui compatible per a grans estalvis de memòria amb una pèrdua de qualitat negligible.
- Tessel·lació i upscalers latents: Genera més petit, després augmenta mitjançant un node upscaler latent o un model upscaler d'imatge per estalviar VRAM.
- Emmagatzematge a la memòria cau: Reutilitza les codificacions CLIP i els VAE descodificats entre execucions quan les indicacions no canvien.
- Evita branques innecessàries: Els nodes desconnectats addicionals encara consumeixen memòria quan s'executen a la mateixa cua.
Organització de fluxos de treball com un professional
- Agrupa nodes: Utilitza marcs/etiquetes per organitzar seccions (Indicació, Model, Sampler, Sortida, etc.).
- Panells de paràmetres: Crea nodes de “control” (per exemple, quadres d'indicació buits, lliscants) a la part superior per facilitar l'ajust.
- Desa/comparteix: Exporta el teu JSON de flux de treball i guarda una nota de
models used per a la reproduïbilitat.
- Control de versions: Mantén gràfics separats per a SD 1.5, SDXL i pipelines especialitzats (anime, fotoreal, profunditat a imatge, etc.).
Resolució de problemes comuns
- Imatges negres o en blanc:
- VAE incorrecte o falta VAE Decode
- Denoise massa baix (per exemple, <0.2 en img2img)
- Prova un altre VAE; alguns VAE milloren el contrast notablement
- Redueix CFG o canvia el sampler
- Res no canvia entre les execucions:
- La llavor està fixada; activa l'aleatorització o estableix una nova llavor
- Redueix la resolució, els passos o la mida del lot; canvia a fp16
- Tanca altres aplicacions de GPU; simplifica les piles ControlNet/LoRA
- Model no trobat / node vermell:
- Verifica els camins dels fitxers i les carpetes del model; confirma les extensions dels fitxers
Aprèn més ràpidament amb fluxos de treball preconstruïts
Les explicacions en vídeo i les sèries per a principiants poden accelerar la teva corba d'aprenentatge amb gràfics llestos per executar que pots posar en pausa i disseccionar. Els tutorials escrits i les wikis proporcionen explicacions de nodes i passos d'instal·lació actualitzats per mantenir-te al dia.
Avançat: Modularització i extensió dels teus gràfics
- API/Nodes externs: Alguns tutorials cobreixen la connexió de ComfyUI a serveis d'IA externs mitjançant nodes especials, habilitant pipelines híbrids i descarregant tasques pesades.
- Biblioteques i extensions de nodes: Explora els nodes de la comunitat per a schedulers, upscalers i preprocessament (pose, profunditat, segmentació). Comprova sempre la compatibilitat amb la teva versió de ComfyUI.
- Refiners SDXL i samplers encadenats: Executa denoise per etapes (base → refiner) o fins i tot múltiples samplers per a la combinació estilística.
Val la pena destacar: accelerar la sol·licitud amb Sider.AI
Si iteres freqüentment sobre indicacions, referències o descripcions, pot ser que vulguis un company per fer pluja d'idees i refinar les variacions. Per cert, Sider.AI et pot ajudar a redactar ràpidament indicacions estructurades, generar llistes d'indicacions negatives i resumir els teus experiments de flux de treball perquè no perdis la pista entre les execucions. Pots provar-ho aquí: Un flux de treball d'inici SDXL senzill (copia aquest patró)
- Checkpoint Loader (SDXL Base)
- CLIP Text Encode (Positive) — “foto de producte ultra-detallada, il·luminació de softbox, objectiu de 50 mm, superfície reflectant”
- CLIP Text Encode (Negative) — “baixa resolució, desenfocament de moviment, marca d'aigua, desordre de fons”
- KSampler: 1024×1024, 28 passos, DPM++ 2M Karras, CFG 5.5, llavor fixa
Complementos opcionals:
- Pas de refiner amb el checkpoint SDXL Refiner a 10–15 passos
- ControlNet (Depth) amb una silueta d'objecte senzilla per a la disposició
- LoRA a 0.6 per a una marca o estil artístic específic
Principals conclusions
- El poder de ComfyUI prové de la seva transparència: construeix el teu pipeline node per node.
- La cadena bàsica de text a imatge és senzilla: Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save.
- SDXL es beneficia de codificadors duals i un pas de refiner opcional per obtenir detalls.
- LoRAs i ControlNet et donen control d'estil i precisió de composició.
- Ajusta CFG, sampler i llavor per obtenir qualitat i consistència; gestiona VRAM amb fp16 i resolucions sensibles.
- Organitza els fluxos de treball i fes-ne versions per a una iteració sense problemes.
Passos següents
- Instal·la ComfyUI seguint les instruccions del repositori/wiki i llança un flux de treball d'exemple.
- Reconstrueix la cadena mínima des de zero per consolidar els conceptes bàsics.
- Afegeix ControlNet i un LoRA, després prova A/B la configuració de sampler i CFG.
- Desa i comparteix el teu JSON de flux de treball amb notes sobre models, llavors i paràmetres.
Feliç generació i benvingut al món tranquil i controlable de ComfyUI.
Preguntes freqüents
P1: Com instal·lo i executo ComfyUI a Windows, macOS o Linux?
Segueix el repositori oficial i la wiki de la comunitat per obtenir passos específics de la plataforma, ubicacions de carpetes de models i dependències. Després de la instal·lació, llança el servidor local i obre ComfyUI al teu navegador per començar a connectar nodes.
P2: Quin és el flux de treball més senzill de ComfyUI per a text a imatge?
Carrega un checkpoint, codifica indicacions positives i negatives amb CLIP, executa un KSampler, descodifica amb VAE i, a continuació, desa la imatge. Aquesta cadena és la base de com utilitzar ComfyUI de manera eficaç per a la majoria de les generacions.
P3: Com utilitzo SDXL a ComfyUI?
Utilitza un checkpoint SDXL amb codificadors de text duals, després afegeix opcionalment un pas de refiner per obtenir un millor detall. Executa a 1024×1024 amb CFG equilibrat (al voltant de 5–7) i un sampler eficient com DPM++ 2M Karras.
P4: Puc afegir ControlNet i LoRA al mateix flux de treball de ComfyUI?
Sí. Carrega els teus nodes LoRA i ControlNet, connecta'ls al model i als condicionaments KSampler i ajusta els pesos (per exemple, 0.6–0.8 per a LoRA, ~0.5–1.2 per a ControlNet). Vigila l'ús de VRAM i redueix la resolució o els passos si arribes a OOM.
P5: Per què les meves imatges de ComfyUI tenen poc contrast o estan esvaïdes?
Prova un VAE diferent, redueix CFG o canvia els samplers. Alguns VAE produeixen un color i un contrast més fidels; petits ajustaments poden solucionar els resultats esvaïts ràpidament.