Hur man använder ComfyUI: En praktisk steg-för-steg guide för nybörjare
Om du har hört att ComfyUI är "nodbaserat och superkraftfullt" men känner dig avskräckt av alla rutor och sladdar, är du inte ensam. Den goda nyheten: när du väl lärt dig några kärnkoncept – checkpoints, encoders, samplers och decoders – kommer du att bygga bild-workflows som ett proffs. Denna praktiska guide visar dig hur du använder ComfyUI från installation till dina första SDXL-bilder, plus workflows för ControlNet, LoRAs och kvalitets-/prestandajustering.
I slutet kommer du exakt att veta hur man använder ComfyUI för att göra konsekventa, repeterbara och flexibla bildgenereringar utan gissningar.
Vad är ComfyUI och varför använda det?
ComfyUI är ett visuellt, nodbaserat gränssnitt för Stable Diffusion som låter dig designa din bildpipeline steg för steg. Istället för en enda "Generera"-knapp, ansluter du noder – var och en hanterar en distinkt uppgift som att ladda en modell, koda text, sampla latenter eller avkoda den slutliga bilden. Det är snabbt, modulärt och transparent – perfekt för inlärning, experiment och produktions-workflows.
Snabbstart: Installera och starta ComfyUI
- Windows/macOS/Linux: Följ den officiella repots och communityns installationsguider. Du kan använda manuell installation (Python + beroenden) eller paketerade metoder beroende på din plattform och GPU. ComfyUI-wikin ger steg-för-steg-instruktioner för Windows, macOS (inklusive Apple Silicon) och Linux.
- Modeller: Placera dina Stable Diffusion checkpoints (t.ex. SDXL base/refiner eller SD 1.5) i mappen
models/checkpoints. Lägg VAE-filer i models/vae, LoRAs i models/loras, ControlNet-modeller i models/controlnet.
- Starta: Kör startskriptet för ditt operativsystem; ComfyUI öppnas i din webbläsare. Canvasen är där du kopplar ihop noder.
Tips: Håll dina GPU-drivrutiner och CUDA-toolkit uppdaterade för bästa prestanda.
Kärnkoncept: Det minimala text-till-bild-workflowet
ComfyUIs grundläggande text-till-bild-flöde (SD 1.5-stil) ser ut så här:
- Output: UNet, CLIP och VAE-komponenter
- Nod: CLIP Text Encode (Positiv)
- Nod: CLIP Text Encode (Negativ)
- Output: Conditioning embeddings för vägledning
- Inputs: UNet, positiv/negativ conditioning, seed, steg, sampler (t.ex. DPM++ 2M Karras) och CFG-skala
Denna grundläggande graf – Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save – är grunden för nästan allt du kommer att göra i ComfyUI.
SDXL Workflow: Bas + (Valfri) Refiner
SDXL använder dubbla text encoders och drar ofta nytta av en refiner-passering.
- Ladda SDXL Base: Använd en SDXL-kompatibel checkpoint. Många SDXL-mallar inkluderar två CLIP-encoders (för stort/litet sammanhang). Mata både positiva och negativa prompter.
- KSampler (Bas): Generera latenter vid 1024×1024 (eller ditt mål). Spara latenter eller avkodade bilder.
- Valfri Refiner: Ladda SDXL Refiner-checkpointen och kör en ytterligare KSampler-passering betingad av bas-outputen, avkoda sedan med VAE.
Denna tvåstegsprocess kan avsevärt förbättra detaljer och sammanhang vid högre upplösningar.
Praktiskt: Bygg din första ComfyUI-graf
- Börja från en mall: I sidofältet, ladda ett inbyggt text-till-bild-exempel.
- Ersätt checkpointen: Välj din SDXL- eller SD 1.5-modell.
- Skriv din prompt: Använd de positiva och negativa CLIP-noderna. Exempel:
- Positiv: "cinematiskt porträtt, mjuk studiobelysning, 85mm objektiv, mycket detaljerat, filmkorn"
- Negativ: "blurrig, lågupplöst, deformerad, extra fingrar, vattenstämpel"
- Steg: 20–35 för hastighet/kvalitetsbalans
- Sampler: DPM++ 2M Karras (pålitlig) eller Euler a (snabb)
- CFG: 4.5–7.5 (högre trycker prompten hårdare, men kan övermätta)
- Seed: Fixera den för reproducerbarhet; variera för utforskning
- Upplösning: För SD 1.5, börja vid 512×512 eller 768×768. För SDXL fungerar 1024×1024 bra.
- Avkoda och Spara: Lägg till VAE Decode → Save Image. Klicka på Queue Prompt för att generera.
Förstå de viktigaste noderna (på vanlig svenska)
- Checkpoint Loader: Laddar din diffusionsmodell (UNet), text encoder(s) (CLIP) och VAE. Tänk på det som din "motor + språk-hjärna + bildöversättare."
- CLIP Text Encode: Konverterar din prompt till numeriska embeddings som modellen förstår. Använd både positiva och negativa text encoders.
- KSampler: Hjärtat av bildsyntes. Det tar bort brus från latent brus guidat av din prompt och sampler-metod över ett antal steg.
- VAE Decode: Översätter slutliga latenter till en visningsbar bild. Att byta VAEs ändrar färg-/kontrast-trohet.
- Save Image: Skriver ut output till disken med metadata så att du kan återskapa resultat senare.
För en djupare dykning i dessa byggstenar, se nybörjarvänliga nedbrytningar och nodförklaringar.
Power-Ups: LoRA, ControlNet och Bild-till-Bild
Använd LoRA för stil eller subjektkontroll
- Lägg till en LoRA Loader-nod och anslut den till din modellgren.
- Styrka: Börja runt 0.6–0.8; justera baserat på stilintensitet eller överanpassning.
- Flera LoRAs: Kedja eller slå samman, men se upp för konflikter; sänk styrkorna när du staplar.
Lägg till ControlNet för exakt komposition
- ControlNet-noder låter dig styra kompositionen med hjälp av en input-karta (Canny, Djup, OpenPose, etc.).
- Typiskt flöde: Ladda ControlNet-modell → Förbearbeta din guidebild (t.ex. Canny edge) → Mata ControlNet-conditioning till KSampler tillsammans med din text-conditioning.
- Vikt: 0.5–1.2 är en bra start. För högt kan övermanna din prompt.
Bild-till-Bild eller Inpainting
- Ersätt det initiala bruset med en bildlatent via VAE Encode.
- Justera denoise-styrkan i KSampler för att kontrollera hur mycket av den ursprungliga bilden som finns kvar.
- För inpainting, använd en mask-input och en inpaint-medveten sampler-pipeline.
Kvalitetsjustering: Prompter, CFG, Samplers och Seeds
- Prompt engineering: Använd koncisa deskriptorer, inte stycken. Ordning spelar mindre roll än tydlighet, men håll kritiska attribut i framkant.
- Låg (3–5): Mer kreativ, mindre prompt-följsamhet
- Hög (9–12): Stark följsamhet, kan skapa artefakter
- DPM++ 2M Karras: Ren, pålitlig
- Euler a: Snabb och uttrycksfull, bra för förhandsvisningar
- UniPC / Heun / DDIM: Värt att testa; resultaten varierar beroende på modell
- Fast seed = reproducerbara resultat
- Variera seed = utforska mångfald
Prestandatips för smidiga renderingar
- VRAM-budgetering: Sänk upplösning, steg eller batchstorlek om du träffar OOM. SDXL vid 1024×1024 kan kräva 8–12 GB VRAM beroende på noder.
- Halv precision: Aktivera fp16 där det stöds för stora minnesbesparingar med försumbar kvalitetsförlust.
- Tiling och latent upscalers: Generera mindre, skala sedan upp via en latent upscaler-nod eller bild upscaler-modell för att spara VRAM.
- Caching: Återanvänd CLIP-encodings och avkodade VAEs över körningar när prompter inte ändras.
- Undvik onödiga grenar: Extra frånkopplade noder förbrukar fortfarande minne när de körs i samma kö.
Organisera Workflows som ett proffs
- Gruppera noder: Använd ramar/etiketter för att organisera sektioner (Prompt, Modell, Sampler, Output, etc.).
- Parameterpaneler: Skapa "kontroll"-noder (t.ex. tomma prompt-rutor, reglage) högst upp för enkel justering.
- Spara/dela: Exportera din workflow-JSON och behåll en
models used-anteckning för reproducerbarhet.
- Versionshantering: Behåll separata grafer för SD 1.5, SDXL och specialpipelines (anime, fotorealistisk, djup-till-bild, etc.).
Felsökning av vanliga problem
- Svarta eller tomma bilder:
- Fel VAE eller saknas VAE Decode
- Denoise för låg (t.ex. <0.2 i img2img)
- Prova en annan VAE; vissa VAEs förbättrar kontrasten märkbart
- Sänk CFG eller byt sampler
- Ingenting ändras mellan körningar:
- Seed är fixerad; aktivera randomize eller ställ in en ny seed
- Minska upplösning, steg eller batchstorlek; byt till fp16
- Stäng andra GPU-appar; förenkla ControlNet/LoRA-stackar
- Modell hittades inte / röd nod:
- Verifiera filsökvägar och modellmappar; bekräfta filändelser
Lär dig snabbare med förbyggda Workflows
Videogenomgångar och nybörjarserier kan påskynda din inlärningskurva med färdiga grafer som du kan pausa och dissekera. Skrivna handledningar och wikis ger nodförklaringar och uppdaterade installationssteg för att hålla dig aktuell.
Avancerat: Modularisera och utöka dina grafer
- API/Externa noder: Vissa handledningar täcker anslutning av ComfyUI till externa AI-tjänster via specialnoder, vilket möjliggör hybridpipelines och avlastning av tunga uppgifter.
- Nodbibliotek och tillägg: Utforska community-noder för schedulers, upscalers och förbearbetning (pose, djup, segmentering). Kontrollera alltid kompatibiliteten med din ComfyUI-version.
- SDXL refiners och kedjade samplers: Kör staged denoising (bas → refiner) eller till och med flera samplers för stilistisk blandning.
Värt att notera: Snabba upp prompting med Sider.AI
Om du ofta itererar på prompter, referenser eller beskrivningar, kanske du vill ha en sidekick för att brainstorma och förfina variationer. Förresten, Sider.AI kan hjälpa dig att snabbt utarbeta strukturerade prompter, generera negativa promptlistor och sammanfatta dina workflow-experiment så att du inte tappar koll mellan körningarna. Du kan prova det här: Ett enkelt SDXL Starter Workflow (Kopiera detta mönster)
- Checkpoint Loader (SDXL Base)
- CLIP Text Encode (Positiv) — "ultradetaljerat produktfoto, softbox-belysning, 50mm objektiv, reflekterande yta"
- CLIP Text Encode (Negativ) — "lågupplöst, rörelseoskärpa, vattenstämpel, bakgrundsröra"
- KSampler: 1024×1024, 28 steg, DPM++ 2M Karras, CFG 5.5, fast seed
Valfria tillägg:
- Refiner-passering med SDXL Refiner-checkpoint vid 10–15 steg
- ControlNet (Djup) med en enkel objekt-siluett för layout
- LoRA vid 0.6 för ett specifikt varumärke eller konststil
Viktiga Slutsatser
- ComfyUIs kraft kommer från dess transparens – bygg din pipeline nod för nod.
- Den grundläggande text-till-bild-kedjan är enkel: Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save.
- SDXL drar nytta av dubbla encoders och en valfri refiner-passering för detaljer.
- LoRAs och ControlNet ger dig stilkontroll och kompositionsprecision.
- Justera CFG, sampler och seed för kvalitet och konsistens; hantera VRAM med fp16 och vettiga upplösningar.
- Organisera workflows och versionshantera dem för smärtfri iteration.
Nästa steg
- Installera ComfyUI enligt repo/wiki-instruktionerna och starta ett exempel-workflow.
- Återskapa den minimala kedjan från grunden för att befästa grunderna.
- Lägg till ControlNet och en LoRA, testa sedan A/B sampler- och CFG-inställningar.
- Spara och dela din workflow-JSON med anteckningar om modeller, seeds och parametrar.
Lycka till med genereringen – och välkommen till ComfyUIs lugna, kontrollerbara värld.
FAQ
F1: Hur installerar jag och kör ComfyUI på Windows, macOS eller Linux?
Följ den officiella repots och communityns wiki för plattformsspecifika steg, modellmappsplatser och beroenden. Efter installationen, starta den lokala servern och öppna ComfyUI i din webbläsare för att börja koppla ihop noder.
F2: Vad är det enklaste ComfyUI-workflowet för text-till-bild?
Ladda en checkpoint, koda positiva och negativa prompter med CLIP, kör en KSampler, avkoda med VAE, spara sedan bilden. Denna kedja är grunden för hur man använder ComfyUI effektivt för de flesta genereringar.
F3: Hur använder jag SDXL i ComfyUI?
Använd en SDXL-checkpoint med dubbla text encoders, lägg sedan eventuellt till en refiner-passering för bättre detaljer. Kör vid 1024×1024 med balanserad CFG (runt 5–7) och en effektiv sampler som DPM++ 2M Karras.
F4: Kan jag lägga till ControlNet och LoRA i samma ComfyUI-workflow?
Ja. Ladda dina LoRA- och ControlNet-noder, anslut dem till modell- och KSampler-conditionings och justera vikter (t.ex. 0.6–0.8 för LoRA, ~0.5–1.2 för ControlNet). Titta på VRAM-användningen och minska upplösningen eller stegen om du träffar OOM.
F5: Varför är mina ComfyUI-bilder lågkontrast eller urtvättade?
Prova en annan VAE, sänk CFG eller byt samplers. Vissa VAEs producerar mer trogen färg och kontrast; små justeringar kan snabbt åtgärda urtvättade resultat.