Jak korzystać z ComfyUI: Praktyczny przewodnik krok po kroku dla początkujących
Jeśli słyszałeś, że ComfyUI jest „oparty na węzłach i superpotężny”, ale czułeś się onieśmielony wszystkimi tymi okienkami i kablami, nie jesteś sam. Dobra wiadomość: gdy poznasz kilka podstawowych koncepcji — checkpointy, enkodery, samplery i dekodery — będziesz tworzyć procesy pracy z obrazami jak profesjonalista. Ten praktyczny przewodnik przeprowadzi Cię przez sposób korzystania z ComfyUI od instalacji po pierwsze obrazy SDXL, a także procesy pracy dla ControlNet, LoRA i dostrajania jakości/wydajności.
Na koniec będziesz dokładnie wiedział, jak używać ComfyUI do spójnego, powtarzalnego i elastycznego generowania obrazów bez zgadywania.
Czym jest ComfyUI i dlaczego warto go używać?
ComfyUI to wizualny interfejs Stable Diffusion oparty na węzłach, który pozwala projektować potok przetwarzania obrazu krok po kroku. Zamiast pojedynczego przycisku „Generuj”, łączysz węzły — każdy obsługuje odrębne zadanie, takie jak ładowanie modelu, kodowanie tekstu, próbkowanie latentów lub dekodowanie końcowego obrazu. Jest szybki, modułowy i przejrzysty — idealny do nauki, eksperymentowania i produkcyjnych procesów pracy.
Szybki start: Instalacja i uruchomienie ComfyUI
- Windows/macOS/Linux: Postępuj zgodnie z oficjalnym repozytorium i instrukcjami instalacji społeczności. Możesz użyć instalacji ręcznej (Python + zależności) lub spakowanych metod, w zależności od platformy i GPU. Wiki ComfyUI zawiera instrukcje krok po kroku dla systemów Windows, macOS (w tym Apple Silicon) i Linux.
- Modele: Umieść swoje checkpointy Stable Diffusion (np. SDXL base/refiner lub SD 1.5) w folderze
models/checkpoints. Umieść pliki VAE w models/vae, LoRA w models/loras, modele ControlNet w models/controlnet.
- Uruchomienie: Uruchom skrypt startowy dla swojego systemu operacyjnego; ComfyUI otworzy się w przeglądarce. Płótno to miejsce, w którym będziesz łączyć węzły.
Wskazówka: Utrzymuj sterowniki GPU i zestaw narzędzi CUDA w aktualnym stanie, aby uzyskać najlepszą wydajność.
Podstawowa koncepcja: Minimalny proces pracy tekst-obraz
Podstawowy przepływ tekst-obraz ComfyUI (w stylu SD 1.5) wygląda tak:
- Wyjście: Komponenty UNet, CLIP i VAE
- Węzeł: CLIP Text Encode (Positive)
- Węzeł: CLIP Text Encode (Negative)
- Wyjście: Osadzanie warunkowe dla wskazówek
- Wejścia: UNet, warunkowanie pozytywne/negatywne, ziarno, kroki, sampler (np. DPM++ 2M Karras) i skala CFG
Ten podstawowy wykres — Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save — jest podstawą prawie wszystkiego, co będziesz robić w ComfyUI.
Proces pracy SDXL: Baza + (opcjonalnie) Refiner
SDXL używa podwójnych enkoderów tekstu i często korzysta z przebiegu refiner.
- Załaduj bazę SDXL: Użyj checkpointu kompatybilnego z SDXL. Wiele szablonów SDXL zawiera dwa enkodery CLIP (dla dużego/małego kontekstu). Podawaj zarówno pozytywne, jak i negatywne podpowiedzi.
- KSampler (baza): Generuj latenty w rozdzielczości 1024 × 1024 (lub docelowej). Zapisz latenty lub zdekodowane obrazy.
- Opcjonalny Refiner: Załaduj checkpoint SDXL Refiner i uruchom dodatkowy przebieg KSampler uwarunkowany bazowym wyjściem, a następnie zdekoduj za pomocą VAE.
Ten dwuetapowy proces może znacznie poprawić szczegółowość i spójność przy wyższych rozdzielczościach.
Praktyczne ćwiczenie: Zbuduj swój pierwszy wykres ComfyUI
- Zacznij od szablonu: Na pasku bocznym załaduj wbudowany przykład tekst-obraz.
- Zastąp checkpoint: Wybierz model SDXL lub SD 1.5.
- Napisz swoją podpowiedź: Użyj węzłów Positive i Negative CLIP. Przykład:
- Pozytywna: „portret filmowy, miękkie oświetlenie studyjne, obiektyw 85 mm, bardzo szczegółowy, ziarno filmu”
- Negatywna: „rozmazany, niska rozdzielczość, zdeformowany, dodatkowe palce, znak wodny”
- Kroki: 20–35 dla równowagi między szybkością a jakością
- Sampler: DPM++ 2M Karras (niezawodny) lub Euler a (szybki)
- CFG: 4.5–7.5 (wyższy mocniej wymusza podpowiedź, ale może przesyczać)
- Ziarno: Ustaw stałe dla powtarzalności; zmieniaj dla eksploracji
- Rozdzielczość: Dla SD 1.5 zacznij od 512 × 512 lub 768 × 768. Dla SDXL dobrze sprawdza się 1024 × 1024.
- Dekodowanie i zapisywanie: Dodaj VAE Decode → Save Image. Kliknij Queue Prompt, aby wygenerować.
Zrozumienie kluczowych węzłów (prostym językiem)
- Checkpoint Loader: Ładuje twój model dyfuzji (UNet), enkoder(y) tekstu (CLIP) i VAE. Pomyśl o tym jak o „silniku + mózgu językowym + translatorze obrazu”.
- CLIP Text Encode: Konwertuje twoją podpowiedź na osadzenia numeryczne, które rozumie model. Użyj zarówno pozytywnych, jak i negatywnych enkoderów tekstu.
- KSampler: Serce syntezy obrazu. Odzyskuj zaszumiony latentny szum, kierując się podpowiedzią i metodą samplingu w wielu krokach.
- VAE Decode: Przekształca końcowe latenty w widoczny obraz. Zmiana VAE zmienia wierność kolorów/kontrastu.
- Save Image: Zapisuje wyjście na dysku z metadanymi, dzięki czemu możesz później odtworzyć wyniki.
Aby uzyskać bardziej szczegółowe informacje na temat tych elementów składowych, zobacz przyjazne dla początkujących analizy i objaśnienia węzłów.
Ulepszenia: LoRA, ControlNet i Image-to-Image
Użyj LoRA do kontroli stylu lub obiektu
- Dodaj węzeł LoRA Loader i podłącz go do gałęzi modelu.
- Siła: Zacznij od około 0.6–0.8; dostosuj w zależności od intensywności stylu lub przetrenowania.
- Wiele LoRA: Łańcuch lub scalaj, ale uważaj na konflikty; zmniejsz siłę podczas układania w stos.
Dodaj ControlNet dla precyzyjnej kompozycji
- Węzły ControlNet pozwalają sterować kompozycją za pomocą mapy wejściowej (Canny, Depth, OpenPose itp.).
- Typowy przepływ: Załaduj model ControlNet → Przetwórz wstępnie obraz przewodnika (np. krawędź Canny) → Podawaj warunkowanie ControlNet do KSampler wraz z warunkowaniem tekstu.
- Waga: 0.5–1.2 to dobry początek. Zbyt wysoka może przytłoczyć podpowiedź.
Image-to-Image lub Inpainting
- Zastąp początkowy szum latentem obrazu za pomocą VAE Encode.
- Dostosuj siłę odszumiania w KSampler, aby kontrolować, ile oryginalnego obrazu pozostaje.
- Do inpaintingu użyj wejścia maski i potoku samplera uwzględniającego inpaint.
Dostrajanie jakości: Podpowiedzi, CFG, Samplery i Ziarna
- Inżynieria podpowiedzi: Używaj zwięzłych deskryptorów, a nie akapitów. Kolejność ma mniejsze znaczenie niż jasność, ale umieszczaj krytyczne atrybuty na początku.
- Niska (3–5): Bardziej kreatywna, mniejsze przyleganie do podpowiedzi
- Średnia (6–8): Zrównoważona
- Wysoka (9–12): Silne przyleganie, może tworzyć artefakty
- DPM++ 2M Karras: Czysty, niezawodny
- Euler a: Szybki i ekspresyjny, doskonały do podglądów
- UniPC / Heun / DDIM: Warto przetestować; wyniki różnią się w zależności od modelu
- Stałe ziarno = powtarzalne wyniki
- Zmienne ziarno = eksploruj różnorodność
Wskazówki dotyczące wydajności dla płynnych renderów
- Budżetowanie VRAM: Zmniejsz rozdzielczość, kroki lub rozmiar partii, jeśli osiągniesz OOM. SDXL w rozdzielczości 1024 × 1024 może wymagać 8–12 GB VRAM w zależności od węzłów.
- Półprecyzja: Włącz fp16 tam, gdzie jest obsługiwana, aby uzyskać duże oszczędności pamięci z pomijalną utratą jakości.
- Tiling i upscalery latentne: Generuj mniejsze, a następnie przeskaluj za pomocą węzła upscalera latentnego lub modelu upscalera obrazu, aby zaoszczędzić VRAM.
- Buforowanie: Ponownie wykorzystuj kodowania CLIP i zdekodowane VAE w kolejnych uruchomieniach, gdy podpowiedzi się nie zmieniają.
- Unikaj niepotrzebnych gałęzi: Dodatkowe odłączone węzły nadal zużywają pamięć, gdy są wykonywane w tej samej kolejce.
Organizowanie procesów pracy jak profesjonalista
- Grupuj węzły: Używaj ramek/etykiet do organizowania sekcji (Podpowiedź, Model, Sampler, Wyjście itp.).
- Panele parametrów: Twórz węzły „kontrolne” (np. puste pola podpowiedzi, suwaki) na górze dla łatwego dostrajania.
- Zapisz/udostępnij: Wyeksportuj swój proces pracy JSON i zachowaj notatkę
używanych modeli dla powtarzalności.
- Wersjonowanie: Zachowaj oddzielne wykresy dla SD 1.5, SDXL i specjalnych potoków (anime, fotorealistyczny, głębia do obrazu itp.).
Rozwiązywanie typowych problemów
- Niewłaściwy VAE lub brak VAE Decode
- Zbyt niskie odszumianie (np. <0.2 w img2img)
- Wypróbuj inny VAE; niektóre VAE zauważalnie poprawiają kontrast
- Obniż CFG lub zmień sampler
- Nic się nie zmienia w kolejnych uruchomieniach:
- Ziarno jest stałe; włącz losowanie lub ustaw nowe ziarno
- Zmniejsz rozdzielczość, kroki lub rozmiar partii; przełącz na fp16
- Zamknij inne aplikacje GPU; uprość stosy ControlNet/LoRA
- Nie znaleziono modelu / czerwony węzeł:
- Sprawdź ścieżki plików i foldery modeli; potwierdź rozszerzenia plików
Ucz się szybciej dzięki gotowym procesom pracy
Filmy instruktażowe i serie dla początkujących mogą przyspieszyć twoją krzywą uczenia się dzięki gotowym do uruchomienia wykresom, które możesz zatrzymywać i analizować. Pisemne tutoriale i wiki zawierają objaśnienia węzłów i zaktualizowane kroki instalacji, abyś był na bieżąco.
Zaawansowane: Modularyzacja i rozszerzanie wykresów
- API/Zewnętrzne węzły: Niektóre tutoriale obejmują łączenie ComfyUI z zewnętrznymi usługami AI za pomocą specjalnych węzłów, umożliwiając hybrydowe potoki i odciążanie ciężkich zadań.
- Biblioteki i rozszerzenia węzłów: Przeglądaj węzły społeczności dla harmonogramów, upscalerów i przetwarzania wstępnego (poza, głębia, segmentacja). Zawsze sprawdzaj kompatybilność z twoją wersją ComfyUI.
- Refinery SDXL i samplery łańcuchowe: Uruchom etapowe odszumianie (baza → refiner) lub nawet wiele samplerów do stylistycznego mieszania.
Warto zauważyć: Przyspieszenie tworzenia podpowiedzi za pomocą Sider.AI
Jeśli często iterujesz na podpowiedziach, odniesieniach lub opisach, możesz potrzebować pomocnika do burzy mózgów i dopracowywania wariacji. Przy okazji, Sider.AI może pomóc Ci szybko tworzyć uporządkowane podpowiedzi, generować listy negatywnych podpowiedzi i podsumowywać eksperymenty z procesem pracy, abyś nie tracił śladu między uruchomieniami. Możesz spróbować tutaj: Prosty proces pracy startowy SDXL (skopiuj ten wzór)
- Checkpoint Loader (SDXL Base)
- CLIP Text Encode (Positive) — „ultra-szczegółowe zdjęcie produktu, oświetlenie softbox, obiektyw 50 mm, powierzchnia odblaskowa”
- CLIP Text Encode (Negative) — „niska rozdzielczość, rozmycie ruchu, znak wodny, bałagan w tle”
- KSampler: 1024 × 1024, 28 kroków, DPM++ 2M Karras, CFG 5.5, stałe ziarno
Opcjonalne dodatki:
- Przebieg Refiner z checkpointem SDXL Refiner przy 10–15 krokach
- ControlNet (Depth) z prostą sylwetką obiektu dla układu
- LoRA przy 0.6 dla konkretnej marki lub stylu artystycznego
Kluczowe wnioski
- Siła ComfyUI wynika z jego przejrzystości — buduj swój potok węzeł po węźle.
- Podstawowy łańcuch tekst-obraz jest prosty: Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save.
- SDXL korzysta z podwójnych enkoderów i opcjonalnego przebiegu refiner dla szczegółów.
- LoRA i ControlNet dają Ci kontrolę nad stylem i precyzję kompozycji.
- Dostosuj CFG, sampler i ziarno dla jakości i spójności; zarządzaj VRAM za pomocą fp16 i rozsądnych rozdzielczości.
- Organizuj procesy pracy i wersjonuj je dla bezbolesnej iteracji.
Następne kroki
- Zainstaluj ComfyUI zgodnie z instrukcjami repozytorium/wiki i uruchom przykładowy proces pracy.
- Odbuduj minimalny łańcuch od podstaw, aby utrwalić podstawy.
- Dodaj ControlNet i LoRA, a następnie przetestuj A/B ustawienia samplera i CFG.
- Zapisz i udostępnij swój proces pracy JSON z notatkami na temat modeli, ziaren i parametrów.
Miłego generowania — i witaj w spokojnym, kontrolowanym świecie ComfyUI.
FAQ
P1: Jak zainstalować i uruchomić ComfyUI w systemie Windows, macOS lub Linux?
Postępuj zgodnie z oficjalnym repozytorium i wiki społeczności, aby uzyskać instrukcje dotyczące konkretnej platformy, lokalizacje folderów modeli i zależności. Po instalacji uruchom lokalny serwer i otwórz ComfyUI w przeglądarce, aby rozpocząć łączenie węzłów.
P2: Jaki jest najprostszy proces pracy ComfyUI dla tekstu na obraz?
Załaduj checkpoint, zakoduj pozytywne i negatywne podpowiedzi za pomocą CLIP, uruchom KSampler, zdekoduj za pomocą VAE, a następnie zapisz obraz. Ten łańcuch jest podstawą skutecznego korzystania z ComfyUI do większości generacji.
P3: Jak używać SDXL w ComfyUI?
Użyj checkpointu SDXL z podwójnymi enkoderami tekstu, a następnie opcjonalnie dodaj przebieg refiner dla lepszych szczegółów. Uruchom w rozdzielczości 1024 × 1024 ze zrównoważonym CFG (około 5–7) i wydajnym samplerem, takim jak DPM++ 2M Karras.
P4: Czy mogę dodać ControlNet i LoRA w tym samym procesie pracy ComfyUI?
Tak. Załaduj węzły LoRA i ControlNet, podłącz je do modelu i warunkowań KSampler i dostosuj wagi (np. 0.6–0.8 dla LoRA, ~0.5–1.2 dla ControlNet). Obserwuj zużycie VRAM i zmniejsz rozdzielczość lub kroki, jeśli osiągniesz OOM.
P5: Dlaczego moje obrazy ComfyUI mają niski kontrast lub są wypłowiałe?
Wypróbuj inny VAE, obniż CFG lub zmień sampler. Niektóre VAE wytwarzają wierniejsze kolory i kontrast; niewielkie korekty mogą szybko naprawić wypłowiałe wyniki.