如何使用 ComfyUI:適合初學者的實用逐步指南
如果您聽說 ComfyUI 是「基於節點且功能強大」的,但又對所有的方框和線感到害怕,那麼您並不孤單。好消息是:一旦您學習了一些核心概念——檢查點 (checkpoints)、編碼器 (encoders)、採樣器 (samplers) 和解碼器 (decoders)——您就能像專業人士一樣構建圖像工作流程。本實用指南將引導您從安裝到您的第一張 SDXL 圖像,以及 ControlNet、LoRA 和品質/效能調整的工作流程,了解如何使用 ComfyUI。
到最後,您將確切地知道如何使用 ComfyUI 進行一致、可重複且靈活的圖像生成,而無需猜測。
什麼是 ComfyUI,以及為什麼要使用它?
ComfyUI 是一個視覺化的、基於節點的 Stable Diffusion 介面,可讓您逐步設計圖像管道。它不是單一的「生成」按鈕,而是連接節點——每個節點處理不同的任務,例如加載模型、編碼文本、採樣潛在空間或解碼最終圖像。它快速、模組化且透明——非常適合學習、實驗和生產工作流程。
快速開始:安裝並啟動 ComfyUI
- Windows/macOS/Linux:按照官方儲存庫 (repo) 和社群安裝指南進行操作。您可以根據您的平台和 GPU 使用手動安裝(Python + 相依性)或封裝方法。ComfyUI 維基 (wiki) 提供了 Windows、macOS(包括 Apple Silicon)和 Linux 的逐步設定。
- 模型:將您的 Stable Diffusion 檢查點(例如,SDXL 基礎/精煉器或 SD 1.5)放置在
models/checkpoints 資料夾中。將 VAE 檔案放在 models/vae 中,LoRA 放在 models/loras 中,ControlNet 模型放在 models/controlnet 中。
- 啟動:運行您的作業系統的啟動腳本;ComfyUI 將在您的瀏覽器中開啟。畫布是您將節點連接在一起的地方。
提示:保持您的 GPU 驅動程式和 CUDA 工具包為最新,以獲得最佳效能。
核心概念:最簡文本到圖像工作流程
ComfyUI 的基本文本到圖像流程(SD 1.5 風格)如下所示:
- 節點:Checkpoint Loader(檢查點加載器)
- 節點:CLIP Text Encode (Positive)(CLIP 文本編碼(正面提示詞))
- 節點:CLIP Text Encode (Negative)(CLIP 文本編碼(負面提示詞))
- 輸入:UNet、正面/負面條件、種子 (seed)、步數 (steps)、採樣器(例如,DPM++ 2M Karras)和 CFG 比例
這個基本圖——Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save——是您在 ComfyUI 中幾乎所有操作的基礎。
SDXL 工作流程:基礎 +(可選)精煉器
SDXL 使用雙文本編碼器,並且通常受益於精煉器傳遞。
- 加載 SDXL 基礎:使用與 SDXL 相容的檢查點。許多 SDXL 模板包括兩個 CLIP 編碼器(用於大型/小型上下文)。輸入正面和負面提示。
- KSampler(基礎):以 1024×1024(或您的目標)生成潛在空間。儲存潛在空間或解碼的圖像。
- 可選精煉器:加載 SDXL 精煉器檢查點,並在基於基礎輸出進行條件化的額外 KSampler 傳遞中運行,然後使用 VAE 解碼。
這個兩階段過程可以顯著提高更高解析度下的細節和一致性。
實作:構建您的第一個 ComfyUI 圖
- 從範本開始:在側邊欄中,加載一個內建的文本到圖像示例。
- 替換檢查點:選擇您的 SDXL 或 SD 1.5 模型。
- 撰寫您的提示:使用 Positive 和 Negative CLIP 節點。示例:
- 正面提示詞:“電影人像,柔和的攝影棚燈光,85mm 鏡頭,高度細節,膠片顆粒感”
- 負面提示詞:“模糊,低解析度,變形,多餘的手指,浮水印”
- 採樣器:DPM++ 2M Karras(可靠)或 Euler a(快速)
- CFG:4.5–7.5(越高越能推動提示,但可能會過度飽和)
- 解析度:對於 SD 1.5,從 512×512 或 768×768 開始。對於 SDXL,1024×1024 效果很好。
- 解碼和儲存:新增 VAE Decode → Save Image。點擊 Queue Prompt(佇列提示)以生成。
理解關鍵節點(以簡單的英語)
- Checkpoint Loader(檢查點加載器):加載您的擴散模型 (UNet)、文本編碼器 (CLIP) 和 VAE。可以將其視為您的「引擎 + 語言大腦 + 圖像翻譯器」。
- CLIP Text Encode(CLIP 文本編碼):將您的提示轉換為模型可以理解的數值嵌入。同時使用正面和負面文本編碼器。
- KSampler:圖像合成的核心。它在多個步驟中,通過您的提示和採樣器方法引導,對潛在噪聲進行去噪。
- VAE Decode(VAE 解碼):將最終的潛在空間轉換為可查看的圖像。交換 VAE 會改變顏色/對比度逼真度。
- Save Image(儲存圖像):將輸出寫入磁碟,並帶有元數據,以便您可以稍後重新建立結果。
要深入了解這些構建模塊,請參閱初學者友好的分解和節點說明。
強化:LoRA、ControlNet 和圖像到圖像
使用 LoRA 進行樣式或主體控制
- 新增一個 LoRA Loader(LoRA 加載器)節點,並將其連接到您的模型分支。
- 強度:從 0.6–0.8 左右開始;根據樣式強度或過擬合進行調整。
- 多個 LoRA:鏈接或合併,但要注意衝突;堆疊時降低強度。
新增 ControlNet 以實現精確的構圖
- ControlNet 節點可讓您使用輸入地圖(Canny、Depth、OpenPose 等)來引導構圖。
- 典型流程:加載 ControlNet 模型 → 預處理您的引導圖像(例如,Canny 邊緣)→ 將 ControlNet 條件與您的文本條件一起饋入 KSampler。
- 權重:0.5–1.2 是一個好的開始。太高可能會壓倒您的提示。
圖像到圖像或修復
- 通過 VAE Encode(VAE 編碼)將初始噪聲替換為圖像潛在空間。
- 調整 KSampler 中的去噪強度,以控制保留原始圖像的多少。
- 對於修復,請使用遮罩輸入和一個具有修復感知的採樣器管道。
品質調整:提示、CFG、採樣器和種子
- 提示工程:使用簡潔的描述符,而不是段落。順序不如清晰度重要,但將關鍵屬性放在前面。
- UniPC / Heun / DDIM:值得測試;結果因模型而異
流暢渲染的效能提示
- VRAM 預算:如果遇到 OOM,請降低解析度、步數或批次大小。取決於節點,1024×1024 的 SDXL 可能需要 8–12 GB 的 VRAM。
- 半精度:在支援的地方啟用 fp16,以節省大量記憶體,而品質損失可忽略不計。
- 平鋪和潛在空間放大器:生成較小的圖像,然後通過潛在空間放大器節點或圖像放大器模型進行放大,以節省 VRAM。
- 快取:當提示沒有改變時,在運行中重複使用 CLIP 編碼和解碼的 VAE。
- 避免不必要的分支:在同一個佇列中執行時,額外的斷開連接的節點仍然會消耗記憶體。
像專業人士一樣組織工作流程
- 群組節點:使用框架/標籤來組織各個部分(提示、模型、採樣器、輸出等)。
- 參數面板:在頂部建立「控制」節點(例如,空的提示框、滑塊),以便於調整。
- 儲存/共享:匯出您的工作流程 JSON,並保留
使用的模型 筆記,以實現可重複性。
- 版本控制:為 SD 1.5、SDXL 和特殊管道(動漫、逼真照片、深度到圖像等)保留單獨的圖表。
排除常見問題
- 關閉其他 GPU 應用程式;簡化 ControlNet/LoRA 堆疊
通過預構建的工作流程更快地學習
視頻演練和初學者系列可以通過您可以暫停和剖析的現成圖表來加速您的學習曲線。書面教程和維基提供了節點解釋和更新的安裝步驟,以使您保持最新。
進階:模組化和擴展您的圖表
- API/外部節點:一些教程涵蓋了通過特殊節點將 ComfyUI 連接到外部 AI 服務,從而實現混合管道和卸載繁重的任務。
- 節點庫和擴展:探索社群節點以獲取排程器、放大器和預處理(姿勢、深度、分割)。始終檢查與您的 ComfyUI 版本的相容性。
- SDXL 精煉器和鏈式採樣器:運行分階段去噪(基礎 → 精煉器),甚至多個採樣器以進行風格混合。
如果您經常迭代提示、參考或描述,您可能需要一個助手來集思廣益和改進變體。順便說一句,Sider.AI 可以幫助您快速起草結構化提示,生成負面提示詞列表,並總結您的工作流程實驗,這樣您就不會在運行之間迷失方向。您可以在此處嘗試: 一個簡單的 SDXL 入門工作流程(複製此模式)
- Checkpoint Loader (SDXL Base)(檢查點加載器 (SDXL 基礎))
- CLIP Text Encode (Positive)(CLIP 文本編碼(正面提示詞))— “超細節產品照片,柔光箱照明,50mm 鏡頭,反射表面”
- CLIP Text Encode (Negative)(CLIP 文本編碼(負面提示詞))— “低解析度,運動模糊,浮水印,背景混亂”
- KSampler:1024×1024、28 步、DPM++ 2M Karras、CFG 5.5、固定種子
- VAE Decode → Save Image(VAE 解碼 → 儲存圖像)
可選附加元件:
- 使用 SDXL Refiner 檢查點在 10–15 步進行精煉器傳遞
- ControlNet(深度),帶有簡單的對象輪廓以進行佈局
主要要點
- ComfyUI 的力量來自於它的透明度——逐個節點地構建您的管道。
- 核心文本到圖像鏈很簡單:Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save。
- SDXL 受益於雙編碼器和可選的精煉器傳遞以獲得細節。
- LoRA 和 ControlNet 為您提供樣式控制和構圖精度。
- 調整 CFG、採樣器和種子以獲得品質和一致性;使用 fp16 和合理的解析度來管理 VRAM。
下一步
- 按照儲存庫/維基說明安裝 ComfyUI 並啟動示例工作流程。
- 新增 ControlNet 和 LoRA,然後對 A/B 測試採樣器和 CFG 設定。
- 儲存並分享您的工作流程 JSON,其中包含有關模型、種子和參數的筆記。
祝您生成愉快——歡迎來到 ComfyUI 的平靜、可控的世界。
常見問題解答
Q1:如何在 Windows、macOS 或 Linux 上安裝和運行 ComfyUI?
按照官方儲存庫和社群維基獲取平台特定的步驟、模型資料夾位置和依賴項。安裝後,啟動本地伺服器並在您的瀏覽器中開啟 ComfyUI 以開始連接節點。
Q2:什麼是用於文本到圖像的最簡單的 ComfyUI 工作流程?
加載檢查點,使用 CLIP 編碼正面和負面提示,運行 KSampler,使用 VAE 解碼,然後儲存圖像。此鏈是用於大多數生成有效地使用 ComfyUI 的基礎。
Q3:如何在 ComfyUI 中使用 SDXL?
使用帶有雙文本編碼器的 SDXL 檢查點,然後可選地新增精煉器傳遞以獲得更好的細節。以 1024×1024 運行,並具有平衡的 CFG(約 5–7)和高效的採樣器,例如 DPM++ 2M Karras。
Q4:我可以在同一個 ComfyUI 工作流程中新增 ControlNet 和 LoRA 嗎?
可以。加載您的 LoRA 和 ControlNet 節點,將它們連接到模型和 KSampler 條件,並調整權重(例如,LoRA 為 0.6–0.8,ControlNet 為 ~0.5–1.2)。監視 VRAM 使用情況,如果遇到 OOM,則降低解析度或步數。
Q5:為什麼我的 ComfyUI 圖像對比度低或色彩暗淡?
嘗試不同的 VAE,降低 CFG 或切換採樣器。某些 VAE 會產生更真實的顏色和對比度;小的調整可以快速修復色彩暗淡的結果。