ComfyUI の使い方:初心者向け実践ステップバイステップガイド
ComfyUI が「ノードベースで非常に強力」だと聞いたものの、たくさんのボックスとワイヤーに圧倒されているなら、それはあなただけではありません。朗報は、チェックポイント、エンコーダー、サンプラー、デコーダーなどのいくつかのコアコンセプトを学べば、プロのように画像ワークフローを構築できるようになることです。この実践的なガイドでは、インストールから最初の SDXL 画像の作成、ControlNet、LoRA、品質/パフォーマンスの調整のためのワークフローまで、ComfyUI の使い方をステップごとに説明します。
最終的には、推測に頼らず、一貫性、再現性、柔軟性のある画像生成を ComfyUI で行う方法を正確に理解できるでしょう。
ComfyUI とは何ですか?なぜ使うのですか?
ComfyUI は、Stable Diffusion のためのビジュアルなノードベースのインターフェースで、画像パイプラインをステップごとに設計できます。単一の「生成」ボタンの代わりに、ノードを接続します。各ノードは、モデルのロード、テキストのエンコード、潜在変数のサンプリング、最終画像のデコードなど、個別のタスクを処理します。高速で、モジュール式で、透過的であり、学習、実験、および本番ワークフローに最適です。
クイックスタート:ComfyUI のインストールと起動
- Windows/macOS/Linux: 公式リポジトリとコミュニティのインストールガイドに従ってください。プラットフォームと GPU に応じて、手動インストール (Python + 依存関係) またはパッケージ化された方法を使用できます。ComfyUI wiki では、Windows、macOS(Apple Silicon を含む)、Linux 向けのステップバイステップのセットアップを提供しています。
- モデル: Stable Diffusion のチェックポイント (例: SDXL base/refiner または SD 1.5) を
models/checkpoints フォルダに配置します。VAE ファイルは models/vae、LoRA は models/loras、ControlNet モデルは models/controlnet に配置します。
- 起動: OS 用のスタートスクリプトを実行します。ComfyUI がブラウザで開きます。キャンバスは、ノードを接続する場所です。
ヒント: 最高のパフォーマンスを得るために、GPU ドライバと CUDA ツールキットを最新の状態に保ってください。
コアコンセプト:最小限のテキストから画像へのワークフロー
ComfyUI の基本的なテキストから画像へのフロー (SD 1.5 スタイル) は次のようになります。
- 出力: UNet、CLIP、および VAE コンポーネント
- ノード: CLIP Text Encode (Positive)
- ノード: CLIP Text Encode (Negative)
- 出力: ガイダンスのための Conditioning embeddings
- 入力: UNet、positive/negative conditioning、シード、ステップ、サンプラー (例: DPM++ 2M Karras)、および CFG スケール
この基本的なグラフ—Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save—は、ComfyUI で行うほとんどすべてのことの基礎となります。
SDXL ワークフロー:Base + (オプション) Refiner
SDXL はデュアルテキストエンコーダーを使用し、多くの場合、refiner パスから恩恵を受けます。
- SDXL Base のロード: SDXL 互換のチェックポイントを使用します。多くの SDXL テンプレートには、2 つの CLIP エンコーダー (large/small コンテキスト用) が含まれています。positive と negative の両方のプロンプトを供給します。
- KSampler (Base): 1024×1024 (またはターゲット) で潜在変数を生成します。潜在変数またはデコードされた画像を保存します。
- オプションの Refiner: SDXL Refiner チェックポイントをロードし、ベース出力に基づいて追加の KSampler パスを実行し、VAE でデコードします。
この 2 段階のプロセスは、高解像度での詳細とコヒーレンスを大幅に向上させることができます。
ハンズオン:最初の ComfyUI グラフを構築する
- テンプレートから開始: サイドバーで、組み込みのテキストから画像への例をロードします。
- チェックポイントを置き換える: SDXL または SD 1.5 モデルを選択します。
- プロンプトを書く: Positive および Negative CLIP ノードを使用します。例:
- Positive: 「映画のようなポートレート、ソフトなスタジオ照明、85mm レンズ、非常に詳細、フィルムグレイン」
- Negative: 「ぼやけ、低解像度、変形、余分な指、ウォーターマーク」
- Steps: 速度/品質のバランスのために 20〜35
- Sampler: DPM++ 2M Karras (信頼性) または Euler a (高速)
- CFG: 4.5〜7.5 (高いほどプロンプトが強くプッシュされますが、彩度が高くなる可能性があります)
- Seed: 再現性のために固定します。探索のために変更します
- Resolution: SD 1.5 の場合は、512×512 または 768×768 から開始します。SDXL の場合は、1024×1024 がうまく機能します。
- Decode and Save: VAE Decode → Save Image を追加します。[Queue Prompt] をクリックして生成します。
主要なノードの理解 (わかりやすい言葉で)
- Checkpoint Loader: 拡散モデル (UNet)、テキストエンコーダー (CLIP)、および VAE をロードします。「エンジン + 言語脳 + 画像翻訳機」と考えてください。
- CLIP Text Encode: プロンプトをモデルが理解できる数値埋め込みに変換します。positive と negative の両方のテキストエンコーダーを使用します。
- KSampler: 画像合成の中心です。プロンプトとサンプラー法に基づいて、潜在ノイズを段階的に除去します。
- VAE Decode: 最終的な潜在変数を表示可能な画像に変換します。VAE を交換すると、色/コントラストの忠実度が変わります。
- Save Image: 後で結果を再現できるように、メタデータ付きで出力をディスクに書き込みます。
これらの構成要素の詳細については、初心者向けの解説とノードの説明をご覧ください。
パワーアップ: LoRA、ControlNet、および Image-to-Image
スタイルまたは被写体の制御に LoRA を使用する
- LoRA Loader ノードを追加し、モデルブランチに接続します。
- Strength: 0.6〜0.8 付近から開始します。スタイルの強度または過学習に基づいて調整します。
- 複数の LoRA: チェーンまたはマージしますが、競合に注意してください。スタックするときは強度を下げてください。
正確な構成のために ControlNet を追加する
- ControlNet ノードを使用すると、入力マップ (Canny、Depth、OpenPose など) を使用して構成を制御できます。
- 一般的なフロー: ControlNet モデルをロード → ガイド画像を前処理 (例: Canny エッジ) → テキストコンディショニングとともに ControlNet コンディショニングを KSampler に供給します。
- Weight: 0.5〜1.2 が良い出発点です。高すぎるとプロンプトを圧倒する可能性があります。
Image-to-Image または Inpainting
- VAE Encode を介して、初期ノイズを画像潜在変数に置き換えます。
- KSampler で denoise strength を調整して、元の画像の残りの量を制御します。
- インペインティングの場合は、マスク入力とインペイント対応のサンプラーパイプラインを使用します。
品質調整:プロンプト、CFG、サンプラー、およびシード
- プロンプトエンジニアリング: 段落ではなく、簡潔な記述子を使用します。順序は明確さほど重要ではありませんが、重要な属性を最前面に配置します。
- Low (3–5): より創造的、プロンプトへの準拠が少ない
- High (9–12): 強い準拠、アーティファクトを作成する可能性があります
- DPM++ 2M Karras: クリーンで信頼性が高い
- Euler a: 高速で表現力豊か、プレビューに最適
- UniPC / Heun / DDIM: テストする価値があります。結果はモデルによって異なります
スムーズなレンダリングのためのパフォーマンスのヒント
- VRAM バジェット: OOM に達した場合は、解像度、ステップ、またはバッチサイズを下げます。1024×1024 の SDXL は、ノードに応じて 8〜12 GB の VRAM を必要とする場合があります。
- Half precision: サポートされている場合は fp16 を有効にして、品質の低下を無視できる程度に抑えながら、メモリを大幅に節約します。
- Tiling and latent upscalers: より小さく生成し、潜在アップスケーラーノードまたはイメージアップスケーラーモデルを介してアップスケールして、VRAM を節約します。
- Caching: プロンプトが変更されない場合は、CLIP エンコードとデコードされた VAE を実行間で再利用します。
- 不要なブランチを回避: 接続されていない追加のノードは、同じキューで実行されるとメモリを消費します。
プロのようにワークフローを整理する
- グループノード: フレーム/ラベルを使用してセクション (プロンプト、モデル、サンプラー、出力など) を整理します。
- パラメーターパネル: 調整を容易にするために、上部に「制御」ノード (例: 空のプロンプトボックス、スライダー) を作成します。
- 保存/共有: ワークフロー JSON をエクスポートし、再現性のために
models used メモを保持します。
- バージョン管理: SD 1.5、SDXL、および特殊なパイプライン (アニメ、フォトリアル、デプスから画像など) 用に個別のグラフを保持します。
一般的な問題のトラブルシューティング
- 間違った VAE または VAE Decode の欠落
- Denoise が低すぎる (例: img2img で <0.2)
- 別の VAE を試してください。一部の VAE はコントラストを著しく改善します
- Seed が固定されています。ランダム化を有効にするか、新しい seed を設定します
- 解像度、ステップ、またはバッチサイズを減らします。fp16 に切り替えます
- 他の GPU アプリを閉じます。ControlNet/LoRA スタックを簡素化します
- Model not found / red node:
- ファイルパスとモデルフォルダを確認します。ファイル拡張子を確認します
構築済みのワークフローでより速く学ぶ
ビデオチュートリアルと初心者向けシリーズは、一時停止して分析できるすぐに実行可能なグラフで、学習曲線を加速できます。,. 書かれたチュートリアルと wiki は、ノードの説明と最新のインストール手順を提供して、最新の状態を維持します。.
高度な機能:グラフのモジュール化と拡張
- API/External nodes: 一部のチュートリアルでは、特別なノードを介して ComfyUI を外部 AI サービスに接続する方法について説明し、ハイブリッドパイプラインを有効にし、負荷の高いタスクをオフロードします。
- Node libraries and extensions: スケジューラー、アップスケーラー、および前処理 (ポーズ、デプス、セグメンテーション) 用のコミュニティノードを探索します。常に ComfyUI バージョンとの互換性を確認してください。
- SDXL refiners and chained samplers: ステージングされたデノイズ (base → refiner) またはスタイルのブレンドのために複数のサンプラーを実行します。
注目に値する点: Sider.AI によるプロンプトの高速化
プロンプト、参照、または説明を頻繁に繰り返す場合は、バリエーションをブレインストーミングおよび絞り込むための相棒が必要になる場合があります。ちなみに、Sider.AI は、構造化されたプロンプトをすばやく作成し、ネガティブプロンプトリストを生成し、ワークフロー実験を要約して、実行間の追跡を失わないようにするのに役立ちます。こちらでお試しください: シンプルな SDXL スターターワークフロー (このパターンをコピー)
- Checkpoint Loader (SDXL Base)
- CLIP Text Encode (Positive) — 「超詳細な製品写真、ソフトボックス照明、50mm レンズ、反射面」
- CLIP Text Encode (Negative) — 「低解像度、モーションブラー、ウォーターマーク、背景の clutter」
- KSampler: 1024×1024、28 steps、DPM++ 2M Karras、CFG 5.5、fixed seed
オプションのアドオン:
- 10〜15 ステップでの SDXL Refiner チェックポイントを使用した Refiner パス
- レイアウト用の単純なオブジェクトシルエットを持つ ControlNet (Depth)
- 特定のブランドまたはアートスタイルの LoRA を 0.6 で
重要なポイント
- ComfyUI の力は、その透明性にあります。パイプラインをノードごとに構築します。
- コアとなるテキストから画像へのチェーンはシンプルです: Checkpoint → CLIP (pos/neg) → KSampler → VAE Decode → Save。
- SDXL は、詳細のためにデュアルエンコーダーとオプションの refiner パスから恩恵を受けます。
- LoRA と ControlNet は、スタイルの制御と構成の精度を提供します。
- CFG、サンプラー、およびシードを調整して品質と一貫性を実現します。fp16 と適切な解像度で VRAM を管理します。
- ワークフローを整理し、バージョン管理して、痛みのない反復処理を実現します。
次のステップ
- リポジトリ/wiki の指示に従って ComfyUI をインストールし、サンプルワークフローを起動します。
- 基本的なことを固めるために、最小限のチェーンを最初から再構築します。
- ControlNet と LoRA を追加し、サンプラーと CFG 設定の A/B テストを行います。
- モデル、シード、およびパラメーターに関するメモとともに、ワークフロー JSON を保存して共有します。
ハッピーな生成を—そして ComfyUI の穏やかで制御可能な世界へようこそ。
FAQ
Q1:Windows、macOS、または Linux に ComfyUI をインストールして実行するにはどうすればよいですか?
プラットフォーム固有の手順、モデルフォルダーの場所、および依存関係については、公式リポジトリとコミュニティ wiki に従ってください。インストール後、ローカルサーバーを起動し、ブラウザで ComfyUI を開いてノードの接続を開始します。,.
Q2:テキストから画像への最もシンプルな ComfyUI ワークフローは何ですか?
チェックポイントをロードし、CLIP で positive と negative のプロンプトをエンコードし、KSampler を実行し、VAE でデコードしてから、画像を保存します。このチェーンは、ほとんどの生成で ComfyUI を効果的に使用する方法の基礎となります。,.
Q3:ComfyUI で SDXL を使用するにはどうすればよいですか?
デュアルテキストエンコーダーで SDXL チェックポイントを使用し、必要に応じて、より詳細な refiner パスを追加します。バランスの取れた CFG (約 5〜7) と、DPM++ 2M Karras などの効率的なサンプラーを使用して、1024×1024 で実行します。
Q4:同じ ComfyUI ワークフローで ControlNet と LoRA を追加できますか?
はい。LoRA ノードと ControlNet ノードをロードし、それらをモデルと KSampler のコンディショニングに接続し、重みを調整します (例: LoRA の場合は 0.6〜0.8、ControlNet の場合は〜0.5〜1.2)。VRAM の使用量に注意し、OOM に達した場合は解像度またはステップを減らします。
Q5:ComfyUI 画像のコントラストが低いか、洗い流されているのはなぜですか?
別の VAE を試すか、CFG を下げるか、サンプラーを切り替えます。一部の VAE は、より忠実な色とコントラストを生成します。わずかな調整で、洗い流された結果をすばやく修正できます。