Stable Diffusionにおけるネガティブプロンプトは、まるでチートコードのように語られることが多いですが、実際には画像から魂を抜き去るか、全く効果がないかのどちらかです。実際には、ネガティブプロンプトは曲がりくねった道のガードレールのようなもので、モデルが逸脱しているときには役立ちますが、車の調整がうまくいっているときには不要で、使いすぎると危険です。それでも、まるで「変な手」を直す解決策が「変な手を出すな」と叫ぶことだと信じている人がいます。
率直に言うと、ネガティブプロンプトは役立つこともありますが、結果を台無しにしたり、多様性を減らしたり、カーゴカルト的なプロンプトエンジニアリングに陥らせたりすることもあります。重要なのは、それが役立つ制約として機能しているのか、それともモデルの驚きを生み出す能力を阻害しているのかを見極めることです。
以下は、Stable Diffusionにおけるネガティブプロンプトに対する懐疑的かつ実践的な見解です。その仕組み、いつ使うべきか、いつ止めるべきか、そして大人のように考える方法について説明します。また、プロンプトの魔術が本物の魔法であるかのように装わない、まともな手順など、注目に値するものも紹介します。
H2: ネガティブプロンプトとは何か (そして何ではないか)
ネガティブプロンプトとは、Stable Diffusion (またはUI) に与えるテキストによる条件で、何を避けるべきかを指示します。例えば、ぼかし、余分な指、ウォーターマーク、テキスト、低解像度、奇形の四肢など、よく見るリストにあるものです。概念的には、「含めない」条項であり、意図の逆を強化します。実際には、モデルを特定のフィーチャーや美学から遠ざける重りのように機能します。それは「手を修正する」ボタンではありません。モデルが不得意な場合に、解剖学的な専門知識を生み出すことはありません。細部を保証するものでもありません。そして、優れたポジティブプロンプト、適切なCFGスケール、またはサンプラーとモデルの実際の理解の代わりには絶対になりません。
H2: 業界のお気に入りの逃げ口上: 「もっとネガティブを追加するだけ」
人々は、まるで悪魔を追い払うかのように、同じようなネガティブプロンプトのリストを貼り付けます。例えば、奇形、変な手、下手な絵、悪い解剖学、余分な手足、ウォーターマーク、{jpeg}アーティファクト、低解像度、悪い目、醜いなどです。それはまるでパニック発作のようです。そして、時にはそれが役立ちます。時には、モデルに「つまらなくなるように」と指示するだけです。もしそれが目標なら、安全で同じような結果が得られます。しかし、ここで重要なのは、多くの優れた画像は、モデルがスタイルと構成を自由に解釈できるようにすることで生まれるということです。ネガティブプロンプトで強く締め付けすぎると、無菌状態のような出力になります。一部のアーティストがほぼ空白のネガティブプロンプトを推奨するのには理由があります。モデルが50項目も連続して「ノー」と言われ続けると、多様性が損なわれます。
H2: ネガティブプロンプトが輝くとき: 実践的なケース
- 技術的なゴミを避ける: 圧縮によるノイズ、ウォーターマークの断片、ランダムなテキスト、または「署名」の汚れが頻繁に発生する場合は、最小限のネガティブプロンプトでモデルをきれいに誘導できます。
- 解剖学的な修正: 「余分な指」「余分な手足」「奇形」などは、一部のモデルやサンプラーでは、最悪の場合を軽減できますが、根本的な改善にはなりません。これは症状の緩和として考えてください。
- スタイルの逸脱を抑制する: モデルが特定の美学 (過度に光沢のある肌、漫画のような目、彩度が高すぎる背景など) に固執する場合、ネガティブプロンプトはそれを抑制するのに役立ちます。
重要なのは最小限であることです。ネガティブプロンプトはソースとしてではなく、塩のように使用してください。
H2: ネガティブプロンプトが静かに事態を悪化させるとき
- 多様性の過剰な制約: 禁止事項が多いほど、可能な出力の範囲は狭まります。一貫性を求める場合には最適ですが、多様性を求める場合にはあまり適していません。
- 矛盾する指示: モデルに「映画のようなドラマチックな照明」を指示しながら、コントラストに関連する用語やスタイルの要素を禁止すると、平凡なものが生まれる可能性があります。「影なし」と「映画のような照明」を同時に指示するのは、矛盾しています。
- 上流のミスの隠蔽: 悪いCFGスケール、間違ったサンプラー、多すぎるステップ数、または標準以下のチェックポイントなど、ネガティブプロンプトでは問題のある設定を救済できません。
H2: ミニマリストのルール: まずは空白から始め、画像に必要なものだけを追加する
私は料理のルールを支持します。まず味見をし、次に味付けをします。ネガティブプロンプトなしで始めてください。特定のアーティファクト (テキスト、ウォーターマーク、余分な桁など) が繰り返し発生する場合は、外科的なネガティブを追加します。例えば、「テキスト、ウォーターマーク」や「余分な指」などです。それで終わりです。問題が解決しない場合は、より大きなノブ (モデルの選択、サンプラー、ステップ数、{CFG}スケール、または構成 (シードとプロンプトの言い回し)) を調べてください。多様性を維持するために、「空白のネガティブプロンプト」のアプローチには真の知恵があります。H2: よくある容疑者: 賢明なショートリスト
ベースラインが必要な場合は、シンプルなセットを試してください:ただし、短くして、反応を良くしてください。モデルが手をうまく処理している場合は、先手を打って邪魔をしないでください。そして、特定のモデルや美学のためのネガティブプロンプトのフレーズのリストを管理している人もたくさんいます。それらを処方箋としてではなく、メニューとして扱ってください。
H2: UIが教えてくれないこと (しかし教えるべきこと)
Stable Diffusionの{UI}は、単語が多いほど制御できるという迷信を助長することがよくあります。その結果、主題に関係なく、百科事典のようなネガティブプロンプトがあらゆるものに貼り付けられることになります。より良いアプローチは、ワークフローの知識を身につけることです。設定とモデルがどのように相互作用するかを理解し、ネガティブプロンプトを軽く使用します。これを疑似神秘主義や20ページのプロンプトの呪文に頼らずに説明する、実際にまともなガイドがあります。H3: サンプラー、{CFG}、およびステップ数: より重要な退屈なもの
- サンプラーの選択: サンプラーによって制約への反応が異なります。ネガティブが無視されているように見える場合や、過度に強調されているように見える場合は、サンプラーを切り替えてステップ数を減らしてみてください。
- {CFG}スケール: 高い{CFG}は、ポジティブプロンプトとネガティブプロンプトの両方に過剰適合する可能性があります。画像が「絞め殺された」ように見える場合は、まず{CFG}を下げてください。
- ステップ数: ある時点を過ぎると、余分なステップは同じ間違ったアイデアを磨くだけです。ネガティブプロンプトが一般的なサンプラーで30〜40ステップまでに役立たない場合、ステップ数を増やしても意味がありません。
H2: 構成は否定に勝る
被写体が壊れ続ける (手、目、背景のテキストなど) 場合は、失敗を禁止するのではなく、成功するように構成してみてください。手をあまり目立たないようにフレームに入れる。奇妙な指の爆発を避けるポーズを使用する。被写体をフレーム内で支配的にし、モデルが歪んだテキストで遠くの標識を「発明する」必要がないようにする。モデルが得意とすることに合わせてプロンプトを設計するほど、ネガティブで口うるさく言う必要がなくなります。H2: スタイルパックとチェックポイント: ハウススタイルと戦わない
多くのチェックポイントには、組み込みの傾向があります。ネガティブプロンプトの壁でチェックポイントをそのハウススタイルから追い出そうとするのは、ジャズトリオに「スイングするな」と叫んでスイングを減らすように言うようなものです。自分の意図に合ったモデルを選択してください。フォトリアリズム用に調整されたモデルは、クリーンな状態を維持するために必要なネガティブが少なくなります。様式化されたモデルはあなたと戦うかもしれません。それが当然のことだからです。H2: ユニバーサルネガティブプロンプトの神話
そのようなものはありません。せいぜい、モデル全体で役立つ「共通のジャンクフィルター」は存在します。例えば、テキスト、ウォーターマーク、低解像度などです。それ以外は、普遍性は願望にすぎません。200語のネガティブプロンプト文字列を共有している人は、間違ったものを修正しているか、単一の外観に合わせて最適化していることがよくあります。それがあなたの目標である場合 (ブランドの一貫性、スタイルの再現性) は問題ありません。しかし、それはアートディレクションではありません。テンプレートの適用です。H2: ケーススタディのデッキなしでケーススタディを考える
ポートレートの概要を想像してみてください。自然な外観、浅い被写界深度、焦点の合った目、軽くフレームに入った手を求めています。最小限のネガティブプロンプトは「テキスト、ウォーターマーク」です。いくつかのシードを実行します。余分な桁が一度表示された場合は、無視してください。異常に過剰適合しないでください。それが繰り返し表示される場合は、「余分な指」を追加します。肌がプラスチックに変わったら、チェックポイントを確認するか、モデルがスタイルのネガティブを尊重する場合は、「過度に滑らかな肌」を追加します。ただし、順番に注意してください。最初にモデルと設定で修正し、次にネガティブで修正します。H2: 直感に反する勝利: ネガティブプロンプトを削除することもある
出力が無菌状態のように見え始めた場合は、いくつかのネガティブを削除します。多様性が戻ります。手が良くなる可能性さえあります。モデルが、洗練する前に解剖学を確立するために必要なフィーチャーから引き離されていないためです。過剰な制約は、モデルが良い解決策にたどり着く道を妨げる可能性があります。
Stable Diffusionを宗教としてではなく、ツールとして扱う、人間が読みやすいガイドがあります。ポジティブプロンプトとネガティブプロンプトについて、賢明に説明しています。結果を儀式よりも優先する人に役立ちます。処方箋のようなリストにうんざりしていて、明確な手順を知りたい場合は、このガイドは時間を無駄にすることはありません。Sider.AIは一般的に、プロンプトのシャーマンのコスプレをする方法ではなく、物事を行う方法という、実践的なことに固執しているときに最高の状態を発揮します。H2: 実践的なプレイブック: 空気を吸い込まないネガティブプロンプト
- 空白から始める。クリーンなポジティブプロンプトで4〜8個のシードを生成します。
- パターンを診断する。繰り返し発生するもの (テキスト、ウォーターマーク、余分な指) に対してのみネガティブを追加します。
- 最初に設定を調整する。{CFG}を下げ、別のサンプラーを試し、ステップ数を適切に調整します。
- リストを簡潔に保つ。最大3〜6項目。見た目が「プロ」だからといって、100項目のブラックリストをインポートしないでください。
- 新しいシードで再テストする。1つのラッキーなサンプルまたはアンラッキーなサンプルに基づいて判断しないでください。
- 役に立たないネガティブを取り消す。用語がシード全体の成果を改善していない場合は、削除します。
- よりスマートに構成する。手の突出を制限し、煩雑な背景を避け、簡素化します。
H2: 一般的なネガティブプロンプトの神話、崩壊
- 「ネガティブプロンプトが多いほど、画像はクリーンになる」 時々。多くの場合、画像が平坦になります。
- 「ユニバーサルネガティブプロンプトがある」 いいえ。回避すべき共通のジャンクと、モデル固有の癖があります。
- 「ネガティブは解剖学を修正する」 目に見える失敗を抑制します。習得は、モデルと構成から生まれます。
- 「リストにある場合は、必ず役に立つはずだ」 リストは開始点であり、聖書ではありません。
H2: 倫理と趣味に関する一言
ネガティブプロンプトは、特定のコンテンツカテゴリを回避するために使用できます。それはあなたの判断です。しかし、道徳的なフィルタリングと美的コントロールを混同しないでください。モデルにそれが構築されていないもの (例えば、フレーム内に複雑で判読可能なテキスト) を作成するように強制している場合、問題はネガティブプロンプトの規律ではありません。それはバイオリンにドラムを演奏するように頼んだことです。H2: 少なく言うことの静かな力
年を取るにつれて、モデルが息を呑むことができるデフォルトの価値がますます高まっています。優れたポジティブプロンプト、適切なモデル、および健全な設定により、ほとんどが実現します。ネガティブプロンプトは、森林を皆伐するのではなく、生け垣をトリミングするためのものです。H2: 最後の10% (誰もが時間の90%を無駄にする場所)
最後の仕上げが必要な場合は、ネガティブプロンプトのシソーラスを作成するよりも、軽いインペインティング、アップスケーリング、または解剖学を認識したモデルを使用したターゲットパスを実行する方が適切です。「魔法のリスト」は蜃気楼です。実際の作業は反復的です。診断、調整、再生成、そして (これは時代遅れな部分ですが) 十分に良い場合は停止します。H2: 最後のショット
Stable Diffusionのネガティブプロンプトは、文章における括弧のようなものです。文章をうまく構成することでよりクリーンな結果が得られるのに、より賢く見せようとして乱用する人がたくさんいます。単純に始めてください。目的を持って制約を追加します。邪魔になったら削除してください。そして、誰かがユニバーサル修正として150語のネガティブプロンプトを渡してきたら、笑顔でうなずき、有能な人が行うこと、つまりテスト、トリミング、または破棄を行います。参考文献
- ポジティブプロンプトとネガティブプロンプトを実践的な明確さでカバーする、人間向けのStable Diffusion Web {UI}ガイド。
- 多様性を維持するために空白のネガティブプロンプトを主張するコミュニティの見解。物議を醸していますが、自分のワークフローでテストする価値があります。
- クラウドソースのネガティブプロンプトパターンのセット。義務ではなく、メニューとして役立ちます。
FAQ
Q1:Stable Diffusionのネガティブプロンプトは実際に画質を向上させますか?
時々。ネガティブプロンプトは、ウォーターマークの断片やぼやけたテキストなどの繰り返し発生するジャンクを削除できますが、過度に使用すると多様性が平坦になり、画像が無菌状態に見えることがあります。空白または最小限のネガティブプロンプトから始めて、同じ欠陥が繰り返し表示される場合にのみ追加してください。Q2:Stable Diffusionの手のための最適なネガティブプロンプトは何ですか?
普遍的な修正はありません。「余分な指」や「下手な手」などの最小限のフレーズを試してみてください。ただし、適切なチェックポイント、健全な{CFG}、および指を前面と中央に配置しない構成を優先してください。ネガティブは症状を抑制します。解剖学を教えるものではありません。Q3:人気のあるネガティブプロンプトリストをコピーする必要がありますか?
義務としてではなく、メニューとして使用してください。大規模なリストは、多様性を減らし、あなたの意図と衝突することがよくあります。いくつかのターゲットを絞ったネガティブをテストし、測定可能な範囲で役立つものを保持し、残りを破棄します。Q4:空白のネガティブプロンプトから始める方が良いですか?
多くの場合、そうです。空白のネガティブプロンプトは、創造的な範囲を維持し、実際に抑制する必要があるものを診断することができます。テキスト、ウォーターマーク、または余分な手足などの繰り返し発生するものに対してのみ、特定のネガティブを追加します。Q5:ネガティブプロンプトはサンプラーと{CFG}の設定とどのように相互作用しますか?
{CFG}が高いほど、ポジティブとネガティブの両方の制約が増幅されます。画像が絞め殺されたように感じる場合は、ネガティブを積み重ねる前に{CFG}を下げてください。サンプラーによって反応が異なるため、別の5つの禁止用語よりも、サンプラーをすばやく切り替える方が重要になる可能性があります。