複雑な構成のための Nano Banana での複数画像フュージョンのためのプロンプト方法
スタイル:実践的 & ソリューション志向
複数の参照画像を1つのまとまりのあるシーンにブレンドしようとしたことがあるなら、綱渡り状態をご存知でしょう。被写体の詳細を保持し、スタイルの一貫性を保ち、実際に機能する構成を実現するのです。Nano Bananaの複数画像フュージョンは、驚くほどの信頼性でこれを実現できます。意図を持ってプロンプトを入力すれば。このガイドでは、入力形式、画像重み付け戦略、構成計画、ネガティブプロンプト、シード制御、トラブルシューティングなど、複雑な構成のための実証済みのワークフローについて説明します。
最初に注目すべき点:公開されている記事では、Nano Bananaは、強力な編集、一貫性、および複数画像フュージョン機能を備えた最先端の画像モデルとして説明されており、モデルディレクトリの本番環境対応モデルとしてリストされています。コミュニティガイドでは、モデルのプロンプトパターンとシナリオベースのヒント、および実践的な使用法のウォークスルーも概説されており、ここではそれらを統合します。
Nano Banana における複数画像フュージョンとは?
- 定義: 2つ以上の入力画像(被写体、スタイル、レイアウト)を1つの出力に結合し、照明、遠近法、カラーパレット、および空間配置の競合を解決すること。
- 重要な理由: 手動マスキングなしで、複雑な合成(例:水彩風景スタイルのポートレート、映画のシーンに配置された製品)を構築できます。
- 主要なレバー: 画像の重み、テキストプロンプトの優先度、ネガティブプロンプト、シード制御、およびアスペクト比/サイズ制約。
複雑な構成のための高度なワークフロー
- レイアウト(構成)、被写体の識別、およびスタイルをどの画像から取得するかを決定します。3つの画像がある場合は、それぞれに役割を割り当てます。
- サムネイルをスケッチします(頭の中でまたは簡単な落書き)。焦点と奥行きに注意してください。
- 遠近法とフレーミングが目的のシーンとすでに一致する参照画像を使用します。
- 最初は適度な重みに保ちます(例:0.6〜0.8)。後で調整します。
- 被写体の参照にわずかに高い重み(例:0.8〜1.0)を与えて、識別が構成の圧力に耐えられるようにします。
- ソースが混雑している場合は、識別画像にタイトなクロップを使用します。これにより、識別の再現が向上します。
- スタイルの画像(パレット/筆致/照明)を使用します。識別を圧倒しないように、低い重み(0.3〜0.6)から始めます。
- スタイルがリアリズムを崩壊させる場合は、スタイル画像に代えて(または加えて)、テキストによるスタイルの説明を試してください。
- ばらばらの参照を整合させるために、シーン、レンズ、照明、および素材のプロパティを指定します。
- 空間的な役割を含めます。「被写体A前景」、「画像Bからの背景」、「画像Cからのスタイル」。
- 構成を保護するためにネガティブプロンプトを追加する
- アーティファクト(「歪んだ手」、「余分な手足」、「二重の目」、「ロゴのにじみ」、「一致しない照明」、「グリッチ」)を呼び出します。
- スタイルが強すぎる場合は、「過度に様式化された、絵のようなしみ」または「厚いブラシのテクスチャ」(不要な場合)のようなネガティブを追加します。
- グローバルな構成が機能したら、シードをフリーズして、重み、スタイルの強さ、および詳細を正確に反復処理します。
- 一度に1つのパラメータ(例:スタイルの重み+0.1)を変更して比較します。
ちなみに、一部の公開ガイドでは、このステージングアプローチを反映したシナリオベースのプロンプトのレシピとA/Bテストを提供しており、エンドツーエンドのハウツーでは、参照とネガティブプロンプトの戦術を分析しています。
プロンプトアーキテクチャ:信頼性の高いパターン
すばやく調整できる、レイヤー化された読みやすい構造を使用します。
- システム/指示的な意図(サポートされている場合):「識別のために参照画像を厳密に従い、スタイルのニュアンスにはテキストを使用します。」
- 役割のある画像ブロック:レイアウト、識別、スタイル。
- 構成、カメラ、照明、および素材を含むテキストブロック。
- コントロール:シード、ガイダンス/CFG、サイズ/アスペクト。
構造例(擬似プロンプト):
画像:
- img_layout: {URL or upload id} weight: 0.7 role: layout
- img_identity: {URL or upload id} weight: 0.9 role: subject identity
- img_style: {URL or upload id} weight: 0.4 role: style/palette
プロンプト:
img_identityの被写体のミディアムショットのポートレート、img_layoutと同じ街の風景に立っています。
img_styleからのカラーパレットと照明のムードを維持します:暖かい夕暮れ、柔らかいリムライト、浅い被写界深度。
カメラ:50mm、f/1.8、肩の高さの角度。ソフトなボケ、リアルな肌の質感。
服装:ミニマリストのダークジャケット、ロゴなし。表情:穏やかで自信に満ちています。
ネガティブ:
過度に様式化された筆致、絵のようなしみ、プラスチックの肌、余分な指、歪んだ手、重複した顔の特徴、
一致しない視点、ポスタリゼーションされた影、色ノイズ、ロゴのアーティファクト。
コントロール:
シード:142375
ガイダンス:5.5–7.5(6.5から開始)
サイズ:768x1024(ポートレート)または1024x768(風景)
インターフェイスが画像の重みスライダーまたはトークンをサポートしている場合は、重みを0.3〜1.2の範囲に保ちます。識別が崩壊した場合にのみ、より高くします。Nano Banana以外でも、実践者は、低い重みは自由度を与え、高い重みは忠実度を強制することを発見しています。
画像の重み:3つの実用的なレシピ
- 理由:外観をほのめかしながら、顔の忠実度を維持します。
- 理由:フレーム全体に強力なアートディレクションをプッシュします。
- 理由:構成の一貫性が最も重要です。識別は存在しますが、絶対的ではありません。
構成の制御:遠近法、奥行き、および照明
- 遠近法:テキストと画像全体でレンズの同等性を調整します(例:広大なシーンの場合は「24mmワイドショット」、ポートレートの場合は「85mm」)。レイアウト画像が24mmであるにもかかわらず、85mmの外観を要求すると、モデルは矛盾するジオメトリを調整する必要があります。それらを一貫させてください。
- 奥行き:前景/中間/背景の役割を言及します(「被写体の前景、スカイラインの中間、山々の背景」)。これにより、オブジェクトの重複エラーが軽減されます。
- 照明:単一の支配的な光源と時刻を宣言します。「キーライト左、暖かい; フィルソフト、クール; リムライトは微妙に。」これは、一致しないソース画像を融合するのに役立ちます。
実際に役立つネガティブプロンプト
- 構造的:「一致しない視点」、「傾いた地平線」、「歪んだ解剖学」、「平面的な奥行き」。
- 表面/テクスチャ:「プラスチックの光沢」、「泥だらけの詳細」、「ポスタリゼーション」、「バンディング」、「過度にシャープニングされたエッジ」。
- スタイルの制御:リアリズムを目指す場合は、「過度に様式化された」、「厚いブラシのテクスチャ」、「漫画風」。
- 一貫性:ロゴまたはウォーターマークが侵入する場合は、「ウォーターマークなし、ロゴなし」を追加します。
シードとバリエーションの戦略
- フレーミングが「クリック」するまで、ランダムなシードで探索します。
- シードをロックし、重みを小さなステップで反復処理します:±0.1。バージョンログを保持します。
- マイナーな詳細が壊れ続ける場合(手、小さな小道具)、シードを保持しますが、ガイダンス/CFGを±0.5だけナッジし、ネガティブを調整します。
解像度、アスペクト比、およびアップスケーリング
- アップスケーリング中の構成のずれを避けるために、ターゲットのアスペクト比またはその近くで生成します。
- 超高精細が必要な場合は、短い側で768〜1024 pxで強力なベースを作成し、詳細保持パスでアップスケールします。アップスケール中にアスペクトを変更しないでください。
トラブルシューティングプレイブック
- テキストに明示的な識別の記述子(ヘアスタイル、顔のマーク、アクセサリー)を追加します。
- スタイルの重みを下げます。「過度に様式化された、絵のようなしみ」のようなネガティブを追加します。
- スタイル画像をテキストのみのスタイルプロンプトに置き換えます。
- レイアウトの重みを上げ、テキストで奥行きの手がかりを増やします(「平面の明確な分離」)。
- プロンプトを簡素化します。競合する形容詞を削除します。
- 1つの時刻と1つの光の方向に調和させます。それを明示的に言及します。
- スタイル画像が異なる照明を課す場合は、その重みを減らします。
- ネガティブを強化します。ガイダンスをわずかに増やします。
- 構成を維持しながら詳細を更新するために、小さな変更を加えた後、同じシードで再生成します。
実際のユースケース
- レイアウト:ライフスタイル写真; 識別:製品パックショット; スタイル:ブランドトーンボード。
- 一貫した影と反射のプロンプト。「浮遊するオブジェクト」、「偽の反射」のネガティブ。
- レイアウト:スタジオポーズのリファレンス; 識別:人; スタイル:絵画またはカラーグレーディングのリファレンス。
- テキストで彩度とテクスチャを制御します。肖像画の場合は、スタイルの重みを適度に保ちます。
- レイアウト:環境プレート; 識別:キャラクターターンアラウンド; スタイル:撮影フレーム。
- レイアウトによって暗示されるカメラの動きを指定します(「ロータリー、わずかなチルトアップ」)。
プロンプトの例(コピー準備完了)
画像:
- img_layout: city_street_at_dusk.jpg weight: 0.7 role: layout
- img_identity: subject_headshot.png weight: 1.0 role: identity
プロンプト:
横断歩道に立っている識別の被写体のミディアムショットのポートレート、img_layoutと同じ視点。
ゴールデンアワーのサイドライト、浅い深度、自然な肌の質感、ソフトなボケ。
ネガティブ:
プラスチックの肌、歪んだ指、余分な手足、ロゴのアーティファクト、過度にシャープニングされたエッジ。
コントロール:
シード:88123、ガイダンス:6.5、サイズ:896x1152
画像:
- img_layout: forest_path_wide.png weight: 0.8 role: layout
- img_identity: runner_profile.jpg weight: 0.9 role: identity
- img_style: teal_orange_grade.png weight: 0.5 role: style
プロンプト:
同じ森の小道を走るランナーの全身ショット、ダイナミックなストライド、鮮明なモーション、ティールオレンジの映画グレード。
レンズ35mm、ローアングル、朝の霞、右からの指向性のある日光。
ネガティブ:
モーションブラーのストリーク、泥だらけの葉、ポスタリゼーション、一致しない影。
コントロール:
シード:44701、ガイダンス:6.0、サイズ:1024x768
画像:
- img_layout: studio_three_point_lighting.jpg weight: 0.6 role: layout
- img_identity: model_closeup.png weight: 0.7 role: identity
- img_style: magazine_cover_moodboard.jpg weight: 0.9 role: style
プロンプト:
エディトリアルカバーポートレート、光沢のあるハイライト、最小限の背景、タイポグラフィセーフなネガティブスペースを左に。
レンズ85mm、f/2、ニュートラルな表情、クリーンなメイクアップ。
ネガティブ:
過酷な肌の平滑化、過度に様式化された筆致、バンディング、色のフリンジ。
コントロール:
シード:99021、ガイダンス:7.0、サイズ:1024x1365
このモデルに関するより深いシナリオ設定とプロンプトの構造例については、コミュニティの記事が役立ちます。独立したまとめでは、Nano Bananaの強みの中で複数画像フュージョンも強調されています。
複雑なシーンのプロのヒント
- 役割を明示的に保つ:使用する画像が多いほど、誰が何をするかを宣言する必要があります。
- カメラの合図でリアリズムを優先する:レンズ、絞り、高さ、照明の方向。
- スタイルを調味料として使用する:低く始めて、必要に応じて上げます。
- デザイナーのように反復処理する:固定されたシードで小さく、ログに記録されたデルタ。
- 切り替えるタイミングを知る:画像が目標と戦い続ける場合(視点の競合)、過剰に調整するのではなく、置き換えます。
プロンプトの作成と反復的な比較を行う場合は、シード、重み、およびネガティブをバージョン管理するサイドバイサイドのワークスペースが価値があります。注目すべき点:プロンプト管理ツールを使用して、複数画像の役割をテンプレート化し、画像IDを保存し、重みをすばやくA/Bテストできます。これは、フュージョン品質を調整するために数十の小さな反復処理を実行する場合に便利です。
主なポイント
- 各参照画像に明確な役割を割り当てます:レイアウト、識別、スタイル。
- スタイルの重みは控えめに開始します。より高い重みで識別を保護します。
- テキストと画像の合図全体でレンズと照明を調和させます。
- マイクロチューニングの前にシードをロックします。一度に1つのことを変更します。
- 構造、テクスチャ、およびアーティファクトの制御にターゲットを絞ったネガティブを使用します。
参考文献と参考文献:Nano Bananaプロンプトの概要とコミュニティのハウツー; その複数画像フュージョン機能に関する解説; モデルディレクトリリスト。
よくある質問
Q1:Nano Bananaで複数の画像の重み付けをして、より良いフュージョンを実現するにはどうすればよいですか?役割を割り当て(レイアウト、識別、スタイル)、0.7/1.0/0.5のような重みで開始します。肖像がドリフトする場合は識別の重みを上げ、外観がリアリズムを圧倒する場合はスタイルの重みを下げます。小さな±0.1の変更が最適です。
Q2:Nano Bananaの複数画像フュージョンに役立つネガティブプロンプトは何ですか?構造的およびテクスチャの保護を使用します:「歪んだ解剖学、一致しない視点、プラスチックの肌、ポスタリゼーション、過度にシャープニングされたエッジ、ロゴのアーティファクト」。リアリズムが必要な場合は、「過度に様式化された筆致」のようなスタイル制御のネガティブを追加します。
Q3:複雑な構成をブレンドするときにシードを修正する必要がありますか?はい。フレーミングが好きになるまで自由に探索し、次にシードをロックして、構成を失うことなく、重み、スタイルの強さ、ガイダンス、およびネガティブを予測どおりに反復処理します。
Q4:複数画像フュージョンには、どの解像度とアスペクト比を使用する必要がありますか?構成のずれを避けるために、ターゲットのアスペクト比(例:1024×768または896×1152)に近いものを生成します。その後、アスペクトを一定に保ちながら、詳細保持パスでアップスケールします。
Q5:スタイル画像とテキストの説明を一緒に混ぜることはできますか?もちろんです。低いスタイル画像の重み(0.3〜0.5)から始めて、テキスト(照明、カラーグレード)で外観を強化します。スタイル画像がシーンと競合する場合は、その重みを減らすか、テキストのみのスタイリングに切り替えます。