自信を持って多段階ロボットタスクを作成
タスクを明確に記述できれば、おそらくあなたのロボットはそれを実行できます。それが Gemini Robotics 1.5 と ER 1.5 の約束です。これらは、高レベルの意図を、物理世界における信頼性の高い多段階アクションプランに変換する、グラウンディングされた、具体化された推論のために構築されたモデルです。以下は、実際のロボット工学向けの堅牢な多段階ワークフローの作成に役立つ、意図別に整理された25個の実証済みのプロンプトテンプレートです。
スタイル注記:実用的かつソリューション指向。各テンプレートには、構造、推奨されるガードレール、およびオプションの変数が含まれています。 {OBJECT}、{LOCATION}、{POLICY}、{CONSTRAINTS} などのプレースホルダーを、あなたのコンテキストに置き換えてください。
これらのテンプレートの使用方法
- 高レベルの目標から始め、次にセンサーチェックとリカバリ動作を含むステップを列挙します。
- 制約を含めます:安全性、速度/精度、環境の前提、およびフォールバック戦略。
- 状態フィードバックチャネルを提供します(例:ビジョンの成功基準、力/トルクの閾値)。
- 脆弱なステップごとのマイクロマネジメントよりも、宣言的な目標を優先します。モデルに計画と適応をさせます。
ちなみに、チーム全体でプロンプト、ログ、およびイテレーションを調整する場合、Sider.AIのようなサイドパネルアシスタントは、ドキュメントやコードと並行してプロンプトを作成、テスト、および改良するのに役立ち、ロボットのスキルと手順を反復処理する際にコンテキストを常に表示できます。 セクションA — 計画とグラウンディング(基礎)
- タスクブループリント(目標 → 制約 → 計画 → チェック)
- プロンプト
「あなたはモバイルマニピュレーターを制御しています。
目標:{GOAL}。
環境:{DESCRIPTION};既知のオブジェクト:{OBJECT_LIST}。
制約:{CONSTRAINTS}。
出力:1)検証するべき前提、2)知覚/アクションステップを含む順序付けられた計画、3)ステップごとの安全チェック、4)リカバリ動作、5)終了条件と成功指標。」
- 使用時:高レベルの目標をガードレール付きの運用計画に変換する場合。
- プロンプト
「行動する前に、観測モデルを構築します。{GOAL}に必要な観測、信頼度の閾値、およびエッジケースを特定します。JSONを出力:
{ observations:. より広範なプロンプトとエージェントのパターンについては、Googleの Gemini クックブックとエージェントガイドが役立つ参考資料になります。
例:キッチンタスクのエンドツーエンドプロンプト
目標:簡単なサラダを準備して持ち帰り用に詰める。
プロンプト
「あなたは、パラレルグリッパーとツールチェンジャーを備えた7-DOFモバイルマニピュレーターを制御しています。
目標:レタス、トマト、キュウリ、ドレッシングを使ってサラダを準備し、パックします。
環境:シンク、まな板、シェフナイフ、サラダボウル、ランチコンテナのあるキッチンアイランド。人間が存在する可能性があります。
制約:人間の0.5m以内に刃物がないこと。ナイフの刃は、切断時以外は常に覆われていること。グリッパーの力は≤ 15 N。スライス厚は3–4 mm。表面は消毒済み。
出力:
- 段階的な計画(洗浄 → 準備 → 切断 → 組み立て → 梱包)、
- 成功指標(均等なスライスの視覚的確認;コンテナの密閉;エリアの清掃)、
得られるもの:知覚ゲート、ツールの取り扱いルール、および明確な成功基準を備えた、長期的な安全性を考慮した手順。
終わりに
優れたロボット工学のプロンプトは、航空からのチェックリストのように読めます。明確な目標、測定可能なゲート、および計画された脱出。これらの25個のテンプレートを構成要素として使用し、実際の実行からのログでそれらを改良します。 Gemini Robotics 1.5 と ER 1.5 がエージェント計画を物理世界にもたらし続けるにつれて、あなたのプロンプトは、優れたデモと信頼できる日常業務の違いになります。
FAQ
Q1:Gemini Robotics 1.5 / ER 1.5 は何に使用されますか?
それらは、ロボットが物理世界における複雑な多段階タスク(アイテムのピッキング、食品の準備、または施設の運用など)全体で、認識、計画、および行動することを可能にする、具体化された推論モデルです。それらは、グラウンディング、安全性、および適応的な計画を重視しています。
Q2:多段階ロボットタスクのプロンプトはどのように記述しますか?
目標、環境、および制約を記述します。検証するべき前提、安全チェック、リカバリ動作、および成功指標を要求します。モデルにステップを計画させながら、ポリシーと閾値を適用します。
Q3:これらのプロンプトは、不確実性やエラーを処理できますか?
はい。信頼度の閾値、エラーの兆候、およびフォールバックブランチを含めます。名目、低信頼度、および失敗パスを備えたステートマシンを設計すると、構造化されていない設定での信頼性が向上します。
Q4:正確な軌道を指定する必要がありますか?
通常は必要ありません。高レベルの目標、明確な制約(力、クリアランス、速度)、および検証ゲートを提供します。モデルは、これらの制約と一貫性のある軌道を生成できます。
Q5:公式ドキュメントと例はどこにありますか?
Google DeepMindの Gemini Robotics ページと、ER 1.5 の開発者向け概要、およびより広範なプロンプトとエージェントのパターンについては Gemini クックブックとエージェントガイドを参照してください。