自信地编写多步骤机器人任务
如果你能清晰地描述一项任务,你的机器人很可能就能完成它。这就是 Gemini Robotics 1.5 和 ER 1.5 所承诺的——这些模型专为扎实、具身推理而构建,可以将高级意图转化为物理世界中可靠的多步骤行动计划。以下是 25 个经过验证的提示模板——按意图组织——可帮助你为真实世界的机器人技术编写强大的多步骤工作流程。
样式说明:实用且面向解决方案。每个模板都包含结构、推荐的保护措施和可选变量。将 {OBJECT}、{LOCATION}、{POLICY} 和 {CONSTRAINTS} 等占位符替换为你的上下文。
如何使用这些模板
- 从一个高层次的目标开始,然后列举步骤,包括传感器检查和恢复行为。
- 包括约束条件:安全、速度/精度、环境假设和后备策略。
- 提供状态反馈通道(例如,视觉成功标准、力/扭矩阈值)。
- 首选声明性目标,而不是脆弱的逐步微管理;让模型进行计划和适应。
顺便说一句,如果你在团队中协调提示、日志和迭代,像 Sider.AI 这样的侧面板助手可以帮助你在文档和代码旁边起草、测试和改进提示,在迭代机器人技能和程序时保持上下文可见。 A 部分 — 规划与扎实(基础)
- Prompt
“你正在控制一个移动操作臂。
目标:{GOAL}。
环境:{DESCRIPTION};已知物体:{OBJECT_LIST}。
约束:{CONSTRAINTS}。
输出:1) 验证的假设,2) 带有感知/行动步骤的有序计划,3) 每个步骤的安全检查,4) 恢复行为,5) 终止条件和成功指标。”
- 使用场景:将高层次目标转换为带有保护措施的运营计划。
- Prompt
“在行动之前,建立一个观察模型。确定 {GOAL} 所需的观察、置信度阈值和边缘情况。输出 JSON:
{ observations:. 对于更广泛的提示和代理模式,Google 的 Gemini cookbook 和代理指南是有用的参考资料。
示例:厨房任务的端到端提示
目标:准备一份简单的沙拉并打包带走。
Prompt
“你正在控制一个带有平行夹爪和工具更换器的 7 自由度移动操作臂。
目标:准备并打包一份含有生菜、番茄、黄瓜和调味品的沙拉。
环境:带有水槽、砧板、厨师刀、沙拉碗、午餐容器的厨房岛台。可能有人在场。
约束:刀刃与人之间的距离不得小于 0.5 米。除非切割,否则刀刃始终保持在鞘中。夹爪力 ≤ 15 N。切片厚度 3–4 毫米。表面已消毒。
输出:
- 分阶段计划(清洗 → 准备 → 切割 → 组装 → 打包),
- 成功指标(均匀切片的视觉确认;容器密封;区域清洁),
你将得到什么:一个长期的、具有安全意识的程序,包括感知门、工具处理规则和清晰的成功标准。
结束语
优秀的机器人提示读起来就像航空公司的检查清单:明确的目标、可衡量的关口和计划好的逃生路线。使用这 25 个模板作为构建块,然后使用实际运行的日志来改进它们。随着 Gemini Robotics 1.5 和 ER 1.5 继续将代理规划引入物理世界,你的提示是良好演示和可靠日常运营之间的区别。
常见问题
Q1:Gemini Robotics 1.5 / ER 1.5 用于什么?
它们是具身推理模型,可以让机器人在物理世界中感知、计划和执行复杂的、多步骤的任务——例如拾取物品、准备食物或设施运营。它们强调扎实、安全和自适应规划。
Q2:我如何编写用于多步骤机器人任务的提示?
说明目标、环境和约束。要求验证假设、安全检查、恢复行为和成功指标。让模型计划步骤,同时你执行策略和阈值。
Q3:这些提示可以处理不确定性和错误吗?
是的。包括置信度阈值、错误签名和后备分支。设计具有标称、低置信度和失败路径的状态机可以提高非结构化环境中的可靠性。
Q4:我需要指定确切的轨迹吗?
通常不需要。提供高层次的目标、明确的约束(力、间隙、速度)和验证关口。该模型可以生成与这些约束一致的轨迹。
Q5:我在哪里可以找到官方文档和示例?
请参阅 Google DeepMind 的 Gemini Robotics 页面和 ER 1.5 的开发者概述,以及 Gemini cookbook 和代理指南,以了解更广泛的提示和代理模式。