Soạn Thảo Các Tác Vụ Robot Nhiều Bước Một Cách Tự Tin
Nếu bạn có thể mô tả một tác vụ một cách rõ ràng, robot của bạn có khả năng thực hiện được. Đó là lời hứa của Gemini Robotics 1.5 và ER 1.5—các mô hình được xây dựng cho lý luận có căn cứ, có tính hiện thực, biến ý định cấp cao thành các kế hoạch hành động nhiều bước đáng tin cậy trong thế giới vật lý. Dưới đây là 25 mẫu prompt đã được chứng minh—được sắp xếp theo ý định—giúp bạn soạn thảo các quy trình làm việc nhiều bước mạnh mẽ cho lĩnh vực robot thực tế.
Lưu ý về phong cách: Thiết thực & hướng đến giải pháp. Mỗi mẫu bao gồm cấu trúc, các biện pháp bảo vệ được khuyến nghị và các biến tùy chọn. Thay thế các trình giữ chỗ như {OBJECT}, {LOCATION}, {POLICY} và {CONSTRAINTS} bằng ngữ cảnh của bạn.
Cách Sử Dụng Các Mẫu Này
- Bắt đầu với một mục tiêu cấp cao, sau đó liệt kê các bước với kiểm tra cảm biến và hành vi phục hồi.
- Bao gồm các ràng buộc: an toàn, tốc độ/độ chính xác, giả định môi trường và chiến lược dự phòng.
- Cung cấp các kênh phản hồi trạng thái (ví dụ: tiêu chí thành công về thị giác, ngưỡng lực/mô-men xoắn).
- Ưu tiên các mục tiêu khai báo hơn là quản lý chi tiết từng bước dễ vỡ; hãy để mô hình lập kế hoạch và thích ứng.
Nhân tiện, nếu bạn điều phối các prompt, nhật ký và lần lặp trên một nhóm, một trợ lý bảng điều khiển bên như Sider.AI có thể giúp bạn soạn thảo, kiểm tra và tinh chỉnh các prompt cùng với tài liệu và mã của bạn, giữ cho ngữ cảnh hiển thị khi bạn lặp lại các kỹ năng và quy trình robot của mình. Phần A — Lập Kế Hoạch & Nền Tảng (Cơ Sở)
- Bản Thiết Kế Tác Vụ (Mục Tiêu → Ràng Buộc → Kế Hoạch → Kiểm Tra)
- Prompt
"Bạn đang điều khiển một bộ thao tác di động.
Mục tiêu: {GOAL}.
Môi trường: {DESCRIPTION}; các đối tượng đã biết: {OBJECT_LIST}.
Các ràng buộc: {CONSTRAINTS}.
Đầu ra: 1) Các giả định cần xác minh, 2) Kế hoạch có thứ tự với các bước nhận thức/hành động, 3) Kiểm tra an toàn cho mỗi bước, 4) Các hành vi phục hồi, 5) Các điều kiện kết thúc và các số liệu thành công."
- Sử dụng khi: Chuyển đổi một mục tiêu cấp cao thành một kế hoạch hoạt động với các biện pháp bảo vệ.
- Kế Hoạch Ưu Tiên Nhận Thức với Định Lượng Độ Không Chắc Chắn
- Prompt
"Trước khi hành động, hãy xây dựng một mô hình quan sát. Xác định các quan sát cần thiết, ngưỡng độ tin cậy và các trường hợp biên cho {GOAL}. Đầu ra JSON:
{ observations:. Để biết thêm các mẫu prompt và agent rộng hơn, sách nấu ăn Gemini và hướng dẫn agent của Google là những tài liệu tham khảo hữu ích.
Ví dụ: Prompt Đầu Cuối cho Tác Vụ Bếp
Mục tiêu: Chuẩn bị một món salad đơn giản và đóng gói mang đi.
Prompt
"Bạn đang điều khiển một bộ thao tác di động 7 bậc tự do với một kẹp song song và bộ thay đổi công cụ.
Mục tiêu: Chuẩn bị và đóng gói một món salad với rau diếp, cà chua, dưa chuột và nước sốt.
Môi trường: Bàn bếp với bồn rửa, thớt, dao bếp, bát salad, hộp đựng bữa trưa. Con người có thể có mặt.
Các ràng buộc: Không có lưỡi dao nào trong vòng 0,5 m tính từ người. Lưỡi dao luôn được bao bọc trừ khi cắt. Lực kẹp ≤ 15 N. Độ dày lát cắt 3–4 mm. Bề mặt được khử trùng.
Đầu ra:
- Các giả định cần xác minh (công cụ, nguyên liệu, ánh sáng),
- Kế hoạch theo giai đoạn (rửa → chuẩn bị → cắt → lắp ráp → đóng gói),
- Kiểm tra an toàn trên mỗi bước (thị giác/lực),
- Khôi phục lỗi (kẹp lại, định vị lại, làm sạch lại),
- Các số liệu thành công (xác nhận trực quan về các lát cắt đều; hộp đựng được niêm phong; khu vực sạch sẽ),
- Lược đồ nhật ký và ảnh trước/sau."
Bạn sẽ nhận được gì: Một quy trình dài hạn, nhận biết an toàn với các cổng nhận thức, quy tắc xử lý công cụ và tiêu chí thành công rõ ràng.
Lời Kết
Các prompt robot tuyệt vời đọc như danh sách kiểm tra từ hàng không: mục tiêu rõ ràng, các cổng có thể đo lường và các lối thoát được lên kế hoạch. Sử dụng 25 mẫu này làm khối xây dựng, sau đó tinh chỉnh chúng bằng nhật ký từ các lần chạy thực tế. Khi Gemini Robotics 1.5 và ER 1.5 tiếp tục đưa việc lập kế hoạch chủ động vào thế giới vật lý, các prompt của bạn là sự khác biệt giữa một bản demo tốt và các hoạt động hàng ngày đáng tin cậy.
Câu Hỏi Thường Gặp
Q1:Gemini Robotics 1.5 / ER 1.5 được sử dụng để làm gì?
Chúng là các mô hình lý luận có tính hiện thực cho phép robot nhận thức, lập kế hoạch và hành động trên các tác vụ phức tạp, nhiều bước trong thế giới vật lý—như chọn đồ vật, chuẩn bị thức ăn hoặc vận hành cơ sở. Chúng nhấn mạnh vào nền tảng, an toàn và lập kế hoạch thích ứng.
Q2:Làm cách nào để viết prompt cho các tác vụ robot nhiều bước?
Nêu rõ mục tiêu, môi trường và các ràng buộc. Yêu cầu các giả định cần xác minh, kiểm tra an toàn, hành vi phục hồi và số liệu thành công. Hãy để mô hình lập kế hoạch các bước trong khi bạn thực thi các chính sách và ngưỡng.
Q3:Các prompt này có thể xử lý sự không chắc chắn và lỗi không?
Có. Bao gồm các ngưỡng độ tin cậy, chữ ký lỗi và các nhánh dự phòng. Thiết kế các máy trạng thái với các đường dẫn danh nghĩa, độ tin cậy thấp và lỗi giúp cải thiện độ tin cậy trong các cài đặt phi cấu trúc.
Q4:Tôi có cần chỉ định quỹ đạo chính xác không?
Thông thường là không. Cung cấp các mục tiêu cấp cao, các ràng buộc rõ ràng (lực, khoảng trống, tốc độ) và các cổng xác minh. Mô hình có thể tạo ra các quỹ đạo phù hợp với các ràng buộc đó.
Q5:Tôi có thể tìm tài liệu và ví dụ chính thức ở đâu?
Hãy xem các trang Gemini Robotics của Google DeepMind và tổng quan về nhà phát triển cho ER 1.5, cộng với sách nấu ăn Gemini và hướng dẫn agent để biết thêm về prompt và các mẫu agent rộng hơn.