สิ่งที่เกี่ยวกับรูปแบบพรอมต์คือมันถูกขายเหมือนสูตรโกง
ทุกคนกำลังล่าหากระสุนเงิน: ชุดคำวิเศษที่เปลี่ยน Claude 4.5 ให้เป็นเอเจนต์หลายขั้นตอนที่ไม่มีวันผิดพลาด คุณคงเดาได้ว่ามันจบลงอย่างไร ยิ่งคุณใส่ "frameworks" มากเท่าไหร่ ระบบของคุณก็จะยิ่งช้าลง โง่ลง และเปราะบางมากขึ้นเท่านั้น มันเหมือนกับการเพิ่มรีโมทคอนโทรลมากขึ้นเพื่อซ่อมทีวีของคุณ ในที่สุดคุณก็ใช้เวลาทั้งคืนไปกับการเปลี่ยนอินพุต และไม่มีใครได้ดูอะไรเลย
นี่คือความจริงที่ไม่น่าดึงดูดใจ: เอเจนต์หลายขั้นตอนที่เชื่อถือได้มาจากรูปแบบพรอมต์ที่เข้มงวด จำกัดความคลุมเครือ และควบคุมเครื่องมืออย่างใกล้ชิด คุณไม่ต้องการแรงบันดาลใจ คุณต้องการราวกั้นและความสามารถในการทำซ้ำ Claude 4.5 ทำงานได้ดีมากเมื่อคุณปล่อยให้มันเป็นไปตามตัวอักษร และแย่มากเมื่อคุณปล่อยให้มันฉลาด
ดังนั้น ใช่ รูปแบบพรอมต์ Claude 4.5 จำนวน 25 รูปแบบ แต่ไม่ใช่ในลักษณะของบอร์ด Pinterest ที่มีรูปร่างสวยงาม นี่คือรูปแบบที่ลดความแปรปรวนและเพิ่มความน่าเชื่อถือในเอเจนต์หลายขั้นตอนได้จริง พวกมันทำงานได้ดีกับการเรียกใช้ฟังก์ชัน เอาต์พุตที่มีโครงสร้าง การดึงข้อมูล และความเป็นจริงที่น่ารำคาญที่ว่าโมเดลที่ไม่กำหนดผลลัพธ์ได้ยังคงต้องการระบบที่กำหนดผลลัพธ์ได้
เหตุใด "รูปแบบพรอมต์ Claude 4.5" จึงมีความสำคัญต่องานจริง
โมเดลสร้างภาพหลอนได้ แต่ระบบไม่ควรทำเช่นนั้น หากเอเจนต์หลายขั้นตอนของคุณขึ้นอยู่กับ Claude 4.5 ทั้งในการตัดสินใจว่าจะทำอะไรและจดจำสิ่งที่ตัดสินใจ นั่นคือโหมดความล้มเหลวที่เป็นอิสระสองโหมด รูปแบบพรอมต์—หากทำอย่างถูกต้อง—จะเปลี่ยนเอเจนต์ให้เป็นเครื่องสถานะที่เข้มงวดโดยมีเสมียนสมองนิ่มอยู่ข้างใน เสมียน (Claude) เขียนใบเสร็จ เครื่องสถานะตรวจสอบคณิตศาสตร์ นั่นคือรูปร่างของความน่าเชื่อถือ
และเนื่องจากคุณขอรูปแบบ 25 รูปแบบ เราจะทำ 25 รูปแบบ แต่เราจะทำในวิธีเดียวที่สามารถใช้งานได้จริง: กระชับ รัดกุม วัดผลได้ ไม่มีเนื้อหาที่ไม่เป็นสาระที่ว่า "มาจินตนาการกัน" เมื่อฉันพูดถึงรูปแบบ ฉันจะแสดงให้เห็นว่ามันเข้ากับเอเจนต์หลายขั้นตอนได้อย่างไร และเหตุใดมันจึงทำงานได้ดีกับจุดแข็งของ Claude 4.5: การใช้เครื่องมือ การปฏิบัติตามคำแนะนำที่เข้มงวดเมื่อคุณขจัดความคลุมเครือ และพฤติกรรมการปฏิเสธที่คุณสามารถพึ่งพาได้ ไม่ใช่ต่อสู้
1) สัญญาระบบมาก่อน ทุกสิ่งทุกอย่างตามมา
วัตถุประสงค์: ตรึงกฎของจักรวาลก่อนที่การสนทนาจะเริ่มต้น
รูปแบบ: ข้อความระบบระดับบนสุดที่ระบุบทบาท เป้าหมายที่ไม่ใช่ JSON เท่านั้น ข้อกำหนดเอาต์พุต การจัดการข้อผิดพลาด และเกณฑ์การยกระดับ ทำซ้ำ schema JSON ในข้อความระบบ ไม่ใช่แค่ tool schema
เหตุผลที่ได้ผล: Claude 4.5 เชื่อฟังข้อจำกัดที่ชัดเจน สัญญาระบบที่แท้จริงจะจำกัดการกระจายของพฤติกรรมที่เป็นไปได้
ตัวอย่าง:
- คุณคือผู้ควบคุม คุณต้องส่งออก JSON ที่ตรงกับ schema นี้เท่านั้น คุณต้องไม่สร้างฟิลด์ขึ้นเอง หากข้อมูลหายไป ให้ตอบกลับด้วย {"status":"need_info","fields":[...]}
2) แหล่งข้อมูลเดียวที่เป็นจริงสำหรับสถานะ
วัตถุประสงค์: เก็บความทรงจำไว้ภายนอก Claude บรรยาย ไม่ได้จดจำ
รูปแบบ: เอเจนต์ไม่เคย "จดจำ" ขั้นตอนก่อนหน้าในบริบทที่ซ่อนอยู่ มันจะสร้างสถานะใหม่จากที่เก็บ scratchpad ที่เป็นทางการในแต่ละครั้ง และส่งกลับไปในข้อความระบบ
เหตุผลที่ได้ผล: ป้องกันการเปลี่ยนแปลงที่ละเอียดอ่อนและ "context rot"
3) Chain-of-Thought ที่ไม่มี Chain (Rationale Tags)
วัตถุประสงค์: ได้รับความสามารถในการตรวจสอบโดยไม่เชิญชวนให้วกวน
รูปแบบ: ขอเหตุผลสั้นๆ ในฟิลด์ที่จำกัด เช่น rationale: หนึ่งประโยค ไม่เปิดเผยต่อเครื่องมือ
เหตุผลที่ได้ผล: Claude 4.5 ให้ผลลัพธ์ที่ดีกว่าหากคุณอนุญาตให้มีการให้เหตุผลขั้นต่ำ แต่คุณจำกัดความสามารถในการพูดพล่ามเพื่อลดการใส่ใจในรายละเอียดที่ไม่เป็นสาระ
4) Strict Function Gating
วัตถุประสงค์: อย่าปล่อยให้โมเดลด้นสดเครื่องมือ
รูปแบบ: ระบุชื่อเครื่องมือ, arguments schema และกฎ: หากไม่มีเครื่องมืออยู่ในรายการ ให้ตอบกลับด้วย cannot_execute
เหตุผลที่ได้ผล: ลบความสามารถที่สร้างภาพหลอนทั้งคลาส
5) Deterministic Step Planner
วัตถุประสงค์: แยก "สิ่งที่ต้องทำ" ออกจาก "การทำ"
รูปแบบ: planning schema ที่มีประเภทขั้นตอนที่อนุญาต: retrieve, transform, call_api, validate, finalize โมเดลส่งออกแผน รันไทม์ดำเนินการ โมเดลตรวจสอบผลลัพธ์
เหตุผลที่ได้ผล: Claude 4.5 ทำได้ดีเยี่ยมในการแจกแจงขั้นตอนเมื่อมีการประกาศคำกริยาไว้ล่วงหน้าและมีจำนวนจำกัด
6) Tool-First Retrieval Pattern
วัตถุประสงค์: กำจัดความรู้ที่สร้างภาพหลอนที่ต้นตอ
รูปแบบ: สำหรับการสืบค้นข้อเท็จจริง กำหนดให้มีขั้นตอนการดึงข้อมูลเริ่มต้น หากการดึงข้อมูลคืนค่าความเชื่อมั่นต่ำ ให้ตอบกลับด้วย need_info
เหตุผลที่ได้ผล: เอเจนต์ที่เชื่อถือได้จะไม่บลัฟ "การคาดเดาที่ดีที่สุด" ของ Claude ไม่ใช่แหล่งที่มา
7) Two-Pass Answering (Draft, Verify)
วัตถุประสงค์: ลดข้อผิดพลาดที่เงียบ
รูปแบบ: Pass 1: Draft พร้อมการอ้างอิงหรือเอาต์พุตเครื่องมือ Pass 2: ขั้นตอนการตรวจสอบเปรียบเทียบข้อเรียกร้องกับแหล่งที่มา ความไม่ตรงกันบังคับให้มีการแก้ไข
เหตุผลที่ได้ผล: การวิพากษ์วิจารณ์ตนเองของ Claude 4.5 นั้นแข็งแกร่งหากคุณขอการตรวจสอบไบนารีกับอินพุต
8) Schema-Only Output for Side-Effects
วัตถุประสงค์: แยกการกระทำและความคิดเห็นออกจากกัน
รูปแบบ: เมื่อขั้นตอนต้องมีการเปลี่ยนแปลง (เช่น book_flight) โมเดลจะต้องส่งออกเฉพาะ JSON การกระทำเท่านั้น ไม่มีข้อความอิสระ
เหตุผลที่ได้ผล: ป้องกันการดำเนินการโดยไม่ได้ตั้งใจตามวลีที่คุยโว
9) Idempotent Tool Calls
วัตถุประสงค์: การลองใหม่ที่ปลอดภัย
รูปแบบ: กำหนดให้มี idempotency key ในทุกการเรียกเครื่องมือ Claude ต้องสะท้อน key ก่อนหน้าหากทำซ้ำ
เหตุผลที่ได้ผล: การลองใหม่หยุดน่ากลัว
10) Guardrail Prompts for Refusal
วัตถุประสงค์: พึ่งพารูปแบบความปลอดภัยของ Claude
รูปแบบ: แจกแจงงานที่ไม่ได้รับอนุญาตและขอให้ Claude อธิบายสั้นๆ ว่าเหตุใดจึงปฏิเสธ (ในฟิลด์ refusal_reason)
เหตุผลที่ได้ผล: ทำให้การปฏิเสธคาดการณ์ได้และแยกวิเคราะห์ได้
11) Low-Entropy Instructions for Math and Code
วัตถุประสงค์: บังคับให้ใช้ตามตัวอักษร
รูปแบบ: "อย่าอธิบาย คืนค่าเฉพาะผลลัพธ์และการอนุมานขั้นต่ำ หากไม่แน่ใจ ให้คืนค่า cannot_compute"
เหตุผลที่ได้ผล: Claude 4.5 เคารพข้อจำกัดทางคณิตศาสตร์/รหัสตามตัวอักษรเมื่อคุณลบช่องว่างสำหรับการดิ้น
12) Cursor-Window Summarization for Long Contexts
วัตถุประสงค์: หยุด token bloat
รูปแบบ: สรุปเอกสารขนาดใหญ่ล่วงหน้าด้วย template ที่เสถียร (ส่วน หัวข้อย่อย เอนทิตีที่มี key) ป้อนเฉพาะมุมมองที่ย่อยแล้วลงใน Claude
เหตุผลที่ได้ผล: ดีกว่าการหวังว่าโมเดลจะละเลย 120 หน้า
13) Semantic Diffing Over Full Regeneration
วัตถุประสงค์: หลีกเลี่ยงการเขียนใหม่แบบ cascading
รูปแบบ: สำหรับงานแก้ไข กำหนดให้มี JSON patch หรือ unified diff กับ artifact ก่อนหน้า
เหตุผลที่ได้ผล: พื้นที่ผิวน้อยกว่า ข้อผิดพลาดใหม่น้อยกว่า
14) Grounded Style Guides
วัตถุประสงค์: เอาต์พุตที่สอดคล้องกันที่มนุษย์สามารถอ่านได้
รูปแบบ: จัดเตรียม style guide ที่สั้นและเป็นรูปธรรม (น้ำเสียง ผู้ชม วลีต้องห้าม) และย่อหน้าที่ทดสอบที่แสดงให้เห็น
เหตุผลที่ได้ผล: Claude 4.5 เลียนแบบตัวอย่างได้ดีกว่าการเชื่อฟังคำคุณศัพท์
15) Error Taxonomy and Recovery
วัตถุประสงค์: ทำให้ข้อผิดพลาดน่าเบื่อ
รูปแบบ: กำหนดประเภทข้อผิดพลาด: missing_field, tool_timeout, auth_error, schema_mismatch กำหนดสูตรการกู้คืนสำหรับแต่ละรายการ
เหตุผลที่ได้ผล: เปลี่ยนความล้มเหลวแบบสุ่มให้เป็นรายการตรวจสอบ
16) Cross-Tool Sanity Checks
วัตถุประสงค์: เชื่อใจ แต่ตรวจสอบ
รูปแบบ: หลังจากการเรียกเครื่องมือที่สำคัญ ให้เรียกใช้เครื่องมือที่สองที่ตรวจสอบความถูกต้องของเอาต์พุต (เช่น ไวยากรณ์ที่อยู่อีเมล ขอบเขตราคา)
เหตุผลที่ได้ผล: เอเจนต์หลายขั้นตอนล้มเหลวอย่างเงียบๆ หากไม่มีการตรวจสอบความถูกต้อง
17) Evidence-Tagged Claims
วัตถุประสงค์: ตรวจสอบย้อนกลับได้
รูปแบบ: โมเดลต้องใส่คำอธิบายประกอบแต่ละข้อเรียกร้องด้วย source_ids ที่แมปกับ snippet ที่ดึงมา ไม่มีแหล่งที่มา ไม่มีข้อเรียกร้อง
เหตุผลที่ได้ผล: การตรวจสอบกลายเป็นเชิงกลไกแทนที่จะเป็นเชิงศาสนศาสตร์
18) Ask-Confirm-Act for Risky Operations
วัตถุประสงค์: อย่าทำลายบัญชีของผู้ใช้
รูปแบบ: โมเดลสร้างสรุปการยืนยันที่มนุษย์สามารถอ่านได้ พร้อมด้วย payload การกระทำ ระบบบล็อกการดำเนินการจนกว่ามนุษย์จะอนุมัติ
เหตุผลที่ได้ผล: Claude 4.5 เก่งในการสรุป มนุษย์เก่งในการตำหนิ
19) Pessimistic Defaults
วัตถุประสงค์: Fail safe ไม่ใช่ fail fast
รูปแบบ: หากความเชื่อมั่น < เกณฑ์หรืออินพุตไม่สมบูรณ์ ให้คืนค่า need_info พร้อมคำถามที่ชัดเจน
เหตุผลที่ได้ผล: ป้องกันเส้นทางความสำเร็จที่เปราะบาง
20) Unit Tests in the Prompt (Few-Shot, Minimal)
วัตถุประสงค์: Show, don’t tell
รูปแบบ: รวมตัวอย่างขนาดเล็กที่หลากหลาย 2–3 ตัวอย่างที่แมปอินพุตกับเอาต์พุตที่แน่นอน ทำให้สั้น อย่าทำให้โมเดลจม
เหตุผลที่ได้ผล: Claude 4.5 สร้างทั่วไปจากตัวอย่าง few-shot ที่คมชัด
21) Role Compression: One Brain, Many Hats
วัตถุประสงค์: ลดการเปลี่ยนแปลงข้ามข้อความ
รูปแบบ: ในข้อความระบบเดียว กำหนดบทบาทรอง (planner, executor, verifier) และกำหนดให้โมเดลเติมฟิลด์เฉพาะต่อบทบาทในการตอบสนองเดียว
เหตุผลที่ได้ผล: จำนวนรอบน้อยลง การสูญเสียสถานะน้อยลง
22) Temperature Discipline
วัตถุประสงค์: คาดการณ์ได้มากกว่า "ความคิดสร้างสรรค์"
รูปแบบ: เรียกใช้การวางแผนและการใช้เครื่องมือที่อุณหภูมิต่ำ ข้อความพื้นผิวสุดท้ายเท่านั้น (ถ้ามี) ที่อุณหภูมิปานกลาง
เหตุผลที่ได้ผล: ทำให้โครงสร้างมีเสถียรภาพในขณะที่ปล่อยให้ร้อยแก้วหายใจ
23) Deterministic Time and Locale
วัตถุประสงค์: กำจัดความคลุมเครือตามเวลา
รูปแบบ: ฉีดนาฬิกา เขตเวลา สกุลเงิน และ locale ลงในบริบทของระบบเสมอ กำหนดให้โมเดลสะท้อนสิ่งเหล่านี้ในเอาต์พุต
เหตุผลที่ได้ผล: "พรุ่งนี้" หมายถึงบางสิ่ง ทำให้ชัดเจน
24) Forced Enumeration for Ambiguous Requests
วัตถุประสงค์: อย่าเดาว่าผู้ใช้หมายถึงอะไร
รูปแบบ: หากงานมีการตีความที่เป็นไปได้หลายแบบ โมเดลต้องนำเสนอตัวเลือกพร้อมข้อดี/ข้อเสีย และขอให้ผู้ใช้เลือก
เหตุผลที่ได้ผล: ความคลุมเครือคือที่ที่ความน่าเชื่อถือตาย จงแจกแจงมัน
25) Final Arbiter: Schema Validator’s Veto
วัตถุประสงค์: ตรวจสอบความเป็นจริงก่อนจัดส่ง
รูปแบบ: ปฏิบัติต่อความล้มเหลวในการตรวจสอบ schema เหมือนเป็นอันดับแรก หากเอาต์พุตของโมเดลไม่ผ่านการตรวจสอบ ให้ป้อนข้อผิดพลาดกลับด้วยคำแนะนำเดียว: แก้ไขเพื่อให้ผ่านการตรวจสอบ ไม่มีการเพิ่มเนื้อหาใหม่
เหตุผลที่ได้ผล: Claude 4.5 ทำได้ดีในการแก้ไขตามข้อกำหนดเมื่อคุณแสดงความแตกต่างที่แน่นอนระหว่างที่คาดหวังและที่เกิดขึ้นจริง
การสร้างเอเจนต์หลายขั้นตอนที่เชื่อถือได้ด้วย Claude 4.5 (โดยไม่มีผงนางฟ้า)
นำรูปแบบพรอมต์ Claude 4.5 เหล่านี้มารวมกัน แล้วคุณจะได้ระบบที่ให้ความรู้สึกเหมือน "AI" น้อยกว่าและเหมือนห้องครัวที่ดำเนินงานได้ดีมากกว่า บัตรเข้า พนักงานทำอาหารบนเตาย่าง ผู้ส่งอาหารที่ช่องส่ง ความมหัศจรรย์ไม่ได้อยู่ที่ขั้นตอนใดขั้นตอนหนึ่งฉลาด แต่ไม่มีขั้นตอนใดคลุมเครือ การเรียกเครื่องมือถูกผูกไว้กับ schema แผนมีการแจกแจง มีการแท็กหลักฐาน การปฏิเสธมีความคมชัด เมื่อมีบางอย่างผิดพลาด เอเจนต์จะไม่แต่งเรื่องขึ้นมา แต่จะขอเกลือ
แผนภาพการเดินสายที่ใช้งานได้จริง:
- สัญญาระบบประกาศบทบาทและ schema
- รอบแรก: ผู้วางแผนแจกแจงขั้นตอนโดยใช้ชุดคำกริยาที่ปิด
- รันไทม์ดำเนินการเรียกเครื่องมืออย่าง idempotent ผลข้างเคียงทั้งหมดถูกควบคุมโดยการยืนยัน
- บทบาทผู้ตรวจสอบตรวจสอบเอาต์พุตเทียบกับแหล่งที่มาและ schema
- เมื่อเกิดความล้มเหลวหรือไม่แน่นอน เอเจนต์จะออก need_info พร้อมคำถามที่ชัดเจนและมีหมายเลข
และใช่ คุณยังคงพบมุมแปลกๆ ข้อจำกัดของ token วัสดุต้นฉบับที่ขรุขระ API ที่ไม่แน่นอน นั่นคือสิ่งที่รูปแบบเช่น cursor-window summarization (12) และ error taxonomies (15) มีไว้เพื่อ ความน่าเชื่อถือไม่ได้เกี่ยวกับการไม่เคยล้มเหลว มันเกี่ยวกับการล้มเหลวในลักษณะเดียวกันทุกครั้ง และการกู้คืนราวกับว่าคุณตั้งใจที่จะทำเช่นนั้น
รูปแบบพรอมต์ Claude 4.5 สำหรับงานที่เพิ่มประสิทธิภาพการดึงข้อมูล
มาเจาะจงกัน เพราะ "RAG" คือที่ที่ระบบที่ดีให้สัญญามากเกินไป
- Pre-commit to retrieval (6) ก่อนการยืนยันข้อเท็จจริงใดๆ
- Evidence-tag ทุกข้อเรียกร้อง (17) หากข้อเรียกร้องครอบคลุม snippet หลายรายการ ให้แสดงรายการทั้งหมด
- ใช้ two-pass answering (7) เพื่อให้ผู้ตรวจสอบสามารถยับยั้งข้อเรียกร้องใดๆ ที่ไม่มีแหล่งที่มาได้
- สรุปแหล่งที่มาด้วย template ที่แก้ไขแล้ว (12) เพื่อให้โมเดลหยุดอ่าน PDF ทั้งหมดอีกครั้ง
Claude 4.5 เก่งในการสังเคราะห์ snippet ที่แตกต่างกัน เมื่อคุณบังคับให้มันอ้างอิง ทันทีที่คุณผ่อนปรนการอ้างอิง มันจะ "ปรับให้เรียบ" ข้อเท็จจริงที่ขัดแย้งกันให้เป็นสิ่งที่น่าเชื่อถือ น่าเชื่อถือไม่ได้หมายถึงเชื่อถือได้
รูปแบบพรอมต์สำหรับการใช้เครื่องมือและการเรียกใช้ฟังก์ชัน
เครื่องมือคือที่ที่โมเดลทำลายกำแพงที่สี่ ทำให้มันน่าเบื่อ
- Gate tools (4) อย่าล่อลวงด้วยคำกริยาต้องห้าม
- Idempotency key (9) ในเครื่องมือ transactional ใดๆ
- แยก action JSON (8) ออกจากการบรรยาย จัดส่ง JSON แสดงการบรรยายให้มนุษย์
- Cross-tool sanity checks (16) หลังจากการกระทำใดๆ ที่เกี่ยวข้องกับเงิน ความเป็นส่วนตัว หรือการจัดกำหนดการ
Claude 4.5 จัดการการเรียกใช้ฟังก์ชันได้อย่างหมดจดเมื่อ schema เข้มงวด หาก arguments ของคุณเป็นอาร์เรย์ที่หลวมของ "สิ่งต่างๆ" เตรียมตัวให้พร้อมสำหรับ "สิ่งต่างๆ"
“แต่เราบอกให้มันคิดทีละขั้นตอนไม่ได้เหรอ”
คุณทำได้ มันจะทำ และจากนั้นมันก็จะเดินเตร่ เคล็ดลับไม่ใช่การคิดทีละขั้นตอน แต่เป็นการอนุญาตทีละขั้นตอน ขั้นตอนมีความหมายก็ต่อเมื่อรันไทม์บังคับใช้เท่านั้น นั่นคือเหตุผลที่ deterministic planners (5) และ role compression (21) ชนะ chain-of-thought ที่หลวมทุกครั้ง คิดให้น้อยลงว่า "ปล่อยให้มันคิดเหมือนคน" คิดให้มากขึ้นว่า "ทำให้มันประพฤติตัวเหมือนคอมไพเลอร์"
ส่วน SEO ที่คุณมาเพื่อ โดยไม่มีเนื้อหาที่ไม่เป็นสาระ
หากคุณต้องการให้มีการพูดคำหลักออกมาดังๆ: รูปแบบพรอมต์ Claude 4.5, เอเจนต์หลายขั้นตอน, เวิร์กโฟลว์เอเจนต์ที่เชื่อถือได้, พรอมต์การใช้เครื่องมือ, RAG กับ Claude, พรอมต์การเรียกใช้ฟังก์ชัน สาระสำคัญเหมือนกัน: คุณต้องการรูปแบบที่ทดสอบได้ รูปแบบที่คุณสามารถห่อ unit test ไว้รอบๆ รูปแบบที่ทำให้ทีมปฏิบัติการของคุณหาว
ที่ที่ Sider.AI ช่วยได้จริง และที่ที่ไม่ได้ช่วย
หมายเหตุข้างเคียงที่ไม่ใช่หมายเหตุข้างเคียงจริงๆ: Sider.AI ใช้งานได้จริง อย่างน้อยเมื่อคุณใช้มันสำหรับสิ่งที่มันทำได้ดี ซึ่งน่าแปลกที่มันไม่ค่อยเหมือนสิ่งที่การตลาดบอก การใช้งานที่ดีที่สุดคือวิศวกรรมที่น่าเบื่อ: ไลบรารีพรอมต์ที่แชร์พร้อม schema ที่บังคับใช้ การเดินสายเครื่องมือที่ guardrail การวนซ้ำอย่างรวดเร็วด้วยการตรวจสอบความถูกต้องในวงจร หากคุณกำลังพยายามจัดส่งเอเจนต์ที่จองสิ่งต่างๆ ได้อย่างน่าเชื่อถือ ปรับปรุงข้อมูล หรือร่างด้วยแหล่งที่มา และคุณต้องการให้ทีมใช้รูปแบบเดียวกันซ้ำโดยไม่ต้องเล่นโทรศัพท์ รุ่นพื้นที่ทำงานของ Sider คือการเคลื่อนไหวที่เติบโตแล้ว หากคุณกำลังมองหาจินตนาการ "เขียนครั้งเดียว นักบินอัตโนมัติตลอดไป" คุณจะต้องผิดหวัง แต่นั่นไม่ใช่ความผิดของ Sider นั่นคือแรงโน้มถ่วง ข้อผิดพลาดทั่วไปที่ทำลายรูปแบบพรอมต์ Claude 4.5 ที่ดี
- บริบทที่ยัดเยียดมากเกินไป หากคุณต้องการ 60k token เพื่อบอกโมเดลว่าจะทำอะไร แสดงว่าคุณไม่รู้ว่าต้องการอะไร
- การผสมผสานการบรรยายและการกระทำ มนุษย์อ่านร้อยแก้ว ระบบอ่าน JSON อย่าทำให้พวกเขาเดา
- แกล้งทำเป็นว่าการปฏิเสธเป็นข้อบกพร่อง Claude 4.5 ปฏิเสธด้วยเหตุผล จงชี้นำมัน
- เวลาและ locale ที่คลุมเครือ "ภายในวันศุกร์" คือข้อผิดพลาดทางคณิตศาสตร์ปฏิทินที่รอการเกิดขึ้น
- เส้นทางการกู้คืนที่ไม่ได้ทดสอบ "เส้นทางที่มีความสุข" ของคุณไม่น่าเชื่อถือ "เส้นทางที่น่าเศร้า" ของคุณต่างหาก
mini-template ที่ใช้งานได้จริงเพื่อขโมย
ระบบ:
- คุณคือผู้ควบคุมสำหรับเอเจนต์หลายขั้นตอน step_types ที่อนุญาต: ["retrieve","transform","call_api","validate","finalize"]
- เอาต์พุตทั้งหมดต้องเป็น JSON ที่ถูกต้องซึ่งตรงกับ schema ด้านล่าง
- หากไม่แน่ใจ ให้คืนค่า {"status":"need_info","questions":[...]}
- เครื่องมือที่พร้อมใช้งาน: [รายการ] คุณต้องไม่สร้างเครื่องมือ
- Locale: en-US เขตเวลา: America/New_York สกุลเงิน: USD
Schema:
{
"status": "plan|act|validate|final|need_info|cannot_execute|cannot_compute",
"rationale": "string <= 180 chars",
"steps": [ {"step_type":"retrieve|transform|call_api|validate|finalize","args":{}} ],
"action": {"tool":"string","idempotency_key":"string","args":{}},
"evidence": [ {"source_id":"string","snippet":"string"} ],
"claims": [ {"text":"string","source_ids":["..."]} ],
"errors": [ {"type":"missing_field|tool_timeout|auth_error|schema_mismatch","detail":"string"} ],
"questions": ["..."]
}
User turn → planner (อุณหภูมิต่ำ) → รันไทม์ดำเนินการเครื่องมือ (idempotent) → ผู้ตรวจสอบเปรียบเทียบข้อเรียกร้องกับหลักฐาน → สิ้นสุด
ข้อสรุปที่เงียบซึ่งไม่มีใครทำการตลาด: ความน่าเชื่อถือคือการลบ
เอเจนต์หลายขั้นตอนที่เชื่อถือได้ไม่ได้เกิดจากพรอมต์ที่ชาญฉลาด พวกมันถูกสร้างขึ้นโดยการลบวิธีที่จะล้มเหลว ทุกรูปแบบข้างต้นคือการลบ: คำกริยาน้อยลง การตีความน้อยลง สถานที่ซ่อนน้อยลง Claude 4.5 เก่งมากในโถงทางเดินแคบๆ ที่มีแสงสว่างจ้าและประตูที่มีหมายเลข ใส่ไว้ในทุ่งในเวลากลางคืนและขอให้มันหากุญแจของคุณ แล้วคุณจะได้บทกวี
หากคุณต้องการบทกวี ยอดเยี่ยม หากคุณต้องการเอเจนต์ที่เชื่อถือได้ ให้เลือกโถงทางเดินของคุณ แขวนไฟ ติดป้ายประตู จากนั้นทำใจให้สบายกับส่วนที่น่าเบื่อ นั่นคือที่ที่งานสำเร็จ
คำถามที่พบบ่อย
Q1: รูปแบบพรอมต์ Claude 4.5 คืออะไร และเหตุใดจึงมีความสำคัญสำหรับเอเจนต์หลายขั้นตอน
พวกมันคือ template คำแนะนำที่ทำซ้ำได้ซึ่งจำกัด Claude 4.5 ให้ประพฤติตัวอย่างคาดการณ์ได้ในแต่ละขั้นตอน ในเอเจนต์หลายขั้นตอน รูปแบบพรอมต์จะลดความคลุมเครือ บังคับใช้ schema และเปลี่ยนงานที่ไม่แน่นอนให้เป็นเวิร์กโฟลว์ที่ทดสอบได้
Q2: ฉันจะหยุด Claude 4.5 ไม่ให้สร้างภาพหลอนเครื่องมือหรือข้อเท็จจริงได้อย่างไร
Gate tools ด้วย schema ที่ชัดเจนและบังคับให้ดึงข้อมูลก่อนข้อเรียกร้องข้อเท็จจริงใดๆ จับคู่กับข้อเรียกร้องที่แท็กหลักฐานและขั้นตอนการตรวจสอบแบบสองรอบ ไม่มีแหล่งที่มา ไม่มีข้อความ
Q3: วิธีที่ดีที่สุดในการจัดโครงสร้างการเรียกใช้ฟังก์ชันด้วย Claude 4.5 คืออะไร
ใช้ strict function schema, idempotency key และเอาต์พุต JSON ที่เป็นการกระทำเท่านั้น แยกการวางแผนจากการดำเนินการและเรียกใช้การตรวจสอบความถูกต้องหลังจากการเรียกที่เปลี่ยนแปลงสถานะใดๆ
คำถามที่ 4: พรอมต์แบบ Chain-of-Thought ช่วยให้ Claude 4.5 มีความน่าเชื่อถือมากขึ้นสำหรับเอเจนต์หรือไม่
เฉพาะเมื่อมีการกำหนดขอบเขตเท่านั้น ฟิลด์เหตุผลสั้นๆ ช่วยได้ แต่การพูดคนเดียวที่ไม่จำกัดขอบเขตไม่ได้ช่วย ความน่าเชื่อถือมาจากการวางแผนขั้นตอนที่แน่นอนและการตรวจสอบ Schema ไม่ได้มาจากบทสนทนาภายในที่ยืดยาว
คำถามที่ 5: Sider.AI เหมาะสมกับส่วนไหนในการสร้างเอเจนต์แบบหลายขั้นตอนที่น่าเชื่อถือ
Sider.AI มีประโยชน์สำหรับการประมวลผลและนำรูปแบบพรอมต์ของ Claude 4.5 เหล่านี้กลับมาใช้ใหม่ เช่น Schema ที่แชร์ การเชื่อมต่อเครื่องมือ และการตรวจสอบใน Loop แม้ว่าจะไม่ได้ขจัดความคลุมเครือออกไปได้ทั้งหมด แต่มันจะช่วยให้คุณรักษาทางเดินให้สว่างได้