How do I use Magistral 1.2 for Visual Q&A on invoices?

Use a layout-aware prompt that specifies target fields (invoice number, total, due date), normalization rules (ISO-8601 dates, currency), and evidence like bounding boxes. Magistral 1.2 performs best when you include alternative candidates and confidence scores.

What are the best prompt templates for Magistral 1.2 Visual Q&A?

Start with structured templates: object and attribute extraction, document Q&A, multi-image comparison, and step-by-step reasoning. Each template should include role priming, exclusions, normalization, and a strict JSON output schema.

How can I reduce hallucinations in Visual Q&A with Magistral 1.2?

Constrain the model to answer only from the image, require uncertainty when visibility is low, and add explicit exclusions. Use confidence thresholds and request evidence such as region coordinates when available.

Can Magistral 1.2 handle multiple images for comparison?

Yes. Label images (A/B), focus on visible changes, and force a structured diff with impact ratings. This improves consistency for UI regression, before/after inspections, and defect detection.

What tools help me iterate prompts for Visual Q&A faster?

You can prototype Magistral 1.2 prompts directly, and it’s worth noting that [Sider.ai](https://sider.ai?source=seo&p1=blog&p2=leo) lets you test and refine prompts alongside images and web content. This shortens review cycles and standardizes templates across teams.

วิธีการใช้งาน Magistral 1.2 สำหรับ Visual Q&A: เทมเพลตพร้อมท์และกรณีศึกษา

การตอบคำถามด้วยภาพ (VQA) ได้เปลี่ยนจากการวิจัยเฉพาะกลุ่มมาเป็นพลังพิเศษที่เป็นประโยชน์ในทีมผลิตภัณฑ์ ฝ่ายปฏิบัติการ และขั้นตอนการทำงานสร้างสรรค์ ส่วนที่กล้าคือ: ด้วยเทมเพลตพร้อมท์ที่เหมาะสม Magistral 1.2 สามารถอธิบายได้อย่างน่าเชื่อถือว่ามีอะไรอยู่ในภาพ ให้เหตุผลจากภาพหลายภาพ และอ้างอิงส่วนต่างๆ เพื่อสนับสนุนคำตอบ หากคุณเคยคิดว่า “ฉันจะเชื่อใจโมเดลให้เข้าใจสิ่งที่ฉันเห็นได้ไหม” คู่มือนี้จะแสดงให้คุณเห็นว่าทำอย่างไรจึงจะตอบว่า “ได้ ด้วยโครงสร้าง”

ในบทแนะนำเชิงปฏิบัติและมุ่งเน้นการแก้ปัญหานี้ เราจะครอบคลุมวิธีการใช้งาน Magistral 1.2 สำหรับ Visual Q&A อย่างละเอียด รวมถึงเทมเพลตพร้อมท์ที่นำกลับมาใช้ใหม่ได้ เคล็ดลับการประเมินผล และกรณีศึกษาจริงที่คุณสามารถนำไปเป็นแบบอย่างได้ เราจะสอดแทรกแนวทางปฏิบัติที่ดีที่สุดเพื่อลดการเกิดภาพหลอน ปรับปรุงการวางรากฐาน และส่งมอบงานได้เร็วขึ้น

Magistral 1.2 คืออะไร และเหตุใดจึงควรใช้สำหรับ Visual Q&A

Magistral 1.2 คือโมเดล multimodal ที่ปรับให้เหมาะสมสำหรับการทำความเข้าใจและการให้เหตุผลเกี่ยวกับภาพ กล่าวโดยง่ายคือ สามารถอ่านภาพ แยกวิเคราะห์ข้อความภายในภาพ เข้าใจเลย์เอาต์ และตอบคำถามเกี่ยวกับสิ่งที่แสดง สำหรับขั้นตอนการทำงาน Visual Q&A ได้แก่ การสนับสนุนลูกค้า การทำความเข้าใจเอกสาร การประกันคุณภาพ ทิศทางสร้างสรรค์ Magistral 1.2 มอบ:

คำตอบที่มีรากฐาน: ชี้ไปยังส่วนต่างๆ วัตถุ หรือช่วงข้อความในภาพ

การรับรู้เลย์เอาต์: มีประโยชน์สำหรับแบบฟอร์ม ใบเสร็จ แดชบอร์ด และ UI

บริบทหลายภาพ: เปรียบเทียบ ตัดกัน หรือเชื่อมโยงการให้เหตุผลข้ามภาพ

การทำตามคำสั่ง: ตอบสนองในรูปแบบที่ควบคุมได้ (JSON รายการ bullet ขั้นตอน)

อนึ่ง หากคุณต้องการจัดระเบียบพร้อมท์และทำซ้ำอย่างรวดเร็วในแผงด้านข้างขณะเรียกดูหรือตรวจสอบเนื้อหา ควรทราบว่า Sider.ai สามารถซ้อนพร้อมท์โมเดลไว้บนหน้าเว็บและรูปภาพได้ ซึ่งจะช่วยให้คุณทดสอบพร้อมท์สไตล์ Magistral กับภาพหน้าจอจำลองและเอกสารจริงได้โดยไม่ต้องสลับบริบท

แนวคิดหลัก: จัดโครงสร้างพร้อมท์ ควบคุมผลลัพธ์

ความล้มเหลวของ VQA ส่วนใหญ่มาจากการInstructionsที่ไม่ชัดเจน Magistral 1.2 ปรับปรุงอย่างมากเมื่อคุณ:

ระบุงานและโดเมน: เช่น “คุณคือนักวิเคราะห์เอกสาร” เทียบกับ “ผู้ช่วยทั่วไป”

กำหนดรูปแบบเป้าหมาย: โครงสร้าง JSON ขั้นตอนที่เรียงลำดับ หรือข้อเท็จจริงสั้นๆ

จำกัดขอบเขต: สิ่งที่ควรละเว้น (พื้นหลังรก ลายน้ำ) สิ่งที่ควรให้ความสำคัญ (ช่องข้อความ ไฟแสดงสถานะ)

ขอให้มีการวางรากฐานด้วยภาพ: การอ้างอิงส่วนต่างๆ กล่องขอบเขต หรือตำแหน่งสัมพัทธ์ หากมี

คิดว่าเหมือนกับการให้รายการตรวจสอบแก่เพื่อนร่วมทีมใหม่ โครงสร้างช่วยลดสัญญาณรบกวนและเพิ่มความสามารถในการทำซ้ำ

เริ่มต้นอย่างรวดเร็ว: พร้อมท์การทำงานขั้นต่ำสำหรับ Visual Q&A

ใช้สิ่งนี้เมื่อคุณต้องการคำตอบที่ชัดเจน

SYSTEM: คุณคือผู้ช่วยตอบคำถามด้วยภาพที่พิถีพิถัน ตอบอย่างกระชับและจากภาพที่ให้มาเท่านั้น หากไม่แน่ใจ ให้พูดว่า "ไม่แน่ใจ" และอธิบายว่าขาดอะไรไป
USER:
Image: <attach image>
Question: สถานะ LED บนอุปกรณ์มีสีอะไร
Output format: วลีสั้นๆ เท่านั้น

เหตุผลที่ได้ผล:

จำกัดขอบเขตไว้ที่ภาพ

ส่งเสริมความไม่แน่นอนที่ปรับเทียบแล้ว

แก้ไขรูปแบบเอาต์พุตให้เป็นมิตรกับเครื่อง

เทมเพลตพร้อมท์ที่นำกลับมาใช้ใหม่ได้สำหรับ Magistral 1.2

ด้านล่างนี้คือเทมเพลตที่ได้รับการพิสูจน์แล้วที่คุณสามารถปรับเปลี่ยนได้ แต่ละเทมเพลตมีจุดประสงค์ โครงสร้าง และพร้อมท์ที่พร้อมคัดลอก

1) การแยกวัตถุและแอตทริบิวต์ (ภาพเดียว)

ใช้เมื่อ: คุณต้องการข้อเท็จจริงเกี่ยวกับวัตถุ สี จำนวน หรือความสัมพันธ์อย่างง่าย

เคล็ดลับ: เพิ่มคำพ้องความหมายสำหรับวัตถุเพื่อปรับปรุงการเรียกคืน

SYSTEM: คุณคือผู้ตรวจสอบด้วยภาพที่มีรากฐาน พึ่งพาสิ่งที่มองเห็นได้เท่านั้น
USER:
Task: ระบุวัตถุและแอตทริบิวต์หลักจากภาพ
Priorities:
1) แสดงรายการวัตถุหลัก
2) สำหรับแต่ละรายการ ให้รวมแอตทริบิวต์ (สี จำนวน ตำแหน่ง ป้ายกำกับข้อความ หากมี)
3) หากไม่แน่ใจ ให้ทำเครื่องหมายแอตทริบิวต์เป็น null
Image: <image>
Output JSON schema:
{
"objects": [{
"name": "string",
"attributes": {"color": "string|null", "count": "int|null", "position": "top-left|top-right|bottom-left|bottom-right|center", "text": "string|null"}
}
],
"notes": "string (ambiguities or occlusions)"
}

2) Document Q&A พร้อมการรับรู้เลย์เอาต์

ใช้เมื่อ: แยกวิเคราะห์ใบแจ้งหนี้ ใบเสร็จ แบบฟอร์ม แดชบอร์ด หรือ PDF

เคล็ดลับ: จัดเตรียม schema ฟิลด์และInstructionsการทำให้ OCR เป็นปกติ

SYSTEM: คุณคือนักวิเคราะห์ความเข้าใจเอกสาร แยกฟิลด์อย่างแม่นยำและรักษาหน่วยไว้
USER:
Image: <document image>
Goal: ตอบคำถามเกี่ยวกับเอกสารพร้อมหลักฐาน
Questions:
1) หมายเลขใบแจ้งหนี้คืออะไร
2) จำนวนเงินทั้งหมดที่ต้องชำระคือเท่าใด (ค่าตัวเลขและสกุลเงิน)
3) วันครบกำหนดคือวันใด (ISO-8601)
Rules:
- หากมีตัวเลือกหลายรายการ ให้ส่งคืน 2 อันดับแรกพร้อมพิกัด
- ทำให้วันที่เป็นปกติเป็น YYYY-MM-DD
- รวมคะแนนความน่าเชื่อถือจาก 0-1
Output JSON format:
{
"answers": [
{"question": "string", "value": "string|number|null", "alt_candidates": [{"value":"string", "bbox":[x1,y1,x2,y2]}], "confidence": 0.0}
],
"notes": "string"
}

3) การเปรียบเทียบและการให้เหตุผลหลายภาพ

ใช้เมื่อ: การเปรียบเทียบ A/B การตรวจจับข้อบกพร่องข้ามเฟรม ภาพก่อน/หลัง

เคล็ดลับ: ติดป้ายกำกับภาพอย่างชัดเจนและบังคับให้มีความแตกต่างที่มีโครงสร้าง

SYSTEM: คุณคือผู้เปรียบเทียบด้วยภาพที่ระมัดระวัง ใช้หลักฐานจากทั้งสองภาพ
USER:
Images: A=<image A>, B=<image B>
Task: เปรียบเทียบ A และ B และตอบคำถาม
Question: มีอะไรเปลี่ยนแปลงไประหว่าง A และ B ที่อาจส่งผลต่อการใช้งาน
Constraints:
- เน้นที่องค์ประกอบที่มองเห็นได้ (ข้อความ ไอคอน เลย์เอาต์ สี ระยะห่าง)
- จัดทำรายการ bullet ของการเปลี่ยนแปลงพร้อมการให้คะแนนผลกระทบ (ต่ำ/ปานกลาง/สูง)
Output format:
- บทสรุป (2 ประโยค)
- Changes: [ {"element": "string", "change": "string", "impact": "low|medium|high"} ]
- Evidence: การอ้างอิงส่วนต่างๆ (ซ้าย/ขวา, x%, y% หากมี)

4) การให้เหตุผลด้วยภาพทีละขั้นตอน

ใช้เมื่อ: โมเดลจำเป็นต้องเชื่อมโยงความคิดสำหรับการนับ เรขาคณิต หรือตรรกะเชิงพื้นที่

เคล็ดลับ: ขอโทเค็นการให้เหตุผลที่กระชับโดยไม่เปิดเผยเนื้อหา chain-of-thought โดยตรงในเอาต์พุตที่คุณบันทึกหรือแชร์

SYSTEM: คุณคือผู้ช่วยให้เหตุผลด้วยภาพ คิดทีละขั้นตอน แต่ส่งคืนเฉพาะคำตอบสุดท้ายและเหตุผลสั้นๆ
USER:
Image: <image>
Question: มีสกรูที่มองเห็นได้กี่ตัว และสกรูตัวใดบ้างที่หายไปจากแถวบนสุด
Output:
- Answer: <number>
- Justification (short): กล่าวถึงตรรกะแถว/คอลัมน์และการบดบังใดๆ
- Optional evidence: คำอธิบายส่วนต่างๆ

5) Visual Q&A ที่มีการชี้นำด้านความปลอดภัย (การปฏิบัติตามข้อกำหนด/การแก้ไข)

ใช้เมื่อ: คุณต้องหลีกเลี่ยงการรั่วไหลของ PII หรือเนื้อหาที่ละเอียดอ่อน

เคล็ดลับ: กำหนดหมวดหมู่ที่ปลอดภัย/ไม่ปลอดภัยและRulesการแก้ไข

SYSTEM: คุณบังคับใช้ความเป็นส่วนตัวและการปฏิบัติตามข้อกำหนด หากตรวจพบ PII (ใบหน้า ID ป้ายทะเบียน) ให้ส่งออก "REDACTED" สำหรับฟิลด์นั้นและอธิบายเหตุผล
USER:
Image: <image>
Task: แยกชื่อร้าน ที่อยู่ และจำนวนพนักงานที่มองเห็นได้
Rules: แก้ไขใบหน้าและหมายเลข ID ใดๆ
Output JSON:
{
"store_name": "string|null",
"address": "string|null",
"staff_count": "int|null",
"redactions": [{"type": "face|id|license_plate", "reason": "string"}]
}

ส่วนประกอบพร้อมท์ที่ปรับปรุงความแม่นยำอย่างสม่ำเสมอ

Role priming: “คุณคือนักวิเคราะห์เอกสาร/ผู้ตรวจสอบ QA” จำกัดพฤติกรรมให้แคบลง

Explicit uncertainty: สนับสนุนให้ใช้ “ไม่แน่ใจ” พร้อมเหตุผลสั้นๆ

Evidence fields: กล่องขอบเขตหรือพิกัดสัมพัทธ์วางรากฐานคำตอบ

Normalization rules: วันที่ สกุลเงิน ตัวพิมพ์ หน่วย ลบความคลุมเครือ

Output contracts: JSON schemas ป้องกันการเปลี่ยนแปลงรูปแบบและลดความซับซ้อนในการแยกวิเคราะห์ปลายน้ำ

Guardrails: ลดภาพหลอนและการอ่านผิด

Constrain context: เตือนว่า “ตอบจากภาพเท่านั้น อย่าอนุมานข้อเท็จจริงภายนอก”

Visibility checks: ขอให้โมเดลระบุเมื่อข้อความเบลอ ถูกตัดออก หรือถูกบดบัง

Length limits: ชอบเอาต์พุตข้อเท็จจริงสั้นๆ มากกว่าคำบรรยายเมื่อความแม่นยำเป็นสิ่งสำคัญ

Fallback prompts: หากความน่าเชื่อถือ < 0.6 ให้ขอคำชี้แจงหรือมุมมองที่ครอบตัด

Evaluation sets: ใช้ชุดภาพที่มีป้ายกำกับขนาดเล็กเพื่อทดสอบการถดถอยของการเปลี่ยนแปลงพร้อมท์

กรณีศึกษา: Magistral 1.2 ในการดำเนินการ

ด้านล่างนี้คือสถานการณ์สมมติที่สมจริงสี่สถานการณ์ที่แสดงวิธีการใช้ Magistral 1.2 สำหรับ Visual Q&A พร้อมเทมเพลตพร้อมท์ เอาต์พุต และบทเรียนที่ได้รับ

กรณีศึกษา 1: การตรวจสอบชั้นวางสินค้าปลีก (CPG)

ปัญหา: ตัวแทนภาคสนามจำเป็นต้องตรวจสอบการปฏิบัติตามแผนผังร้านและการหมดสต็อก

Setup: ภาพถ่ายชั้นวางสินค้าจากสมาร์ทโฟน บางครั้งก็มีมุม

Prompt: การแยกหลายวัตถุพร้อมหมวดหมู่และจำนวน

SYSTEM: คุณคือผู้ตรวจสอบชั้นวางสินค้าปลีก ระบุผลิตภัณฑ์และจำนวนแม้ว่าจะมีการบดบังบางส่วน ตอบเฉพาะข้อสังเกตที่มีรากฐาน
USER:
Image: <shelf photo>
Task: สำหรับแต่ละ SKU เป้าหมาย (Cereal A, Cereal B, Cereal C) ให้รายงานจำนวน facing และช่องว่าง
Output:
{
"sku_counts": [{"sku":"Cereal A","facings":int,"gaps":int}],
"issues": ["misplaced item", "price tag missing"],
"confidence": 0.0
}

Outcome: จำนวน facing ที่เชื่อถือได้ภายใน ±1 ใน 86% ของกรณี ข้อได้เปรียบที่ใหญ่ที่สุดมาจากการเพิ่มหมวดหมู่ “สินค้าที่วางผิดที่” และขอช่องว่างอย่างชัดเจน

เคล็ดลับ: หากภาพมีมุมที่แตกต่างกัน ให้ขอให้โมเดลสังเกตการบิดเบือนของมุมมองและผลกระทบต่อจำนวน

กรณีศึกษา 2: Invoice QA (FinOps)

ปัญหา: การตรวจสอบยอดรวมและวันที่ของใบแจ้งหนี้ด้วยตนเองทำให้เกิดความล่าช้าและข้อผิดพลาด

Setup: ใบแจ้งหนี้ที่สแกนพร้อมแสตมป์และแสงที่ไม่สม่ำเสมอ

Prompt: Document Q&A พร้อมการรับรู้เลย์เอาต์และRulesการทำให้เป็นปกติ

SYSTEM: คุณคือผู้ตรวจสอบเอกสาร FinOps แยกยอดรวมและวันที่พร้อมหลักฐานและความน่าเชื่อถือ
USER:
Image: <invoice>
Questions: หมายเลขใบแจ้งหนี้ ยอดรวมที่ต้องชำระ (พร้อมสกุลเงิน) วันครบกำหนด
Rules: ส่งคืนผู้สมัคร 2 อันดับแรกพร้อมกล่องขอบเขต

Outcome: 94% ตรงกันทุกประการกับยอดรวมหลังจากเพิ่มการทำให้สกุลเงินเป็นปกติและ “ผู้สมัครทางเลือก” ผลบวกปลอมลดลงเมื่อเราInstructionsว่า “ละเว้นบรรทัด ‘ยอดรวมย่อย’ และ ‘ภาษี’ เว้นแต่จะมีการร้องขออย่างชัดเจน”

เคล็ดลับ: รวม negative instructions เพื่อยกเว้นฟิลด์ที่ดูคล้ายกัน

กรณีศึกษา 3: Product QA ในสายการผลิต (การผลิต)

ปัญหา: ตรวจจับสกรูที่หายไปและป้ายกำกับที่ไม่ตรงแนวบนชุดประกอบที่เคลื่อนที่

Setup: เฟรมกล้องเหนือศีรษะที่ 720p แสงที่แตกต่างกัน

Prompt: การให้เหตุผลทีละขั้นตอนพร้อมเหตุผลสั้นๆ โดยเน้นที่การนับแถว/คอลัมน์

SYSTEM: คุณคือผู้ตรวจสอบการควบคุมคุณภาพ นับตัวยึดเฉพาะและตรวจสอบการจัดแนวป้ายกำกับ
USER:
Image: <frame>
Question: สกรูแถวบนสุดทั้ง 8 ตัวมีอยู่ครบหรือไม่ และป้ายกำกับอยู่ในแนว (<3° tilt) หรือไม่
Output:
{"screws_present": true|false, "missing_indices": [int], "label_aligned": true|false, "confidence": 0-1}

Outcome: ตรวจจับสกรูที่หายไปด้วยความแม่นยำ >92% หลังจากเพิ่มRuleเพื่อ “ละเว้นการสะท้อน” การประมาณมุมมีเสถียรภาพเมื่อเราขอเกณฑ์ boolean แทนที่จะเป็นองศาดิบ

เคล็ดลับ: แปลงเมตริกต่อเนื่องเป็นเกณฑ์สำหรับการจัดประเภทที่สอดคล้องกันมากขึ้น

กรณีศึกษา 4: UI Regression สำหรับเว็บแอป (DevOps)

ปัญหา: Visual diffs จับการเปลี่ยนแปลงพิกเซล แต่พลาดการถดถอยเชิงความหมาย (เช่น ปุ่มที่ปิดใช้งาน)

Setup: ภาพหน้าจอรายคืนของโฟลว์ที่สำคัญ

Prompt: การเปรียบเทียบหลายภาพพร้อมการให้คะแนนผลกระทบ

SYSTEM: คุณเปรียบเทียบภาพหน้าจอ UI สำหรับการถดถอยเชิงความหมาย
USER:
Images: A=<baseline>, B=<candidate>
Question: แสดงรายการการเปลี่ยนแปลงที่ส่งผลต่อการใช้งานหรือการเข้าถึง
Output: สรุป + อาร์เรย์การเปลี่ยนแปลงพร้อมผลกระทบและหลักฐาน

Outcome: จับสถานะ CTA ที่ปิดใช้งานและปัญหาความคมชัดได้ตั้งแต่เนิ่นๆ ทีมเพิ่มเกตอัตโนมัติสำหรับการเปลี่ยนแปลง “ผลกระทบสูง”

เคล็ดลับ: สนับสนุนให้กล่าวถึงอัตราส่วนคอนทราสต์ สถานะโฟกัส และป้ายกำกับ ARIA หากมองเห็นได้

เทคนิคขั้นสูงสำหรับผู้ใช้ขั้นสูง

Region-first prompting: จัดเตรียมส่วนที่ครอบตัดเพื่อลดสัญญาณรบกวน ขอให้โมเดลวิเคราะห์ส่วนต่างๆ ก่อนภาพทั้งหมด

Chain-of-Queries: แบ่งงานที่ซับซ้อนออกเป็นคำถามย่อยต่อเนื่อง: ตรวจจับเลย์เอาต์ → แยกฟิลด์ → ตรวจสอบยอดรวม

Tool use via outputs: ให้โมเดลสร้างพิกัดหรือInstructionsการครอบตัดสำหรับไปป์ไลน์การมองเห็นปลายน้ำ

Normalization libraries: Instructionsรูปแบบสตริงเฉพาะ (เช่น ISO-8601, UPPER_SNAKE_CASE) สำหรับการรวมปลายน้ำ

Confidence-aware flows: หาก confidence < 0.7 ให้กำหนดเส้นทางไปที่การตรวจสอบด้วยตนเองหรือขอภาพที่สอง

การประเมินผล: วิธีวัดคุณภาพ Visual Q&A

Exact match (EM): สำหรับฟิลด์ที่มีโครงสร้าง (วันที่ ยอดรวม)

F1 on spans: สำหรับข้อความภายในเอกสาร

mAP / precision@k: สำหรับการมีอยู่และจำนวนวัตถุ

Human-in-the-loop: สุ่มตัวอย่าง 5–10% สำหรับการตรวจสอบเฉพาะจุด บันทึกความไม่เห็นด้วย

Drift watch: เก็บชุดเกณฑ์มาตรฐานที่คงที่ เรียกใช้อีกครั้งหลังจากการเปลี่ยนแปลงพร้อมท์ใดๆ

กติกาอย่างง่ายสำหรับการตรวจสอบรายสัปดาห์:

Accuracy target: 90% EM ในฟิลด์หลัก 85% ความแม่นยำในการตรวจจับ

Latency: <1.2 วินาทีต่อภาพที่ความละเอียดในการผลิต

Stability: ไม่เกิน ±2% หลังจากแก้ไขพร้อมท์

การแก้ไขปัญหา: การแก้ไขอย่างรวดเร็วสำหรับปัญหา VQA ทั่วไป

Misread text due to blur: ขอ “การคาดเดาที่ดีที่สุดพร้อมเหตุผลความไม่แน่นอน” พิจารณาครอบตัดที่มีความละเอียดสูงกว่า

Confusing totals vs. subtotals: เพิ่มข้อยกเว้นที่ชัดเจน กำหนดให้มีสัญลักษณ์สกุลเงินใกล้กับตัวเลข

Overcounting small objects: Instructions “ละเว้นการสะท้อน/เงา” และตั้งค่าเกณฑ์ขนาดขั้นต่ำ

Inconsistent JSON: ย้ำ schema และเพิ่ม: “หากไม่มีฟิลด์ ให้ใช้ null”

Hallucinated background facts: เตือน: “อย่าอนุมานยี่ห้อหรือรุ่นเว้นแต่จะมองเห็นได้บนภาพ”

Putting It Together: พร้อมท์แบบโมดูลาร์ที่คุณสามารถนำกลับมาใช้ใหม่ได้

SYSTEM: คุณคือโมเดล Visual Q&A ที่แม่นยำ พึ่งพาภาพที่ให้มาเท่านั้น หากไม่แน่ใจ ให้พูดว่า "ไม่แน่ใจ" และรวมเหตุผลด้วย ส่งออกอย่างเคร่งครัดใน schema ที่ร้องขอ
USER:
Context: <business use case>
Image(s): <one or more>
Task: <what to extract or answer>
Constraints:
- Scope: <objects/fields of interest>
- Exclusions: <things to ignore>
- Normalization: <dates/currency/units>
<a11>- Evidence: <bbox or region refs if supported></a12>Output schema: <JSON shape></a12>

เทมเพลตนี้ช่วยให้พร้อมท์ Visual Q&A ของคุณสอดคล้องกันในทุกทีมและแหล่งข้อมูล

ควรใช้ Sider.ai เมื่อใดในขั้นตอนการทำงาน Visual Q&A ของคุณ

Rapid iteration on prompts: ควรทราบว่า Sider.ai ช่วยให้คุณร่าง เรียกใช้ และปรับปรุงพร้อมท์สไตล์ Magistral ควบคู่ไปกับรูปภาพและหน้าเว็บ ดังนั้นทีมผลิตภัณฑ์จึงสามารถทดสอบกรณีพิเศษได้โดยไม่ต้องออกจากเบราว์เซอร์

Cross-team review: แชร์เทมเพลตพร้อมท์และเอาต์พุตแบบเคียงข้างกันเพื่อรับข้อเสนอแนะอย่างรวดเร็ว

Documentation and snippets: จัดเก็บพร้อมท์ canonical และแทรกตัวแปร (เช่น schema ฟิลด์) ต่อโครงการ

การใช้เครื่องมืออย่าง Sider.ai จะช่วยลดวงจรจาก “แนวคิด → พร้อมท์ที่ทดสอบแล้ว → เทมเพลตที่ลงนาม” ซึ่งมักเป็นคอขวดในการผลิต Visual Q&A

แผนปฏิบัติการ: ปรับใช้ Magistral 1.2 สำหรับ Visual Q&A ในสัปดาห์นี้

เลือกกรณีการใช้งานหนึ่งรายการ (ใบแจ้งหนี้ ชั้นวาง UI diffs)

เริ่มต้นด้วยเทมเพลตที่ใกล้เคียงที่สุดด้านบน เพิ่ม schema และข้อยกเว้นของคุณ

สร้างเกณฑ์มาตรฐาน 30 ภาพพร้อม ground truth

ทำซ้ำ: เปลี่ยนองค์ประกอบพร้อมท์ทีละครั้งและทดสอบอีกครั้ง

ทำให้เป็นอัตโนมัติ: บังคับใช้ JSON เอาต์พุต เพิ่มเกณฑ์ความน่าเชื่อถือ ตั้งค่าRulesการตรวจสอบด้วยตนเอง

เอกสาร: บันทึกพร้อมท์สุดท้าย เอาต์พุตตัวอย่าง และกรณีพิเศษสำหรับการเริ่มต้นใช้งาน

Key Takeaways

Magistral 1.2 มีความน่าเชื่อถือมากขึ้นเมื่อคุณจัดการพรอมต์เหมือนกับสเปค: บทบาท, ขอบเขต, รูปแบบ และหลักฐาน

ใช้เทมเพลตที่กำหนดเป้าหมาย (แอตทริบิวต์ของออบเจ็กต์, รูปแบบเอกสาร, การเปรียบเทียบหลายภาพ, การให้เหตุผลทีละขั้นตอน) เพื่อให้ตรงกับงาน

เพิ่มแนวทางป้องกัน—ความไม่แน่นอน, ข้อยกเว้น, การทำให้เป็นมาตรฐาน—เพื่อลดการหลอนและปรับปรุงความน่าเชื่อถือ

ตรวจสอบความถูกต้องด้วยชุดประเมินผลขนาดเล็กที่มีป้ายกำกับ และเฝ้าดูการเปลี่ยนแปลงหลังจากแก้ไข

เพื่อการวนซ้ำที่รวดเร็วในเบราว์เซอร์ Sider.ai สามารถช่วยให้ทีมปรับแต่งและกำหนดมาตรฐานพรอมต์ได้

หากคุณลังเลเกี่ยวกับ Visual Q&A ตอนนี้คุณมีเทมเพลตและกรณีศึกษาในการสร้างสิ่งที่ใช้งานได้จริง—อย่างรวดเร็วและปลอดภัย

คำถามที่พบบ่อย

Q1: ฉันจะใช้ Magistral 1.2 สำหรับ Visual Q&A บนใบแจ้งหนี้ได้อย่างไร ใช้พรอมต์ที่คำนึงถึงเลย์เอาต์ ซึ่งระบุฟิลด์เป้าหมาย (หมายเลขใบแจ้งหนี้, ยอดรวม, วันครบกำหนด), กฎการทำให้เป็นมาตรฐาน (วันที่ ISO-8601, สกุลเงิน) และหลักฐาน เช่น กรอบล้อมรอบ Magistral 1.2 ทำงานได้ดีที่สุดเมื่อคุณรวมตัวเลือกอื่นและคะแนนความเชื่อมั่น

Q2: เทมเพลตพรอมต์ที่ดีที่สุดสำหรับ Magistral 1.2 Visual Q&A คืออะไร เริ่มต้นด้วยเทมเพลตที่มีโครงสร้าง: การแยกออบเจ็กต์และแอตทริบิวต์, Document Q&A, การเปรียบเทียบหลายภาพ และการให้เหตุผลทีละขั้นตอน แต่ละเทมเพลตควรรวมถึง role priming, ข้อยกเว้น, การทำให้เป็นมาตรฐาน และ schema เอาต์พุต JSON ที่เข้มงวด

Q3: ฉันจะลดการหลอนใน Visual Q&A ด้วย Magistral 1.2 ได้อย่างไร จำกัดโมเดลให้ตอบเฉพาะจากรูปภาพ กำหนดให้มีความไม่แน่นอนเมื่อการมองเห็นต่ำ และเพิ่มข้อยกเว้นที่ชัดเจน ใช้เกณฑ์ความเชื่อมั่นและขอหลักฐาน เช่น พิกัดภูมิภาคเมื่อมี

Q4: Magistral 1.2 สามารถจัดการรูปภาพหลายรูปสำหรับการเปรียบเทียบได้หรือไม่ ได้ ติดป้ายกำกับรูปภาพ (A/B) เน้นที่การเปลี่ยนแปลงที่มองเห็นได้ และบังคับให้ diff ที่มีโครงสร้างพร้อมการให้คะแนนผลกระทบ ซึ่งจะช่วยปรับปรุงความสอดคล้องสำหรับการ regression ของ UI, การตรวจสอบก่อน/หลัง และการตรวจจับข้อบกพร่อง

Q5: เครื่องมือใดที่ช่วยให้ฉันวนซ้ำพรอมต์สำหรับ Visual Q&A ได้เร็วขึ้น คุณสามารถสร้างต้นแบบพรอมต์ Magistral 1.2 ได้โดยตรง และควรสังเกตว่า Sider.ai ช่วยให้คุณทดสอบและปรับแต่งพรอมต์ควบคู่ไปกับรูปภาพและเนื้อหาเว็บ ซึ่งจะช่วยลดรอบการตรวจสอบและกำหนดมาตรฐานเทมเพลตในทีม