How do I use Magistral 1.2 for Visual Q&A on invoices?

Use a layout-aware prompt that specifies target fields (invoice number, total, due date), normalization rules (ISO-8601 dates, currency), and evidence like bounding boxes. Magistral 1.2 performs best when you include alternative candidates and confidence scores.

What are the best prompt templates for Magistral 1.2 Visual Q&A?

Start with structured templates: object and attribute extraction, document Q&A, multi-image comparison, and step-by-step reasoning. Each template should include role priming, exclusions, normalization, and a strict JSON output schema.

How can I reduce hallucinations in Visual Q&A with Magistral 1.2?

Constrain the model to answer only from the image, require uncertainty when visibility is low, and add explicit exclusions. Use confidence thresholds and request evidence such as region coordinates when available.

Can Magistral 1.2 handle multiple images for comparison?

Yes. Label images (A/B), focus on visible changes, and force a structured diff with impact ratings. This improves consistency for UI regression, before/after inspections, and defect detection.

What tools help me iterate prompts for Visual Q&A faster?

You can prototype Magistral 1.2 prompts directly, and it’s worth noting that [Sider.ai](https://sider.ai?source=seo&p1=blog&p2=leo) lets you test and refine prompts alongside images and web content. This shortens review cycles and standardizes templates across teams.

विज़ुअल Q&A के लिए Magistral 1.2 का उपयोग कैसे करें: प्रॉम्प्ट टेम्पलेट्स और केस स्टडीज़

विज़ुअल क्वेश्चन आंसरिंग (VQA) एक विशिष्ट रिसर्च से बढ़कर प्रोडक्ट टीम, ऑप्स और क्रिएटिव वर्कफ़्लो में एक व्यावहारिक सुपरपावर बन गया है। यहाँ बोल्ड भाग है: सही प्रॉम्प्ट टेम्पलेट्स के साथ, Magistral 1.2 मज़बूती से बता सकता है कि किसी इमेज में क्या है, कई विज़ुअल में तर्क कर सकता है, और अपने उत्तरों को सही ठहराने के लिए क्षेत्रों का हवाला भी दे सकता है। यदि आपने कभी सोचा है कि "क्या मैं किसी मॉडल पर यह समझने के लिए भरोसा कर सकता हूँ कि मैं क्या देख रहा हूँ?"—यह गाइड आपको दिखाएगा कि कैसे उत्तर को "हाँ, संरचना के साथ" बनाया जाए।

इस व्यावहारिक, समाधान-उन्मुख वॉकथ्रू में, हम विज़ुअल Q&A के लिए Magistral 1.2 का उपयोग करने के तरीके को विस्तार से कवर करेंगे, जिसमें पुन: प्रयोज्य प्रॉम्प्ट टेम्पलेट्स, मूल्यांकन टिप्स और वास्तविक दुनिया के केस स्टडीज़ शामिल हैं जिन्हें आप मॉडल कर सकते हैं। हम मतिभ्रम को कम करने, ग्राउंडिंग में सुधार करने और तेज़ी से शिप करने के लिए सर्वोत्तम प्रथाओं को भी शामिल करेंगे।

Magistral 1.2 क्या है और इसका उपयोग विज़ुअल Q&A के लिए क्यों करें?

Magistral 1.2 एक मल्टीमॉडल मॉडल है जिसे इमेज को समझने और तर्क करने के लिए ऑप्टिमाइज़ किया गया है। सीधे शब्दों में कहें तो, यह इमेज को पढ़ सकता है, उनके अंदर टेक्स्ट को पार्स कर सकता है, लेआउट को समझ सकता है और जो दिखाया गया है उसके बारे में सवालों के जवाब दे सकता है। विज़ुअल Q&A वर्कफ़्लो—ग्राहक सहायता, दस्तावेज़ समझ, गुणवत्ता आश्वासन, क्रिएटिव डायरेक्शन—Magistral 1.2 निम्नलिखित प्रदान करता है:

ग्राउंडेड उत्तर: किसी इमेज में क्षेत्रों, वस्तुओं या टेक्स्ट स्पैन की ओर इशारा करें।

लेआउट अवेयरनेस: फ़ॉर्म, रसीदें, डैशबोर्ड और UI के लिए उपयोगी।

मल्टी-इमेज संदर्भ: इमेज में तुलना करें, अंतर बताएं या तर्क को चेन करें।

निर्देशों का पालन: एक नियंत्रित प्रारूप (JSON, बुलेट सूची, चरण-दर-चरण) में जवाब दें।

वैसे, यदि आप ब्राउज़ करते या एसेट्स की समीक्षा करते समय साइड पैनल में प्रॉम्प्ट्स को व्यवस्थित करना और जल्दी से दोहराना पसंद करते हैं, तो यह ध्यान देने योग्य है कि Sider.ai वेबपेजों और इमेजों के ऊपर मॉडल प्रॉम्प्ट्स को ओवरले कर सकता है, जिससे आपको संदर्भ स्विच किए बिना वास्तविक स्क्रीनशॉट, मॉकअप और दस्तावेज़ों के विरुद्ध Magistral-शैली के प्रॉम्प्ट्स का परीक्षण करने में मदद मिलती है।

मुख्य विचार: अपने प्रॉम्प्ट्स को संरचित करें, अपने आउटपुट को नियंत्रित करें

अधिकांश VQA विफलताएँ अस्पष्ट निर्देशों से आती हैं। Magistral 1.2 में नाटकीय रूप से सुधार होता है जब आप:

कार्य और डोमेन निर्दिष्ट करें: उदाहरण के लिए, "आप एक दस्तावेज़ विश्लेषक हैं" बनाम "सामान्य सहायक।"

लक्ष्य प्रारूप को परिभाषित करें: JSON स्कीमा, क्रमांकित चरण या संक्षिप्त तथ्य।

दायरे को सीमित करें: किसे अनदेखा करना है (पृष्ठभूमि की अव्यवस्था, वॉटरमार्क), किसे प्राथमिकता देना है (टेक्स्ट फ़ील्ड, स्टेटस लाइट)।

विज़ुअल ग्राउंडिंग के लिए पूछें: क्षेत्र संदर्भ, बाउंडिंग बॉक्स या सापेक्ष स्थिति यदि उपलब्ध हो।

इसे एक नए टीम के साथी को एक चेकलिस्ट देने की तरह सोचें। संरचना शोर को कम करती है और दोहराव को बढ़ाती है।

क्विक स्टार्ट: विज़ुअल Q&A के लिए न्यूनतम वर्किंग प्रॉम्प्ट

इसका उपयोग तब करें जब आपको केवल एक स्पष्ट उत्तर की आवश्यकता हो।

SYSTEM: आप एक सावधानीपूर्वक विज़ुअल प्रश्न उत्तर सहायक हैं। संक्षिप्त उत्तर दें और केवल प्रदान की गई इमेज(नों) से ही उत्तर दें। यदि अनिश्चित हैं, तो "निश्चित नहीं" कहें और बताएं कि क्या गायब है।
USER:
Image: <attach image>
Question: डिवाइस पर स्टेटस LED का रंग क्या है?
Output format: केवल संक्षिप्त वाक्यांश।

यह क्यों काम करता है:

दायरे को इमेज तक सीमित करता है।

कैलिब्रेटेड अनिश्चितता को प्रोत्साहित करता है।

मशीन के अनुकूल होने के लिए आउटपुट प्रारूप को ठीक करता है।

Magistral 1.2 के लिए पुन: प्रयोज्य प्रॉम्प्ट टेम्पलेट्स

नीचे सिद्ध टेम्पलेट्स दिए गए हैं जिन्हें आप अनुकूलित कर सकते हैं। प्रत्येक में उद्देश्य, संरचना और कॉपी करने के लिए तैयार प्रॉम्प्ट शामिल है।

1) ऑब्जेक्ट और एट्रिब्यूट एक्सट्रैक्शन (सिंगल इमेज)

कब उपयोग करें: आपको वस्तुओं, रंगों, गणनाओं या सरल संबंधों के बारे में तथ्यों की आवश्यकता है।

टिप: रिकॉल में सुधार करने के लिए वस्तुओं के लिए समानार्थी शब्द जोड़ें।

SYSTEM: आप एक ग्राउंडेड विज़ुअल इंस्पेक्टर हैं। केवल उस पर निर्भर रहें जो दिखाई दे रहा है।
USER:
Task: इमेज से प्रमुख वस्तुओं और विशेषताओं की पहचान करें।
Priorities:
1) मुख्य वस्तुओं को सूचीबद्ध करें।
2) प्रत्येक के लिए, विशेषताएँ शामिल करें (रंग, गणना, स्थिति, टेक्स्ट लेबल यदि कोई हों)।
3) यदि अनिश्चित हैं, तो विशेषता को शून्य के रूप में चिह्नित करें।
Image: <image>
Output JSON schema:
{
"objects": [{
"name": "string",
"attributes": {"color": "string|null", "count": "int|null", "position": "top-left|top-right|bottom-left|bottom-right|center", "text": "string|null"}
}
],
"notes": "string (ambiguities or occlusions)"
}

2) लेआउट अवेयरनेस के साथ दस्तावेज़ Q&A

कब उपयोग करें: इनवॉइस, रसीदें, फ़ॉर्म, डैशबोर्ड या PDF को पार्स करते समय।

टिप: एक फ़ील्ड स्कीमा प्रदान करें और OCR सामान्यीकरण का निर्देश दें।

SYSTEM: आप एक दस्तावेज़ समझने वाले विश्लेषक हैं। फ़ील्ड को सटीक रूप से निकालें और इकाइयों को सुरक्षित रखें।
USER:
Image: <document image>
Goal: सबूत के साथ दस्तावेज़ के बारे में सवालों के जवाब दें।
Questions:
1) इनवॉइस नंबर क्या है?
2) कुल देय राशि (संख्यात्मक मान और मुद्रा) क्या है?
3) देय तिथि (ISO-8601) क्या है?
Rules:
- यदि एकाधिक उम्मीदवार मौजूद हैं, तो निर्देशांक के साथ शीर्ष-2 वापस करें।
- तिथियों को YYYY-MM-DD में सामान्य करें।
- 0-1 से आत्मविश्वास स्कोर शामिल करें।
Output JSON format:
{
"answers": [
{"question": "string", "value": "string|number|null", "alt_candidates": [{"value":"string", "bbox":[x1,y1,x2,y2]}], "confidence": 0.0}
],
"notes": "string"
}

3) मल्टी-इमेज तुलना और रीजनिंग

कब उपयोग करें: A/B तुलना, फ़्रेम में दोष का पता लगाना, पहले/बाद के शॉट्स।

टिप: इमेजों को स्पष्ट रूप से लेबल करें और संरचित डिफ्स को बाध्य करें।

SYSTEM: आप एक सावधान विज़ुअल तुलनित्र हैं। दोनों इमेजों से सबूत का उपयोग करें।
USER:
Images: A=<image A>, B=<image B>
Task: A और B की तुलना करें और प्रश्न का उत्तर दें।
Question: A और B के बीच क्या बदल गया है जो प्रयोज्यता को प्रभावित कर सकता है?
Constraints:
- दृश्यमान तत्वों (टेक्स्ट, आइकन, लेआउट, रंग, रिक्ति) पर ध्यान दें।
- प्रभाव रेटिंग (कम/मध्यम/उच्च) के साथ परिवर्तनों की एक बुलेट सूची प्रदान करें।
Output format:
- सारांश (2 वाक्य)
- Changes: [ {"element": "string", "change": "string", "impact": "low|medium|high"} ]
- साक्ष्य: क्षेत्र संदर्भ (बाएँ/दाएँ, x%, y% यदि उपलब्ध हो)

4) चरण-दर-चरण विज़ुअल रीजनिंग

कब उपयोग करें: मॉडल को गिनती, ज्यामिति या स्थानिक तर्क के लिए विचारों को चेन करने की आवश्यकता होती है।

टिप: लॉग या साझा किए जाने वाले आउटपुट में चेन-ऑफ-थॉट सामग्री को verbatim प्रकट किए बिना संक्षिप्त तर्क टोकन का अनुरोध करें।

SYSTEM: आप एक विज़ुअल रीजनिंग सहायक हैं। चरण-दर-चरण सोचें लेकिन केवल अंतिम उत्तर और एक संक्षिप्त औचित्य वापस करें।
USER:
Image: <image>
Question: कितने स्क्रू दिखाई दे रहे हैं और शीर्ष पंक्ति से कौन से गायब हैं?
Output:
- Answer: <number>
- औचित्य (संक्षिप्त): पंक्तियों/स्तंभों के तर्क और किसी भी occlusion का उल्लेख करें।
- वैकल्पिक साक्ष्य: क्षेत्र विवरण

5) सुरक्षा-निर्देशित विज़ुअल Q&A (अनुपालन/संशोधन)

कब उपयोग करें: आपको PII लीक या संवेदनशील सामग्री से बचना चाहिए।

टिप: सुरक्षित/असुरक्षित श्रेणियां और संशोधन नियम परिभाषित करें।

SYSTEM: आप विज़ुअल गोपनीयता और अनुपालन लागू करते हैं। यदि PII का पता चला है (चेहरे, आईडी, लाइसेंस प्लेट), तो उस फ़ील्ड के लिए "REDACTED" आउटपुट करें और बताएं कि क्यों।
USER:
Image: <image>
Task: स्टोर का नाम, पता और दृश्यमान स्टाफ की गिनती निकालें।
Rules: चेहरे और किसी भी ID नंबर को संपादित करें।
Output JSON:
{
"store_name": "string|null",
"address": "string|null",
"staff_count": "int|null",
"redactions": [{"type": "face|id|license_plate", "reason": "string"}]
}

प्रॉम्प्ट घटक जो लगातार सटीकता में सुधार करते हैं

रोल प्राइमिंग: “आप एक दस्तावेज़ विश्लेषक/QA निरीक्षक हैं” व्यवहार को संकुचित करता है।

स्पष्ट अनिश्चितता: एक छोटे से कारण के साथ “निश्चित नहीं” को प्रोत्साहित करें।

साक्ष्य फ़ील्ड: बाउंडिंग बॉक्स या सापेक्ष निर्देशांक उत्तर को आधार बनाते हैं।

सामान्यीकरण नियम: तिथि, मुद्रा, केसिंग, इकाइयाँ—अस्पष्टता दूर करें।

आउटपुट अनुबंध: JSON स्कीमा प्रारूप बहाव को रोकते हैं और डाउनस्ट्रीम पार्सिंग को सरल बनाते हैं।

गार्डरेल: मतिभ्रम और गलत पाठों को कम करें

संदर्भ को सीमित करें: याद दिलाएं “केवल इमेज(नों) से उत्तर दें। बाहरी तथ्यों का अनुमान न लगाएं।”

दृश्यता जांच: मॉडल को यह बताने के लिए कहें कि टेक्स्ट कब धुंधला, कटा हुआ या occluded है।

लंबाई सीमाएँ: सटीकता मायने रखती है तो कथा पर संक्षिप्त, तथ्यात्मक आउटपुट पसंद करें।

फॉलबैक प्रॉम्प्ट: यदि आत्मविश्वास < 0.6 है, तो स्पष्टीकरण या एक क्रॉप किए गए दृश्य के लिए पूछें।

मूल्यांकन सेट: प्रॉम्प्ट परिवर्तनों का रिग्रेशन-परीक्षण करने के लिए एक छोटा, लेबल वाला इमेज सेट का उपयोग करें।

केस स्टडीज़: एक्शन में Magistral 1.2

नीचे चार वास्तविक परिदृश्य दिए गए हैं जो दिखाते हैं कि प्रॉम्प्ट टेम्पलेट्स, आउटपुट और सीखे गए पाठों के साथ विज़ुअल Q&A के लिए Magistral 1.2 का उपयोग कैसे करें।

केस स्टडी 1: रिटेल शेल्फ ऑडिट (CPG)

समस्या: फ़ील्ड प्रतिनिधियों को प्लानोग्राम अनुपालन और आउट-ऑफ-स्टॉक आइटमों को सत्यापित करने की आवश्यकता है।

सेटअप: शेल्फ बे की स्मार्टफोन तस्वीरें, कभी-कभी एक कोण पर।

प्रॉम्प्ट: श्रेणियों और गणनाओं के साथ मल्टी-ऑब्जेक्ट एक्सट्रैक्शन।

SYSTEM: आप एक खुदरा शेल्फ ऑडिटर हैं। आंशिक occlusion के साथ भी उत्पादों और गणनाओं की पहचान करें। केवल ग्राउंडेड टिप्पणियों के साथ जवाब दें।
USER:
Image: <shelf photo>
Task: प्रत्येक लक्षित SKU (Cereal A, Cereal B, Cereal C) के लिए, सामना करने की गिनती और अंतराल की रिपोर्ट करें।
Output:
{
"sku_counts": [{"sku":"Cereal A","facings":int,"gaps":int}],
"issues": ["misplaced item", "price tag missing"],
"confidence": 0.0
}

परिणाम: 86% मामलों में ±1 के भीतर विश्वसनीय सामना करने की गिनती। सबसे बड़ा लाभ "गलत स्थान पर रखे गए आइटम" श्रेणी जोड़ने और स्पष्ट रूप से अंतराल के लिए पूछने से आया।

टिप: यदि इमेज कोण में भिन्न होती हैं, तो मॉडल को परिप्रेक्ष्य तिरछापन और क्या यह गणनाओं को प्रभावित करता है, यह नोट करने के लिए कहें।

केस स्टडी 2: इनवॉइस QA (FinOps)

समस्या: इनवॉइस योग और तिथियों के लिए मैन्युअल जांच में देरी और त्रुटियां होती हैं।

सेटअप: स्टैम्प और असमान प्रकाश व्यवस्था के साथ स्कैन किए गए इनवॉइस।

प्रॉम्प्ट: लेआउट अवेयरनेस और सामान्यीकरण नियमों के साथ दस्तावेज़ Q&A।

SYSTEM: आप एक FinOps दस्तावेज़ चेकर हैं। साक्ष्य और आत्मविश्वास के साथ योग और तिथियां निकालें।
USER:
Image: <invoice>
Questions: इनवॉइस नंबर, कुल देय (मुद्रा के साथ), देय तिथि।
Rules: बाउंडिंग बॉक्स के साथ शीर्ष-2 उम्मीदवारों को वापस करें।

परिणाम: मुद्रा सामान्यीकरण और "alt उम्मीदवारों" जोड़ने के बाद योग पर 94% सटीक मिलान। जब हमने निर्देश दिया तो झूठी सकारात्मकताएँ गिर गईं "स्पष्ट रूप से पूछे जाने तक 'उपयोग' और 'कर' लाइनों को अनदेखा करें।"

टिप: लुक-ए-लाइक फ़ील्ड को बाहर करने के लिए नकारात्मक निर्देश शामिल करें।

केस स्टडी 3: असेंबली लाइन पर उत्पाद QA (विनिर्माण)

समस्या: चलती असेंबलियों पर गायब स्क्रू और गलत संरेखित लेबल का पता लगाएं।

सेटअप: 720p पर ओवरहेड कैमरा फ़्रेम, अलग-अलग प्रकाश व्यवस्था।

प्रॉम्प्ट: संक्षिप्त औचित्य के साथ चरण-दर-चरण तर्क, पंक्ति/स्तंभ गिनती पर जोर देना।

SYSTEM: आप एक गुणवत्ता नियंत्रण निरीक्षक हैं। विशिष्ट फास्टनरों की गणना करें और लेबल संरेखण की जांच करें।
USER:
Image: <frame>
Question: क्या सभी 8 शीर्ष-पंक्ति स्क्रू मौजूद हैं और क्या लेबल संरेखित है (<3° झुकाव)?
<a6>Output:</a5>{"screws_present": true|false, "missing_indices": [int], "label_aligned": true|false, "confidence": 0-1}

परिणाम: “प्रतिबिंबों को अनदेखा करें” नियम जोड़ने के बाद >92% सटीकता के साथ गायब स्क्रू का पता लगाता है। जब हमने कच्चे डिग्री के बजाय एक बूलियन थ्रेशोल्ड का अनुरोध किया तो कोण अनुमान स्थिर हो गया।

टिप: अधिक लगातार वर्गीकरण के लिए निरंतर मैट्रिक्स को थ्रेशोल्ड में बदलें।

केस स्टडी 4: वेब एप्स के लिए UI रिग्रेशन (DevOps)

समस्या: विज़ुअल डिफ्स पिक्सेल परिवर्तनों को पकड़ते हैं लेकिन सिमेंटिक रिग्रेशन को याद करते हैं (उदाहरण के लिए, एक अक्षम बटन)।

सेटअप: महत्वपूर्ण प्रवाह के रात के स्क्रीनशॉट।

प्रॉम्प्ट: प्रभाव रेटिंग के साथ मल्टी-इमेज तुलना।

SYSTEM: आप सिमेंटिक रिग्रेशन के लिए UI स्क्रीनशॉट की तुलना करते हैं।
USER:
Images: A=<baseline>, B=<candidate>
Question: प्रयोज्यता या एक्सेसिबिलिटी को प्रभावित करने वाले परिवर्तनों को सूचीबद्ध करें।
Output: सारांश + प्रभाव और साक्ष्य के साथ परिवर्तन सरणी।

परिणाम: अक्षम CTA राज्यों और विपरीत मुद्दों को जल्दी पकड़ा। टीम ने "उच्च प्रभाव" परिवर्तनों पर स्वचालित गेट जोड़े।

टिप: विपरीत अनुपात, फ़ोकस राज्यों और ARIA लेबल का उल्लेख करने के लिए प्रोत्साहित करें यदि दिखाई दे।

पावर यूजर्स के लिए एडवांस्ड तकनीकें

क्षेत्र-प्रथम प्रॉम्प्टिंग: शोर को कम करने के लिए क्रॉप किए गए क्षेत्र प्रदान करें। मॉडल को पूर्ण इमेज से पहले क्षेत्रों का विश्लेषण करने के लिए कहें।

क्वेरी की चेन: जटिल कार्यों को क्रमिक उप-प्रश्नों में तोड़ें: लेआउट का पता लगाएं → फ़ील्ड निकालें → योग को मान्य करें।

आउटपुट के माध्यम से टूल का उपयोग: मॉडल को एक डाउनस्ट्रीम विज़न पाइपलाइन के लिए निर्देशांक या क्रॉप निर्देश तैयार करने के लिए कहें।

सामान्यीकरण लाइब्रेरी: विशिष्ट स्ट्रिंग प्रारूपों का निर्देश दें (उदाहरण के लिए, ISO-8601, UPPER_SNAKE_CASE) डाउनस्ट्रीम जोड़ों के लिए।

आत्मविश्वास-जागरूक प्रवाह: यदि आत्मविश्वास < 0.7, तो मैन्युअल समीक्षा के लिए रूट करें या दूसरी इमेज का अनुरोध करें।

मूल्यांकन: विज़ुअल Q&A गुणवत्ता को कैसे मापें

सटीक मिलान (EM): संरचित फ़ील्ड के लिए (तिथियां, योग)।

स्पैन पर F1: दस्तावेज़ों के भीतर टेक्स्ट के लिए।

mAP / परिशुद्धता@k: वस्तु की उपस्थिति और गणना के लिए।

मानव-इन-द-लूप: स्पॉट चेक के लिए 5–10% नमूना; असहमति लॉग करें।

ड्रिफ्ट वॉच: एक निश्चित बेंचमार्क सेट रखें; किसी भी प्रॉम्प्ट परिवर्तन के बाद फिर से चलाएं।

साप्ताहिक जांच के लिए एक सरल रूब्रिक:

सटीकता लक्ष्य: प्रमुख फ़ील्ड पर 90% EM; पता लगाने पर 85% परिशुद्धता।

विलंबता: उत्पादन रिज़ॉल्यूशन पर प्रति इमेज <1.2s।

स्थिरता: प्रॉम्प्ट संपादन के बाद ±2% से अधिक स्विंग नहीं।

समस्या निवारण: सामान्य VQA मुद्दों के लिए त्वरित सुधार

धुंधला होने के कारण गलत पाठ: “सर्वश्रेष्ठ अनुमान प्लस अनिश्चितता कारण” के लिए पूछें। उच्च-रिज़ॉल्यूशन क्रॉप पर विचार करें।

कुल बनाम उपटोटल को भ्रमित करना: स्पष्ट बहिष्करण जोड़ें; संख्या के पास मुद्रा प्रतीक की आवश्यकता होती है।

छोटी वस्तुओं की अत्यधिक गिनती: निर्देश “प्रतिबिंबों/छायाओं को अनदेखा करें” और एक न्यूनतम आकार थ्रेशोल्ड सेट करें।

असंगत JSON: स्कीमा को दोहराएं और जोड़ें: “यदि कोई फ़ील्ड गायब है, तो शून्य का उपयोग करें।”

मतिभ्रम पृष्ठभूमि तथ्य: याद दिलाएं: “जब तक इमेज पर दिखाई न दे, ब्रांड या मॉडल का अनुमान न लगाएं।”

इसे एक साथ रखना: एक मॉड्यूलर प्रॉम्प्ट जिसका आप पुन: उपयोग कर सकते हैं

SYSTEM: आप एक सटीक विज़ुअल Q&A मॉडल हैं। केवल प्रदान की गई इमेज(नों) पर निर्भर रहें। यदि अनिश्चित हैं, तो "निश्चित नहीं" कहें और कारण बताएं। अनुरोधित स्कीमा में सख्ती से आउटपुट करें।
USER:
Context: <business use case>
Image(s): <one or more>
Task: <what to extract or answer>
Constraints:
- Scope: <objects/fields of interest>
- Exclusions: <things to ignore>
- Normalization: <dates/currency/units>
- Evidence: <bbox or region refs if supported>
Output schema: <JSON shape>

यह टेम्पलेट आपकी विज़ुअल Q&A प्रॉम्प्ट को टीमों और डेटा स्रोतों में सुसंगत रखता है।

अपने विज़ुअल Q&A वर्कफ़्लो में Sider.ai का उपयोग कब करें

प्रॉम्प्ट पर तीव्र पुनरावृत्ति: यह ध्यान देने योग्य है कि Sider.ai आपको इमेज और वेबपेजों के साथ Magistral-शैली के प्रॉम्प्ट्स को ड्राफ्ट, चलाने और परिष्कृत करने देता है, ताकि उत्पाद टीम ब्राउज़र छोड़े बिना एज केस का परीक्षण कर सकें।

क्रॉस-टीम समीक्षा: त्वरित प्रतिक्रिया के लिए प्रॉम्प्ट टेम्पलेट्स और साइड-बाय-साइड आउटपुट साझा करें।

प्रलेखन और स्निपेट: विहित प्रॉम्प्ट्स को संग्रहीत करें और परियोजना के अनुसार चर (उदाहरण के लिए, स्कीमा, फ़ील्ड) इंजेक्ट करें।

Sider.ai जैसे टूल का उपयोग करना “विचार → परीक्षण किया गया प्रॉम्प्ट → साइन-ऑफ टेम्पलेट” से लूप को छोटा करता है, जो आमतौर पर विज़ुअल Q&A को उत्पादन में लाने में बाधा है।

एक्शन प्लान: इस सप्ताह विज़ुअल Q&A के लिए Magistral 1.2 को तैनात करें

एक उपयोग केस चुनें (इनवॉइस, अलमारियाँ, UI डिफ्स)।

उपरोक्त निकटतम टेम्पलेट से शुरू करें; अपना स्कीमा और बहिष्करण जोड़ें।

ग्राउंड ट्रुथ के साथ 30-इमेज बेंचमार्क बनाएं।

पुनरावृति: एक समय में एक प्रॉम्प्ट तत्व बदलें और फिर से परीक्षण करें।

स्वचालित करें: आउटपुट JSON लागू करें, आत्मविश्वास थ्रेशोल्ड जोड़ें, मैन्युअल समीक्षा नियम सेट करें।

दस्तावेज़: अंतिम प्रॉम्प्ट, नमूना आउटपुट और ऑनबोर्डिंग के लिए एज केस सहेजें।

मुख्य बातें

Magistral 1.2 तब और भी विश्वसनीय हो जाता है जब आप प्रॉम्प्ट्स को स्पेसिफिकेशन्स की तरह ट्रीट करते हैं: रोल, स्कोप, फॉर्मेट और एविडेंस।

टास्क से मैच करने के लिए टारगेटेड टेम्पलेट्स (ऑब्जेक्ट एट्रिब्यूट्स, डॉक्यूमेंट लेआउट, मल्टी-इमेज कंपेयर, स्टेप-बाय-स्टेप रीज़निंग) का इस्तेमाल करें।

हैलुसिनेशन्स को कम करने और विश्वास को बेहतर बनाने के लिए गार्डरेल्स—अनिश्चितता, एक्सक्लूशन्स, नॉर्मलाइज़ेशन—शामिल करें।

छोटे, लेबल वाले मूल्यांकन सेट के साथ वैलिडेट करें और एडिट्स के बाद ड्रिफ्ट पर नज़र रखें।

ब्राउज़र में तेज़ इटिरेशन के लिए, Sider.ai टीमों को प्रॉम्प्ट्स को रिफाइन और स्टैंडर्डाइज़ करने में मदद कर सकता है।

यदि आप विज़ुअल Q&A के बारे में हिचकिचा रहे हैं, तो अब आपके पास कुछ वास्तविक—जल्दी और सुरक्षित रूप से शिप करने के लिए टेम्पलेट्स और केस स्टडीज़ हैं।

FAQ

Q1: मैं इनवॉइस पर विज़ुअल Q&A के लिए Magistral 1.2 का उपयोग कैसे करूँ? एक लेआउट-अवेयर प्रॉम्प्ट का उपयोग करें जो टारगेट फ़ील्ड (इनवॉइस नंबर, कुल, ड्यू डेट), नॉर्मलाइज़ेशन नियम (ISO-8601 तारीखें, मुद्रा), और बाउंडिंग बॉक्स जैसे एविडेंस को निर्दिष्ट करता है। Magistral 1.2 सबसे अच्छा प्रदर्शन करता है जब आप वैकल्पिक कैंडिडेट्स और कॉन्फिडेंस स्कोर्स को शामिल करते हैं।

Q2: Magistral 1.2 विज़ुअल Q&A के लिए सबसे अच्छे प्रॉम्प्ट टेम्पलेट्स क्या हैं? स्ट्रक्चर्ड टेम्पलेट्स से शुरुआत करें: ऑब्जेक्ट और एट्रिब्यूट एक्सट्रैक्शन, डॉक्यूमेंट Q&A, मल्टी-इमेज कंपैरिजन और स्टेप-बाय-स्टेप रीज़निंग। प्रत्येक टेम्पलेट में रोल प्राइमिंग, एक्सक्लूशन्स, नॉर्मलाइज़ेशन और एक सख्त JSON आउटपुट स्कीमा शामिल होना चाहिए।

Q3: मैं Magistral 1.2 के साथ विज़ुअल Q&A में हैलुसिनेशन्स को कैसे कम कर सकता हूँ? मॉडल को केवल छवि से उत्तर देने के लिए बाध्य करें, दृश्यता कम होने पर अनिश्चितता की आवश्यकता होती है, और स्पष्ट एक्सक्लूशन्स जोड़ें। कॉन्फिडेंस थ्रेशोल्ड का उपयोग करें और रीजन कोऑर्डिनेट्स जैसे एविडेंस का अनुरोध करें जब उपलब्ध हो।

Q4: क्या Magistral 1.2 तुलना के लिए कई छवियों को संभाल सकता है? हाँ। लेबल इमेज (A/B), दृश्यमान परिवर्तनों पर ध्यान केंद्रित करें, और प्रभाव रेटिंग के साथ एक स्ट्रक्चर्ड डिफ़ को लागू करें। यह UI रिग्रेशन, पहले/बाद निरीक्षण और डिफेक्ट डिटेक्शन के लिए कंसिस्टेंसी में सुधार करता है।

Q5: कौन से टूल मुझे विज़ुअल Q&A के लिए प्रॉम्प्ट्स को तेज़ी से इटरेट करने में मदद करते हैं? आप सीधे Magistral 1.2 प्रॉम्प्ट्स का प्रोटोटाइप बना सकते हैं, और यह ध्यान देने योग्य है कि Sider.ai आपको छवियों और वेब कंटेंट के साथ प्रॉम्प्ट्स को टेस्ट और रिफाइन करने की सुविधा देता है। यह समीक्षा चक्रों को छोटा करता है और टीमों में टेम्पलेट्स को स्टैंडर्डाइज़ करता है।