How do I use Magistral 1.2 for Visual Q&A on invoices?

Use a layout-aware prompt that specifies target fields (invoice number, total, due date), normalization rules (ISO-8601 dates, currency), and evidence like bounding boxes. Magistral 1.2 performs best when you include alternative candidates and confidence scores.

What are the best prompt templates for Magistral 1.2 Visual Q&A?

Start with structured templates: object and attribute extraction, document Q&A, multi-image comparison, and step-by-step reasoning. Each template should include role priming, exclusions, normalization, and a strict JSON output schema.

How can I reduce hallucinations in Visual Q&A with Magistral 1.2?

Constrain the model to answer only from the image, require uncertainty when visibility is low, and add explicit exclusions. Use confidence thresholds and request evidence such as region coordinates when available.

Can Magistral 1.2 handle multiple images for comparison?

Yes. Label images (A/B), focus on visible changes, and force a structured diff with impact ratings. This improves consistency for UI regression, before/after inspections, and defect detection.

What tools help me iterate prompts for Visual Q&A faster?

You can prototype Magistral 1.2 prompts directly, and it’s worth noting that [Sider.ai](https://sider.ai?source=seo&p1=blog&p2=leo) lets you test and refine prompts alongside images and web content. This shortens review cycles and standardizes templates across teams.

ভিজুয়াল Q&A-এর জন্য Magistral 1.2 কীভাবে ব্যবহার করবেন: প্রম্পট টেমপ্লেট ও কেস স্টাডি

ভিজুয়াল কোয়েশ্চেন আনসারিং (VQA) একটি বিশেষ গবেষণা থেকে প্রডাক্ট টিম, অপস এবং ক্রিয়েটিভ ওয়ার্কফ্লো-তে একটি বাস্তব সুপার পাওয়ারে পরিণত হয়েছে। এখানে একটি গুরুত্বপূর্ণ বিষয় হলো: সঠিক প্রম্পট টেমপ্লেট ব্যবহার করে, Magistral 1.2 নির্ভরযোগ্যভাবে একটি ছবিতে কী আছে তা ব্যাখ্যা করতে পারে, একাধিক ভিজ্যুয়াল থেকে যুক্তি দিতে পারে এবং এমনকি তার উত্তরের সমর্থনে অঞ্চল উল্লেখ করতে পারে। আপনি যদি কখনও ভেবে থাকেন "আমি যা দেখছি তা বোঝার জন্য আমি কি একটি মডেলের উপর ভরসা করতে পারি?"—এই গাইড আপনাকে দেখাবে কিভাবে উত্তরটি "হ্যাঁ, কাঠামোর সাথে" দিতে হয়।

এই বাস্তব এবং সমাধান-ভিত্তিক ওয়াকথ্রুতে, আমরা ভিজুয়াল Q&A-এর জন্য Magistral 1.2 কিভাবে ব্যবহার করতে হয় তা নিয়ে আলোচনা করব, যার মধ্যে রয়েছে পুনরায় ব্যবহারযোগ্য প্রম্পট টেমপ্লেট, মূল্যায়ন টিপস এবং বাস্তব-বিশ্বের কেস স্টাডি যা আপনি মডেল করতে পারেন। এছাড়াও হ্যালুসিনেশন কমাতে, গ্রাউন্ডিং উন্নত করতে এবং দ্রুত শিপিং করতে কিছু সেরা অনুশীলন যুক্ত করব।

Magistral 1.2 কি এবং ভিজুয়াল Q&A-এর জন্য এটি কেন ব্যবহার করবেন?

Magistral 1.2 একটি মাল্টিমোডাল মডেল যা ইমেজ বোঝা এবং যুক্তির জন্য অপ্টিমাইজ করা হয়েছে। সহজ ভাষায়, এটি ছবি পড়তে, ভেতরের টেক্সট পার্স করতে, লেআউট বুঝতে এবং ছবিতে যা দেখানো হয়েছে সে সম্পর্কে প্রশ্নের উত্তর দিতে পারে। ভিজুয়াল Q&A ওয়ার্কফ্লো-এর জন্য— কাস্টমার সাপোর্ট, ডকুমেন্ট বোঝা, কোয়ালিটি অ্যাসিউরেন্স, ক্রিয়েটিভ ডিরেকশন—Magistral 1.2 প্রদান করে:

গ্রাউন্ডেড উত্তর: একটি চিত্রের অঞ্চল, বস্তু বা টেক্সট স্প্যান নির্দেশ করুন।

লেআউট সচেতনতা: ফর্ম, রসিদ, ড্যাশবোর্ড এবং UI-এর জন্য দরকারী।

মাল্টি-ইমেজ কনটেক্সট: ছবিগুলোর মধ্যে তুলনা, বৈসাদৃশ্য বা চেইন রিজননিং করুন।

নির্দেশনা অনুসরণ: একটি নিয়ন্ত্রিত বিন্যাসে সাড়া দিন (JSON, বুলেট তালিকা, ধাপে ধাপে)।

যাইহোক, আপনি যদি ব্রাউজ করার সময় বা অ্যাসেট পর্যালোচনা করার সময় একটি সাইড প্যানেলে দ্রুত প্রম্পট সাজাতে এবং পুনরাবৃত্তি করতে পছন্দ করেন, তবে এটি উল্লেখ করার মতো যে Sider.ai ওয়েবপেজ এবং চিত্রের উপরে মডেল প্রম্পট ওভারলে করতে পারে, যা আপনাকে প্রসঙ্গ পরিবর্তন না করে বাস্তব স্ক্রিনশট, মকআপ এবং ডকুমেন্টগুলির বিপরীতে Magistral-স্টাইলের প্রম্পটগুলি পরীক্ষা করতে সহায়তা করে।

মূল ধারণা: আপনার প্রম্পটগুলিকে গঠন করুন, আপনার আউটপুটগুলি নিয়ন্ত্রণ করুন

বেশিরভাগ VQA ব্যর্থতা অস্পষ্ট নির্দেশাবলী থেকে আসে। Magistral 1.2 উল্লেখযোগ্যভাবে উন্নত হয় যখন আপনি:

কাজ এবং ডোমেইন নির্দিষ্ট করুন: উদাহরণস্বরূপ, "আপনি একজন ডকুমেন্ট বিশ্লেষক" বনাম "সাধারণ সহকারী।"

লক্ষ্য বিন্যাস সংজ্ঞায়িত করুন: JSON স্কিমা, নম্বরযুক্ত ধাপ বা সংক্ষিপ্ত তথ্য।

স্কোপ সীমাবদ্ধ করুন: কী উপেক্ষা করতে হবে (ব্যাকগ্রাউন্ডের বিশৃঙ্খলা, ওয়াটারমার্ক), কী অগ্রাধিকার দিতে হবে (টেক্সট ফিল্ড, স্ট্যাটাস লাইট)।

ভিজ্যুয়াল গ্রাউন্ডিংয়ের জন্য জিজ্ঞাসা করুন: অঞ্চল রেফারেন্স, বাউন্ডিং বক্স বা আপেক্ষিক অবস্থান যদি পাওয়া যায়।

বিষয়টি এমন যে একজন নতুন সহকর্মীকে একটি চেকলিস্ট দেওয়া হচ্ছে। গঠন গোলমাল কমায় এবং পুনরাবৃত্তিযোগ্যতা বাড়ায়।

দ্রুত শুরু: ভিজ্যুয়াল Q&A-এর জন্য সংক্ষিপ্ত ওয়ার্কিং প্রম্পট

যখন আপনার শুধু একটি স্পষ্ট উত্তরের প্রয়োজন হয় তখন এটি ব্যবহার করুন।

সিস্টেম: আপনি একজন সতর্ক ভিজ্যুয়াল প্রশ্ন উত্তর সহকারী। সংক্ষিপ্তভাবে উত্তর দিন এবং শুধুমাত্র প্রদত্ত ছবি(গুলি) থেকে উত্তর দিন। যদি অনিশ্চিত হন, তাহলে "নিশ্চিত নই" বলুন এবং কী অনুপস্থিত তা ব্যাখ্যা করুন।
ব্যবহারকারী:
ছবি: <attach image>
প্রশ্ন: ডিভাইসটির স্ট্যাটাস LED-এর রং কী?
আউটপুট বিন্যাস: শুধুমাত্র ছোট শব্দগুচ্ছ।

এটি যেভাবে কাজ করে:

ছবিতে সুযোগ সীমাবদ্ধ করে।

পরিমাপিত অনিশ্চয়তাকে উৎসাহিত করে।

আউটপুট বিন্যাসকে মেশিন-বান্ধব করে তোলে।

Magistral 1.2-এর জন্য পুনরায় ব্যবহারযোগ্য প্রম্পট টেমপ্লেট

নিচে কিছু প্রমাণিত টেমপ্লেট দেওয়া হল যা আপনি মানিয়ে নিতে পারেন। প্রতিটিতে উদ্দেশ্য, গঠন এবং কপি করার জন্য প্রস্তুত প্রম্পট অন্তর্ভুক্ত রয়েছে।

1) অবজেক্ট এবং অ্যাট্রিবিউট নিষ্কাশন (একটি ছবি)

কখন ব্যবহার করবেন: যখন আপনার বস্তু, রং, সংখ্যা বা সাধারণ সম্পর্ক সম্পর্কে তথ্যের প্রয়োজন হয়।

টিপ: রিকল উন্নত করতে বস্তুর প্রতিশব্দ যোগ করুন।

সিস্টেম: আপনি একজন গ্রাউন্ডেড ভিজ্যুয়াল পরিদর্শক। শুধুমাত্র দৃশ্যমান জিনিসের উপর নির্ভর করুন।
ব্যবহারকারী:
কাজ: ছবি থেকে মূল বস্তু এবং বৈশিষ্ট্য সনাক্ত করুন।
অগ্রাধিকার:
1) প্রধান বস্তুগুলোর তালিকা করুন।
2) প্রত্যেকটির জন্য, বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করুন (রং, সংখ্যা, অবস্থান, টেক্সট লেবেল যদি থাকে)।
3) যদি অনিশ্চিত হন, তাহলে বৈশিষ্ট্যটিকে নাল হিসাবে চিহ্নিত করুন।
ছবি: <image>
আউটপুট JSON স্কিমা:
{
"objects": [{
"name": "string",
"attributes": {"color": "string|null", "count": "int|null", "position": "top-left|top-right|bottom-left|bottom-right|center", "text": "string|null"}
}
],
"notes": "string (অস্পষ্টতা বা প্রতিবন্ধকতা)"
}

2) লেআউট সচেতনতা সহ ডকুমেন্ট Q&A

কখন ব্যবহার করবেন: চালান, রসিদ, ফর্ম, ড্যাশবোর্ড বা PDF পার্স করার সময়।

টিপ: একটি ফিল্ড স্কিমা প্রদান করুন এবং OCR স্বাভাবিককরণের নির্দেশ দিন।

সিস্টেম: আপনি একজন ডকুমেন্ট বোঝার বিশ্লেষক। সঠিকভাবে ক্ষেত্রগুলি নিষ্কাশন করুন এবং ইউনিটগুলি সংরক্ষণ করুন।
ব্যবহারকারী:
ছবি: <document image>
লক্ষ্য: প্রমাণসহ ডকুমেন্ট সম্পর্কে প্রশ্নের উত্তর দিন।
প্রশ্ন:
1) চালান নম্বর কত?
2) মোট বকেয়া পরিমাণ কত (সংখ্যাসূচক মান এবং মুদ্রা)?
3) নির্ধারিত তারিখ (ISO-8601) কী?
বিধি:
- যদি একাধিক প্রার্থী থাকে, তাহলে স্থানাঙ্ক সহ শীর্ষ-2 ফেরত দিন।
- তারিখগুলি YYYY-MM-DD তে স্বাভাবিক করুন।
- 0-1 থেকে একটি আত্মবিশ্বাসের স্কোর অন্তর্ভুক্ত করুন।
আউটপুট JSON বিন্যাস:
{
"answers": [
{"question": "string", "value": "string|number|null", "alt_candidates": [{"value":"string", "bbox":[x1,y1,x2,y2]}], "confidence": 0.0}
],
"notes": "string"
}

3) মাল্টি-ইমেজ তুলনা এবং যুক্তি

কখন ব্যবহার করবেন: A/B তুলনা, ফ্রেম জুড়ে ত্রুটি সনাক্তকরণ, আগে/পরে শট।

টিপ: ছবিগুলো স্পষ্টভাবে লেবেল করুন এবং কাঠামোগত পার্থক্য তৈরি করুন।

সিস্টেম: আপনি একজন সতর্ক ভিজ্যুয়াল তুলনাকারী। উভয় ছবি থেকে প্রমাণ ব্যবহার করুন।
ব্যবহারকারী:
ছবি: A=<image A>, B=<image B>
কাজ: A এবং B তুলনা করুন এবং প্রশ্নের উত্তর দিন।
প্রশ্ন: A এবং B এর মধ্যে কী পরিবর্তন হয়েছে যা ব্যবহারযোগ্যতাকে প্রভাবিত করতে পারে?
বাধ্যবাধকতা:
- দৃশ্যমান উপাদানগুলির উপর ফোকাস করুন (টেক্সট, আইকন, লেআউট, রং, স্পেসিং)।
- প্রভাব রেটিং (নিম্ন/মাঝারি/উচ্চ) সহ পরিবর্তনের একটি বুলেট তালিকা প্রদান করুন।
আউটপুট বিন্যাস:
- সারসংক্ষেপ (2টি বাক্য)
- পরিবর্তন: [ {"element": "string", "change": "string", "impact": "low|medium|high"} ]
- প্রমাণ: অঞ্চল রেফারেন্স (বাম/ডান, x%, y% যদি পাওয়া যায়)

4) ধাপে ধাপে ভিজ্যুয়াল যুক্তি

কখন ব্যবহার করবেন: মডেলটিকে গণনা, জ্যামিতি বা স্থানিক যুক্তির জন্য চিন্তা চেইন করতে হবে।

টিপ: আপনি যে আউটপুটগুলি লগ বা শেয়ার করেন সেগুলিতে আক্ষরিক অর্থে চেইন-অফ-থট সামগ্রী প্রকাশ না করে সংক্ষিপ্ত যুক্তির টোকেনগুলির জন্য অনুরোধ করুন।

সিস্টেম: আপনি একজন ভিজ্যুয়াল যুক্তির সহকারী। ধাপে ধাপে চিন্তা করুন তবে শুধুমাত্র চূড়ান্ত উত্তর এবং একটি সংক্ষিপ্ত ন্যায্যতা ফেরত দিন।
ব্যবহারকারী:
ছবি: <image>
প্রশ্ন: কয়টি স্ক্রু দৃশ্যমান এবং উপরের সারিতে কোনটি অনুপস্থিত?
আউটপুট:
- উত্তর: <number>
- ন্যায্যতা (সংক্ষিপ্ত): সারি/কলাম যুক্তি এবং কোনো প্রতিবন্ধকতার কথা উল্লেখ করুন।
- ঐচ্ছিক প্রমাণ: অঞ্চল বিবরণ

5) সুরক্ষা-নির্দেশিত ভিজ্যুয়াল Q&A (সম্মতি/সংশোধন)

কখন ব্যবহার করবেন: আপনাকে অবশ্যই PII লিক বা সংবেদনশীল বিষয়বস্তু এড়াতে হবে।

টিপ: নিরাপদ/অনিরাপদ বিভাগ এবং সংশোধন বিধি সংজ্ঞায়িত করুন।

সিস্টেম: আপনি ভিজ্যুয়াল গোপনীয়তা এবং সম্মতি প্রয়োগ করেন। যদি PII সনাক্ত করা হয় (মুখ, আইডি, লাইসেন্স প্লেট), তাহলে সেই ক্ষেত্রের জন্য "REDACTED" আউটপুট করুন এবং কারণ ব্যাখ্যা করুন।
ব্যবহারকারী:
ছবি: <image>
কাজ: স্টোরের নাম, ঠিকানা এবং দৃশ্যমান কর্মীদের সংখ্যা বের করুন।
বিধি: মুখ এবং কোনো আইডি নম্বর সংশোধন করুন।
আউটপুট JSON:
{
"store_name": "string|null",
"address": "string|null",
"staff_count": "int|null",
"redactions": [{"type": "face|id|license_plate", "reason": "string"}]
}

প্রম্পট উপাদান যা ক্রমাগত নির্ভুলতা উন্নত করে

ভূমিকা প্রাইমিং: "আপনি একজন ডকুমেন্ট বিশ্লেষক/QA পরিদর্শক" আচরণ সংকুচিত করে।

স্পষ্ট অনিশ্চয়তা: একটি ছোট কারণ সহ "নিশ্চিত নই" উৎসাহিত করুন।

প্রমাণ ক্ষেত্র: বাউন্ডিং বক্স বা আপেক্ষিক স্থানাঙ্ক উত্তরের ভিত্তি স্থাপন করে।

স্বাভাবিককরণের নিয়ম: তারিখ, মুদ্রা, কেসিং, ইউনিট—অস্পষ্টতা দূর করুন।

আউটপুট চুক্তি: JSON স্কিমা বিন্যাস পরিবর্তন প্রতিরোধ করে এবং ডাউনস্ট্রিম পার্সিং সরল করে।

গার্ডরেইল: হ্যালুসিনেশন এবং ভুল পাঠ কম করুন

প্রসঙ্গ সীমাবদ্ধ করুন: মনে করিয়ে দিন "শুধুমাত্র ছবি(গুলি) থেকে উত্তর দিন। বাইরের তথ্য অনুমান করবেন না।"

দৃশ্যমানতা পরীক্ষা: মডেলটিকে জিজ্ঞাসা করুন কখন টেক্সট অস্পষ্ট, কেটে গেছে বা বন্ধ করা হয়েছে।

দৈর্ঘ্যের সীমা: যখন নির্ভুলতা গুরুত্বপূর্ণ তখন বর্ণনার চেয়ে সংক্ষিপ্ত, তথ্যপূর্ণ আউটপুট পছন্দ করুন।

ফলব্যাক প্রম্পট: যদি আত্মবিশ্বাস < 0.6 হয়, তাহলে স্পষ্টীকরণ বা ক্রপ করা দৃশ্যের জন্য জিজ্ঞাসা করুন।

মূল্যায়ন সেট: প্রম্পট পরিবর্তনের রিগ্রেশন-টেস্ট করার জন্য একটি ছোট, লেবেলযুক্ত ইমেজ সেট ব্যবহার করুন।

কেস স্টাডি: Magistral 1.2 বাস্তবে

নিচে চারটি বাস্তবসম্মত পরিস্থিতি দেওয়া হল যা দেখায় কিভাবে প্রম্পট টেমপ্লেট, আউটপুট এবং শেখা পাঠের সাথে ভিজ্যুয়াল Q&A-এর জন্য Magistral 1.2 ব্যবহার করতে হয়।

কেস স্টাডি 1: রিটেইল শেলফ অডিট (CPG)

সমস্যা: ফিল্ড রেপসদের প্ল্যানোগ্রাম সম্মতি এবং স্টক-আউটের বাইরের আইটেমগুলি যাচাই করতে হবে।

সেটআপ: শেল্ফ বে-এর স্মার্টফোন ফটো, কখনও কখনও একটি কোণে।

প্রম্পট: বিভাগ এবং গণনা সহ মাল্টি-অবজেক্ট নিষ্কাশন।

সিস্টেম: আপনি একজন রিটেইল শেলফ অডিটর। আংশিক অবরোধের সাথেও পণ্য এবং গণনা সনাক্ত করুন। শুধুমাত্র গ্রাউন্ডেড পর্যবেক্ষণগুলির সাথে সাড়া দিন।
ব্যবহারকারী:
ছবি: <shelf photo>
কাজ: প্রতিটি টার্গেট SKU-এর জন্য (Cereal A, Cereal B, Cereal C), ফেসিং গণনা এবং ফাঁক রিপোর্ট করুন।
আউটপুট:
{
"sku_counts": [{"sku":"Cereal A","facings":int,"gaps":int}],
"issues": ["misplaced item", "price tag missing"],
"confidence": 0.0
}

ফলাফল: 86% ক্ষেত্রে ±1 এর মধ্যে নির্ভরযোগ্য ফেসিং গণনা। সবচেয়ে বড় উন্নতি এসেছে একটি "misplaced item" বিভাগ যোগ করে এবং স্পষ্টভাবে ফাঁকের জন্য জিজ্ঞাসা করে।

টিপ: যদি ছবিগুলো কোণে ভিন্ন হয়, তাহলে মডেলটিকে দৃষ্টিকোণ তির্যক এবং এটি গণনাকে প্রভাবিত করে কিনা তা উল্লেখ করতে বলুন।

কেস স্টাডি 2: চালান QA (FinOps)

সমস্যা: চালানের মোট এবং তারিখের জন্য ম্যানুয়াল চেক বিলম্ব এবং ত্রুটির কারণ হয়।

সেটআপ: স্ট্যাম্প এবং অসম আলো সহ স্ক্যান করা চালান।

প্রম্পট: লেআউট সচেতনতা এবং স্বাভাবিককরণ নিয়ম সহ ডকুমেন্ট Q&A।

সিস্টেম: আপনি একজন FinOps ডকুমেন্ট পরীক্ষক। প্রমাণ এবং আত্মবিশ্বাস সহ মোট এবং তারিখগুলি বের করুন।
ব্যবহারকারী:
ছবি: <invoice>
প্রশ্ন: চালান নম্বর, মোট বকেয়া (মুদ্রা সহ), নির্ধারিত তারিখ।
বিধি: বাউন্ডিং বক্স সহ শীর্ষ-2 প্রার্থী ফেরত দিন।

ফলাফল: মুদ্রা স্বাভাবিককরণ এবং "alt candidates" যোগ করার পরে মোটগুলিতে 94% সঠিক মিল। যখন আমরা নির্দেশ দিয়েছিলাম "সাবটোটাল' এবং 'ট্যাক্স' লাইনগুলি উপেক্ষা করুন যদি না স্পষ্টভাবে জিজ্ঞাসা করা হয়" তখন মিথ্যা পজিটিভ কমে যায়।

টিপ: দেখতে অনুরূপ ক্ষেত্রগুলি বাদ দেওয়ার জন্য নেতিবাচক নির্দেশাবলী অন্তর্ভুক্ত করুন।

কেস স্টাডি 3: অ্যাসেম্বলি লাইনে পণ্য QA (উৎপাদন)

সমস্যা: চলমান অ্যাসেম্বলিগুলিতে অনুপস্থিত স্ক্রু এবং ভুলভাবে সারিবদ্ধ লেবেল সনাক্ত করুন।

সেটআপ: 720p-এ ওভারহেড ক্যামেরা ফ্রেম, আলো পরিবর্তন করা।

প্রম্পট: সারি/কলাম গণনার উপর জোর দিয়ে সংক্ষিপ্ত ন্যায্যতা সহ ধাপে ধাপে যুক্তি।

সিস্টেম: আপনি একজন কোয়ালিটি কন্ট্রোল পরিদর্শক। নির্দিষ্ট ফাস্টেনার গণনা করুন এবং লেবেল সারিবদ্ধতা পরীক্ষা করুন।
ব্যবহারকারী:
ছবি: <frame>
প্রশ্ন: উপরের সারির 8টি স্ক্রু কি উপস্থিত আছে এবং লেবেলটি সারিবদ্ধ (<3° কাত)?
আউটপুট:
{"screws_present": true|false, "missing_indices": [int], "label_aligned": true|false, "confidence": 0-1}

ফলাফল: "প্রতিফলন উপেক্ষা করুন" এই নিয়ম যুক্ত করার পরে >92% নির্ভুলতার সাথে অনুপস্থিত স্ক্রু সনাক্ত করে। যখন আমরা একটি কাঁচা ডিগ্রির পরিবর্তে একটি বুলিয়ান থ্রেশহোল্ডের জন্য অনুরোধ করি তখন কোণ অনুমান স্থিতিশীল হয়।

টিপ: আরও সামঞ্জস্যপূর্ণ শ্রেণীবিভাগের জন্য অবিচ্ছিন্ন মেট্রিকগুলিকে থ্রেশহোল্ডে রূপান্তর করুন।

কেস স্টাডি 4: ওয়েব অ্যাপের জন্য UI রিগ্রেশন (DevOps)

সমস্যা: ভিজ্যুয়াল ডিফারেন্স পিক্সেল পরিবর্তন ধরে কিন্তু শব্দার্থিক রিগ্রেশন (যেমন, একটি অক্ষম বোতাম) মিস করে।

সেটআপ: সমালোচনামূলক প্রবাহের রাত্রিকালীন স্ক্রিনশট।

প্রম্পট: প্রভাব রেটিং সহ মাল্টি-ইমেজ তুলনা।

সিস্টেম: আপনি শব্দার্থিক রিগ্রেশনের জন্য UI স্ক্রিনশট তুলনা করেন।
ব্যবহারকারী:
ছবি: A=<baseline>, B=<candidate>
প্রশ্ন: ব্যবহারযোগ্যতা বা অ্যাক্সেসযোগ্যতাকে প্রভাবিত করে এমন পরিবর্তনগুলির তালিকা করুন।
আউটপুট: সারসংক্ষেপ + প্রভাব এবং প্রমাণ সহ পরিবর্তন অ্যারে।

ফলাফল: অক্ষম CTA রাজ্য এবং বৈসাদৃশ্য সমস্যা দ্রুত ধরা পড়েছে। দল "উচ্চ প্রভাব" পরিবর্তনের উপর স্বয়ংক্রিয় গেট যুক্ত করেছে।

টিপ: বৈসাদৃশ্য অনুপাত, ফোকাস রাজ্য এবং ARIA লেবেল দৃশ্যমান হলে উল্লেখ করতে উৎসাহিত করুন।

পাওয়ার ব্যবহারকারীদের জন্য উন্নত কৌশল

অঞ্চল-প্রথম প্রম্পটিং: গোলমাল কমাতে ক্রপ করা অঞ্চল প্রদান করুন। মডেলটিকে সম্পূর্ণ চিত্রের আগে অঞ্চলগুলি বিশ্লেষণ করতে বলুন।

চেইন-অফ-কোয়েরি: জটিল কাজগুলিকে ধারাবাহিক উপ-প্রশ্নে বিভক্ত করুন: লেআউট সনাক্ত করুন → ক্ষেত্রগুলি বের করুন → মোটগুলি যাচাই করুন।

আউটপুটের মাধ্যমে সরঞ্জাম ব্যবহার: একটি ডাউনস্ট্রিম ভিশন পাইপলাইনের জন্য মডেলটিকে স্থানাঙ্ক বা ক্রপ নির্দেশাবলী তৈরি করতে বলুন।

স্বাভাবিককরণ লাইব্রেরি: ডাউনস্ট্রিম যোগদানের জন্য নির্দিষ্ট স্ট্রিং বিন্যাস (যেমন, ISO-8601, UPPER_SNAKE_CASE) নির্দেশ করুন।

আত্মবিশ্বাস-সচেতন প্রবাহ: যদি confidence < 0.7, ম্যানুয়াল পর্যালোচনার জন্য রুট করুন বা দ্বিতীয় চিত্রের অনুরোধ করুন।

মূল্যায়ন: ভিজ্যুয়াল Q&A গুণমান কিভাবে পরিমাপ করবেন

সঠিক মিল (EM): কাঠামোগত ক্ষেত্রগুলির জন্য (তারিখ, মোট)।

স্প্যানগুলিতে F1: ডকুমেন্টের মধ্যে টেক্সটের জন্য।

mAP / precision@k: বস্তুর উপস্থিতি এবং গণনার জন্য।

মানুষ-ইন-দ্য-লুপ: স্পট চেকের জন্য 5-10% নমুনা নিন; বিরোধ লগ করুন।

ড্রিফট ওয়াচ: একটি নির্দিষ্ট বেঞ্চমার্ক সেট রাখুন; যেকোনো প্রম্পট পরিবর্তনের পরে পুনরায় চালান।

সাপ্তাহিক চেকের জন্য একটি সহজ রুব্রিক:

সঠিকতার লক্ষ্য: মূল ক্ষেত্রগুলিতে 90% EM; সনাক্তকরণে 85% নির্ভুলতা।

বিলম্ব: উত্পাদন রেজোলিউশনে প্রতি ছবিতে <1.2s।

স্থিতিশীলতা: প্রম্পট সম্পাদনার পরে ±2%-এর বেশি সুইং নয়।

সমস্যা সমাধান: সাধারণ VQA সমস্যার জন্য দ্রুত সমাধান

অস্পষ্টতার কারণে ভুল পাঠ: "সেরা অনুমান প্লাস অনিশ্চয়তার কারণ" জিজ্ঞাসা করুন। একটি উচ্চ-রেজোলিউশনের ক্রপ বিবেচনা করুন।

মোট বনাম সাবটোটাল গুলিয়ে ফেলা: সুস্পষ্ট বাদ যোগ করুন; সংখ্যার কাছাকাছি মুদ্রার প্রতীক প্রয়োজন।

ছোট বস্তু অতিরিক্ত গণনা করা: "প্রতিফলন/ছায়া উপেক্ষা করুন" নির্দেশ দিন এবং একটি সর্বনিম্ন আকারের থ্রেশহোল্ড সেট করুন।

অসঙ্গতিপূর্ণ JSON: স্কিমা পুনরাবৃত্তি করুন এবং যোগ করুন: "যদি কোনো ক্ষেত্র অনুপস্থিত থাকে, তাহলে নাল ব্যবহার করুন।"

হ্যালুসিনেটেড ব্যাকগ্রাউন্ড তথ্য: মনে করিয়ে দিন: "ছবিতে দৃশ্যমান না হলে ব্র্যান্ড বা মডেল অনুমান করবেন না।"

এটি একসাথে রাখা: একটি মডুলার প্রম্পট যা আপনি পুনরায় ব্যবহার করতে পারেন

সিস্টেম: আপনি একটি নির্ভুল ভিজ্যুয়াল Q&A মডেল। শুধুমাত্র প্রদত্ত ছবি(গুলি)-এর উপর নির্ভর করুন। যদি অনিশ্চিত হন, তাহলে "নিশ্চিত নই" বলুন এবং কেন তা অন্তর্ভুক্ত করুন। কঠোরভাবে অনুরোধ করা স্কিমাতে আউটপুট করুন।
ব্যবহারকারী:
প্রসঙ্গ: <business use case>
ছবি(গুলি): <one or more>
কাজ: <what to extract or answer>
বাধ্যবাধকতা:
- সুযোগ: <objects/fields of interest>
- বাদ: <things to ignore>
- স্বাভাবিককরণ: <dates/currency/units>
- প্রমাণ: <bbox or region refs if supported>
আউটপুট স্কিমা: <JSON shape>

এই টেমপ্লেট আপনার ভিজ্যুয়াল Q&A প্রম্পটগুলিকে দল এবং ডেটা উৎস জুড়ে সামঞ্জস্যপূর্ণ রাখে।

কখন আপনার ভিজ্যুয়াল Q&A ওয়ার্কফ্লোতে Sider.ai ব্যবহার করবেন

প্রম্পটে দ্রুত পুনরাবৃত্তি: উল্লেখ করার মতো, Sider.ai আপনাকে ছবি এবং ওয়েবপেজের পাশাপাশি Magistral-স্টাইলের প্রম্পটগুলি খসড়া, চালানো এবং পরিমার্জন করতে দেয়, যাতে পণ্য দল ব্রাউজার না ছেড়ে প্রান্তের কেসগুলি পরীক্ষা করতে পারে।

ক্রস-টিম পর্যালোচনা: দ্রুত প্রতিক্রিয়ার জন্য প্রম্পট টেমপ্লেট এবং পাশাপাশি আউটপুট শেয়ার করুন।

ডকুমেন্টেশন এবং স্নিপেট: ক্যানোনিকাল প্রম্পট সংরক্ষণ করুন এবং প্রকল্প প্রতি ভেরিয়েবল (যেমন, স্কিমা, ক্ষেত্র) ইনজেক্ট করুন।

Sider.ai-এর মতো একটি সরঞ্জাম ব্যবহার করে “ধারণা → পরীক্ষিত প্রম্পট → স্বাক্ষরিত টেমপ্লেট” থেকে লুপটি ছোট করে, যা সাধারণত ভিজ্যুয়াল Q&A উত্পাদন করার ক্ষেত্রে বাধা হয়ে দাঁড়ায়।

কার্য পরিকল্পনা: এই সপ্তাহে ভিজ্যুয়াল Q&A-এর জন্য Magistral 1.2 স্থাপন করুন

একটি ব্যবহারের ক্ষেত্র বাছাই করুন (চালান, শেল্ফ, UI পার্থক্য)।

উপরের সবচেয়ে কাছের টেমপ্লেট দিয়ে শুরু করুন; আপনার স্কিমা এবং বাদ যোগ করুন।

গ্রাউন্ড ট্রুথ সহ 30-ইমেজের একটি বেঞ্চমার্ক তৈরি করুন।

পুনরাবৃত্তি করুন: একবারে একটি প্রম্পট উপাদান পরিবর্তন করুন এবং পুনরায় পরীক্ষা করুন।

স্বয়ংক্রিয় করুন: আউটপুট JSON প্রয়োগ করুন, আত্মবিশ্বাসের থ্রেশহোল্ড যোগ করুন, ম্যানুয়াল পর্যালোচনার নিয়ম সেট করুন।

ডকুমেন্ট: অনবোর্ডিংয়ের জন্য চূড়ান্ত প্রম্পট, নমুনা আউটপুট এবং প্রান্তের কেস সংরক্ষণ করুন।

মূল বিষয়

আপনি যদি স্পেসিফিকেশনের মতো করে প্রম্পটগুলো ব্যবহার করেন, যেমন: ভূমিকা, সুযোগ, বিন্যাস এবং প্রমাণ, তাহলে Magistral 1.2 অনেক বেশি নির্ভরযোগ্য হয়ে উঠবে।

কাজের সাথে মিল রেখে সুনির্দিষ্ট টেমপ্লেট ব্যবহার করুন (অবজেক্ট অ্যাট্রিবিউট, ডকুমেন্ট লেআউট, মাল্টি-ইমেজ কম্পেয়ার, স্টেপ-বাই-স্টেপ রিজনিং)।

হ্যালুসিনেশন কমাতে এবং বিশ্বাসযোগ্যতা বাড়াতে গার্ডরেইল যোগ করুন—অনিশ্চয়তা, বর্জন, নরমালাইজেশন।

ছোট, লেবেলযুক্ত মূল্যায়ন সেট দিয়ে যাচাই করুন এবং এডিট করার পরে বিচ্যুতির দিকে নজর রাখুন।

ব্রাউজারে দ্রুত পুনরাবৃত্তির জন্য, Sider.ai টিমকে প্রম্পটগুলো পরিমার্জন এবং স্ট্যান্ডার্ডাইজ করতে সাহায্য করতে পারে।

আপনি যদি ভিজ্যুয়াল Q&A নিয়ে দ্বিধায় থাকেন, তাহলে এখন আপনার কাছে বাস্তব কিছু তৈরি করার জন্য টেমপ্লেট এবং কেস স্টাডি আছে—দ্রুত এবং নিরাপদে।

প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী (FAQ)

প্রশ্ন ১: আমি কিভাবে ইনভয়েসের ওপর ভিজ্যুয়াল Q&A-এর জন্য Magistral 1.2 ব্যবহার করব? লেআউট-সচেতন প্রম্পট ব্যবহার করুন যা টার্গেট ফিল্ড (ইনভয়েস নম্বর, মোট, ডিউ ডেট), নরমালাইজেশন নিয়ম ({ISO-8601} তারিখ, মুদ্রা) এবং বাউন্ডিং বক্সের মতো প্রমাণ নির্দিষ্ট করে। Magistral 1.2 সবচেয়ে ভালো কাজ করে যখন আপনি বিকল্প প্রার্থী এবং আত্মবিশ্বাসের স্কোর অন্তর্ভুক্ত করেন।

প্রশ্ন ২: Magistral 1.2 ভিজ্যুয়াল Q&A-এর জন্য সেরা প্রম্পট টেমপ্লেটগুলো কী কী? স্ট্রাকচার্ড টেমপ্লেট দিয়ে শুরু করুন: অবজেক্ট এবং অ্যাট্রিবিউট এক্সট্রাকশন, ডকুমেন্ট Q&A, মাল্টি-ইমেজ কম্পারিজন এবং স্টেপ-বাই-স্টেপ রিজনিং। প্রতিটি টেমপ্লেটে রোল প্রাইমিং, বর্জন, নরমালাইজেশন এবং একটি কঠোর {JSON} আউটপুট স্কিমা অন্তর্ভুক্ত থাকতে হবে।

প্রশ্ন ৩: Magistral 1.2 ব্যবহার করে ভিজ্যুয়াল Q&A-তে আমি কিভাবে হ্যালুসিনেশন কমাতে পারি? মডেলটিকে শুধুমাত্র ছবি থেকে উত্তর দেওয়ার মধ্যে সীমাবদ্ধ রাখুন, দৃশ্যমানতা কম হলে অনিশ্চয়তা প্রয়োজন এবং সুস্পষ্ট বর্জন যোগ করুন। আত্মবিশ্বাসের থ্রেশহোল্ড ব্যবহার করুন এবং অঞ্চল স্থানাঙ্কের মতো প্রমাণ পাওয়া গেলে তা দেওয়ার অনুরোধ করুন।

প্রশ্ন ৪: Magistral 1.2 কি তুলনার জন্য একাধিক ছবি পরিচালনা করতে পারে? হ্যাঁ। ছবিগুলো লেবেল করুন (A/B), দৃশ্যমান পরিবর্তনের ওপর মনোযোগ দিন এবং ইম্প্যাক্ট রেটিংয়ের সাথে একটি স্ট্রাকচার্ড ডিফারেন্স তৈরি করুন। এটি UI রিগ্রেশন, আগে/পরের পরিদর্শন এবং ত্রুটি সনাক্তকরণের জন্য ধারাবাহিকতা উন্নত করে।

প্রশ্ন ৫: ভিজ্যুয়াল Q&A-এর জন্য দ্রুত প্রম্পট তৈরি করতে কোন সরঞ্জামগুলো আমাকে সাহায্য করে? আপনি সরাসরি Magistral 1.2 প্রম্পটগুলোর প্রোটোটাইপ তৈরি করতে পারেন এবং এটা উল্লেখ করার মতো যে Sider.ai আপনাকে ছবি এবং ওয়েব কন্টেন্টের পাশাপাশি প্রম্পট পরীক্ষা এবং পরিমার্জন করতে দেয়। এটি পর্যালোচনার সময় কমায় এবং দলগুলোর মধ্যে টেমপ্লেটগুলোকে স্ট্যান্ডার্ডাইজ করে।