How do I prompt Qwen3‑Omni to caption audio automatically?

Use a clear instruction that specifies format (SRT, VTT, or transcript), timing rules, and line limits. For example, request SRT with 1–2 lines per cue, 1.2–4.0 seconds per cue, and ≤ 42 characters per line.

Can Qwen3‑Omni generate multilingual captions from the same video?

Yes. First create captions in the source language, then ask Qwen3‑Omni to translate while preserving timestamps. Specify locale variants like es‑MX or fr‑FR for better fluency.

What’s the best format for YouTube captions: SRT or VTT?

Both work, but SRT is commonly used and simple to validate. If you need web‑native features, WebVTT is ideal and widely supported by HTML5 players.

How can I improve accuracy with technical terms and names?

Provide a mini‑glossary in your prompt with canonical spellings and acronyms. Ask Qwen3‑Omni to prefer glossary terms and mark uncertainties with .

How do I handle long videos when auto‑captioning?

Split the media into chapters or silence‑based chunks, caption each with the same prompt, then reassemble timestamps. This reduces drift and improves consistency.

কীভাবে Qwen3‑Omni কে স্বয়ংক্রিয়ভাবে অডিও ও ভিডিও ক্যাপশন তৈরি করার জন্য প্রম্পট করবেন

যদি আপনি কখনও তাড়াহুড়ো করে কোনো প্রোডাক্ট ডেমো বা ওয়েবিনারের রিপ্লে পাবলিশ করতে গিয়ে দেখেন যে ক্যাপশন নেই— অথবা আরও খারাপ, ভুল আছে— তাহলে আপনি একা নন। ভালো ক্যাপশন শুধুমাত্র অ্যাক্সেসিবিলিটির বিষয় নয়; এগুলি আবিষ্কারযোগ্যতার জ্বালানি, সম্মতির বিমা এবং আকর্ষন বৃদ্ধিকারী। ভালো খবর: সঠিক প্রম্পটিং কৌশল ব্যবহার করে, Qwen3‑Omni নির্ভরযোগ্য নির্ভুলতা এবং গতির সাথে স্বয়ংক্রিয়ভাবে অডিও এবং ভিডিও ক্যাপশন তৈরি করতে পারে।

এই ব্যবহারিক, সমাধান-ভিত্তিক গাইড আপনাকে দেখাবে কিভাবে স্বয়ংক্রিয় ক্যাপশনের জন্য Qwen3‑Omni কে প্রম্পট করতে হয়, সেগুলির অনুবাদ করতে হয়, বিভিন্ন প্ল্যাটফর্মের জন্য ফরম্যাট করতে হয় এবং আপনার ওয়ার্কফ্লো স্কেল করতে হয়। আপনি কপি-পেস্ট প্রম্পট টেমপ্লেট, কঠিন অডিওর জন্য টিপস এবং কোয়ালিটি কন্ট্রোল পদক্ষেপ পাবেন যা আপনাকে ঝামেলা থেকে দূরে রাখবে।

আপনি যা শিখবেন

স্বয়ংক্রিয়ভাবে অডিও এবং ভিডিও ফাইলের ক্যাপশন তৈরি করার জন্য Qwen3‑Omni কে কিভাবে প্রম্পট করতে হয়

ট্রান্সক্রিপ্ট, সাবটাইটেল (SRT/VTT), এবং অনুবাদের জন্য প্রম্পট টেমপ্লেট

গোলমালপূর্ণ অডিও, একাধিক বক্তা এবং জার্গনের জন্য নির্ভুলতা বৃদ্ধিকারী টিপস

একটি কন্টেন্ট লাইব্রেরি জুড়ে স্কেল করার জন্য ব্যাচ এবং API ওয়ার্কফ্লো

QC চেকলিস্ট এবং সময়-সাশ্রয়ী অটোমেশন টিপস

শেষ পর্যন্ত, আপনার কাছে একটি পুনরাবৃত্তিযোগ্য প্লেবুক থাকবে যা ক্যাপশনবিহীন মিডিয়াকে SEO-বান্ধব, অ্যাক্সেসযোগ্য সম্পদে পরিণত করবে।

স্বয়ংক্রিয় ক্যাপশনিংয়ের জন্য Qwen3‑Omni কেন?

Qwen3‑Omni একটি মাল্টিমোডাল মডেল যা টেক্সট নির্দেশাবলীর পাশাপাশি অডিও এবং ভিডিওর প্রসঙ্গ বুঝতে পারে। এটি নির্দেশাবলী অনুসরণ করে ক্যাপশন তৈরি করার জন্য খুবই উপযোগী:

নির্দেশাবলী অনুসরণ: আপনি আউটপুট ফরম্যাট (SRT, VTT, প্লেইন টেক্সট, অথবা JSON), স্পিকার লেবেল, টাইমস্ট্যাম্প এবং স্টাইল নির্দিষ্ট করতে পারেন।

প্রাসঙ্গিক বোধগম্যতা: আপনি যখন একটি শব্দকোষ বা উদাহরণ প্রদান করেন, তখন এটি ডোমেইন টার্মগুলি সামলাতে পারে।

বহুভাষিক: বিশ্বব্যাপী দর্শকদের জন্য উপযোগী—সোর্স ভাষায় ক্যাপশন তৈরি করুন, তারপর টাইমিং ঠিক রেখে অনুবাদ করুন।

যদি আপনার লক্ষ্য হয় পরিষ্কার, সামঞ্জস্যপূর্ণ ফরম্যাটিংয়ের সাথে নির্ভরযোগ্যভাবে ক্যাপশন তৈরি করা, তাহলে Qwen3‑Omni কে ইচ্ছাকৃতভাবে প্রম্পট করা ভালো এবং খুব ভালো ফলাফলের মধ্যে পার্থক্য তৈরি করে।

মূল প্রম্পট: দ্রুত পরিষ্কার ক্যাপশন পান

যখন আপনি একক-স্পিকার উৎস থেকে দ্রুত, পাঠযোগ্য ক্যাপশন পেতে চান তখন এই বেসলাইন প্রম্পট ব্যবহার করুন।

একক-স্পিকার, পরিষ্কার অডিও (শুধুমাত্র ট্রান্সক্রিপ্ট)

সিস্টেম: আপনি একজন বিশেষজ্ঞ ট্রান্সক্রিপশনিস্ট এবং ক্যাপশন ফরম্যাটার।
ব্যবহারকারী: সংযুক্ত অডিও/ভিডিও ট্রান্সক্রাইব করুন। প্যারাগ্রাফ আকারে একটি পরিষ্কার ট্রান্সক্রিপ্ট আউটপুট করুন।
- ভাষা: বক্তার ভাষার সাথে মিল রাখুন।
- অর্থ বজায় রাখুন, স্পষ্ট ভুলগুলো ঠিক করুন।
- কোনো বিষয় নিজের থেকে যোগ করবেন না।
- প্রতি 30 সেকেন্ডে ব্র্যাকেটে টাইমস্ট্যাম্প দিন, যেমন [00:30], [01:00]।
- স্পিকার লেবেলের প্রয়োজন নেই।

স্ট্রাকচার্ড ক্যাপশন (SRT)

সিস্টেম: আপনি ওয়েব ভিডিওর জন্য একজন পেশাদার সাবটাইটেলার।
ব্যবহারকারী: সংযুক্ত মিডিয়ার জন্য SRT সাবটাইটেল তৈরি করুন।
- লাইনগুলি যেখানে সম্ভব 42 অক্ষরের নিচে রাখুন।
- প্রতি ক্যাপশনে 1–2 লাইন।
- সিকোয়েন্স নম্বর যোগ করুন।
- HH:MM:SS,mmm ফরম্যাটে শুরু → শেষ টাইমস্ট্যাম্প দিন
- স্বাভাবিক বিরতির সাথে সিঙ্ক্রোনাইজ করুন।
- গানের কথা না থাকলে মিউজিক নোট অন্তর্ভুক্ত করবেন না।
- স্টাইল: সংক্ষিপ্ত, পাঠযোগ্য, কোনো ফিলার শব্দ নয়।

ওয়েব ক্যাপশন (VTT)

সিস্টেম: আপনি একজন ক্যাপশনিং বিশেষজ্ঞ।
ব্যবহারকারী: সংযুক্ত মিডিয়ার জন্য WebVTT ক্যাপশন আউটপুট করুন।
- 'WEBVTT' হেডার অন্তর্ভুক্ত করুন।
- '.' মিলিসেকেন্ড সেপারেটর সহ cue টাইমিং ব্যবহার করুন।
- প্রতি cue-তে 1–2 লাইন রাখুন, প্রতি লাইনে সর্বোচ্চ 42 অক্ষর।
- অতিরিক্ত সেগমেন্টেশন এড়িয়ে চলুন; বাক্যের সীমানার সাথে সারিবদ্ধ করুন।

পরামর্শ: যখন আপনি Qwen3‑Omni কে স্বয়ংক্রিয়ভাবে অডিও ও ভিডিও ক্যাপশন তৈরি করার জন্য প্রম্পট করেন, তখন ফরম্যাট, টাইমিং নিয়ম এবং সংক্ষিপ্ততার বিষয়ে স্পষ্ট থাকুন। মডেলগুলি পরিমাপযোগ্য হলে সীমাবদ্ধতাগুলি সবচেয়ে ভালোভাবে অনুসরণ করে।

বাস্তব-বিশ্বের জটিলতা সামলানো

সব অডিও স্টুডিওর মতো পরিষ্কার নয়। এখানে আপনার প্রম্পটগুলিকে অগোছালো বিষয়ের জন্য কিভাবে মানিয়ে নিতে হয় তা বলা হলো।

একাধিক বক্তা

সিস্টেম: আপনি একজন কোর্ট-গ্রেড ট্রান্সক্রিপশনিস্ট।
ব্যবহারকারী: স্পিকার লেবেল সহ ট্রান্সক্রাইব করুন।
- স্পিকারদের Speaker 1, Speaker 2, ইত্যাদি হিসাবে চিহ্নিত এবং ট্যাগ করুন।
- স্পিকার পরিবর্তনের সাথে নতুন লাইন দিন।
- প্রতিটি স্পিকারের টার্নে [HH:MM:SS] ফরম্যাটে টাইমস্ট্যাম্প যোগ করুন।
- নিশ্চিত না হলে, কণ্ঠের পরিবর্তন থেকে অনুমান করুন; লেবেলবিহীন রাখবেন না।
- উদাহরণ বিন্যাস:
[00:00] Speaker 1: সবাইকে স্বাগতম...
[00:07] Speaker 2: ধন্যবাদ! আজ আমরা আলোচনা করব...

গোলমালপূর্ণ অডিও বা ক্রস-টক

সিস্টেম: আপনি একজন ব্রডকাস্ট ক্যাপশন এডিটর।
ব্যবহারকারী: নয়েজ-সচেতন সম্পাদনা সহ SRT সাবটাইটেল তৈরি করুন।
- ফিলার শব্দ (উম, আহ, লাইক) সরিয়ে দিন যদি না অপরিহার্য হয়।
- যদি কোনো শব্দ অনিশ্চিত হয়, তাহলে . দিয়ে ব্র্যাকেট করুন।
- ওভারল্যাপিং স্পিচের জন্য, প্রভাবশালী কণ্ঠস্বর চয়ন করুন এবং অন্যটি ব্র্যাকেটে সংক্ষিপ্ত করুন।
- উদাহরণ: [ওভারল্যাপিং] আপনি কি দয়া করে পুনরাবৃত্তি করতে পারবেন?

কারিগরী জার্গন এবং নাম

একটি মিনি-গ্লসারি প্রদান করুন যাতে Qwen3‑Omni ডোমেইন টার্মগুলিতে লক করতে পারে।

সিস্টেম: আপনি একজন কারিগরী সাবটাইটেলার।
ব্যবহারকারী: সঠিক শব্দ/বানানের জন্য নিম্নলিখিত শব্দকোষ ব্যবহার করুন:
- Kubernetes (K8s)
- Istio
- Postgres (ক্যাপশনে PostgreSQL নয়)
- Latency SLO
তারপর এই সঠিক বানানগুলি দিয়ে SRT ক্যাপশন তৈরি করুন।

সোশ্যাল ক্লিপের জন্য পেসিং

সিস্টেম: আপনি TikTok/Reels-এর জন্য একজন স্বল্প-ফর্ম ভিডিও ক্যাপশনার।
ব্যবহারকারী: পাঞ্চি বার্নড-ইন ক্যাপশন আউটপুট করুন।
- প্রতি cue-তে সর্বোচ্চ 1 লাইন, ≤ 24 অক্ষর।
- ALL CAPS-এ কীওয়ার্ডের উপর জোর দিন।
- cue গুলো 0.8–1.6 সেকেন্ডের জন্য স্ক্রিনে রাখুন।
- শেষে বিরামচিহ্ন ব্যবহার করবেন না যদি না এটি একটি প্রশ্ন হয়।
- মোশন গ্রাফিক্সের জন্য cue টাইম সহ একটি JSON সাইডকার অন্তর্ভুক্ত করুন:
{
"cues": [{"t": 0.8, "d": 1.2, "text": "STOP SCROLLING"}, ...]
}

এন্ড-টু-এন্ড ওয়ার্কফ্লো: র মিডিয়া থেকে পাবলিশড ক্যাপশন

YouTube, LMS, ওয়েবিনার বা অভ্যন্তরীণ প্রশিক্ষণের জন্য আপনার সামঞ্জস্যপূর্ণ আউটপুট প্রয়োজন হলে এই ক্ষেত্র-পরীক্ষিত ক্রমটি ব্যবহার করুন।

আপনার ফাইলগুলি সাজান

সামঞ্জস্যপূর্ণভাবে নাম দিন: project-episode-lang-source.ext (যেমন, launch-demo-en-audio.mp3)।

দ্রুত প্রক্রিয়াকরণের জন্য প্রতিটি ব্যাচে 2 ঘণ্টার কম মিডিয়া রাখুন।

আপলোড এবং প্রক্রিয়াকরণের গতি বাড়ানোর জন্য দীর্ঘ ভিডিওর জন্য অডিও বের করুন।

বেসলাইন ট্রান্সক্রিপ্ট

প্রসঙ্গ এবং পরিভাষা প্রতিষ্ঠার জন্য একটি অনুচ্ছেদ ট্রান্সক্রিপ্টের জন্য প্রম্পট করুন।

যদি নির্ভুলতা < 95% হয়, তাহলে একটি শব্দকোষ প্রদান করুন এবং পুনরায় প্রম্পট করুন।

SRT এবং VTT তৈরি করুন

অনুমোদিত ট্রান্সক্রিপ্ট থেকে, একবারে SRT এবং VTT উভয়টির জন্য অনুরোধ করুন:

ব্যবহারকারী: অনুমোদিত ট্রান্সক্রিপ্ট (নীচে পেস্ট করা) ব্যবহার করে আউটপুট করুন:
A) SRT প্রতি cue-তে 1–2 লাইন, ≤ 42 অক্ষর/লাইন সহ
B) একই সেগমেন্টেশন সহ WebVTT
সময় সারিবদ্ধকরণ এবং সামঞ্জস্যপূর্ণ বিরামচিহ্ন নিশ্চিত করুন।

অনুবাদ করুন (প্রয়োজনে)

Qwen3‑Omni কে টাইমস্ট্যাম্প বজায় রেখে ক্যাপশন অনুবাদ করতে বলুন।

অঞ্চল-উপযুক্ত ভেরিয়েন্ট ব্যবহার করুন: en-US, en-GB, es-MX, pt-BR, fr-FR, ইত্যাদি।

ব্যবহারকারী: cue টাইমিং বজায় রেখে SRT কে স্প্যানিশে (es-MX) অনুবাদ করুন। নাম এবং ব্র্যান্ড শব্দ ইংরেজি তে রাখুন। লাইনের দৈর্ঘ্য বজায় রাখুন।

গুণমান নিয়ন্ত্রণ চেকলিস্ট

কারিগরী শব্দ এবং সংখ্যাগুলি পরীক্ষা করুন।

যাচাই করুন টাইমস্ট্যাম্পগুলি ওভারল্যাপ করে না; cue 1.0–6.0 সেকেন্ড থাকে।

নিশ্চিত করুন কোনো cue প্রতি লাইনে ~42 অক্ষরের বেশি না হয়।

পাঠযোগ্যতা পরীক্ষা করুন: বাক্যের ক্ষেত্রে, সংক্ষিপ্ত রূপ ছাড়া কোনো অল-ক্যাপস নয়।

একটি সাবটাইটেল সম্পাদক (যেমন, Aegisub) দিয়ে যাচাই করুন অথবা একটি ব্যক্তিগত YouTube পরীক্ষা আপলোড করুন।

প্রকাশ করুন এবং সংরক্ষণ করুন

আপনার হোস্টিং প্ল্যাটফর্মে SRT/VTT সংযুক্ত করুন।

ভবিষ্যতের সম্পাদনার জন্য উৎস মিডিয়া, ট্রান্সক্রিপ্ট এবং ক্যাপশন একসাথে সংরক্ষণ করুন।

প্রম্পট টেমপ্লেট যা আপনি আজ অনুলিপি করতে পারেন

ন্যূনতম সম্পাদনার সাথে স্বয়ংক্রিয়ভাবে অডিও ও ভিডিও ক্যাপশন তৈরি করতে এই রেডি-টু-গো স্নিপেটগুলি ব্যবহার করুন।

ইউনিভার্সাল SRT ক্যাপশনিং প্রম্পট

সিস্টেম: আপনি একজন সিনিয়র সাবটাইটেলিং সম্পাদক।
ব্যবহারকারী: সংযুক্ত মিডিয়ার জন্য SRT সাবটাইটেল তৈরি করুন।
নিয়ম:
- 1–2 লাইন/cue, ≤ 42 অক্ষর/লাইন
- প্রতিটি cue 1.2–4.0 সেকেন্ড
- বাক্যের সীমানা পছন্দনীয়; স্বাভাবিক বিরতিতে দীর্ঘ বাক্য বিভক্ত করুন
- স্পষ্ট ফিলার সংশোধন করুন তবে সুর বজায় রাখুন
- উদাহরণ বিন্যাস:
1
00:00:00,000 --> 00:00:02,500
লঞ্চে স্বাগতম।
2
00:00:02,500 --> 00:00:05,100
আজ আমরা আপনাকে রোডম্যাপ দেখাব।

ট্রান্সক্রিপ্ট + স্পিকার লেবেল

সিস্টেম: আপনি একজন সাক্ষাত্কার ট্রান্সক্রাইবার।
ব্যবহারকারী: স্পিকার পরিবর্তনের সময় টাইমস্ট্যাম্প সহ একটি লেবেলযুক্ত ট্রান্সক্রিপ্ট তৈরি করুন।
বিন্যাস:
[HH:MM:SS] Speaker X: text...
নির্দেশিকা:
- বাক্য অক্ষত রাখুন; বাক্যের মাঝে লাইন বিরতি নয়।
- অস্পষ্ট হলেই সংকোচন প্রসারিত করুন।
- শুধুমাত্র প্রয়োজনে [inaudible] ট্যাগ করুন।

টাইমিং বজায় রেখে অনুবাদ করুন

সিস্টেম: আপনি একজন স্থানীয়করণ সম্পাদক।
ব্যবহারকারী: এই SRT কে ফরাসি (fr-FR) তে অনুবাদ করুন। টাইমস্ট্যাম্প রাখুন। পণ্যের নাম ইংরেজি তে রাখুন। লাইনের বিরতি এবং দৈর্ঘ্য বজায় রাখুন। অনুবাদের পরে যদি কোনো লাইন 42 অক্ষরের বেশি হয়, তাহলে একটি স্বাভাবিক বিরতিতে বিভক্ত করুন।

কমপ্লায়েন্স-ফ্রেন্ডলি ক্যাপশন (WCAG/ADA)

সিস্টেম: আপনি একজন অ্যাক্সেসিবিলিটি ক্যাপশনিং বিশেষজ্ঞ।
ব্যবহারকারী: অ্যাক্সেসিবিলিটি cue সহ SRT ক্যাপশন তৈরি করুন।
- যেখানে প্রাসঙ্গিক সেখানে [music], [laughter], [applause] অন্তর্ভুক্ত করুন।
- [whispering], [shouting] যোগ করুন যদি এটি অর্থ পরিবর্তন করে।
- বেসরকারী অডিওর বর্ণনা করুন যা বোধগম্যতাকে প্রভাবিত করে।
- বর্ণনা সংক্ষিপ্ত এবং ব্র্যাকেটেড রাখুন।

স্মার্ট প্রম্পট দিয়ে কিভাবে নির্ভুলতা বাড়ানো যায়

একটি শব্দকোষ দিন: Qwen3‑Omni কে 10–30টি ডোমেইন শব্দ দিন প্রামাণিক বানান সহ। এটি পণ্যের নাম এবং সংক্ষিপ্ত রূপের ভুল ট্রান্সক্রিপশন নাটকীয়ভাবে হ্রাস করে।

গতি নির্দিষ্ট করুন: স্ট্রোবের মতো ক্যাপশন এড়াতে মডেলটিকে আপনার সর্বনিম্ন এবং সর্বোচ্চ cue সময়কাল বলুন।

অধ্যায় অনুসারে ভাগ করুন: দীর্ঘ ভিডিওর জন্য, প্রতিটি অধ্যায়ের জন্য প্রম্পট করুন এবং SRTs স্ট্রিচ করুন; প্রসঙ্গ টাইট এবং ত্রুটি কম রাখে।

একটি সংক্ষিপ্ত স্টাইল গাইড সরবরাহ করুন: বিরামচিহ্ন, কেসিং, নিষিদ্ধ শব্দ ("uh", "um") এবং প্যারাফ্রেজ করবেন কিনা।

একটি রেফারেন্স ট্রান্সক্রিপ্ট ব্যবহার করুন: আপনার যদি স্লাইড বা স্ক্রিপ্ট থাকে তবে তা অন্তর্ভুক্ত করুন। মডেলটিকে রেফারেন্স ব্যবহার করে অস্পষ্টতা সমাধান করার নির্দেশ দিন।

উদাহরণ: 45 মিনিটের ওয়েবিনারকে 20 মিনিটের মধ্যে ক্যাপশনে রূপান্তর করা

MP4 আপলোড করুন এবং প্রতি 30 সেকেন্ডে টাইমস্ট্যাম্প সহ একটি অনুচ্ছেদ ট্রান্সক্রিপ্টের জন্য জিজ্ঞাসা করুন।

ডেক থেকে 12-আইটেমের একটি শব্দকোষ প্রদান করুন (পণ্যের নাম, মেট্রিক, সংক্ষিপ্ত রূপ)।

1.4–3.5s cues, সর্বোচ্চ 42 অক্ষর/লাইন, বাক্য-সারিবদ্ধ সহ SRT-এর জন্য অনুরোধ করুন।

টাইমিং বজায় রেখে জাপানি এবং স্প্যানিশ ভাষায় অনুবাদ করুন।

প্রথম 5 মিনিট এবং দুটি এলোমেলো 60-সেকেন্ডের অংশ QC করুন।

ইংরেজি SRT + VTT প্রকাশ করুন; অনুবাদিত SRT গুলিকে ঐচ্ছিক ট্র্যাক হিসাবে রাখুন।

সময় সাশ্রয়: ম্যানুয়াল ক্যাপশনিংয়ের তুলনায় প্রতি ওয়েবিনারে ~2–3 ঘন্টা।

API এবং ব্যাচ প্রক্রিয়াকরণ প্যাটার্ন

এমনকি আপনি যদি চ্যাট ইন্টারফেস পছন্দ করেন তবে ব্যাচ ক্যাপশনিং আসল থ্রুপুট আনলক করে।

JSON-প্রথম চুক্তি

অটোমেশনের জন্য ক্যাপশনের পাশাপাশি একটি JSON আউটপুট করার জন্য Qwen3‑Omni কে জিজ্ঞাসা করুন।

সিস্টেম: আপনি একজন ক্যাপশন পাইপলাইন সহকারী।
ব্যবহারকারী: সংযুক্ত মিডিয়ার জন্য, ফেরত দিন:
1) SRT সাবটাইটেল
2) ক্ষেত্র সহ JSON সূচক:
{
"duration_sec": সংখ্যা,
"language": "en-US",
"words_per_min": সংখ্যা,
"cue_count": সংখ্যা,
"avg_cue_len_chars": সংখ্যা
}

দীর্ঘ মিডিয়া চঙ্কিং

60 মিনিটের বেশি ভিডিওর জন্য, নীরবতা বা অধ্যায় চিহ্নিতকারীর উপর বিভক্ত করুন।

একই প্রম্পট দিয়ে প্রতিটি অংশকে স্বাধীনভাবে প্রক্রিয়া করুন।

অংশের শুরু অফসেট যোগ করে টাইমস্ট্যাম্পগুলি পুনরায় একত্রিত করুন।

বিরামচিহ্ন এবং কেসিং স্বাভাবিক করতে একটি চূড়ান্ত পাস চালান।

ন্যূনতম ছদ্মকোড

from pathlib import Path
media_files = sorted(Path("./media").glob("*.mp3"))
for f in media_files:
# 1) SRT প্রম্পট সহ আপনার Qwen3-Omni ক্যাপশন এন্ডপয়েন্টে f পাঠান
srt = caption_with_qwen(f, prompt="<universal_srt_prompt>")
# 2) ঐচ্ছিক: অনুবাদ করুন
srt_es = translate_captions(srt, lang="es-MX")
# 3) যাচাই করুন এবং ফাইল লিখুন
validate_srt(srt)
Path("./out").mkdir(exist_ok=True)
Path(f"./out/{f.stem}.srt").write_text(srt, encoding="utf-8")
Path(f"./out/{f.stem}.es-MX.srt").write_text(srt_es, encoding="utf-8")

গুণমান নিয়ন্ত্রণ: একটি 3-মিনিটের স্পট-চেক রুটিন

টাইমিং: নিশ্চিত করুন 3-5টি এলোমেলো cue 1–6 সেকেন্ডের মধ্যে পড়ে এবং বক্তৃতা সাথে মেলে।

পাঠযোগ্যতা: লাইন ≤ 42 অক্ষর, বাক্যের ক্ষেত্রে, প্রয়োজন না হলে বাক্যের মধ্যে কোনো লাইন বিরতি নয়।

নির্ভুলতা: নাম, সংখ্যা, URL এবং পণ্যের শব্দগুলি সঠিক; কোনো ভুল শোনা সংশোধন করুন।

অ্যাক্সেসিবিলিটি: অ-ভাষণ অডিও cue অর্থপূর্ণ হলে উপস্থিত থাকে।

যদি আপনি একটি স্পট-চেকের মধ্যে 1-2টির বেশি সমস্যা খুঁজে পান তবে একটি শব্দকোষ এবং স্টাইল গাইড দিয়ে পুনরায় প্রম্পট করুন, তারপর পুনরায় তৈরি করুন।

সমস্যা সমাধান: যখন ক্যাপশন ভুল পথে যায়

অস্থির টাইমিং: স্পষ্ট সর্বনিম্ন/সর্বোচ্চ cue সময়কাল যোগ করুন এবং বাক্যের সীমানার সাথে সারিবদ্ধ করার অনুরোধ করুন।

অদ্ভুত বিরামচিহ্ন: একটি এক-পাতার শৈলী নিয়ম সরবরাহ করুন (যেমন, কোনো উপবৃত্ত নয়; em ড্যাশ কম ব্যবহার করুন)।

স্পিকার বিভ্রান্তি: সঠিক লেবেল সহ টীকাযুক্ত একটি ছোট অংশ সরবরাহ করুন; মডেলটিকে লেবেলিং অনুকরণ করার নির্দেশ দিন।

ব্যাকগ্রাউন্ড সঙ্গীত প্রভাবশালী: নয়েজ-সচেতন ট্রান্সক্রিপশনের জন্য জিজ্ঞাসা করুন এবং অর্থপূর্ণ না হলে বেসরকারী শব্দগুলিকে কম অগ্রাধিকার দেওয়ার জন্য নির্দিষ্ট করুন।

প্ল্যাটফর্ম SRT প্রত্যাখ্যান করে: SRT-তে মিলিসেকেন্ডের জন্য কমা (00:00:01,000) নিশ্চিত করুন এবং cue সূচকগুলি কোনো ফাঁক ছাড়াই ক্রমানুসারে রয়েছে।

সবকিছু একসাথে রাখা: একটি পুনরায় ব্যবহারযোগ্য মাস্টার প্রম্পট

আপনি যখন অনুমানযোগ্য, প্ল্যাটফর্ম-প্রস্তুত ফলাফলের প্রয়োজন হয় তখন এই মাস্টার প্রম্পট ব্যবহার করুন।

সিস্টেম: আপনি একজন সিনিয়র ক্যাপশনিং সম্পাদক যা সম্প্রচার-গুণমানের সাবটাইটেল তৈরি করেন।
ব্যবহারকারী: সংযুক্ত মিডিয়ার ক্যাপশন দিন এবং তিনটি আউটপুট ফেরত দিন:
A) পরিষ্কার ট্রান্সক্রিপ্ট (অনুচ্ছেদ, প্রতি 30 সেকেন্ডে টাইমস্ট্যাম্প)
B) SRT (1–2 লাইন/cue, ≤ 42 অক্ষর/লাইন, 1.2–4.0s/cue, বাক্য-সারিবদ্ধ)
C) WebVTT (SRT সেগমেন্টেশন মিরর করুন)
নির্দেশিকা:
- ভাষা: উৎসের সাথে মেলান।
- স্পষ্ট ত্রুটিগুলি ঠিক করুন; অর্থের প্যারাফ্রেজ করবেন না।
- সংখ্যা, নাম এবং ব্র্যান্ড শব্দগুলি অবশ্যই সঠিক হতে হবে; নিশ্চিত না হলে, চিহ্নিত করুন।
- কোনো ইমোজি নয়, কোনো অতিরিক্ত ভাষ্য নয়।

যাইহোক: Sider.ai দিয়ে কর্মপ্রবাহের গতি বাড়ানো

আপনি যখন প্রতি সপ্তাহে একাধিক সম্পদ ঘুরিয়ে দিচ্ছেন, তখন ব্রাউজারের একটি সাইডবার সহকারী সরঞ্জামগুলির মধ্যে সময় বাঁচায়। উল্লেখ করার মতো: Sider.ai আপনার ক্যাপশনিং ওয়ার্কফ্লোর পাশে বসতে পারে। আপনি ট্রান্সক্রিপ্ট পেস্ট করতে পারেন, প্রম্পট ভেরিয়েন্ট তৈরি করতে পারেন, শব্দকোষ খসড়া করতে পারেন এবং এমনকি প্লেব্যাক দেখার সময় ব্যাচ প্রম্পট ট্রিগার করতে পারেন। SRT/VTT শৈলীগুলির উপর দ্রুত পুনরাবৃত্তি করার জন্য বা সামঞ্জস্যপূর্ণ বিন্যাস সহ অনুবাদিত ক্যাপশন সেট তৈরি করার জন্য এটি বিশেষভাবে কাজে লাগে।

মূল বিষয়গুলি

স্বয়ংক্রিয়ভাবে অডিও ও ভিডিও ক্যাপশন তৈরি করতে Qwen3‑Omni কে প্রম্পট করার জন্য, বিন্যাস, টাইমিং, লাইনের দৈর্ঘ্য এবং শৈলী সম্পর্কে স্পষ্ট হন।

সর্বদা একটি ট্রান্সক্রিপ্ট দিয়ে শুরু করুন, তারপর SRT/VTT তৈরি করার আগে একটি শব্দকোষের মাধ্যমে পরিভাষা লক করুন।

টাইমস্ট্যাম্প বজায় রাখে এমন অনুবাদগুলি ব্যবহার করুন; সংক্ষিপ্ত স্পট-চেক দিয়ে QC করুন।

চঙ্কিং, JSON সাইডকার এবং সাধারণ ব্যাচ স্ক্রিপ্টগুলির সাথে স্কেল করুন।

একটি অ্যাক্সেসিবিলিটি মানসিকতা রাখুন—যেখানে বোধগম্যতা পরিবর্তন হয় সেখানে অ-ভাষণ অডিও যোগ করুন।

পরবর্তী পদক্ষেপ

উপরের টেমপ্লেটগুলির মধ্যে একটি বেছে নিন এবং এটিকে 2-3 মিনিটের ক্লিপে চালান।

আপনার ডোমেনের জন্য 10-শব্দের একটি শব্দকোষ তৈরি করুন এবং পুনরায় প্রম্পট করুন।

স্বয়ংক্রিয় করুন: আপনার পছন্দের প্রম্পটটিকে একটি প্রিসেট হিসাবে সংরক্ষণ করুন এবং একটি অতিরিক্ত ভাষায় অনুবাদ পরীক্ষা করুন।

একটি 3-মিনিটের QC চেকলিস্ট তৈরি করুন এবং প্রকাশ করার আগে এটি প্রয়োগ করুন।

এই প্রম্পট এবং প্যাটার্নগুলির সাথে, আপনি কয়েক মিনিটের মধ্যে র মিডিয়া থেকে সঠিক, প্ল্যাটফর্ম-প্রস্তুত ক্যাপশনে যাবেন—ঘণ্টায় নয়।

FAQ

Q1:আমি কিভাবে Qwen3‑Omni কে স্বয়ংক্রিয়ভাবে অডিও ক্যাপশন তৈরি করার জন্য প্রম্পট করব? একটি স্পষ্ট নির্দেশ ব্যবহার করুন যা বিন্যাস (SRT, VTT, বা ট্রান্সক্রিপ্ট), টাইমিং নিয়ম এবং লাইনের সীমা নির্দিষ্ট করে। উদাহরণস্বরূপ, প্রতি cue-তে 1-2 লাইন, প্রতি cue-তে 1.2-4.0 সেকেন্ড এবং প্রতি লাইনে ≤ 42 অক্ষর সহ SRT-এর জন্য অনুরোধ করুন।

Q2:Qwen3‑Omni কি একই ভিডিও থেকে বহুভাষিক ক্যাপশন তৈরি করতে পারে? হ্যাঁ। প্রথমে উৎস ভাষায় ক্যাপশন তৈরি করুন, তারপর Qwen3‑Omni কে টাইমস্ট্যাম্প বজায় রেখে অনুবাদ করতে বলুন। আরও ভালো সাবলীলতার জন্য es-MX বা fr-FR-এর মতো লোকেল ভেরিয়েন্ট নির্দিষ্ট করুন।

Q3:YouTube ক্যাপশনের জন্য সেরা বিন্যাস কোনটি: SRT বা VTT? দুটোই কাজ করে, তবে SRT সাধারণত ব্যবহৃত হয় এবং যাচাই করা সহজ। আপনার যদি ওয়েব-নেটিভ বৈশিষ্ট্যের প্রয়োজন হয়, তাহলে WebVTT আদর্শ এবং HTML5 প্লেয়ার দ্বারা ব্যাপকভাবে সমর্থিত।

Q4:আমি কিভাবে কারিগরি শব্দ এবং নামের সাথে নির্ভুলতা উন্নত করতে পারি? প্রামাণিক বানান এবং সংক্ষিপ্ত রূপ সহ আপনার প্রম্পটে একটি মিনি-শব্দকোষ সরবরাহ করুন। Qwen3‑Omni কে শব্দকোষ শব্দ পছন্দ করতে এবং . দিয়ে অনিশ্চয়তা চিহ্নিত করতে বলুন।

Q5:অটো-ক্যাপশনিং করার সময় আমি কিভাবে দীর্ঘ ভিডিও পরিচালনা করব? মিডিয়াকে অধ্যায় বা নীরবতা-ভিত্তিক অংশে বিভক্ত করুন, প্রতিটিটিকে একই প্রম্পট দিয়ে ক্যাপশন দিন, তারপর টাইমস্ট্যাম্পগুলি পুনরায় একত্রিত করুন। এটি ড্রিফট কমায় এবং সামঞ্জস্যতা উন্নত করে।