কীভাবে Qwen3‑Omni কে স্বয়ংক্রিয়ভাবে অডিও ও ভিডিও ক্যাপশন তৈরি করার জন্য প্রম্পট করবেন
যদি আপনি কখনও তাড়াহুড়ো করে কোনো প্রোডাক্ট ডেমো বা ওয়েবিনারের রিপ্লে পাবলিশ করতে গিয়ে দেখেন যে ক্যাপশন নেই— অথবা আরও খারাপ, ভুল আছে— তাহলে আপনি একা নন। ভালো ক্যাপশন শুধুমাত্র অ্যাক্সেসিবিলিটির বিষয় নয়; এগুলি আবিষ্কারযোগ্যতার জ্বালানি, সম্মতির বিমা এবং আকর্ষন বৃদ্ধিকারী। ভালো খবর: সঠিক প্রম্পটিং কৌশল ব্যবহার করে, Qwen3‑Omni নির্ভরযোগ্য নির্ভুলতা এবং গতির সাথে স্বয়ংক্রিয়ভাবে অডিও এবং ভিডিও ক্যাপশন তৈরি করতে পারে।
এই ব্যবহারিক, সমাধান-ভিত্তিক গাইড আপনাকে দেখাবে কিভাবে স্বয়ংক্রিয় ক্যাপশনের জন্য Qwen3‑Omni কে প্রম্পট করতে হয়, সেগুলির অনুবাদ করতে হয়, বিভিন্ন প্ল্যাটফর্মের জন্য ফরম্যাট করতে হয় এবং আপনার ওয়ার্কফ্লো স্কেল করতে হয়। আপনি কপি-পেস্ট প্রম্পট টেমপ্লেট, কঠিন অডিওর জন্য টিপস এবং কোয়ালিটি কন্ট্রোল পদক্ষেপ পাবেন যা আপনাকে ঝামেলা থেকে দূরে রাখবে।
আপনি যা শিখবেন
- স্বয়ংক্রিয়ভাবে অডিও এবং ভিডিও ফাইলের ক্যাপশন তৈরি করার জন্য Qwen3‑Omni কে কিভাবে প্রম্পট করতে হয়
- ট্রান্সক্রিপ্ট, সাবটাইটেল (SRT/VTT), এবং অনুবাদের জন্য প্রম্পট টেমপ্লেট
- গোলমালপূর্ণ অডিও, একাধিক বক্তা এবং জার্গনের জন্য নির্ভুলতা বৃদ্ধিকারী টিপস
- একটি কন্টেন্ট লাইব্রেরি জুড়ে স্কেল করার জন্য ব্যাচ এবং API ওয়ার্কফ্লো
- QC চেকলিস্ট এবং সময়-সাশ্রয়ী অটোমেশন টিপস
শেষ পর্যন্ত, আপনার কাছে একটি পুনরাবৃত্তিযোগ্য প্লেবুক থাকবে যা ক্যাপশনবিহীন মিডিয়াকে SEO-বান্ধব, অ্যাক্সেসযোগ্য সম্পদে পরিণত করবে।
স্বয়ংক্রিয় ক্যাপশনিংয়ের জন্য Qwen3‑Omni কেন?
Qwen3‑Omni একটি মাল্টিমোডাল মডেল যা টেক্সট নির্দেশাবলীর পাশাপাশি অডিও এবং ভিডিওর প্রসঙ্গ বুঝতে পারে। এটি নির্দেশাবলী অনুসরণ করে ক্যাপশন তৈরি করার জন্য খুবই উপযোগী:
- নির্দেশাবলী অনুসরণ: আপনি আউটপুট ফরম্যাট (SRT, VTT, প্লেইন টেক্সট, অথবা JSON), স্পিকার লেবেল, টাইমস্ট্যাম্প এবং স্টাইল নির্দিষ্ট করতে পারেন।
- প্রাসঙ্গিক বোধগম্যতা: আপনি যখন একটি শব্দকোষ বা উদাহরণ প্রদান করেন, তখন এটি ডোমেইন টার্মগুলি সামলাতে পারে।
- বহুভাষিক: বিশ্বব্যাপী দর্শকদের জন্য উপযোগী—সোর্স ভাষায় ক্যাপশন তৈরি করুন, তারপর টাইমিং ঠিক রেখে অনুবাদ করুন।
যদি আপনার লক্ষ্য হয় পরিষ্কার, সামঞ্জস্যপূর্ণ ফরম্যাটিংয়ের সাথে নির্ভরযোগ্যভাবে ক্যাপশন তৈরি করা, তাহলে Qwen3‑Omni কে ইচ্ছাকৃতভাবে প্রম্পট করা ভালো এবং খুব ভালো ফলাফলের মধ্যে পার্থক্য তৈরি করে।
মূল প্রম্পট: দ্রুত পরিষ্কার ক্যাপশন পান
যখন আপনি একক-স্পিকার উৎস থেকে দ্রুত, পাঠযোগ্য ক্যাপশন পেতে চান তখন এই বেসলাইন প্রম্পট ব্যবহার করুন।
একক-স্পিকার, পরিষ্কার অডিও (শুধুমাত্র ট্রান্সক্রিপ্ট)
সিস্টেম: আপনি একজন বিশেষজ্ঞ ট্রান্সক্রিপশনিস্ট এবং ক্যাপশন ফরম্যাটার।
ব্যবহারকারী: সংযুক্ত অডিও/ভিডিও ট্রান্সক্রাইব করুন। প্যারাগ্রাফ আকারে একটি পরিষ্কার ট্রান্সক্রিপ্ট আউটপুট করুন।
- ভাষা: বক্তার ভাষার সাথে মিল রাখুন।
- অর্থ বজায় রাখুন, স্পষ্ট ভুলগুলো ঠিক করুন।
- কোনো বিষয় নিজের থেকে যোগ করবেন না।
- প্রতি 30 সেকেন্ডে ব্র্যাকেটে টাইমস্ট্যাম্প দিন, যেমন [00:30], [01:00]।
- স্পিকার লেবেলের প্রয়োজন নেই।
স্ট্রাকচার্ড ক্যাপশন (SRT)
সিস্টেম: আপনি ওয়েব ভিডিওর জন্য একজন পেশাদার সাবটাইটেলার।
ব্যবহারকারী: সংযুক্ত মিডিয়ার জন্য SRT সাবটাইটেল তৈরি করুন।
- লাইনগুলি যেখানে সম্ভব 42 অক্ষরের নিচে রাখুন।
- প্রতি ক্যাপশনে 1–2 লাইন।
- সিকোয়েন্স নম্বর যোগ করুন।
- HH:MM:SS,mmm ফরম্যাটে শুরু → শেষ টাইমস্ট্যাম্প দিন
- স্বাভাবিক বিরতির সাথে সিঙ্ক্রোনাইজ করুন।
- গানের কথা না থাকলে মিউজিক নোট অন্তর্ভুক্ত করবেন না।
- স্টাইল: সংক্ষিপ্ত, পাঠযোগ্য, কোনো ফিলার শব্দ নয়।
ওয়েব ক্যাপশন (VTT)
সিস্টেম: আপনি একজন ক্যাপশনিং বিশেষজ্ঞ।
ব্যবহারকারী: সংযুক্ত মিডিয়ার জন্য WebVTT ক্যাপশন আউটপুট করুন।
- 'WEBVTT' হেডার অন্তর্ভুক্ত করুন।
- '.' মিলিসেকেন্ড সেপারেটর সহ cue টাইমিং ব্যবহার করুন।
- প্রতি cue-তে 1–2 লাইন রাখুন, প্রতি লাইনে সর্বোচ্চ 42 অক্ষর।
- অতিরিক্ত সেগমেন্টেশন এড়িয়ে চলুন; বাক্যের সীমানার সাথে সারিবদ্ধ করুন।
পরামর্শ: যখন আপনি Qwen3‑Omni কে স্বয়ংক্রিয়ভাবে অডিও ও ভিডিও ক্যাপশন তৈরি করার জন্য প্রম্পট করেন, তখন ফরম্যাট, টাইমিং নিয়ম এবং সংক্ষিপ্ততার বিষয়ে স্পষ্ট থাকুন। মডেলগুলি পরিমাপযোগ্য হলে সীমাবদ্ধতাগুলি সবচেয়ে ভালোভাবে অনুসরণ করে।
বাস্তব-বিশ্বের জটিলতা সামলানো
সব অডিও স্টুডিওর মতো পরিষ্কার নয়। এখানে আপনার প্রম্পটগুলিকে অগোছালো বিষয়ের জন্য কিভাবে মানিয়ে নিতে হয় তা বলা হলো।
একাধিক বক্তা
সিস্টেম: আপনি একজন কোর্ট-গ্রেড ট্রান্সক্রিপশনিস্ট।
ব্যবহারকারী: স্পিকার লেবেল সহ ট্রান্সক্রাইব করুন।
- স্পিকারদের Speaker 1, Speaker 2, ইত্যাদি হিসাবে চিহ্নিত এবং ট্যাগ করুন।
- স্পিকার পরিবর্তনের সাথে নতুন লাইন দিন।
- প্রতিটি স্পিকারের টার্নে [HH:MM:SS] ফরম্যাটে টাইমস্ট্যাম্প যোগ করুন।
- নিশ্চিত না হলে, কণ্ঠের পরিবর্তন থেকে অনুমান করুন; লেবেলবিহীন রাখবেন না।
- উদাহরণ বিন্যাস:
[00:00] Speaker 1: সবাইকে স্বাগতম...
[00:07] Speaker 2: ধন্যবাদ! আজ আমরা আলোচনা করব...
গোলমালপূর্ণ অডিও বা ক্রস-টক
সিস্টেম: আপনি একজন ব্রডকাস্ট ক্যাপশন এডিটর।
ব্যবহারকারী: নয়েজ-সচেতন সম্পাদনা সহ SRT সাবটাইটেল তৈরি করুন।
- ফিলার শব্দ (উম, আহ, লাইক) সরিয়ে দিন যদি না অপরিহার্য হয়।
- যদি কোনো শব্দ অনিশ্চিত হয়, তাহলে . দিয়ে ব্র্যাকেট করুন।
- ওভারল্যাপিং স্পিচের জন্য, প্রভাবশালী কণ্ঠস্বর চয়ন করুন এবং অন্যটি ব্র্যাকেটে সংক্ষিপ্ত করুন।
- উদাহরণ: [ওভারল্যাপিং] আপনি কি দয়া করে পুনরাবৃত্তি করতে পারবেন?
কারিগরী জার্গন এবং নাম
একটি মিনি-গ্লসারি প্রদান করুন যাতে Qwen3‑Omni ডোমেইন টার্মগুলিতে লক করতে পারে।
সিস্টেম: আপনি একজন কারিগরী সাবটাইটেলার।
ব্যবহারকারী: সঠিক শব্দ/বানানের জন্য নিম্নলিখিত শব্দকোষ ব্যবহার করুন:
- Kubernetes (K8s)
- Istio
- Postgres (ক্যাপশনে PostgreSQL নয়)
- Latency SLO
তারপর এই সঠিক বানানগুলি দিয়ে SRT ক্যাপশন তৈরি করুন।
সোশ্যাল ক্লিপের জন্য পেসিং
সিস্টেম: আপনি TikTok/Reels-এর জন্য একজন স্বল্প-ফর্ম ভিডিও ক্যাপশনার।
ব্যবহারকারী: পাঞ্চি বার্নড-ইন ক্যাপশন আউটপুট করুন।
- প্রতি cue-তে সর্বোচ্চ 1 লাইন, ≤ 24 অক্ষর।
- ALL CAPS-এ কীওয়ার্ডের উপর জোর দিন।
- cue গুলো 0.8–1.6 সেকেন্ডের জন্য স্ক্রিনে রাখুন।
- শেষে বিরামচিহ্ন ব্যবহার করবেন না যদি না এটি একটি প্রশ্ন হয়।
- মোশন গ্রাফিক্সের জন্য cue টাইম সহ একটি JSON সাইডকার অন্তর্ভুক্ত করুন:
{
"cues": [{"t": 0.8, "d": 1.2, "text": "STOP SCROLLING"}, ...]
}
এন্ড-টু-এন্ড ওয়ার্কফ্লো: র মিডিয়া থেকে পাবলিশড ক্যাপশন
YouTube, LMS, ওয়েবিনার বা অভ্যন্তরীণ প্রশিক্ষণের জন্য আপনার সামঞ্জস্যপূর্ণ আউটপুট প্রয়োজন হলে এই ক্ষেত্র-পরীক্ষিত ক্রমটি ব্যবহার করুন।
- সামঞ্জস্যপূর্ণভাবে নাম দিন:
project-episode-lang-source.ext (যেমন, launch-demo-en-audio.mp3)।
- দ্রুত প্রক্রিয়াকরণের জন্য প্রতিটি ব্যাচে 2 ঘণ্টার কম মিডিয়া রাখুন।
- আপলোড এবং প্রক্রিয়াকরণের গতি বাড়ানোর জন্য দীর্ঘ ভিডিওর জন্য অডিও বের করুন।
- প্রসঙ্গ এবং পরিভাষা প্রতিষ্ঠার জন্য একটি অনুচ্ছেদ ট্রান্সক্রিপ্টের জন্য প্রম্পট করুন।
- যদি নির্ভুলতা < 95% হয়, তাহলে একটি শব্দকোষ প্রদান করুন এবং পুনরায় প্রম্পট করুন।
- অনুমোদিত ট্রান্সক্রিপ্ট থেকে, একবারে SRT এবং VTT উভয়টির জন্য অনুরোধ করুন:
ব্যবহারকারী: অনুমোদিত ট্রান্সক্রিপ্ট (নীচে পেস্ট করা) ব্যবহার করে আউটপুট করুন:
A) SRT প্রতি cue-তে 1–2 লাইন, ≤ 42 অক্ষর/লাইন সহ
B) একই সেগমেন্টেশন সহ WebVTT
সময় সারিবদ্ধকরণ এবং সামঞ্জস্যপূর্ণ বিরামচিহ্ন নিশ্চিত করুন।
- Qwen3‑Omni কে টাইমস্ট্যাম্প বজায় রেখে ক্যাপশন অনুবাদ করতে বলুন।
- অঞ্চল-উপযুক্ত ভেরিয়েন্ট ব্যবহার করুন: en-US, en-GB, es-MX, pt-BR, fr-FR, ইত্যাদি।
ব্যবহারকারী: cue টাইমিং বজায় রেখে SRT কে স্প্যানিশে (es-MX) অনুবাদ করুন। নাম এবং ব্র্যান্ড শব্দ ইংরেজি তে রাখুন। লাইনের দৈর্ঘ্য বজায় রাখুন।
- গুণমান নিয়ন্ত্রণ চেকলিস্ট
- কারিগরী শব্দ এবং সংখ্যাগুলি পরীক্ষা করুন।
- যাচাই করুন টাইমস্ট্যাম্পগুলি ওভারল্যাপ করে না; cue 1.0–6.0 সেকেন্ড থাকে।
- নিশ্চিত করুন কোনো cue প্রতি লাইনে ~42 অক্ষরের বেশি না হয়।
- পাঠযোগ্যতা পরীক্ষা করুন: বাক্যের ক্ষেত্রে, সংক্ষিপ্ত রূপ ছাড়া কোনো অল-ক্যাপস নয়।
- একটি সাবটাইটেল সম্পাদক (যেমন, Aegisub) দিয়ে যাচাই করুন অথবা একটি ব্যক্তিগত YouTube পরীক্ষা আপলোড করুন।
- প্রকাশ করুন এবং সংরক্ষণ করুন
- আপনার হোস্টিং প্ল্যাটফর্মে SRT/VTT সংযুক্ত করুন।
- ভবিষ্যতের সম্পাদনার জন্য উৎস মিডিয়া, ট্রান্সক্রিপ্ট এবং ক্যাপশন একসাথে সংরক্ষণ করুন।
প্রম্পট টেমপ্লেট যা আপনি আজ অনুলিপি করতে পারেন
ন্যূনতম সম্পাদনার সাথে স্বয়ংক্রিয়ভাবে অডিও ও ভিডিও ক্যাপশন তৈরি করতে এই রেডি-টু-গো স্নিপেটগুলি ব্যবহার করুন।
ইউনিভার্সাল SRT ক্যাপশনিং প্রম্পট
সিস্টেম: আপনি একজন সিনিয়র সাবটাইটেলিং সম্পাদক।
ব্যবহারকারী: সংযুক্ত মিডিয়ার জন্য SRT সাবটাইটেল তৈরি করুন।
নিয়ম:
- 1–2 লাইন/cue, ≤ 42 অক্ষর/লাইন
- প্রতিটি cue 1.2–4.0 সেকেন্ড
- বাক্যের সীমানা পছন্দনীয়; স্বাভাবিক বিরতিতে দীর্ঘ বাক্য বিভক্ত করুন
- স্পষ্ট ফিলার সংশোধন করুন তবে সুর বজায় রাখুন
- উদাহরণ বিন্যাস:
1
00:00:00,000 --> 00:00:02,500
লঞ্চে স্বাগতম।
2
00:00:02,500 --> 00:00:05,100
আজ আমরা আপনাকে রোডম্যাপ দেখাব।
ট্রান্সক্রিপ্ট + স্পিকার লেবেল
সিস্টেম: আপনি একজন সাক্ষাত্কার ট্রান্সক্রাইবার।
ব্যবহারকারী: স্পিকার পরিবর্তনের সময় টাইমস্ট্যাম্প সহ একটি লেবেলযুক্ত ট্রান্সক্রিপ্ট তৈরি করুন।
বিন্যাস:
[HH:MM:SS] Speaker X: text...
নির্দেশিকা:
- বাক্য অক্ষত রাখুন; বাক্যের মাঝে লাইন বিরতি নয়।
- অস্পষ্ট হলেই সংকোচন প্রসারিত করুন।
- শুধুমাত্র প্রয়োজনে [inaudible] ট্যাগ করুন।
টাইমিং বজায় রেখে অনুবাদ করুন
সিস্টেম: আপনি একজন স্থানীয়করণ সম্পাদক।
ব্যবহারকারী: এই SRT কে ফরাসি (fr-FR) তে অনুবাদ করুন। টাইমস্ট্যাম্প রাখুন। পণ্যের নাম ইংরেজি তে রাখুন। লাইনের বিরতি এবং দৈর্ঘ্য বজায় রাখুন। অনুবাদের পরে যদি কোনো লাইন 42 অক্ষরের বেশি হয়, তাহলে একটি স্বাভাবিক বিরতিতে বিভক্ত করুন।
কমপ্লায়েন্স-ফ্রেন্ডলি ক্যাপশন (WCAG/ADA)
সিস্টেম: আপনি একজন অ্যাক্সেসিবিলিটি ক্যাপশনিং বিশেষজ্ঞ।
ব্যবহারকারী: অ্যাক্সেসিবিলিটি cue সহ SRT ক্যাপশন তৈরি করুন।
- যেখানে প্রাসঙ্গিক সেখানে [music], [laughter], [applause] অন্তর্ভুক্ত করুন।
- [whispering], [shouting] যোগ করুন যদি এটি অর্থ পরিবর্তন করে।
- বেসরকারী অডিওর বর্ণনা করুন যা বোধগম্যতাকে প্রভাবিত করে।
- বর্ণনা সংক্ষিপ্ত এবং ব্র্যাকেটেড রাখুন।
স্মার্ট প্রম্পট দিয়ে কিভাবে নির্ভুলতা বাড়ানো যায়
- একটি শব্দকোষ দিন: Qwen3‑Omni কে 10–30টি ডোমেইন শব্দ দিন প্রামাণিক বানান সহ। এটি পণ্যের নাম এবং সংক্ষিপ্ত রূপের ভুল ট্রান্সক্রিপশন নাটকীয়ভাবে হ্রাস করে।
- গতি নির্দিষ্ট করুন: স্ট্রোবের মতো ক্যাপশন এড়াতে মডেলটিকে আপনার সর্বনিম্ন এবং সর্বোচ্চ cue সময়কাল বলুন।
- অধ্যায় অনুসারে ভাগ করুন: দীর্ঘ ভিডিওর জন্য, প্রতিটি অধ্যায়ের জন্য প্রম্পট করুন এবং SRTs স্ট্রিচ করুন; প্রসঙ্গ টাইট এবং ত্রুটি কম রাখে।
- একটি সংক্ষিপ্ত স্টাইল গাইড সরবরাহ করুন: বিরামচিহ্ন, কেসিং, নিষিদ্ধ শব্দ ("uh", "um") এবং প্যারাফ্রেজ করবেন কিনা।
- একটি রেফারেন্স ট্রান্সক্রিপ্ট ব্যবহার করুন: আপনার যদি স্লাইড বা স্ক্রিপ্ট থাকে তবে তা অন্তর্ভুক্ত করুন। মডেলটিকে রেফারেন্স ব্যবহার করে অস্পষ্টতা সমাধান করার নির্দেশ দিন।
উদাহরণ: 45 মিনিটের ওয়েবিনারকে 20 মিনিটের মধ্যে ক্যাপশনে রূপান্তর করা
- MP4 আপলোড করুন এবং প্রতি 30 সেকেন্ডে টাইমস্ট্যাম্প সহ একটি অনুচ্ছেদ ট্রান্সক্রিপ্টের জন্য জিজ্ঞাসা করুন।
- ডেক থেকে 12-আইটেমের একটি শব্দকোষ প্রদান করুন (পণ্যের নাম, মেট্রিক, সংক্ষিপ্ত রূপ)।
- 1.4–3.5s cues, সর্বোচ্চ 42 অক্ষর/লাইন, বাক্য-সারিবদ্ধ সহ SRT-এর জন্য অনুরোধ করুন।
- টাইমিং বজায় রেখে জাপানি এবং স্প্যানিশ ভাষায় অনুবাদ করুন।
- প্রথম 5 মিনিট এবং দুটি এলোমেলো 60-সেকেন্ডের অংশ QC করুন।
- ইংরেজি SRT + VTT প্রকাশ করুন; অনুবাদিত SRT গুলিকে ঐচ্ছিক ট্র্যাক হিসাবে রাখুন।
সময় সাশ্রয়: ম্যানুয়াল ক্যাপশনিংয়ের তুলনায় প্রতি ওয়েবিনারে ~2–3 ঘন্টা।
API এবং ব্যাচ প্রক্রিয়াকরণ প্যাটার্ন
এমনকি আপনি যদি চ্যাট ইন্টারফেস পছন্দ করেন তবে ব্যাচ ক্যাপশনিং আসল থ্রুপুট আনলক করে।
JSON-প্রথম চুক্তি
অটোমেশনের জন্য ক্যাপশনের পাশাপাশি একটি JSON আউটপুট করার জন্য Qwen3‑Omni কে জিজ্ঞাসা করুন।
সিস্টেম: আপনি একজন ক্যাপশন পাইপলাইন সহকারী।
ব্যবহারকারী: সংযুক্ত মিডিয়ার জন্য, ফেরত দিন:
1) SRT সাবটাইটেল
2) ক্ষেত্র সহ JSON সূচক:
{
"duration_sec": সংখ্যা,
"language": "en-US",
"words_per_min": সংখ্যা,
"cue_count": সংখ্যা,
"avg_cue_len_chars": সংখ্যা
}
দীর্ঘ মিডিয়া চঙ্কিং
60 মিনিটের বেশি ভিডিওর জন্য, নীরবতা বা অধ্যায় চিহ্নিতকারীর উপর বিভক্ত করুন।
- একই প্রম্পট দিয়ে প্রতিটি অংশকে স্বাধীনভাবে প্রক্রিয়া করুন।
- অংশের শুরু অফসেট যোগ করে টাইমস্ট্যাম্পগুলি পুনরায় একত্রিত করুন।
- বিরামচিহ্ন এবং কেসিং স্বাভাবিক করতে একটি চূড়ান্ত পাস চালান।
ন্যূনতম ছদ্মকোড
from pathlib import Path
media_files = sorted(Path("./media").glob("*.mp3"))
for f in media_files:
# 1) SRT প্রম্পট সহ আপনার Qwen3-Omni ক্যাপশন এন্ডপয়েন্টে f পাঠান
srt = caption_with_qwen(f, prompt="<universal_srt_prompt>")
# 2) ঐচ্ছিক: অনুবাদ করুন
srt_es = translate_captions(srt, lang="es-MX")
# 3) যাচাই করুন এবং ফাইল লিখুন
validate_srt(srt)
Path("./out").mkdir(exist_ok=True)
Path(f"./out/{f.stem}.srt").write_text(srt, encoding="utf-8")
Path(f"./out/{f.stem}.es-MX.srt").write_text(srt_es, encoding="utf-8")
গুণমান নিয়ন্ত্রণ: একটি 3-মিনিটের স্পট-চেক রুটিন
- টাইমিং: নিশ্চিত করুন 3-5টি এলোমেলো cue 1–6 সেকেন্ডের মধ্যে পড়ে এবং বক্তৃতা সাথে মেলে।
- পাঠযোগ্যতা: লাইন ≤ 42 অক্ষর, বাক্যের ক্ষেত্রে, প্রয়োজন না হলে বাক্যের মধ্যে কোনো লাইন বিরতি নয়।
- নির্ভুলতা: নাম, সংখ্যা, URL এবং পণ্যের শব্দগুলি সঠিক; কোনো ভুল শোনা সংশোধন করুন।
- অ্যাক্সেসিবিলিটি: অ-ভাষণ অডিও cue অর্থপূর্ণ হলে উপস্থিত থাকে।
যদি আপনি একটি স্পট-চেকের মধ্যে 1-2টির বেশি সমস্যা খুঁজে পান তবে একটি শব্দকোষ এবং স্টাইল গাইড দিয়ে পুনরায় প্রম্পট করুন, তারপর পুনরায় তৈরি করুন।
সমস্যা সমাধান: যখন ক্যাপশন ভুল পথে যায়
- অস্থির টাইমিং: স্পষ্ট সর্বনিম্ন/সর্বোচ্চ cue সময়কাল যোগ করুন এবং বাক্যের সীমানার সাথে সারিবদ্ধ করার অনুরোধ করুন।
- অদ্ভুত বিরামচিহ্ন: একটি এক-পাতার শৈলী নিয়ম সরবরাহ করুন (যেমন, কোনো উপবৃত্ত নয়; em ড্যাশ কম ব্যবহার করুন)।
- স্পিকার বিভ্রান্তি: সঠিক লেবেল সহ টীকাযুক্ত একটি ছোট অংশ সরবরাহ করুন; মডেলটিকে লেবেলিং অনুকরণ করার নির্দেশ দিন।
- ব্যাকগ্রাউন্ড সঙ্গীত প্রভাবশালী: নয়েজ-সচেতন ট্রান্সক্রিপশনের জন্য জিজ্ঞাসা করুন এবং অর্থপূর্ণ না হলে বেসরকারী শব্দগুলিকে কম অগ্রাধিকার দেওয়ার জন্য নির্দিষ্ট করুন।
- প্ল্যাটফর্ম SRT প্রত্যাখ্যান করে: SRT-তে মিলিসেকেন্ডের জন্য কমা (
00:00:01,000) নিশ্চিত করুন এবং cue সূচকগুলি কোনো ফাঁক ছাড়াই ক্রমানুসারে রয়েছে।
সবকিছু একসাথে রাখা: একটি পুনরায় ব্যবহারযোগ্য মাস্টার প্রম্পট
আপনি যখন অনুমানযোগ্য, প্ল্যাটফর্ম-প্রস্তুত ফলাফলের প্রয়োজন হয় তখন এই মাস্টার প্রম্পট ব্যবহার করুন।
সিস্টেম: আপনি একজন সিনিয়র ক্যাপশনিং সম্পাদক যা সম্প্রচার-গুণমানের সাবটাইটেল তৈরি করেন।
ব্যবহারকারী: সংযুক্ত মিডিয়ার ক্যাপশন দিন এবং তিনটি আউটপুট ফেরত দিন:
A) পরিষ্কার ট্রান্সক্রিপ্ট (অনুচ্ছেদ, প্রতি 30 সেকেন্ডে টাইমস্ট্যাম্প)
B) SRT (1–2 লাইন/cue, ≤ 42 অক্ষর/লাইন, 1.2–4.0s/cue, বাক্য-সারিবদ্ধ)
C) WebVTT (SRT সেগমেন্টেশন মিরর করুন)
নির্দেশিকা:
- ভাষা: উৎসের সাথে মেলান।
- স্পষ্ট ত্রুটিগুলি ঠিক করুন; অর্থের প্যারাফ্রেজ করবেন না।
- সংখ্যা, নাম এবং ব্র্যান্ড শব্দগুলি অবশ্যই সঠিক হতে হবে; নিশ্চিত না হলে, চিহ্নিত করুন।
- কোনো ইমোজি নয়, কোনো অতিরিক্ত ভাষ্য নয়।
যাইহোক: Sider.ai দিয়ে কর্মপ্রবাহের গতি বাড়ানো
আপনি যখন প্রতি সপ্তাহে একাধিক সম্পদ ঘুরিয়ে দিচ্ছেন, তখন ব্রাউজারের একটি সাইডবার সহকারী সরঞ্জামগুলির মধ্যে সময় বাঁচায়। উল্লেখ করার মতো: Sider.ai আপনার ক্যাপশনিং ওয়ার্কফ্লোর পাশে বসতে পারে। আপনি ট্রান্সক্রিপ্ট পেস্ট করতে পারেন, প্রম্পট ভেরিয়েন্ট তৈরি করতে পারেন, শব্দকোষ খসড়া করতে পারেন এবং এমনকি প্লেব্যাক দেখার সময় ব্যাচ প্রম্পট ট্রিগার করতে পারেন। SRT/VTT শৈলীগুলির উপর দ্রুত পুনরাবৃত্তি করার জন্য বা সামঞ্জস্যপূর্ণ বিন্যাস সহ অনুবাদিত ক্যাপশন সেট তৈরি করার জন্য এটি বিশেষভাবে কাজে লাগে। মূল বিষয়গুলি
- স্বয়ংক্রিয়ভাবে অডিও ও ভিডিও ক্যাপশন তৈরি করতে Qwen3‑Omni কে প্রম্পট করার জন্য, বিন্যাস, টাইমিং, লাইনের দৈর্ঘ্য এবং শৈলী সম্পর্কে স্পষ্ট হন।
- সর্বদা একটি ট্রান্সক্রিপ্ট দিয়ে শুরু করুন, তারপর SRT/VTT তৈরি করার আগে একটি শব্দকোষের মাধ্যমে পরিভাষা লক করুন।
- টাইমস্ট্যাম্প বজায় রাখে এমন অনুবাদগুলি ব্যবহার করুন; সংক্ষিপ্ত স্পট-চেক দিয়ে QC করুন।
- চঙ্কিং, JSON সাইডকার এবং সাধারণ ব্যাচ স্ক্রিপ্টগুলির সাথে স্কেল করুন।
- একটি অ্যাক্সেসিবিলিটি মানসিকতা রাখুন—যেখানে বোধগম্যতা পরিবর্তন হয় সেখানে অ-ভাষণ অডিও যোগ করুন।
পরবর্তী পদক্ষেপ
- উপরের টেমপ্লেটগুলির মধ্যে একটি বেছে নিন এবং এটিকে 2-3 মিনিটের ক্লিপে চালান।
- আপনার ডোমেনের জন্য 10-শব্দের একটি শব্দকোষ তৈরি করুন এবং পুনরায় প্রম্পট করুন।
- স্বয়ংক্রিয় করুন: আপনার পছন্দের প্রম্পটটিকে একটি প্রিসেট হিসাবে সংরক্ষণ করুন এবং একটি অতিরিক্ত ভাষায় অনুবাদ পরীক্ষা করুন।
- একটি 3-মিনিটের QC চেকলিস্ট তৈরি করুন এবং প্রকাশ করার আগে এটি প্রয়োগ করুন।
এই প্রম্পট এবং প্যাটার্নগুলির সাথে, আপনি কয়েক মিনিটের মধ্যে র মিডিয়া থেকে সঠিক, প্ল্যাটফর্ম-প্রস্তুত ক্যাপশনে যাবেন—ঘণ্টায় নয়।
FAQ
Q1:আমি কিভাবে Qwen3‑Omni কে স্বয়ংক্রিয়ভাবে অডিও ক্যাপশন তৈরি করার জন্য প্রম্পট করব?
একটি স্পষ্ট নির্দেশ ব্যবহার করুন যা বিন্যাস (SRT, VTT, বা ট্রান্সক্রিপ্ট), টাইমিং নিয়ম এবং লাইনের সীমা নির্দিষ্ট করে। উদাহরণস্বরূপ, প্রতি cue-তে 1-2 লাইন, প্রতি cue-তে 1.2-4.0 সেকেন্ড এবং প্রতি লাইনে ≤ 42 অক্ষর সহ SRT-এর জন্য অনুরোধ করুন।
Q2:Qwen3‑Omni কি একই ভিডিও থেকে বহুভাষিক ক্যাপশন তৈরি করতে পারে?
হ্যাঁ। প্রথমে উৎস ভাষায় ক্যাপশন তৈরি করুন, তারপর Qwen3‑Omni কে টাইমস্ট্যাম্প বজায় রেখে অনুবাদ করতে বলুন। আরও ভালো সাবলীলতার জন্য es-MX বা fr-FR-এর মতো লোকেল ভেরিয়েন্ট নির্দিষ্ট করুন।
Q3:YouTube ক্যাপশনের জন্য সেরা বিন্যাস কোনটি: SRT বা VTT?
দুটোই কাজ করে, তবে SRT সাধারণত ব্যবহৃত হয় এবং যাচাই করা সহজ। আপনার যদি ওয়েব-নেটিভ বৈশিষ্ট্যের প্রয়োজন হয়, তাহলে WebVTT আদর্শ এবং HTML5 প্লেয়ার দ্বারা ব্যাপকভাবে সমর্থিত।
Q4:আমি কিভাবে কারিগরি শব্দ এবং নামের সাথে নির্ভুলতা উন্নত করতে পারি?
প্রামাণিক বানান এবং সংক্ষিপ্ত রূপ সহ আপনার প্রম্পটে একটি মিনি-শব্দকোষ সরবরাহ করুন। Qwen3‑Omni কে শব্দকোষ শব্দ পছন্দ করতে এবং . দিয়ে অনিশ্চয়তা চিহ্নিত করতে বলুন।
Q5:অটো-ক্যাপশনিং করার সময় আমি কিভাবে দীর্ঘ ভিডিও পরিচালনা করব?
মিডিয়াকে অধ্যায় বা নীরবতা-ভিত্তিক অংশে বিভক্ত করুন, প্রতিটিটিকে একই প্রম্পট দিয়ে ক্যাপশন দিন, তারপর টাইমস্ট্যাম্পগুলি পুনরায় একত্রিত করুন। এটি ড্রিফট কমায় এবং সামঞ্জস্যতা উন্নত করে।