Hogyan utasítsuk Qwen3‑Omnit az audiok és videók automatikus feliratozására
Ha valaha sietve tettél közzé termékdemót vagy webinárium-felvételt, csak hogy utólag vedd észre, hogy hiányoznak a feliratok – vagy még rosszabb, hogy hibásak –, nem vagy egyedül. A jó feliratok nem csupán akadálymentességi követelmény; felfedezhetőséget növelnek, megfelelőségi biztosítékok, valamint a nézői elköteleződés serkentői is. A jó hír: a megfelelő utasítási stratégiával a Qwen3‑Omni képes automatikusan, megbízható pontossággal és gyorsan feliratozni hang- és videóanyagokat.
Ez a gyakorlati, megoldásközpontú útmutató pontosan megmutatja, hogyan kell utasítani a Qwen3‑Omnit az automatikus feliratozásra, azok fordítására, különböző platformokra formázására és a munkafolyamat skálázására. Kézhez kapsz másolható-másolható prompt sablonokat, tippeket trükkös hanganyagokra és minőségellenőrzési lépéseket, amelyek segítenek elkerülni a problémákat.
Amit megtanulsz
- Hogyan utasítsd a Qwen3‑Omnit az audio- és videófájlok automatikus feliratozására
- Prompt sablonok átiratokhoz, feliratokhoz (SRT/VTT) és fordításokhoz
- Pontosság-növelők zajos hangokra, többszólamú beszélgetésekre és szakzsargonra
- Batch és API munkafolyamatok a tartalomkönyvtár skálázására
- Minőségellenőrző listák és időt spóroló automatizálási tippek
A végére egy ismételhető kézikönyved lesz, ami a felirat nélküli médiaanyagokat SEO-barát, akadálymentes tartalmakká alakítja.
Miért érdemes Qwen3‑Omnit választani automatikus feliratozásra?
A Qwen3‑Omni multimodális modell, amely egyszerre érti a hang- és videókontextust szöveges utasításokkal együtt. Ezért különösen alkalmas oktatási jellegű feliratozási munkafolyamatokra:
- Utasításkövetés: Megadhatod a kimeneti formátumot (SRT, VTT, egyszerű szöveg vagy JSON), beszélői címkéket, időbélyegeket és stílussal kapcsolatos elvárásokat.
- Kontextuális megértés: Kezeli a szakterületi kifejezéseket, ha megadsz egy szószedetet vagy példákat.
- Többnyelvű: Hasznos globális közönséghez – elsőként a forrásnyelven készít feliratot, majd lefordítja azt, miközben megőrzi az időzítést.
Ha célod megbízhatóan, skálázható módon, világos és következetes formázással feliratozni, a Qwen3‑Omni tudatos utasítása a jó és kiváló eredmény közti különbség.
Az alap prompt: gyors és tiszta feliratok
Használd ezt az alap promptot, ha gyors, olvasható feliratokat szeretnél egyetlen beszélős, tiszta hanganyaghoz.
Egybeszélős, tiszta hang (csak átirat)
Rendszer: Te egy szakértő átiratkészítő és felirat-formázó vagy.
Felhasználó: Írd le az csatolt audio/videót. Adj tiszta átiratot bekezdésekben.
- Nyelv: egyezzen meg a beszélő nyelvével.
- Őrizd meg a jelentést, javítsd az egyértelmű tévesztéseket.
- Ne találj ki tartalmat.
- Időbélyegek 30 másodpercenként zárójelben, pl. [00:30], [01:00].
- Nem szükséges beszélői címke.
Strukturált feliratok (SRT)
Rendszer: Te profi webes feliratozó vagy.
Felhasználó: Készíts SRT feliratokat a csatolt anyaghoz.
- Sorok lehetőség szerint 42 karakternél rövidebbek legyenek.
- Egy-két sor feliratonként.
- Adj sorszámokat a feliratoknak.
- Időbélyegek kezdete → vége formátumban HH:MM:SS,mmm.
- Szinkronizálj természetes szünetekhez.
- Ne írj be zenei jeleket, ha nincs dalszöveg.
- Stílus: tömör, olvasható, töltelékszavak nélkül.
Webes feliratok (VTT)
Rendszer: Te feliratozó specialista vagy.
Felhasználó: Adj WebVTT feliratokat a csatolt anyaghoz.
- Tartalmazza a 'WEBVTT' fejlécet.
- Időzítések '.' ezredmásodperces elválasztóval.
- 1–2 sor cue-nként, max 42 karakter soronként.
- Kerüld a túlzott szegmentálást; igazíts a mondathatárokhoz.
Pro tipp: Amikor arra utasítod a Qwen3‑Omnit, hogy automatikusan feliratozzon audiót és videót, légy egyértelmű a formátum, az időzítési szabályok és a tömörség tekintetében. A modellek a legjobban akkor követik ezeket, ha mérhetők a korlátok.
A valós helyzetek kezelése
Nem minden hang tökéletes stúdióminőségű. Íme, hogyan igazítsd az utasításokat a zajos vagy bonyolult anyagokra.
Többszólamú beszélők
Rendszer: Te bírósági minőségű átiratkészítő vagy.
Felhasználó: Készíts átiratot beszélői címkékkel.
- Azonosítsd és jelöld meg a beszélőket: Beszélő 1, Beszélő 2, stb.
- Új sor a beszélő váltásakor.
- Időbélyeg minden beszélőváltásnál [HH:MM:SS] formátumban.
- Ha nem vagy biztos, a hangváltozásból következtess; ne hagyj megjelöletlen részeket.
- Példaminta:
[00:00] Beszélő 1: Üdvözlök mindenkit...
[00:07] Beszélő 2: Köszönöm! Ma a következőt tárgyaljuk...
Zajos hang vagy átfedő beszéd
Rendszer: Te broadcast feliratszerkesztő vagy.
Felhasználó: Készíts SRT feliratot zajra érzékeny szerkesztéssel.
- Távolítsd el a töltelékszavakat (öö, hát, szóval), kivéve ha elengedhetetlenek.
- Bizonytalan szavakat szétszedve, alkotójelekkel jelezve.
- Átfedő beszéd esetén válaszd ki a domináns hangot, a másikat összefoglalva tedd zárójelbe.
- Példa: [átfedés] Meg tudnád ismételni?
Technikai zsargon és nevek
Adj mini-szótárt, hogy a Qwen3‑Omni a szakterület kifejezéseire fókuszálhasson.
Rendszer: Te egy technikai feliratozó vagy.
Felhasználó: Használd az alábbi szószedetet a helyes terminológia/helyesírás miatt:
- Kubernetes (K8s)
- Istio
- Postgres (a feliratokban ne PostgreSQL-t írj)
- Latency SLO
Majd készíts SRT feliratokat ezek pontos helyesírásával.
Social Clip-ek ütemezése
Rendszer: Te rövid formátumú videós feliratozó vagy TikTok/Reels platformra.
Felhasználó: Adj ütős, égetett feliratokat.
- Max 1 sor cue-nként, legfeljebb 24 karakter.
- Kulcsszavak legyenek NAGYBETŰS kiemeléssel.
- A cue-k a képernyőn 0,8–1,6 mp között jelenjenek meg.
- A sor végén ne legyen írásjel, kivéve kérdőjel.
- Mellékelj JSON formátumú sidecar fájlt a cue idők mozgó grafikákhoz:
{
"cues": [{"t": 0.8, "d": 1.2, "text": "STOP SCROLLING"}, ...]
}
Teljes munkafolyamat: nyers médiától a közzétett feliratokig
Használd ezt a tesztelt lépéssorozatot, amikor konzisztens kimenetre van szükséged YouTube, LMS, webináriumok vagy belső oktatás számára.
- Nevezd el következetesen:
projekt-epizód-nyelv-forrás.kiterjesztés (pl. launch-demo-hu-audio.mp3).
- Tartsd a médiafelvételeket batchenként 2 óránál rövidebbnek a gyorsabb feldolgozás érdekében.
- Hosszú videóknál válaszd le a hangot a gyorsabb feltöltésért és feldolgozásért.
- Kérj bekezdéses átiratot a kontextus és terminológia meghatározásához.
- Ha a pontosság < 95%, adj szószedetet és indíts új promptot.
- A validált átiratból kérj egyszerre SRT és VTT formátumot:
Felhasználó: A jóváhagyott átirat (alább bemásolva) alapján adj:
A) SRT 1-2 sor cue-val, max 42 karakter soronként
B) WebVTT ugyanezzel a szegmentációval
Biztosítsd az időzítések összehangolását és következetes írásjeleket.
- Kérd meg a Qwen3‑Omnit a feliratok lefordítására miközben megőrzi az időbélyegeket.
- Használj régiónak megfelelő változatokat: en-US, en-GB, es-MX, pt-BR, fr-FR stb.
Felhasználó: Fordítsd spanyolra (es-MX) az SRT-t, miközben megőrzöd a cue időket. A neveket és márkaneveket hagyd angolul. Tartsd a sormagasságot.
- Ellenőrizd a technikai kifejezéseket és számokat véletlenszerűen.
- Győződj meg róla, hogy az időbélyegek nem fedik egymást, a cue-k 1,0–6,0 mp közöttiek.
- Ellenőrizd, hogy egyik cue sor sem haladja meg a ~42 karaktert.
- Figyeld az olvashatóságot: mondatkezdet nagybetűvel, nincs teljes nagybetű kivéve rövidítéseknél.
- Validáld feliratszerkesztővel (pl. Aegisub) vagy tölts fel privát YouTube tesztet.
- Csatold az SRT/VTT fájlokat a hosting platformhoz.
- Tárold együtt a forrás médiát, átiratot és feliratokat a későbbi szerkesztésekhez.
Prompt sablonok, amiket ma már használhatsz
Használd ezeket a kész, azonnal alkalmazható snippet-eket az audio és video automatikus feliratozásához minimális szerkesztéssel.
Általános SRT Feliratozó Prompt
Rendszer: Te egy senior feliratszerkesztő vagy.
Felhasználó: Készíts SRT feliratokat a csatolt anyaghoz.
Szabályok:
- 1-2 sor/cue, max 42 karakter/sor
- Cue-k hossza 1,2–4,0 mp között
- Mondathatárok előnyben; hosszú mondatokat természetes szüneteknél bontsd
- Javítsd az egyértelmű töltelékszavakat, de őrizd meg a hangulatot
- Példaminta:
1
00:00:00,000 --> 00:00:02,500
Üdvözlünk a bemutatón.
2
00:00:02,500 --> 00:00:05,100
Ma bemutatjuk az ütemtervet.
Átirat és beszélői címkék
Rendszer: Te egy interjú átiratkészítő vagy.
Felhasználó: Készíts időbélyeges, beszélőkkel ellátott átiratot minden beszélőváltáskor.
Formátum:
[HH:MM:SS] Beszélő X: szöveg...
Irányelvek:
- Maradj a mondatoknál; ne szúrd be sorvégeket mondat közben.
- Kötőszavak kibővítése csak tisztázatlanság esetén.
- Csak szükség esetén jelöld [hallhatatlan] címkével.
Fordítás időzítés megtartásával
Rendszer: Te lokalizációs szerkesztő vagy.
Felhasználó: Fordítsd le ezt az SRT-t franciára (fr-FR). Tartsd meg az időbélyegeket, a termékneveket angolul, a sorokat és hosszt. Ha a sor > 42 karakter, bontsd természetes szünetnél.
Megfelelőségi feliratok (WCAG/ADA)
Rendszer: Te akadálymentesítő feliratozó specialista vagy.
Felhasználó: Készíts SRT feliratokat akadálymentesítő jelzésekkel.
- [zene], [nevetés], [taps] jelzések amikor releváns.
- Adj hozzá [suttogás], [kiabálás] ha változtat a jelentésen.
- Írj le kulcsfontosságú, beszéd nélküli hangokat, amik befolyásolják az értést.
- Legyél tömör és használd zárójeleket.
Hogyan növeld a pontosságot okosabb promptokkal
- Adj szószedetet: Adj a Qwen3‑Omninak 10–30 szaktermi kifejezést pontos helyesírással. Ez drasztikusan csökkenti a terméknevek és rövidítések tévesztését.
- Határozd meg az ütemet: Mondd meg a modellnek a minimális és maximális cue időt, hogy elkerüld a villogó feliratokat.
- Fejezetenként dolgozz: Hosszú videóknál fejezetenként promptolj és illeszd össze az SRT-ket; így szoros a kontextus és kevesebb a hiba.
- Adj rövid stílus útmutatót: Írásjelek, nagybetűk, tiltott szavak ("öhm", "öö"), és hogy szabad-e szabadon megfogalmazni.
- Használj referenciaáiratatot: Ha van diákkészlet vagy forgatókönyv, add át a modellnek. Utasítsd, hogy az idegen részeket a referenciával tisztázza.
Példa: 45 perces webinárium feliratozása 20 perc alatt
- Töltsd fel az MP4-et és kérj bekezdéses átiratot 30 mp-es időbélyegekkel.
- Adj egy 12 tételes szószedetet a prezentációból (terméknevek, metrikák, rövidítések).
- Kérj SRT-t 1,4–3,5 mp-es cue-kkal, max 42 karakter soronként, mondat szerinti szegmentálással.
- Fordítsd japánra és spanyolra, miközben megőrzöd az időzítést.
- Ellenőrizd az első 5 percet és két véletlenszerű 60 másodperces szakaszt.
- Publikáld az angol SRT-t és VTT-t; a fordított SRT-k opcionális hangsávok lehetnek.
Megspórolt idő: ~2–3 óra webináriumonként kézi feliratozáshoz képest.
API és csoportos feldolgozási minták
Még ha szereted a chat felületet, a batch-feliratozás igazi átviteli sebességet enged meg.
JSON-központú szerződés
Kérd meg a Qwen3‑Omnit, hogy az automatikus feliratok mellett adj vissza JSON-t az automatizáláshoz.
Rendszer: Te egy felirat-pipeline asszisztens vagy.
Felhasználó: A csatolt anyaghoz add vissza az alábbiakat:
1) SRT feliratok
2) JSON index a következő mezőkkel:
{
"duration_sec": szám,
"language": "en-US",
"words_per_min": szám,
"cue_count": szám,
"avg_cue_len_chars": szám
}
Hosszú média darabolása
60 percnél hosszabb videók esetén darabold szünetek vagy fejezethatárok mentén.
- Minden darabot külön külön dolgozz fel azonos promttal.
- Az időbélyegeket a darab kezdő offsetjével egészítsd ki az összerakásnál.
- Végezz végleges áttekintést az írásjelek és nagybetűk egységesítésére.
Minimális műkód példa
from pathlib import Path
media_files = sorted(Path("./media").glob("*.mp3"))
for f in media_files:
# 1) Küldd el f-et Qwen3-Omni feliratozó végpontra SRT prompttal
srt = caption_with_qwen(f, prompt="<universal_srt_prompt>")
# 2) Opcionális: fordítás
srt_es = translate_captions(srt, lang="es-MX")
# 3) Érvényesítés és fájlírás
validate_srt(srt)
Path("./out").mkdir(exist_ok=True)
Path(f"./out/{f.stem}.srt").write_text(srt, encoding="utf-8")
Path(f"./out/{f.stem}.es-MX.srt").write_text(srt_es, encoding="utf-8")
Minőségellenőrzés: 3 perces véletlenszerű ellenőrzés
- Időzítés: Ellenőrizd 3-5 véletlenszerű cue-t, hogy 1-6 mp között legyen és illeszkedjen a beszédhez.
- Olvashatóság: Sorok ≤ 42 karakter, mondatkezdő nagybetűk, ne bontsd fel a mondat közepét, ha nem muszáj.
- Pontosság: Nevek, számok, URL-ek és terméknevek pontosak legyenek; javíts minden félrehallást.
- Akadálymentesség: Nem beszédhangok jelenjenek meg, ha jelentőséggel bírnak.
Ha egy spot-check több mint 1–2 hibát talál, adj szószedetet és stílus útmutatót, majd generáld újra.
Hibaelhárítás: ha a feliratok nem működnek jól
- Időzítés ugrál: Adj explicit min/max időtartamokat cue-khez és kérd szinkronizálást mondathatárokhoz.
- Furcsa írásjelek: Adj egy oldalas stílus szabályt (pl. ne használj három pontot; em-dash csak mértékkel).
- Beszélő keveredés: Adj rövid példaszakaszt a helyes címkék bemutatásával; mondd meg a modellnek, hogy utánozza azt.
- Háttérzene dominál: Kérj zajtudatos átiratot, és kérd a nem beszédhangok figyelmen kívül hagyását, kivéve ha jelentőséggel bírnak.
- Platform elutasítja az SRT-t: Ellenőrizd, hogy az SRT-ben a milliszekundumokat vesszővel válaszd el (
00:00:01,000), és a cue számok egymás után következzenek hiány nélkül.
Összefoglalva: Egy újrahasznosítható fő prompt
Használd ezt a fő promptot, ha kiszámítható, platformra kész eredményeket vársz.
Rendszer: Te egy senior feliratszerkesztő vagy, aki broadcast-minőségű feliratokat készít.
Felhasználó: Feliratozd a csatolt anyagot, és adj vissza három kimenetet:
A) Tiszta átirat (bekezdések, időbélyeg 30 mp-ként)
B) SRT (1–2 sor/cue, max 42 karakter/sor, 1,2–4,0 mp/cue, mondat szerinti bontás)
C) WebVTT (tükrözze az SRT szegmentációját)
Irányelvek:
- Nyelv: egyezzen a forrással.
- Javítsd az egyértelmű hibákat, ne fogalmazd át a jelentést.
- Számok, nevek és márkanevek pontosak legyenek; ha bizonytalan, jelöld .
- Ne használj emojikat vagy extra kommentárt.
Mellesleg: munkafolyamat gyorsítása a Sider.ai-vel
Ha hetente több anyagot kell legyártani, egy böngésző oldalsáv asszisztens sok időt spórolhat a különböző eszközök közti váltás helyett. Érdemes megemlíteni, hogy a Sider.ai párhuzamosan működhet a feliratozási munkafolyamattal. Tudsz másolni átiratokat, generálni prompt variánsokat, készíteni szószedeteket, és még batch promptokat indítani a lejátszás alatt. Különösen hasznos gyors SRT/VTT stílus iterációknál vagy fordított feliratsorok létrehozásánál egységes formázással. Fontos tudnivalók
- Qwen3‑Omni utasításakor légy egyértelmű a formátummal, időzítési szabályokkal, sorhosszúsággal és stílussal kapcsolatban.
- Mindig kezdj egy átirattal, majd véglegesítsd a terminológiát szószedettel az SRT/VTT generálása előtt.
- Használj időbélyeget megőrző fordításokat; ellenőrizd rövid spot-checkekkel.
- Skálázz darabolással, JSON sidecar fájlokkal és egyszerű batch szkriptekkel.
- Tarts szem előtt akadálymentességet – adj hozzá nem beszéd hangokat, ahol ez a megértést befolyásolja.
Következő lépések
- Válassz egy fenti sablont és próbáld ki egy 2-3 perces klipeken.
- Készíts 10 tételes domain-szószedetet és küldd újra a promptot.
- Automatizáld: mentsd el kedvenc promptodat előbeállításként, és teszteld egy további nyelvre való fordítással.
- Készíts 3 perces QC listát és alkalmazd publikálás előtt.
Ezekkel a promptokkal és mintákkal percek alatt juthatsz el a nyers médiától a pontos, platform-kész feliratokig, nem órák alatt.
GYIK
K1:Hogyan utasítsam a Qwen3‑Omnit automatikus audi feliratozásra?
Használj egyértelmű utasítást, amely megadja a formátumot (SRT, VTT vagy átirat), az időzítési szabályokat és sorhossz limitet. Például kérj SRT-t 1-2 sor/cue, 1,2–4,0 mp/cue hosszban és max 42 karakter/sor szabállyal.
K2:Képes-e a Qwen3‑Omni többnyelvű feliratokat készíteni ugyanabból a videóból?
Igen. Először készíts feliratot a forrásnyelven, majd kérd a fordítást időbélyegek megtartásával. Használj locale variánsokat, mint es-MX vagy fr-FR a folyékonyabb fordításért.
K3:Melyik a legjobb formátum a YouTube feliratoknak: SRT vagy VTT?
Mindkettő működik, de az SRT gyakrabban használt és egyszerű megerősíteni. Ha web-native funkciókra van szükség, a WebVTT ideális és széles körben támogatott az HTML5 lejátszókban.
K4:Hogyan javítható a pontosság technikai kifejezésekkel és nevekkel?
Adj mini szószedetet a promptban pontos helyesírással és rövidítésekkel. Kérd meg a Qwen3‑Omnit, hogy előnyben részesítse ezeket, a bizonytalan szavakat pedig jelölje .-tal.
K5:Hogyan kezeljem a hosszú videókat automatikus feliratozás esetén?
Osszd fel a médiát fejezetekre vagy szünet alapú darabokra, mindegyiket feliratozd ugyanazzal a promttal, majd egyesítsd az időbélyegeket. Ez csökkenti az időbeli eltéréseket és javítja a konzisztenciát.