Hoe je Qwen3-Omni kunt prompten om automatisch audio en video te ondertitelen
Als je ooit haastig een productdemo of webinar-replay hebt gepubliceerd en je realiseerde dat de ondertiteling ontbrak—of erger nog, verkeerd was—ben je niet de enige. Goede ondertiteling is niet alleen een toegankelijkheids-checkbox; het is brandstof voor vindbaarheid, een compliance-verzekering en stimuleert betrokkenheid. Het goede nieuws: met de juiste prompting-strategie kan Qwen3-Omni automatisch audio en video ondertitelen met betrouwbare nauwkeurigheid en snelheid.
Deze praktische, oplossingsgerichte gids laat je precies zien hoe je Qwen3-Omni kunt prompten voor automatische ondertiteling, hoe je ze kunt vertalen, hoe je ze kunt formatteren voor verschillende platformen en hoe je je workflow kunt schalen. Je krijgt kant-en-klare prompt-templates, tips voor lastige audio en kwaliteitscontrole-stappen die je uit de problemen houden.
Wat je zult leren
- Hoe je Qwen3-Omni kunt prompten om audio- en videobestanden automatisch te ondertitelen
- Prompt-templates voor transcripten, ondertitels (SRT/VTT) en vertalingen
- Nauwkeurigheidsboosters voor lawaaierige audio, meerdere sprekers en jargon
- Batch- en API-workflows om te schalen over een contentbibliotheek
- QC-checklists en tijdbesparende automatiseringstips
Aan het einde heb je een herhaalbare playbook die media zonder ondertiteling omzet in SEO-vriendelijke, toegankelijke assets.
Waarom Qwen3-Omni voor Auto-Ondertiteling?
Qwen3-Omni is een multimodaal model dat is ontworpen om audio- en videocontext naast tekstinstructies te begrijpen. Dat maakt het zeer geschikt voor instructiegedreven ondertitelingsworkflows:
- Instructie volgen: Je kunt de uitvoerindeling (SRT, VTT, platte tekst of JSON), sprekerslabels, tijdstempels en stijl specificeren.
- Contextueel begrip: Behandelt domeintermen wanneer je een woordenlijst of voorbeelden verstrekt.
- Meertalig: Handig voor een wereldwijd publiek—ondertitel in de brontaal en vertaal vervolgens met behoud van timing.
Als het je doel is om op betrouwbare wijze en op schaal te ondertitelen met een duidelijke, consistente formattering, dan is het opzettelijk prompten van Qwen3-Omni het verschil tussen goede en geweldige resultaten.
De Kernprompt: Krijg snel schone ondertiteling
Gebruik deze basisprompt wanneer je snelle, leesbare ondertiteling wilt van een bron met één spreker.
Eén spreker, schone audio (alleen transcript)
Systeem: Je bent een expert in transcriptie en het formatteren van ondertiteling.
Gebruiker: Transcribeer de bijgevoegde audio/video. Voer een schoon transcript uit in alinea-vorm.
- Taal: Stem overeen met de taal van de spreker.
- Behoud de betekenis, corrigeer duidelijke verkeerde interpretaties.
- Verzin geen content.
- Voeg elke 30 seconden tijdstempels toe tussen vierkante haken, zoals [00:30], [01:00].
- Geen sprekerslabels nodig.
Gestructureerde ondertiteling (SRT)
Systeem: Je bent een professionele ondertitelaar voor webvideo.
Gebruiker: Maak SRT-ondertitels voor de bijgevoegde media.
- Houd de regels indien mogelijk onder de 42 tekens.
- 1–2 regels per ondertitel.
- Voeg volgnummers toe.
- Voeg start → eindtijdstempels toe in HH:MM:SS,mmm
- Synchroniseer met natuurlijke pauzes.
- Voeg geen muzieknoten toe, tenzij er songteksten aanwezig zijn.
- Stijl: beknopt, leesbaar, geen stopwoorden.
Webondertiteling (VTT)
Systeem: Je bent een specialist in ondertiteling.
Gebruiker: Voer WebVTT-ondertitels uit voor de bijgevoegde media.
- Voeg de 'WEBVTT'-header toe.
- Gebruik cue-timings met '.' milliseconden-scheidingstekens.
- Houd 1–2 regels per cue aan, max. 42 tekens per regel.
- Vermijd over-segmentatie; lijn uit met zinsgrenzen.
Pro-tip: Wanneer je Qwen3-Omni prompt om automatisch audio & video te ondertitelen, wees dan expliciet over de indeling, timingregels en beknoptheid. Modellen volgen beperkingen het beste wanneer ze meetbaar zijn.
Omgaan met real-world complexiteit
Niet alle audio is studiokwaliteit. Hier is hoe je je prompts kunt aanpassen voor de rommelige dingen.
Meerdere sprekers
Systeem: Je bent een rechtbank-waardige transcriptionist.
Gebruiker: Transcribeer met sprekerslabels.
- Identificeer en tag sprekers als Spreker 1, Spreker 2, enz.
- Nieuwe regel bij verandering van spreker.
- Voeg tijdstempels toe bij elke beurt van de spreker in [HH:MM:SS].
- Als je het niet zeker weet, leid het dan af van stemveranderingen; laat het niet ongelabeld achter.
- Voorbeeldformaat:
[00:00] Spreker 1: Welkom iedereen...
[00:07] Spreker 2: Bedankt! Vandaag zullen we behandelen...
Lawaaierige audio of overspraak
Systeem: Je bent een bewerker van uitzending-ondertiteling.
Gebruiker: Maak SRT-ondertitels met geluidsbewuste bewerkingen.
- Verwijder stopwoorden (euh, eh, zoals) tenzij essentieel.
- Als een woord onzeker is, plaats het dan tussen vierkante haken .
- Kies bij overlappende spraak de dominante stem en vat de andere samen tussen vierkante haken.
- Voorbeeld: [overlappend] Zou je dat kunnen herhalen?
Technische jargon en namen
Geef een mini-woordenlijst zodat Qwen3-Omni zich vastlegt op domeintermen.
Systeem: Je bent een technische ondertitelaar.
Gebruiker: Gebruik de volgende woordenlijst voor correcte termen/spellingen:
- Kubernetes (K8s)
- Istio
- Postgres (niet PostgreSQL in ondertitels)
- Latency SLO
Produceer vervolgens SRT-ondertitels met deze exacte spellingen.
Pacing voor sociale clips
Systeem: Je bent een korte video-ondertitelaar voor TikTok/Reels.
Gebruiker: Voer pittige ingebrande ondertitels uit.
- Max. 1 regel per cue, ≤ 24 tekens.
- Benadruk sleutelwoorden in HOOFDLETTERS.
- Houd cues 0,8–1,6 sec. op het scherm.
- Geen interpunctie aan het einde, tenzij het een vraag is.
- Voeg een JSON-sidecar toe met cue-tijden voor motion graphics:
{
"cues": [{"t": 0.8, "d": 1.2, "text": "STOP SCROLLING"}, ...]
}
End-to-End Workflow: Van Ruwe Media naar Gepubliceerde Ondertiteling
Gebruik deze in de praktijk geteste volgorde wanneer je consistente output nodig hebt voor YouTube, LMS, webinars of interne training.
- Naam consistent:
project-aflevering-taal-bron.ext (bijv. launch-demo-nl-audio.mp3).
- Houd media onder de 2 uur per batch voor een snellere verwerking.
- Extraheer audio voor lange video's om het uploaden en de verwerking te versnellen.
- Prompt voor een alinea-transcript om context en terminologie vast te stellen.
- Als de nauwkeurigheid < 95% is, geef dan een woordenlijst en her-prompt.
- Vraag vanuit het gevalideerde transcript zowel SRT als VTT in één keer aan:
Gebruiker: Gebruik het goedgekeurde transcript (hieronder geplakt) en voer het volgende uit:
A) SRT met 1–2 regels per cue, ≤ 42 tekens/regel
B) WebVTT met dezelfde segmentatie
Zorg voor timing-uitlijning en consistente interpunctie.
- Vraag Qwen3-Omni om ondertitels te vertalen met behoud van tijdstempels.
- Gebruik regio-specifieke varianten: en-US, en-GB, es-MX, pt-BR, fr-FR, enz.
Gebruiker: Vertaal de SRT naar Spaans (es-MX) met behoud van cue-timings. Behoud namen en merktermen in het Engels. Handhaaf regellengtes.
- Kwaliteitscontrole checklist
- Controleer steekproefsgewijs technische termen en cijfers.
- Verifieer dat tijdstempels elkaar niet overlappen; cues blijven 1,0–6,0 seconden.
- Zorg ervoor dat geen enkele cue meer dan ~42 tekens per regel bevat.
- Controleer de leesbaarheid: zin-hoofdletters, geen hoofdletters behalve acroniemen.
- Valideer met een ondertiteleditor (bijv. Aegisub) of upload een privé YouTube-test.
- Voeg SRT/VTT toe aan je hostingplatform.
- Bewaar bronmedia, transcript en ondertitels samen voor toekomstige bewerkingen.
Prompt-templates die je vandaag kunt kopiëren
Gebruik deze kant-en-klare fragmenten om audio & video automatisch te ondertitelen met minimale bewerking.
Universele SRT-ondertitelingsprompt
Systeem: Je bent een senior ondertitelingsredacteur.
Gebruiker: Genereer SRT-ondertitels voor de bijgevoegde media.
Regels:
- 1–2 regels/cue, ≤ 42 tekens/regel
- Cues elk 1,2–4,0 seconden
- Zinsgrenzen hebben de voorkeur; splits lange zinnen op natuurlijke pauzes
- Corrigeer duidelijke stopwoorden, maar behoud de toon
- Voorbeeldformaat:
1
00:00:00,000 --> 00:00:02,500
Welkom bij de lancering.
2
00:00:02,500 --> 00:00:05,100
Vandaag laten we je de roadmap zien.
Transcript + Sprekerslabels
Systeem: Je bent een interview-transcribeerder.
Gebruiker: Maak een gelabeld transcript met tijdstempels bij verandering van spreker.
Formaat:
[HH:MM:SS] Spreker X: tekst...
Richtlijnen:
- Houd zinnen intact; geen regeleinden midden in de zin.
- Breid samentrekkingen alleen uit als het onduidelijk is.
- Tag [ongeluidsfragment] alleen indien nodig.
Vertalen met behoud van timing
Systeem: Je bent een lokalisatieredacteur.
Gebruiker: Vertaal deze SRT naar Frans (fr-FR). Behoud tijdstempels. Behoud productnamen in het Engels. Handhaaf regeleinden en lengte. Als een regel na vertaling meer dan 42 tekens bevat, splits deze dan op een natuurlijke pauze.
Compliance-vriendelijke ondertiteling (WCAG/ADA)
Systeem: Je bent een specialist in toegankelijkheid-ondertiteling.
Gebruiker: Produceer SRT-ondertitels met toegankelijkheidscues.
- Voeg [muziek], [gelach], [applaus] toe waar relevant.
- Voeg [fluisteren], [schreeuwen] toe als het de betekenis verandert.
- Beschrijf belangrijke niet-spraak-audio die het begrip beïnvloedt.
- Houd beschrijvingen beknopt en tussen vierkante haken.
Hoe je de nauwkeurigheid kunt verhogen met slimmere prompts
- Voed een woordenlijst: Geef Qwen3-Omni 10-30 domeintermen met canonieke spellingen. Dit vermindert de verkeerde transcripties van productnamen en acroniemen aanzienlijk.
- Specificeer tempo: Vertel het model je minimale en maximale cue-duren om stroboscoopachtige ondertitels te vermijden.
- Segmenteren per hoofdstuk: Voor lange video's, prompt per hoofdstuk en stik SRT's; houdt de context strak en de fouten laag.
- Geef een korte stijlgids: Interpunctie, hoofdlettergebruik, verboden woorden ("euh", "eh") en of je moet parafraseren.
- Gebruik een referentietranscript: Als je dia's of een script hebt, voeg het dan toe. Instrueer het model om onduidelijkheden op te lossen met behulp van de referentie.
Voorbeeld: Een webinar van 45 minuten omzetten in ondertitels in 20 minuten
- Upload de MP4 en vraag om een alinea-transcript met tijdstempels om de 30 seconden.
- Geef een woordenlijst met 12 items uit de deck (productnamen, meetwaarden, acroniemen).
- Vraag SRT aan met 1,4–3,5s cues, max. 42 tekens/regel, uitgelijnd op zinnen.
- Vertaal naar Japans en Spaans met behoud van timing.
- QC de eerste 5 minuten en twee willekeurige segmenten van 60 seconden.
- Publiceer de Engelse SRT + VTT; bewaar de vertaalde SRT's als optionele tracks.
Tijdsbesparing: ~2–3 uur per webinar vergeleken met handmatige ondertiteling.
API- en batchverwerkingspatronen
Zelfs als je de chatinterface prettig vindt, ontsluit batchondertiteling echte doorvoer.
JSON-First Contract
Vraag Qwen3-Omni om een JSON naast de ondertitels uit te voeren voor automatisering.
Systeem: Je bent een assistent voor de ondertitelingspipeline.
Gebruiker: Retourneer voor de bijgevoegde media:
1) SRT-ondertitels
2) JSON-index met velden:
{
"duration_sec": nummer,
"language": "en-US",
"words_per_min": nummer,
"cue_count": nummer,
"avg_cue_len_chars": nummer
}
Lange media chunkeren
Voor video's > 60 minuten, splits op stilte of hoofdstukmarkeringen.
- Verwerk elke chunk onafhankelijk met dezelfde prompt.
- Zet tijdstempels weer in elkaar door de startoffset van de chunk toe te voegen.
- Voer een laatste pass uit om interpunctie en hoofdlettergebruik te normaliseren.
Minimale pseudocode
from pathlib import Path
media_files = sorted(Path("./media").glob("*.mp3"))
for f in media_files:
# 1) Stuur f naar je Qwen3-Omni ondertitelingsendpoint met SRT prompt
srt = caption_with_qwen(f, prompt="<universal_srt_prompt>")
# 2) Optioneel: vertalen
srt_es = translate_captions(srt, lang="es-MX")
# 3) Valideren & bestanden schrijven
validate_srt(srt)
Path("./out").mkdir(exist_ok=True)
Path(f"./out/{f.stem}.srt").write_text(srt, encoding="utf-8")
Path(f"./out/{f.stem}.es-MX.srt").write_text(srt_es, encoding="utf-8")
Kwaliteitscontrole: Een 3-minuten steekproef-routine
- Timing: Bevestig dat 3-5 willekeurige cues binnen 1-6 seconden vallen en overeenkomen met spraak.
- Leesbaarheid: Regels ≤ 42 tekens, zin-hoofdletters, geen regeleinden midden in de zin, tenzij noodzakelijk.
- Nauwkeurigheid: Namen, getallen, URL's en producttermen zijn exact; corrigeer eventuele verkeerde interpretaties.
- Toegankelijkheid: Niet-spraak-audiocues aanwezig wanneer betekenisvol.
Als je meer dan 1-2 problemen vindt in een steekproef, her-prompt dan met een woordenlijst en stijlgids, en genereer opnieuw.
Probleemoplossing: Wanneer ondertitels scheef gaan
- Schokkerige timing: Voeg expliciete min/max cue-duren toe en vraag om uitlijning op zinsgrenzen.
- Vreemde interpunctie: Geef een stijlgids van één pagina (bijv. geen ellipsen; gebruik spaarzaam em-streepjes).
- Spraakverwarring: Lever een kort segment aan dat is geannoteerd met correcte labels; instrueer het model om de labeling te imiteren.
- Achtergrondmuziek domineert: Vraag om geluidsbewuste transcriptie en specificeer dat niet-spraakgeluiden moeten worden gedeprioriteerd, behalve wanneer ze betekenisvol zijn.
- Platform weigert SRT: Zorg ervoor dat er komma's voor milliseconden in SRT staan (
00:00:01,000) en dat cue-indices opeenvolgend zijn zonder hiaten.
Alles samenvoegen: Een herbruikbare master-prompt
Gebruik deze master-prompt wanneer je voorspelbare, platform-klare resultaten nodig hebt.
Systeem: Je bent een senior ondertitelingsredacteur die ondertitels van uitzendkwaliteit produceert.
Gebruiker: Ondertitel de bijgevoegde media en retourneer drie outputs:
A) Schoon transcript (alinea's, tijdstempels om de 30 seconden)
B) SRT (1–2 regels/cue, ≤ 42 tekens/regel, 1,2–4,0s/cue, uitgelijnd op zinnen)
C) WebVTT (spiegel de SRT-segmentatie)
Richtlijnen:
- Taal: stem overeen met de bron.
- Corrigeer duidelijke spreekfouten; parafraseer de betekenis niet.
- Getallen, namen en merktermen moeten exact zijn; markeer als je het niet zeker weet.
- Geen emoji's, geen extra commentaar.
Tussen haakjes: het versnellen van de workflow met Sider.ai
Wanneer je meerdere assets per week verwerkt, bespaart een zijbalk-assistent in de browser tijd door te hoppen tussen tools. Het is de moeite waard om op te merken: Sider.ai kan naast je ondertitelingsworkflow zitten. Je kunt transcripten plakken, promptvarianten genereren, woordenlijsten opstellen en zelfs batchprompts activeren terwijl je naar de weergave kijkt. Het is vooral handig om snel te itereren op SRT/VTT-stijlen, of om vertaalde ondertitelsets te maken met consistente formattering. Belangrijkste punten
- Om Qwen3-Omni te prompten om audio & video automatisch te ondertitelen, wees expliciet over de indeling, timing, regellengte en stijl.
- Begin altijd met een transcript en leg vervolgens de terminologie vast via een woordenlijst voordat je SRT/VTT genereert.
- Gebruik vertalingen die tijdstempels behouden; QC met korte steekproeven.
- Schaal met chunking, JSON-sidecars en eenvoudige batchscripts.
- Houd een toegankelijkheidsmentaliteit - voeg niet-spraak-audio toe waar het het begrip verandert.
Volgende stappen
- Kies een van de bovenstaande templates en voer deze uit op een clip van 2-3 minuten.
- Bouw een woordenlijst met 10 termen voor je domein en her-prompt.
- Automatiseer: sla je favoriete prompt op als een preset en test de vertaling naar één extra taal.
- Maak een QC-checklist van 3 minuten en pas deze toe voordat je publiceert.
Met deze prompts en patronen ga je binnen enkele minuten—niet uren—van ruwe media naar nauwkeurige, platform-klare ondertitels.
FAQ
V1:Hoe prompt ik Qwen3-Omni om automatisch audio te ondertitelen?
Gebruik een duidelijke instructie die de indeling (SRT, VTT of transcript), timingregels en regellimieten specificeert. Vraag bijvoorbeeld SRT aan met 1-2 regels per cue, 1,2-4,0 seconden per cue en ≤ 42 tekens per regel.
V2:Kan Qwen3-Omni meertalige ondertitels genereren van dezelfde video?
Ja. Maak eerst ondertitels in de brontaal en vraag Qwen3-Omni vervolgens om te vertalen met behoud van tijdstempels. Specificeer locale-varianten zoals es-MX of fr-FR voor een betere vloeiendheid.
V3:Wat is de beste indeling voor YouTube-ondertitels: SRT of VTT?
Beide werken, maar SRT wordt vaak gebruikt en is eenvoudig te valideren. Als je web-native functies nodig hebt, is WebVTT ideaal en breed ondersteund door HTML5-spelers.
V4:Hoe kan ik de nauwkeurigheid verbeteren met technische termen en namen?
Geef een mini-woordenlijst in je prompt met canonieke spellingen en acroniemen. Vraag Qwen3-Omni om termen uit de woordenlijst te verkiezen en onzekerheden te markeren met .
V5:Hoe ga ik om met lange video's bij auto-ondertiteling?
Splits de media in hoofdstukken of op stilte gebaseerde chunks, ondertitel elk met dezelfde prompt en zet vervolgens tijdstempels weer in elkaar. Dit vermindert drift en verbetert de consistentie.