How do I prompt Qwen3‑Omni to caption audio automatically?

Use a clear instruction that specifies format (SRT, VTT, or transcript), timing rules, and line limits. For example, request SRT with 1–2 lines per cue, 1.2–4.0 seconds per cue, and ≤ 42 characters per line.

Can Qwen3‑Omni generate multilingual captions from the same video?

Yes. First create captions in the source language, then ask Qwen3‑Omni to translate while preserving timestamps. Specify locale variants like es‑MX or fr‑FR for better fluency.

What’s the best format for YouTube captions: SRT or VTT?

Both work, but SRT is commonly used and simple to validate. If you need web‑native features, WebVTT is ideal and widely supported by HTML5 players.

How can I improve accuracy with technical terms and names?

Provide a mini‑glossary in your prompt with canonical spellings and acronyms. Ask Qwen3‑Omni to prefer glossary terms and mark uncertainties with .

How do I handle long videos when auto‑captioning?

Split the media into chapters or silence‑based chunks, caption each with the same prompt, then reassemble timestamps. This reduces drift and improves consistency.

如何提示 Qwen3‑Omni 自動產生音訊和視訊字幕

如果您曾匆忙發布產品演示或網路研討會重播，卻發現字幕遺失——或者更糟，字幕錯誤——您並不孤單。好的字幕不僅僅是一個無障礙的複選框；它們還是可發現性的燃料、合規性的保險和參與度的助推器。好消息是：透過正確的提示策略，Qwen3‑Omni 可以自動為音訊和視訊加上字幕，並且具有可靠的準確性和速度。

這個實用、以解決方案為導向的指南，將向您展示如何提示 Qwen3‑Omni 進行自動字幕、翻譯字幕、為不同的平台格式化字幕以及擴展您的工作流程。您將獲得可複製貼上的提示範本、處理棘手音訊的技巧，以及讓您避免麻煩的品質控制步驟。

您將學到什麼

使用 如何提示 Qwen3‑Omni 自動為音訊和視訊檔案加上字幕

用於文字稿、字幕 (SRT/VTT) 和翻譯的 提示範本

用於嘈雜音訊、多個說話者和術語的 準確性增強工具

跨內容庫擴展的 批次和 API 工作流程

品質控制清單 和省時的自動化技巧

到最後，您將擁有一個可重複的劇本，將沒有字幕的媒體轉變為有利於 SEO 的、可訪問的資產。

為什麼選擇 Qwen3‑Omni 進行自動字幕？

Qwen3‑Omni 是一個多模態模型，旨在理解音訊和視訊上下文以及文字指令。這使其非常適合指令驅動的字幕工作流程：

指令遵循：您可以指定輸出格式（SRT、VTT、純文字或 JSON）、說話者標籤、時間戳記和樣式。

上下文理解：當您提供詞彙表或範例時，處理領域術語。

多語言：對於全球受眾非常有用——以源語言加上字幕，然後在保留定時的情況下進行翻譯。

如果您的目標是以清晰、一致的格式可靠地大規模添加字幕，那麼有意識地提示 Qwen3‑Omni 是獲得良好效果和卓越效果的區別。

核心提示：快速獲得清晰的字幕

當您想從單一說話者來源快速獲得可讀的字幕時，請使用這個基準提示。

單一說話者，清晰的音訊（僅限文字稿）

系統：您是一位專業的文字記錄員和字幕格式化人員。
使用者：轉錄附加的音訊/視訊。以段落形式輸出清晰的文字稿。
- 語言：與說話者的語言相符。
- 保留含義，修正明顯的聽錯。
- 不要編造內容。
- 每 30 秒在方括號中包含時間戳記，例如 [00:30]、[01:00]。
- 不需要說話者標籤。

結構化字幕 (SRT)

系統：您是網路視訊的專業字幕製作人員。
使用者：為附加的媒體建立 SRT 字幕。
- 盡可能保持每行少於 42 個字元。
- 每個字幕 1-2 行。
- 新增序號。
- 在 HH:MM:SS,mmm 中包含開始 → 結束時間戳記
- 與自然的停頓同步。
- 除非存在歌詞，否則不要包含音符。
- 樣式：簡潔、可讀、沒有填充詞。

網路字幕 (VTT)

系統：您是一位字幕專家。
使用者：為附加的媒體輸出 WebVTT 字幕。
- 包含 'WEBVTT' 標頭。
- 使用帶有 '.' 毫秒分隔符的時間提示。
- 每個提示保持 1-2 行，每行最多 42 個字元。
- 避免過度分割；與句子邊界對齊。

專業提示：當您提示 Qwen3‑Omni 自動為音訊和視訊加上字幕時，請明確說明格式、定時規則和簡潔性。模型在可以測量時，最好地遵循約束。

處理真實世界的複雜性

並非所有音訊都像錄音室一樣乾淨。以下是如何針對混亂的內容調整您的提示。

多個說話者

系統：您是一位法院級別的文字記錄員。
使用者：使用說話者標籤進行轉錄。
- 識別說話者並將其標記為說話者 1、說話者 2 等。
- 說話者變更時換行。
- 在 [HH:MM:SS] 中，在每個說話者輪換時新增時間戳記。
- 如果不確定，請從語音變化中推斷；不要留下未標記的內容。
- 範例格式：
[00:00] 說話者 1：歡迎大家...
[00:07] 說話者 2：謝謝！今天我們將介紹...

嘈雜的音訊或串音

系統：您是一位廣播字幕編輯。
使用者：建立具有噪音感知編輯的 SRT 字幕。
- 除非必要，否則刪除填充詞（嗯、呃、喜歡）。
- 如果一個詞不確定，請用括號括起來。
- 對於重疊的語音，選擇主要的語音並在括號中總結另一個語音。
- 範例：[重疊] 您能重複一遍嗎？

技術術語和名稱

提供一個迷你詞彙表，以便 Qwen3‑Omni 鎖定領域術語。

系統：您是一位技術字幕製作人員。
使用者：使用以下詞彙表來更正術語/拼字：
- Kubernetes (K8s)
- Istio
- Postgres（在字幕中不是 PostgreSQL）
- 延遲 SLO
然後使用這些確切的拼字生成 SRT 字幕。

社群短片的步調

系統：您是 TikTok/Reels 的短篇影片字幕製作人員。
使用者：輸出有力的內嵌字幕。
- 每個提示最多 1 行，≤ 24 個字元。
- 強調所有大寫的關鍵字。
- 使提示在螢幕上保持 0.8-1.6 秒。
- 除非是問題，否則在結尾處沒有標點符號。
- 包含一個帶有運動圖形提示時間的 JSON sidecar：
{
"cues": [{"t": 0.8, "d": 1.2, "text": "停止滾動"}, ...]
}

端到端工作流程：從原始媒體到發布的字幕

當您需要 YouTube、LMS、網路研討會或內部培訓的一致輸出時，請使用此經過現場測試的序列。

組織您的檔案

始終如一地命名：project-episode-lang-source.ext（例如，launch-demo-en-audio.mp3）。

為了加快處理速度，每次批量處理時，請將媒體保持在 2 小時以內。

提取長影片的音訊以加快上傳和處理速度。

基準文字稿

提示段落文字稿以建立上下文和術語。

如果準確度 < 95%，請提供詞彙表並重新提示。

產生 SRT 和 VTT

從經過驗證的文字稿中，一次性請求 SRT 和 VTT：

使用者：使用已批准的文字稿（貼在下面），輸出：
A) SRT，每個提示 1-2 行，≤ 42 個字元/行
B) 具有相同分割的 WebVTT
確保時間對齊和一致的標點符號。

翻譯（如果需要）

要求 Qwen3‑Omni 在保留時間戳記的同時翻譯字幕。

使用適合地區的變體：en‑US、en‑GB、es‑MX、pt‑BR、fr‑FR 等。

使用者：將 SRT 翻譯成西班牙語 (es‑MX)，同時保留提示時間。保留英文名稱和品牌術語。保持行長。

品質控制清單

抽查技術術語和數字。

驗證時間戳記沒有重疊；提示保持 1.0-6.0 秒。

確保沒有提示超過每行約 42 個字元。

檢查可讀性：句子大小寫，除了縮寫詞外，沒有全大寫。

使用字幕編輯器（例如，Aegisub）進行驗證或上傳私人 YouTube 測試。

發布和存檔

將 SRT/VTT 附加到您的託管平台。

將源媒體、文字稿和字幕一起儲存，以供將來編輯。

您可以今天複製的提示範本

使用這些現成的程式碼片段自動為音訊和視訊添加字幕，並儘可能減少編輯。

通用 SRT 字幕提示

系統：您是一位資深的字幕編輯。
使用者：為附加的媒體產生 SRT 字幕。
規則：
- 1-2 行/提示，≤ 42 個字元/行
- 每個提示 1.2-4.0 秒
- 首選句子邊界；在自然停頓處分割長句子
- 更正明顯的填充詞，但保留語氣
- 範例格式：
1
00:00:00,000 --> 00:00:02,500
歡迎參加發布會。
2
00:00:02,500 --> 00:00:05,100
今天我們將向您展示路線圖。

文字稿 + 說話者標籤

系統：您是一位訪談轉錄員。
使用者：建立一個帶有標籤的文字稿，並在說話者變更時加上時間戳記。
格式：
[HH:MM:SS] 說話者 X：文字...
準則：
- 保持句子完整；不要在句子中間換行。
- 僅在不明確時展開縮寫。
- 僅在必要時標記 [聽不清楚]。

在保留定時的情況下進行翻譯

系統：您是一位本地化編輯。
使用者：將此 SRT 翻譯成法語 (fr‑FR)。保留時間戳記。保留英文產品名稱。保持換行和長度。如果翻譯後一行超過 42 個字元，請在自然停頓處分割。

符合規範的字幕 (WCAG/ADA)

系統：您是一位輔助功能字幕專家。
使用者：產生帶有輔助功能提示的 SRT 字幕。
- 在相關的地方包含 [音樂]、[笑聲]、[掌聲]。
- 如果它改變了含義，則新增 [耳語]、[喊叫]。
- 描述影響理解的關鍵非語音音訊。
- 保持描述簡潔並用括號括起來。

如何透過更智慧的提示來提高準確性

提供詞彙表：為 Qwen3‑Omni 提供 10-30 個帶有規範拼字的領域術語。這可以大大減少產品名稱和縮寫的錯誤轉錄。

指定步調：告訴模型您的最小和最大提示持續時間，以避免閃爍的字幕。

按章節分割：對於長影片，按章節提示並拼接 SRT；保持上下文緊密並降低錯誤。

提供簡短的樣式指南：標點符號、大小寫、禁用詞（「呃」、「嗯」）以及是否要釋義。

使用參考文字稿：如果您有幻燈片或腳本，請包含它。指示模型使用參考來解決歧義。

範例：在 20 分鐘內將 45 分鐘的網路研討會轉換為字幕

上傳 MP4 並要求提供每 30 秒加上時間戳記的段落文字稿。

從簡報中提供一個 12 項詞彙表（產品名稱、指標、縮寫）。

請求 SRT，提示時間為 1.4-3.5 秒，每行最多 42 個字元，句子對齊。

翻譯成日語和西班牙語，同時保留定時。

品質控制前 5 分鐘和兩個隨機的 60 秒片段。

發布英文 SRT + VTT；將翻譯的 SRT 保留為可選軌道。

節省的時間：與手動字幕相比，每個網路研討會節省約 2-3 小時。

API 和批次處理模式

即使您喜歡聊天介面，批次字幕也可以釋放真正的吞吐量。

JSON 優先合約

要求 Qwen3‑Omni 輸出一個 JSON 以及用於自動化的字幕。

系統：您是一位字幕管道助理。
使用者：對於附加的媒體，傳回：
1) SRT 字幕
2) 具有欄位的 JSON 索引：
{
"duration_sec": 數字,
"language": "en-US",
"words_per_min": 數字,
"cue_count": 數字,
"avg_cue_len_chars": 數字
}

分割長媒體

對於 > 60 分鐘的影片，請在靜音或章節標記處分割。

使用相同的提示獨立處理每個區塊。

透過新增區塊的開始偏移量來重新組裝時間戳記。

執行最終步驟以標準化標點符號和大小寫。

最小偽代碼

from pathlib import Path
media_files = sorted(Path("./media").glob("*.mp3"))
for f in media_files:
# 1) 將 f 連同 SRT 提示一起傳送到您的 Qwen3-Omni 字幕端點
srt = caption_with_qwen(f, prompt="<universal_srt_prompt>")
# 2) 可選：翻譯
srt_es = translate_captions(srt, lang="es-MX")
# 3) 驗證並寫入檔案
validate_srt(srt)
Path("./out").mkdir(exist_ok=True)
Path(f"./out/{f.stem}.srt").write_text(srt, encoding="utf-8")
Path(f"./out/{f.stem}.es-MX.srt").write_text(srt_es, encoding="utf-8")

品質控制：3 分鐘的抽查例行程序

定時：確認 3-5 個隨機提示落在 1-6 秒內並與語音匹配。

可讀性：行 ≤ 42 個字元，句子大小寫，除非必要，否則句子中間沒有換行。

準確性：名稱、數字、URL 和產品術語完全準確；修正任何聽錯。

輔助功能：有意義時存在非語音音訊提示。

如果您在抽查中發現超過 1-2 個問題，請使用詞彙表和樣式指南重新提示，然後重新產生。

疑難排解：當字幕出錯時

不穩定的定時：新增明確的最小/最大提示持續時間並要求與句子邊界對齊。

奇怪的標點符號：提供一個一頁的樣式規則（例如，沒有省略號；謹慎使用破折號）。

說話者混淆：提供一個用正確標籤註釋的短片段；指示模型模仿標籤。

背景音樂佔主導地位：要求進行噪音感知轉錄，並指定除了有意義時，降低非語音聲音的優先順序。

平台拒絕 SRT：確保 SRT 中的毫秒使用逗號 (00:00:01,000)，並且提示索引是連續的，沒有間隙。

將所有內容放在一起：可重複使用的主提示

當您需要可預測的、平台就緒的結果時，請使用此主提示。

系統：您是一位資深的字幕編輯，負責製作廣播品質的字幕。
使用者：為附加的媒體添加字幕並傳回三個輸出：
A) 清晰的文字稿（段落，每 30 秒加上時間戳記）
B) SRT（1-2 行/提示，≤ 42 個字元/行，1.2-4.0 秒/提示，句子對齊）
C) WebVTT（鏡像 SRT 分割）
準則：
- 語言：與來源匹配。
- 修正明顯的口誤；不要釋義含義。
- 數字、名稱和品牌術語必須完全準確；如果不確定，請標記 。
- 沒有表情符號，沒有額外評論。

順便說一句：使用 Sider.ai 加快工作流程

當您每週轉換多個資產時，瀏覽器中的側邊欄助理可以節省在工具之間跳轉的時間。值得注意的是：Sider.ai 可以與您的字幕工作流程並排工作。您可以貼上文字稿、產生提示變體、起草詞彙表，甚至在觀看播放時觸發批次提示。它對於快速迭代 SRT/VTT 樣式或建立具有一致格式的翻譯字幕集特別方便。

主要要點

要提示 Qwen3‑Omni 自動為音訊和視訊添加字幕，請明確說明格式、定時、行長和樣式。

始終從文字稿開始，然後在產生 SRT/VTT 之前透過詞彙表鎖定術語。

使用保留時間戳記的翻譯；使用簡短的抽查進行品質控制。

使用分割、JSON sidecar 和簡單的批次腳本進行擴展。

保持輔助功能的心態——在非語音音訊改變理解的地方添加它。

後續步驟

選擇上面的其中一個範本，並在 2-3 分鐘的片段上執行它。

為您的領域建立一個 10 項詞彙表並重新提示。

自動化：將您最喜歡的提示儲存為預設，並測試翻譯成一種額外的語言。

建立一個 3 分鐘的品質控制清單，並在發布之前應用它。

透過這些提示和模式，您將在幾分鐘而不是幾小時內，從原始媒體轉換為準確的、平台就緒的字幕。

常見問題

Q1：如何提示 Qwen3‑Omni 自動為音訊加上字幕？使用明確的指令，指定格式（SRT、VTT 或文字稿）、定時規則和行限制。例如，請求 SRT，每個提示 1-2 行，每個提示 1.2-4.0 秒，每行 ≤ 42 個字元。

Q2：Qwen3‑Omni 可以從同一個影片產生多語言字幕嗎？可以。首先以來源語言建立字幕，然後要求 Qwen3‑Omni 在保留時間戳記的同時進行翻譯。指定地區變體，例如 es‑MX 或 fr‑FR，以獲得更好的流暢性。

Q3：YouTube 字幕的最佳格式是什麼：SRT 還是 VTT？兩者都可以使用，但 SRT 通常使用且易於驗證。如果您需要網路原生功能，WebVTT 是理想的，並且受到 HTML5 播放器的廣泛支援。

Q4：如何提高技術術語和名稱的準確性？在您的提示中提供一個帶有規範拼字和縮寫的迷你詞彙表。要求 Qwen3‑Omni 優先使用詞彙表術語，並使用標記不確定性。

Q5：自動添加字幕時，如何處理長影片？將媒體分割成章節或基於靜音的區塊，使用相同的提示為每個區塊添加字幕，然後重新組裝時間戳記。這可以減少漂移並提高一致性。

如何提示 Qwen3‑Omni 自動產生音訊與影片字幕