What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

如何使用 CVAT：快速、準確標註的友善逐步指南

如果您曾嘗試訓練電腦視覺模型，您可能已經碰到了所有人都會遇到的瓶頸：資料需要高品質的標籤。CVAT (Computer Vision Annotation Tool，電腦視覺標註工具) 是最受歡迎的平台之一，用於建立高品質的圖像和影片標註——開放、強大，並且可以從 side project 擴展到生產管線。本操作指南將引導您完成安裝、設定、標註工作流程、自動化輔助工具、品質控制和匯出，以便您可以從零開始，在沒有混亂的情況下獲得乾淨的資料集。

我們將保持實用和直接，提供範例、快捷方式和要避免的陷阱。

什麼是 CVAT，以及為何使用它？

CVAT 是一個基於 Web 的工具，用於標註圖像和影片。它支援物件偵測、分割、分類和追蹤。您可以在本地或伺服器上執行它，邀請團隊成員，管理專案/任務，並將標籤匯出為常見格式（如 COCO、YOLO、VOC）。如果您需要可重複、協作和準確的標註——CVAT 能夠滿足您的需求。

基於瀏覽器，可跨團隊協作

透過插值/追蹤處理圖像和長影片

彈性的標籤架構和屬性

適用於流行訓練框架的多種匯出格式

對於官方說明，CVAT 團隊的「Getting Started」是一個有用的入門指南。

快速設定：執行 CVAT 的最快方法

CVAT 的典型安裝路徑是使用 Docker。它捆綁了伺服器、資料庫和相依性，因此您可以在幾分鐘內開始使用。

安裝先決條件

Docker 和 Docker Compose (或 Docker Desktop)

建議：現代 CPU，足夠的 RAM（8–16GB+，適用於影片繁重的任務）

拉取並啟動 CVAT

複製 CVAT 儲存庫並執行 compose 腳本，或直接使用容器映像。官方文件提供了確切的命令和環境變數。Docker Hub 上也有已發佈的伺服器映像。

存取 UI

容器執行後，開啟您的瀏覽器（通常是 {http://localhost:8080}），建立管理員/使用者，然後登入。

提示：將資料儲存在掛載的卷上可確保您的任務、專案和標註在更新後仍然存在。

CVAT 工作流程概覽

以三個層級思考：專案 → 任務 → 工作。

專案：相關任務的集合（例如，「2025 年零售貨架偵測」）。定義全域標籤。

任務：單一標註單元（例如，一批 1,000 張圖像或 2 小時的影片）。

工作：任務的分割（例如，長影片的片段）分配給標註者。

這種結構可讓您管理大型資料集、將工作分配給團隊成員，並保持標籤定義的一致性。

步驟 1：建立專案和標籤（架構設計）

在上傳資料之前，請定義您的本體論——您要標註什麼以及如何標註。

類別：例如，人、汽車、安全帽、裂縫。

屬性：例如，遮擋：是/否、天氣：晴天/雨天、損壞嚴重程度：1–5。

顏色編碼：提高視覺清晰度。

最佳實務：

保持類別名稱簡短、一致且具有描述性。

對於不需要繪製的元資料，請使用屬性（例如，「is_crowd」）。

避免重疊的類別，除非是故意分層的（例如，vehicle > car/bus/truck）。

您可以在專案層級定義標籤，以便所有相關任務都繼承它們。

步驟 2：建立任務並上傳資料

從儀表板：

新增 → 任務 → 命名您的任務。

選擇專案（可選但建議）。

上傳資料：拖放圖像、指向目錄，或根據您的設定提供雲端儲存連結（例如，S3、Azure Blob）。

確認標籤正確（繼承或特定於任務）並點擊建立。

對於長影片，請考慮分塊或啟用自動工作分割，以使每個工作對於標註者來說都是可管理且反應靈敏的。

步驟 3：選擇正確的標註模式

CVAT 支援多種標註工具：

邊界框：物件偵測速度最快。

多邊形/折線：用於實例/語義分割、道路車道、裂縫。

長方體：用於 2D 圖像中的 3D 風格透視框。

點：關鍵點或地標（姿勢、面部地標）。

標籤：圖像層級標籤（例如，「白天」）。

鍵盤快捷鍵可顯著提高速度：

N：建立下一個形狀

Z：縮放

V：切換工具

Ctrl/Cmd + S：儲存

按住 Shift/Alt 可約束形狀（取決於工具）和對齊。

提示：保持標籤列表小而集中。過多的類別會減慢標註者的速度並增加錯誤率。

步驟 4：影片標註——插值和追蹤

對於影片，不要標註每一幀。而是：

在關鍵影格上建立一個框或多邊形。

啟用插值/追蹤：CVAT 可以向前傳播形狀，然後您可以根據需要在新的關鍵影格上進行校正。

當物件遮擋或重新出現時，分割或合併軌跡。

標記諸如「外部」或「遮擋」之類的狀態，以保持序列的乾淨。

這大大縮短了時間，同時保持了時間一致性。研究和社群最佳實務也建議使用互動式/自我標註輔助來加速影片標註。

步驟 5：使用自動標註和輔助工具

CVAT 支援輔助標註以加速工作。根據您的部署，您可以：

使用內建的模型輔助功能來建議框/遮罩。

執行伺服器端模型以預先標註幀，然後進行校正。

應用插值來填補空白。

從一個小的、高品質的種子集開始，訓練一個快速模型，並使用它來預先標註剩餘資料。反覆校正和重新訓練。

注意：具體細節取決於您在環境中啟用的模型。官方文件和社群教學展示瞭如何將模型連接到 CVAT 並在 UI 中啟用自動標註。

步驟 6：透過角色和審查進行協作

CVAT 是多使用者的。典型角色包括：

管理員：管理伺服器和使用者

專案經理：定義標籤，建立任務/工作，分配標註者

標註者：建立和編輯標籤

審閱者/QA：檢查工作，請求修復

設定明確的指南：正確/不正確標註的範例、屬性定義和邊緣情況（例如，「標註反射？」）。使用審閱工具——評論、問題標記和狀態變更——來提高品質。

步驟 7：您可以信任的品質控制

一些實用的 QC 策略：

黃金任務：插入一些由專家標註的圖像來評估標註者。

重疊：將相同的工作分配給兩個標註者；比較 IoU 和一致性。

抽查：審閱者審核每個工作的百分比。

指標：追蹤模型訓練期間的每個類別混淆模式，以完善指南。

隨著時間的推移保持一致性比一次性的完美標籤更重要。記錄決策並在發現邊緣情況時更新標籤指南。

步驟 8：儲存、版本和匯出

頻繁儲存（CVAT 也會自動儲存）。當您準備好時：

匯出格式：COCO、YOLO、Pascal VOC 等。選擇您的訓練程式碼期望的格式。

幀範圍：匯出特定片段或整個任務。

篩選器：如果需要，僅匯出某些標籤或屬性。

有關最新的匯出選項和參數，請參閱官方文件。對於安裝和伺服器映像詳細資訊，文件和 Docker Hub 頁面是權威參考。

實際情境和提示

情境 1：零售貨架上的物件偵測

標籤：產品、價格標籤、促銷標誌。

使用框以提高速度；新增屬性，如 promo=yes/no。

匯出到 YOLO 以獲得輕量級訓練管線。

情境 2：道路車道分割

使用折線或多邊形。

在幀之間插值；在轉彎處校正。

根據您的框架匯出到 COCO panoptic/segmentation。

情境 3：安全裝備合規性

追蹤影片中的 人、安全帽、背心。

使用追蹤 + 屬性 (helmet=present/absent）。

仔細審查進入/退出點的遮擋。

專業提示：

保持任務在幾千張圖像以下，或分割長影片以保持 UI 的反應靈敏。

正規化圖像大小或壓縮影片以平衡效能和清晰度。

對資料集進行版本控制——使用明確的標籤匯出（例如，v1.2.0），並在最終確定後鎖定任務。

排除常見障礙

大型影片上的 UI 滯後：分割成更短的工作；降低預覽解析度和預取大小。

追蹤中的標註漂移：更頻繁地新增關鍵影格，尤其是在快速移動或遮擋期間。

混淆的標籤：重構本體論；將細節移至屬性；提供視覺範例。

匯出不符：仔細檢查目標訓練庫的預期欄位（例如，YOLO 類別索引映射、COCO 類別 ID）。

整合到您的 ML 管線中

預處理：在上傳之前調整大小/正規化圖像以加快標註速度。

自動化：使用快速模型進行預先標註，在 CVAT 中進行校正，然後反覆運算。

資料的 CI：像對待程式碼一樣對待標籤——版本控制的匯出、校驗和和變更日誌。

儲存：對大型影片資料集使用雲端儲存桶和生命週期策略。

值得注意的是：如果您使用 AI 助手來記錄指南、產生標籤分類或總結審閱者回饋，像 Sider.AI 這樣的工具可以幫助您建立清晰的指示和一致的審閱清單。您可以捕獲決策、產生範例，並將它們變成可與您的團隊共享的劇本。請參閱 Sider.AI 以獲取更多資訊。

30 分鐘入門計畫

5 分鐘：在本地安裝並啟動 CVAT。

5 分鐘：建立一個包含 3-5 個標籤和 2 個屬性的專案。

5 分鐘：建立一個包含 100 張圖像的任務。

10 分鐘：使用框標註 20 張圖像；學習快捷方式。

5 分鐘：匯出到 YOLO 並執行快速訓練。

到最後，您將擁有從原始圖像到可訓練資料集的完整迴圈。

在哪裡可以了解更多資訊

來自團隊的 CVAT 基礎知識和教學課程。

安裝和配置詳細資訊。

伺服器映像和容器參考。

關於影片互動式/自我標註的研究，以激發更快的工作流程。

主要要點

首先定義您的標籤——架構設計可防止下游的痛苦。

對影片使用插值和追蹤；明智地選擇關鍵影格。

自動標註加速工作；人工審查確保品質。

以您的訓練程式碼期望的格式匯出；對所有內容進行版本控制。

從小處著手，快速反覆運算，並透過明確的指南進行擴展。

常見問題

Q1：什麼是 CVAT，我該如何使用它進行圖像標註？ CVAT 是一個基於瀏覽器的圖像和影片標註平台。建立一個專案，定義標籤，以上傳資料作為任務，使用框或多邊形進行標註，並以 COCO 或 YOLO 等格式匯出。

Q2：如何快速安裝 CVAT？最簡單的路徑是使用 Docker。按照官方安裝步驟在本地啟動伺服器，然後在瀏覽器中存取 Web UI 進行設定和使用者建立。

Q3：CVAT 是否支援自動標註或協助影片追蹤？是的，CVAT 支援插值和追蹤，以在幀之間傳播標註，並且可以整合模型輔助標註以預先標註物件並加速審查。

Q4：CVAT 支援哪些匯出格式？常見的匯出格式包括 COCO、YOLO 和 Pascal VOC。選擇與您的訓練框架的預期架構和類別索引映射相符的格式。

Q5：如何在 CVAT 中管理團隊和品質控制？建立具有共享標籤的專案，將任務分割為工作，分配角色（標註者、審閱者），並使用審閱、評論、黃金任務和重疊檢查來確保一致的品質。