What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

Como Usar o CVAT: Um Guia Amigável, Passo a Passo, para Anotações Rápidas e Precisas

Se você já tentou treinar um modelo de visão computacional, provavelmente esbarrou na mesma barreira que todo mundo: os dados precisam de rótulos de alta qualidade. CVAT (Computer Vision Annotation Tool) é uma das plataformas mais populares para criar anotações de imagem e vídeo de alta qualidade — aberta, poderosa e construída para escalar desde projetos paralelos até pipelines de produção. Este guia prático orienta você na instalação, configuração, fluxos de trabalho de rotulagem, assistentes de automação, controle de qualidade e exportações — para que você possa ir de zero a conjuntos de dados limpos sem o caos.

Vamos manter tudo prático e direto, com exemplos, atalhos e armadilhas a evitar.

O Que É CVAT e Por Que Usá-lo?

CVAT é uma ferramenta baseada na web para anotar imagens e vídeos. Ele suporta detecção de objetos, segmentação, classificação e rastreamento. Você pode executá-lo localmente ou em um servidor, convidar colegas de equipe, gerenciar projetos/tarefas e exportar rótulos para formatos comuns (como COCO, YOLO, VOC). Se você precisa de rotulagem repetível, colaborativa e precisa — CVAT oferece.

Baseado em navegador, funciona entre equipes

Lida com imagens e vídeos longos com interpolação/rastreamento

Esquema de rótulos e atributos flexíveis

Múltiplos formatos de exportação para frameworks de treinamento populares

Para uma orientação oficial, o “Getting Started” da equipe CVAT é uma introdução útil.

Configuração Rápida: A Maneira Mais Rápida de Executar o CVAT

O caminho de instalação típico do CVAT usa o Docker. Ele agrupa o servidor, o banco de dados e as dependências para que você possa começar em minutos.

Instale os pré-requisitos

Docker e Docker Compose (ou Docker Desktop)

Recomendado: CPU moderna, RAM suficiente (8–16GB+ para tarefas pesadas de vídeo)

Baixe e inicie o CVAT

Clone o repositório CVAT e execute o script compose, ou use imagens de contêiner diretamente. A documentação oficial fornece comandos exatos e variáveis de ambiente. Há também uma imagem de servidor publicada no Docker Hub.

Acesse a IU

Depois que os contêineres estiverem em execução, abra seu navegador (comumente ), crie um administrador/usuário e faça login.

Dica: Armazenar dados em volumes montados garante que suas tarefas, projetos e anotações persistam entre as atualizações.

O Fluxo de Trabalho do CVAT em Resumo

Pense em três camadas: Projeto → Tarefa → Trabalho.

Projeto: Uma coleção para tarefas relacionadas (por exemplo, “Detecção de Prateleiras de Varejo 2025”). Define rótulos globais.

Tarefa: Uma única unidade de rotulagem (por exemplo, um lote de 1.000 imagens ou um vídeo de 2 horas).

Trabalho: Uma divisão de uma tarefa (por exemplo, fatias de um vídeo longo) atribuída a anotadores.

Essa estrutura permite que você gerencie grandes conjuntos de dados, atribua trabalho aos colegas de equipe e mantenha as definições de rótulos consistentes.

Passo 1: Crie um Projeto e Rótulos (Design do Esquema)

Antes de enviar os dados, defina sua ontologia — o que você está rotulando e como.

Classes: por exemplo, pessoa, carro, capacete, rachadura.

Atributos: por exemplo, ocluído: sim/não, clima: ensolarado/chuvoso, gravidade_do_dano: 1–5.

Codificação de cores: melhora a clareza visual.

Melhores práticas:

Mantenha os nomes das classes curtos, consistentes e descritivos.

Use atributos para metadados que não exigem desenho (por exemplo, “é_multidão”).

Evite classes sobrepostas, a menos que intencionalmente hierárquicas (por exemplo, veículo > carro/ônibus/caminhão).

Você pode definir rótulos no nível do Projeto para que todas as Tarefas relacionadas os herdem.

Passo 2: Crie uma Tarefa e Envie Dados

No painel:

Novo → Tarefa → Nomeie sua tarefa.

Selecione o projeto (opcional, mas recomendado).

Envie os dados: arraste e solte imagens, aponte para um diretório ou forneça links de armazenamento em nuvem (por exemplo, S3, Azure Blob), dependendo da sua configuração.

Confirme se os rótulos estão corretos (herdados ou específicos da tarefa) e clique em Criar.

Para vídeos longos, considere dividir ou habilitar a divisão automática de trabalhos para manter cada trabalho gerenciável e responsivo para os anotadores.

Passo 3: Escolha o Modo de Anotação Certo

O CVAT suporta várias ferramentas de anotação:

Caixas delimitadoras: mais rápido para detecção de objetos.

Polígonos/Polilinhas: para segmentação de instância/semântica, faixas de rodagem, rachaduras.

Cubóides: para caixas de perspectiva 3D em imagens 2D.

Pontos: pontos-chave ou pontos de referência (poses, pontos de referência faciais).

Tags: rótulos de nível de imagem (por exemplo, “diurno”).

Atalhos de teclado aceleram as coisas drasticamente:

N: criar próxima forma

Z: zoom

V: alternar ferramentas

Ctrl/Cmd + S: salvar

Mantenha Shift/Alt pressionado para formas restritas (dependendo da ferramenta) e snapping.

Dica: Mantenha a lista de rótulos pequena e focada. Muitas classes retardam os anotadores e aumentam as taxas de erro.

Passo 4: Anotação de Vídeo — Interpole e Rastreie

Para vídeos, não anote cada quadro individual. Em vez disso:

Crie uma caixa ou polígono em um quadro-chave.

Habilite a interpolação/rastreamento: o CVAT pode propagar formas para frente, então você corrige conforme necessário em novos quadros-chave.

Divida ou mescle rastros quando os objetos se ocluírem ou reaparecerem.

Marque estados como “fora” ou “ocluído” para manter as sequências limpas.

Isso reduz drasticamente o tempo, mantendo a consistência temporal. A pesquisa e as melhores práticas da comunidade também recomendam assistência interativa/autoanotação para acelerar a rotulagem de vídeo.

Passo 5: Use Ferramentas de Anotação Automática e Assistida

O CVAT suporta rotulagem assistida para acelerar o trabalho. Dependendo da sua implantação, você pode:

Use recursos assistidos por modelo integrados para propor caixas/máscaras.

Execute modelos do lado do servidor para pré-rotular quadros e, em seguida, corrigir.

Aplique interpolação para preencher lacunas.

Comece com um pequeno conjunto inicial de alta qualidade, treine um modelo rápido e use-o para pré-rotular os dados restantes. Corrija e retreine iterativamente.

Nota: Os detalhes dependem de quais modelos você habilita em seu ambiente. A documentação oficial e os tutoriais da comunidade mostram como conectar modelos ao CVAT e habilitar a Anotação Automática na IU.

Passo 6: Colabore com Funções e Revisões

O CVAT é multiusuário. As funções típicas incluem:

Administrador: gerencia servidor e usuários

Gerente de projeto: define rótulos, cria tarefas/trabalhos, atribui anotadores

Anotador: cria e edita rótulos

Revisor/QA: verifica o trabalho, solicita correções

Defina diretrizes claras: exemplos de anotações corretas/incorretas, definições de atributos e casos extremos (por exemplo, “rotular reflexos?”). Use as ferramentas de revisão — comentários, sinalizadores de problemas e mudanças de status — para aumentar a qualidade.

Passo 7: Controle de Qualidade em Que Você Pode Confiar

Algumas estratégias práticas de CQ:

Tarefas de ouro: insira algumas imagens rotuladas por especialistas para comparar anotadores.

Sobreposição: atribua o mesmo trabalho a dois anotadores; compare IoU e concordância.

Verificações pontuais: os revisores auditam uma porcentagem de cada trabalho.

Métricas: rastreie padrões de confusão por classe durante o treinamento do modelo para refinar as diretrizes.

A consistência ao longo do tempo importa mais do que rótulos perfeitos e únicos. Documente as decisões e atualize o guia de rótulos à medida que você descobre casos extremos.

Passo 8: Salve, Versione e Exporte

Salve frequentemente (o CVAT também salva automaticamente). Quando estiver pronto:

Formatos de exportação: COCO, YOLO, Pascal VOC e mais. Escolha o formato que seu código de treinamento espera.

Intervalos de quadros: exporte segmentos específicos ou toda a tarefa.

Filtros: exporte apenas determinados rótulos ou atributos, se necessário.

Consulte a documentação oficial para obter opções e parâmetros de exportação atualizados. Para detalhes de instalação e imagem do servidor, a documentação e as páginas do Docker Hub são referências autorizadas.

Cenários Práticos e Dicas

Cenário 1: Detecção de Objetos em Prateleiras de Varejo

Rótulos: produto, etiqueta_de_preço, sinal_promocional.

Use caixas para velocidade; adicione atributos como promo=sim/não.

Exporte para YOLO para um pipeline de treinamento leve.

Cenário 2: Segmentação de Faixas de Rodagem

Use polilinhas ou polígonos.

Interpole entre quadros; corrija nas curvas.

Exporte para COCO panóptico/segmentação dependendo do seu framework.

Cenário 3: Conformidade de Equipamentos de Segurança

Rastreie pessoa, capacete, colete ao longo do vídeo.

Use rastreamento + atributos (capacete=presente/ausente).

Revise as oclusões cuidadosamente nos pontos de entrada/saída.

Dicas profissionais:

Mantenha as tarefas com menos de alguns milhares de imagens ou divida vídeos longos para manter a IU responsiva.

Normalize os tamanhos das imagens ou comprima os vídeos para equilibrar desempenho e clareza.

Versionamento de conjuntos de dados — exporte com uma tag clara (por exemplo, v1.2.0) e bloqueie as tarefas depois de finalizadas.

Solução de Problemas Comuns

IU lenta em vídeos grandes: divida em trabalhos mais curtos; reduza a resolução de visualização e o tamanho do pré-busca.

Desvio de anotação no rastreamento: adicione quadros-chave com mais frequência, especialmente durante movimentos rápidos ou oclusões.

Rótulos confusos: refatore a ontologia; mova detalhes para atributos; forneça exemplos visuais.

Incompatibilidade de exportação: verifique novamente os campos esperados da sua biblioteca de treinamento de destino (por exemplo, mapeamento de índice de classe YOLO, IDs de categoria COCO).

Integrando ao Seu Pipeline de ML

Pré-processamento: redimensione/normalize as imagens antes de enviar para acelerar a anotação.

Automação: Pré-rotule com um modelo rápido, corrija no CVAT e, em seguida, itere.

CI para dados: trate os rótulos como código — exportações versionadas, checksums e changelogs.

Armazenamento: Use buckets na nuvem e políticas de ciclo de vida para grandes conjuntos de dados de vídeo.

Vale a pena notar: Se você usar assistentes de IA para documentar diretrizes, gerar taxonomias de rótulos ou resumir o feedback do revisor, uma ferramenta como Sider.AI pode ajudá-lo a criar instruções claras e checklists de revisão consistentes. Você pode capturar decisões, gerar exemplos e transformá-los em playbooks compartilháveis para sua equipe. Veja Sider.AI para mais informações.

Um Plano Inicial de 30 Minutos

5 minutos: Instale e execute o CVAT localmente.

5 minutos: Crie um Projeto com 3–5 rótulos e 2 atributos.

5 minutos: Crie uma Tarefa com 100 imagens.

10 minutos: Anote 20 imagens usando caixas; aprenda atalhos.

5 minutos: Exporte para YOLO e execute uma passagem de treinamento rápida.

No final, você terá um loop completo de imagens brutas para um conjunto de dados treinável.

Onde Aprender Mais

Noções básicas e tutoriais do CVAT da equipe.

Detalhes de instalação e configuração.

Imagem do servidor e referências de contêiner.

Pesquisa sobre interativo/autoanotação para vídeo para inspirar fluxos de trabalho mais rápidos.

Principais Conclusões

Defina seus rótulos primeiro — o design do esquema evita dores de cabeça posteriores.

Use interpolação e rastreamento para vídeo; use quadros-chave de forma inteligente.

A anotação automática acelera o trabalho; a revisão humana garante a qualidade.

Exporte no formato que seu código de treinamento espera; versionamento de tudo.

Comece pequeno, itere rápido e dimensione com diretrizes claras.

FAQ

P1: O que é CVAT e como usá-lo para anotação de imagem? CVAT é uma plataforma de rotulagem baseada em navegador para imagens e vídeos. Crie um projeto, defina rótulos, envie dados como uma tarefa, anote com caixas ou polígonos e exporte em formatos como COCO ou YOLO.

P2: Como instalo o CVAT rapidamente? O caminho mais fácil é usar o Docker. Siga as etapas de instalação oficiais para iniciar o servidor localmente e, em seguida, acesse a interface do usuário da web em seu navegador para configuração e criação de usuário.

P3: O CVAT pode autoanotar ou ajudar no rastreamento em vídeos? Sim, o CVAT suporta interpolação e rastreamento para propagar anotações em quadros e pode integrar rotulagem assistida por modelo para pré-rotular objetos e acelerar a revisão.

P4: Quais formatos de exportação o CVAT suporta? As exportações comuns incluem COCO, YOLO e Pascal VOC. Escolha o formato que corresponde ao esquema esperado e ao mapeamento de índice de classe do seu framework de treinamento.

P5: Como gerencio equipes e controle de qualidade no CVAT? Crie projetos com rótulos compartilhados, divida tarefas em trabalhos, atribua funções (anotadores, revisores) e use revisões, comentários, tarefas de ouro e verificações de sobreposição para garantir uma qualidade consistente.