Como Usar o CVAT: Um Guia Amigável, Passo a Passo, para Anotações Rápidas e Precisas
Se você já tentou treinar um modelo de visão computacional, provavelmente esbarrou na mesma barreira que todo mundo: os dados precisam de rótulos de alta qualidade. CVAT (Computer Vision Annotation Tool) é uma das plataformas mais populares para criar anotações de imagem e vídeo de alta qualidade — aberta, poderosa e construída para escalar desde projetos paralelos até pipelines de produção. Este guia prático orienta você na instalação, configuração, fluxos de trabalho de rotulagem, assistentes de automação, controle de qualidade e exportações — para que você possa ir de zero a conjuntos de dados limpos sem o caos.
Vamos manter tudo prático e direto, com exemplos, atalhos e armadilhas a evitar.
O Que É CVAT e Por Que Usá-lo?
CVAT é uma ferramenta baseada na web para anotar imagens e vídeos. Ele suporta detecção de objetos, segmentação, classificação e rastreamento. Você pode executá-lo localmente ou em um servidor, convidar colegas de equipe, gerenciar projetos/tarefas e exportar rótulos para formatos comuns (como COCO, YOLO, VOC). Se você precisa de rotulagem repetível, colaborativa e precisa — CVAT oferece.
- Baseado em navegador, funciona entre equipes
- Lida com imagens e vídeos longos com interpolação/rastreamento
- Esquema de rótulos e atributos flexíveis
- Múltiplos formatos de exportação para frameworks de treinamento populares
Para uma orientação oficial, o “Getting Started” da equipe CVAT é uma introdução útil.
Configuração Rápida: A Maneira Mais Rápida de Executar o CVAT
O caminho de instalação típico do CVAT usa o Docker. Ele agrupa o servidor, o banco de dados e as dependências para que você possa começar em minutos.
- Instale os pré-requisitos
- Docker e Docker Compose (ou Docker Desktop)
- Recomendado: CPU moderna, RAM suficiente (8–16GB+ para tarefas pesadas de vídeo)
- Clone o repositório CVAT e execute o script compose, ou use imagens de contêiner diretamente. A documentação oficial fornece comandos exatos e variáveis de ambiente. Há também uma imagem de servidor publicada no Docker Hub.
- Depois que os contêineres estiverem em execução, abra seu navegador (comumente ), crie um administrador/usuário e faça login.
Dica: Armazenar dados em volumes montados garante que suas tarefas, projetos e anotações persistam entre as atualizações.
O Fluxo de Trabalho do CVAT em Resumo
Pense em três camadas: Projeto → Tarefa → Trabalho.
- Projeto: Uma coleção para tarefas relacionadas (por exemplo, “Detecção de Prateleiras de Varejo 2025”). Define rótulos globais.
- Tarefa: Uma única unidade de rotulagem (por exemplo, um lote de 1.000 imagens ou um vídeo de 2 horas).
- Trabalho: Uma divisão de uma tarefa (por exemplo, fatias de um vídeo longo) atribuída a anotadores.
Essa estrutura permite que você gerencie grandes conjuntos de dados, atribua trabalho aos colegas de equipe e mantenha as definições de rótulos consistentes.
Passo 1: Crie um Projeto e Rótulos (Design do Esquema)
Antes de enviar os dados, defina sua ontologia — o que você está rotulando e como.
- Classes: por exemplo,
pessoa, carro, capacete, rachadura.
- Atributos: por exemplo,
ocluído: sim/não, clima: ensolarado/chuvoso, gravidade_do_dano: 1–5.
- Codificação de cores: melhora a clareza visual.
Melhores práticas:
- Mantenha os nomes das classes curtos, consistentes e descritivos.
- Use atributos para metadados que não exigem desenho (por exemplo, “é_multidão”).
- Evite classes sobrepostas, a menos que intencionalmente hierárquicas (por exemplo,
veículo > carro/ônibus/caminhão).
Você pode definir rótulos no nível do Projeto para que todas as Tarefas relacionadas os herdem.
Passo 2: Crie uma Tarefa e Envie Dados
No painel:
- Novo → Tarefa → Nomeie sua tarefa.
- Selecione o projeto (opcional, mas recomendado).
- Envie os dados: arraste e solte imagens, aponte para um diretório ou forneça links de armazenamento em nuvem (por exemplo, S3, Azure Blob), dependendo da sua configuração.
- Confirme se os rótulos estão corretos (herdados ou específicos da tarefa) e clique em Criar.
Para vídeos longos, considere dividir ou habilitar a divisão automática de trabalhos para manter cada trabalho gerenciável e responsivo para os anotadores.
Passo 3: Escolha o Modo de Anotação Certo
O CVAT suporta várias ferramentas de anotação:
- Caixas delimitadoras: mais rápido para detecção de objetos.
- Polígonos/Polilinhas: para segmentação de instância/semântica, faixas de rodagem, rachaduras.
- Cubóides: para caixas de perspectiva 3D em imagens 2D.
- Pontos: pontos-chave ou pontos de referência (poses, pontos de referência faciais).
- Tags: rótulos de nível de imagem (por exemplo, “diurno”).
Atalhos de teclado aceleram as coisas drasticamente:
- Mantenha Shift/Alt pressionado para formas restritas (dependendo da ferramenta) e snapping.
Dica: Mantenha a lista de rótulos pequena e focada. Muitas classes retardam os anotadores e aumentam as taxas de erro.
Passo 4: Anotação de Vídeo — Interpole e Rastreie
Para vídeos, não anote cada quadro individual. Em vez disso:
- Crie uma caixa ou polígono em um quadro-chave.
- Habilite a interpolação/rastreamento: o CVAT pode propagar formas para frente, então você corrige conforme necessário em novos quadros-chave.
- Divida ou mescle rastros quando os objetos se ocluírem ou reaparecerem.
- Marque estados como “fora” ou “ocluído” para manter as sequências limpas.
Isso reduz drasticamente o tempo, mantendo a consistência temporal. A pesquisa e as melhores práticas da comunidade também recomendam assistência interativa/autoanotação para acelerar a rotulagem de vídeo.
Passo 5: Use Ferramentas de Anotação Automática e Assistida
O CVAT suporta rotulagem assistida para acelerar o trabalho. Dependendo da sua implantação, você pode:
- Use recursos assistidos por modelo integrados para propor caixas/máscaras.
- Execute modelos do lado do servidor para pré-rotular quadros e, em seguida, corrigir.
- Aplique interpolação para preencher lacunas.
Comece com um pequeno conjunto inicial de alta qualidade, treine um modelo rápido e use-o para pré-rotular os dados restantes. Corrija e retreine iterativamente.
Nota: Os detalhes dependem de quais modelos você habilita em seu ambiente. A documentação oficial e os tutoriais da comunidade mostram como conectar modelos ao CVAT e habilitar a Anotação Automática na IU.
Passo 6: Colabore com Funções e Revisões
O CVAT é multiusuário. As funções típicas incluem:
- Administrador: gerencia servidor e usuários
- Gerente de projeto: define rótulos, cria tarefas/trabalhos, atribui anotadores
- Anotador: cria e edita rótulos
- Revisor/QA: verifica o trabalho, solicita correções
Defina diretrizes claras: exemplos de anotações corretas/incorretas, definições de atributos e casos extremos (por exemplo, “rotular reflexos?”). Use as ferramentas de revisão — comentários, sinalizadores de problemas e mudanças de status — para aumentar a qualidade.
Passo 7: Controle de Qualidade em Que Você Pode Confiar
Algumas estratégias práticas de CQ:
- Tarefas de ouro: insira algumas imagens rotuladas por especialistas para comparar anotadores.
- Sobreposição: atribua o mesmo trabalho a dois anotadores; compare IoU e concordância.
- Verificações pontuais: os revisores auditam uma porcentagem de cada trabalho.
- Métricas: rastreie padrões de confusão por classe durante o treinamento do modelo para refinar as diretrizes.
A consistência ao longo do tempo importa mais do que rótulos perfeitos e únicos. Documente as decisões e atualize o guia de rótulos à medida que você descobre casos extremos.
Passo 8: Salve, Versione e Exporte
Salve frequentemente (o CVAT também salva automaticamente). Quando estiver pronto:
- Formatos de exportação: COCO, YOLO, Pascal VOC e mais. Escolha o formato que seu código de treinamento espera.
- Intervalos de quadros: exporte segmentos específicos ou toda a tarefa.
- Filtros: exporte apenas determinados rótulos ou atributos, se necessário.
Consulte a documentação oficial para obter opções e parâmetros de exportação atualizados. Para detalhes de instalação e imagem do servidor, a documentação e as páginas do Docker Hub são referências autorizadas.
Cenários Práticos e Dicas
Cenário 1: Detecção de Objetos em Prateleiras de Varejo
- Rótulos:
produto, etiqueta_de_preço, sinal_promocional.
- Use caixas para velocidade; adicione atributos como
promo=sim/não.
- Exporte para YOLO para um pipeline de treinamento leve.
Cenário 2: Segmentação de Faixas de Rodagem
- Use polilinhas ou polígonos.
- Interpole entre quadros; corrija nas curvas.
- Exporte para COCO panóptico/segmentação dependendo do seu framework.
Cenário 3: Conformidade de Equipamentos de Segurança
- Rastreie
pessoa, capacete, colete ao longo do vídeo.
- Use rastreamento + atributos (
capacete=presente/ausente).
- Revise as oclusões cuidadosamente nos pontos de entrada/saída.
Dicas profissionais:
- Mantenha as tarefas com menos de alguns milhares de imagens ou divida vídeos longos para manter a IU responsiva.
- Normalize os tamanhos das imagens ou comprima os vídeos para equilibrar desempenho e clareza.
- Versionamento de conjuntos de dados — exporte com uma tag clara (por exemplo,
v1.2.0) e bloqueie as tarefas depois de finalizadas.
Solução de Problemas Comuns
- IU lenta em vídeos grandes: divida em trabalhos mais curtos; reduza a resolução de visualização e o tamanho do pré-busca.
- Desvio de anotação no rastreamento: adicione quadros-chave com mais frequência, especialmente durante movimentos rápidos ou oclusões.
- Rótulos confusos: refatore a ontologia; mova detalhes para atributos; forneça exemplos visuais.
- Incompatibilidade de exportação: verifique novamente os campos esperados da sua biblioteca de treinamento de destino (por exemplo, mapeamento de índice de classe YOLO, IDs de categoria COCO).
Integrando ao Seu Pipeline de ML
- Pré-processamento: redimensione/normalize as imagens antes de enviar para acelerar a anotação.
- Automação: Pré-rotule com um modelo rápido, corrija no CVAT e, em seguida, itere.
- CI para dados: trate os rótulos como código — exportações versionadas, checksums e changelogs.
- Armazenamento: Use buckets na nuvem e políticas de ciclo de vida para grandes conjuntos de dados de vídeo.
Vale a pena notar: Se você usar assistentes de IA para documentar diretrizes, gerar taxonomias de rótulos ou resumir o feedback do revisor, uma ferramenta como Sider.AI pode ajudá-lo a criar instruções claras e checklists de revisão consistentes. Você pode capturar decisões, gerar exemplos e transformá-los em playbooks compartilháveis para sua equipe. Veja Sider.AI para mais informações. Um Plano Inicial de 30 Minutos
- 5 minutos: Instale e execute o CVAT localmente.
- 5 minutos: Crie um Projeto com 3–5 rótulos e 2 atributos.
- 5 minutos: Crie uma Tarefa com 100 imagens.
- 10 minutos: Anote 20 imagens usando caixas; aprenda atalhos.
- 5 minutos: Exporte para YOLO e execute uma passagem de treinamento rápida.
No final, você terá um loop completo de imagens brutas para um conjunto de dados treinável.
Onde Aprender Mais
- Noções básicas e tutoriais do CVAT da equipe.
- Detalhes de instalação e configuração.
- Imagem do servidor e referências de contêiner.
- Pesquisa sobre interativo/autoanotação para vídeo para inspirar fluxos de trabalho mais rápidos.
Principais Conclusões
- Defina seus rótulos primeiro — o design do esquema evita dores de cabeça posteriores.
- Use interpolação e rastreamento para vídeo; use quadros-chave de forma inteligente.
- A anotação automática acelera o trabalho; a revisão humana garante a qualidade.
- Exporte no formato que seu código de treinamento espera; versionamento de tudo.
- Comece pequeno, itere rápido e dimensione com diretrizes claras.
FAQ
P1: O que é CVAT e como usá-lo para anotação de imagem?
CVAT é uma plataforma de rotulagem baseada em navegador para imagens e vídeos. Crie um projeto, defina rótulos, envie dados como uma tarefa, anote com caixas ou polígonos e exporte em formatos como COCO ou YOLO.
P2: Como instalo o CVAT rapidamente?
O caminho mais fácil é usar o Docker. Siga as etapas de instalação oficiais para iniciar o servidor localmente e, em seguida, acesse a interface do usuário da web em seu navegador para configuração e criação de usuário.
P3: O CVAT pode autoanotar ou ajudar no rastreamento em vídeos?
Sim, o CVAT suporta interpolação e rastreamento para propagar anotações em quadros e pode integrar rotulagem assistida por modelo para pré-rotular objetos e acelerar a revisão.
P4: Quais formatos de exportação o CVAT suporta?
As exportações comuns incluem COCO, YOLO e Pascal VOC. Escolha o formato que corresponde ao esquema esperado e ao mapeamento de índice de classe do seu framework de treinamento.
P5: Como gerencio equipes e controle de qualidade no CVAT?
Crie projetos com rótulos compartilhados, divida tarefas em trabalhos, atribua funções (anotadores, revisores) e use revisões, comentários, tarefas de ouro e verificações de sobreposição para garantir uma qualidade consistente.