What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

Cómo usar CVAT: Una guía amigable, paso a paso, para anotaciones rápidas y precisas

Si alguna vez has intentado entrenar un modelo de visión artificial, probablemente te hayas topado con el mismo muro que todos: los datos necesitan etiquetas de calidad. CVAT (Computer Vision Annotation Tool) es una de las plataformas más populares para crear anotaciones de imágenes y vídeos de alta calidad: abierta, potente y construida para escalar desde proyectos secundarios hasta de producción. Esta guía práctica te guiará a través de la instalación, la configuración, los flujos de trabajo de etiquetado, los asistentes de automatización, el control de calidad y las exportaciones, para que puedas pasar de cero a conjuntos de datos limpios sin el caos.

Lo mantendremos práctico y directo, con ejemplos, atajos y errores que debes evitar.

¿Qué es CVAT y por qué usarlo?

CVAT es una herramienta basada en web para anotar imágenes y vídeos. Admite la detección de objetos, la segmentación, la clasificación y el seguimiento. Puedes ejecutarlo localmente o en un servidor, invitar a compañeros de equipo, gestionar proyectos/tareas y exportar etiquetas a formatos comunes (como COCO, YOLO, VOC). Si necesitas un etiquetado repetible, colaborativo y preciso, CVAT cumple.

Basado en navegador, funciona en equipos

Gestiona imágenes y vídeos largos con interpolación/seguimiento

Esquema de etiquetas y atributos flexible

Múltiples formatos de exportación para marcos de entrenamiento populares

Para una orientación oficial, la sección "Getting Started" del equipo de CVAT es una introducción útil.

Configuración rápida: La forma más rápida de ejecutar CVAT

La ruta de instalación típica de CVAT utiliza Docker. Agrupa el servidor, la base de datos y las dependencias para que puedas empezar en minutos.

Instalar los requisitos previos

Docker y Docker Compose (o Docker Desktop)

Recomendado: CPU moderna, suficiente RAM (8–16 GB+ para tareas con muchos vídeos)

Descargar e iniciar CVAT

Clona el repositorio de CVAT y ejecuta el de composición, o utiliza las imágenes de contenedor directamente. La documentación oficial proporciona los comandos exactos y las variables de entorno. También hay una imagen de servidor publicada en Docker Hub.

Accede a la interfaz de usuario

Una vez que los contenedores estén en funcionamiento, abre tu navegador (normalmente {http://localhost:8080}), crea un administrador/usuario e inicia sesión.

Consejo: Almacenar los datos en volúmenes montados asegura que tus tareas, proyectos y anotaciones persistan a través de las actualizaciones.

El flujo de trabajo de CVAT de un vistazo

Piensa en tres capas: Proyecto → Tarea → Trabajo.

Proyecto: Una colección para tareas relacionadas (por ejemplo, "Detección de estanterías de venta al por menor 2025"). Define las etiquetas globales.

Tarea: Una sola unidad de etiquetado (por ejemplo, un lote de 1000 imágenes o un vídeo de 2 horas).

Trabajo: Una división de una tarea (por ejemplo, fragmentos de un vídeo largo) asignada a los anotadores.

Esta estructura te permite gestionar grandes conjuntos de datos, asignar trabajo a los compañeros de equipo y mantener la coherencia de las definiciones de etiquetas.

Paso 1: Crear un proyecto y etiquetas (Diseño del esquema)

Antes de subir los datos, define tu ontología: qué estás etiquetando y cómo.

Clases: por ejemplo, persona, coche, casco, grieta.

Atributos: por ejemplo, ocluido: sí/no, tiempo: soleado/lluvioso, gravedad_del_daño: 1–5.

Codificación por colores: mejora la claridad visual.

Buenas prácticas:

Mantén los nombres de las clases cortos, coherentes y descriptivos.

Utiliza atributos para los metadatos que no requieran dibujo (por ejemplo, "es_multitud").

Evita las clases superpuestas a menos que sean intencionadamente jerárquicas (por ejemplo, vehículo > coche/autobús/camión).

Puedes definir etiquetas a nivel de Proyecto para que todas las Tareas relacionadas las hereden.

Paso 2: Crear una tarea y subir datos

Desde el panel de control:

Nuevo → Tarea → Nombra tu tarea.

Selecciona el proyecto (opcional, pero recomendado).

Carga de datos: arrastra y suelta imágenes, apunta a un directorio o proporciona enlaces de almacenamiento en la nube (por ejemplo, S3, Azure Blob) dependiendo de tu configuración.

Confirma que las etiquetas son correctas (heredadas o específicas de la tarea) y pulsa Crear.

Para vídeos largos, considera la posibilidad de dividir o habilitar la división automática de trabajos para que cada trabajo sea manejable y tenga una buena respuesta para los anotadores.

Paso 3: Elige el modo de anotación correcto

CVAT soporta múltiples herramientas de anotación:

Cajas delimitadoras: lo más rápido para la detección de objetos.

Polígonos/Polilíneas: para la segmentación de instancias/semántica, carriles de carretera, grietas.

Cuboides: para cajas de perspectiva 3D en imágenes 2D.

Puntos: puntos clave o puntos de referencia (poses, puntos de referencia faciales).

Etiquetas: etiquetas a nivel de imagen (por ejemplo, "diurno").

Los atajos de teclado aceleran las cosas drásticamente:

N: crear la siguiente forma

Z: zoom

V: cambiar de herramienta

Ctrl/Cmd + S: guardar

Mantén pulsado Shift/Alt para formas restringidas (dependiendo de la herramienta) y para encajar.

Consejo: Mantén la lista de etiquetas pequeña y centrada. Demasiadas clases ralentizan a los anotadores y aumentan las tasas de error.

Paso 4: Anotación de vídeo: interpolar y seguir

Para los vídeos, no anotes cada fotograma. En su lugar:

Crea una caja o un polígono en un fotograma clave.

Activa la interpolación/seguimiento: CVAT puede propagar las formas hacia delante, y luego las corriges según sea necesario en los nuevos fotogramas clave.

Divide o fusiona las pistas cuando los objetos se ocluyen o reaparecen.

Marca estados como "fuera" u "ocluido" para mantener las secuencias limpias.

Esto reduce drásticamente el tiempo, manteniendo la consistencia temporal. La investigación y las mejores prácticas de la comunidad también recomiendan la asistencia interactiva/autoanotación para acelerar el etiquetado de vídeo.

Paso 5: Utiliza la anotación automática y las herramientas asistidas

CVAT soporta el etiquetado asistido para acelerar el trabajo. Dependiendo de tu implementación, puedes:

Utilizar funciones asistidas por modelos integrados para proponer cajas/máscaras.

Ejecutar modelos del lado del servidor para preetiquetar los fotogramas y, a continuación, corregirlos.

Aplicar la interpolación para rellenar los huecos.

Comienza con un pequeño conjunto de semillas de alta calidad, entrena un modelo rápido y utilízalo para preetiquetar los datos restantes. Corrige y vuelve a entrenar de forma iterativa.

Nota: Los detalles específicos dependen de los modelos que habilites en tu entorno. La documentación oficial y los tutoriales de la comunidad muestran cómo conectar modelos a CVAT y habilitar la anotación automática en la interfaz de usuario.

Paso 6: Colabora con roles y revisiones

CVAT es multiusuario. Los roles típicos incluyen:

Administrador: gestiona el servidor y los usuarios

Gestor de proyectos: define las etiquetas, crea tareas/trabajos, asigna anotadores

Anotador: crea y edita etiquetas

Revisor/QA: comprueba el trabajo, solicita correcciones

Establece directrices claras: ejemplos de anotaciones correctas/incorrectas, definiciones de atributos y casos extremos (por ejemplo, "¿etiquetar reflejos?"). Utiliza las herramientas de revisión —comentarios, indicadores de problemas y cambios de estado— para mejorar la calidad.

Paso 7: Control de calidad en el que puedes confiar

Algunas estrategias prácticas de control de calidad:

Tareas de oro: inserta algunas imágenes etiquetadas por expertos para comparar a los anotadores.

Solapamiento: asigna el mismo trabajo a dos anotadores; compara IoU y la concordancia.

Comprobaciones puntuales: los revisores auditan un porcentaje de cada trabajo.

Métricas: realiza un seguimiento de los patrones de confusión por clase durante el entrenamiento del modelo para refinar las directrices.

La consistencia a lo largo del tiempo importa más que las etiquetas perfectas y aisladas. Documenta las decisiones y actualiza la guía de etiquetas a medida que descubras casos extremos.

Paso 8: Guardar, versionar y exportar

Guarda con frecuencia (CVAT también guarda automáticamente). Cuando estés listo:

Formatos de exportación: COCO, YOLO, Pascal VOC y más. Elige el formato que espera tu código de entrenamiento.

Rangos de fotogramas: exporta segmentos específicos o toda la tarea.

Filtros: exporta sólo ciertas etiquetas o atributos si es necesario.

Consulta la documentación oficial para conocer las opciones y los parámetros de exportación más recientes. Para obtener detalles sobre la instalación y la imagen del servidor, la documentación y las páginas de Docker Hub son referencias autorizadas.

Escenarios prácticos y consejos

Escenario 1: Detección de objetos en estanterías de venta al por menor

Etiquetas: producto, etiqueta_de_precio, cartel_promocional.

Utiliza cajas para mayor velocidad; añade atributos como promo=sí/no.

Exporta a YOLO para un de entrenamiento ligero.

Escenario 2: Segmentación de carriles de carretera

Utiliza polilíneas o polígonos.

Interpola a través de los fotogramas; corrige en los giros.

Exporta a COCO panóptico/segmentación dependiendo de tu marco.

Escenario 3: Cumplimiento de los equipos de seguridad

Realiza un seguimiento de persona, casco, chaleco a través del vídeo.

Utiliza el seguimiento + atributos (casco=presente/ausente).

Revisa cuidadosamente las oclusiones en los puntos de entrada/salida.

Consejos profesionales:

Mantén las tareas por debajo de unos pocos miles de imágenes o divide los vídeos largos para que la interfaz de usuario responda.

Normaliza los tamaños de las imágenes o comprime los vídeos para equilibrar el rendimiento y la claridad.

Versiona los conjuntos de datos: exporta con una etiqueta clara (por ejemplo, v1.2.0) y bloquea las tareas una vez finalizadas.

Solución de problemas de cuellos de botella comunes

Interfaz de usuario lenta en vídeos grandes: divide en trabajos más cortos; reduce la resolución de la vista previa y el tamaño de la búsqueda previa.

Deriva de la anotación en el seguimiento: añade fotogramas clave con más frecuencia, especialmente durante movimientos rápidos u oclusiones.

Etiquetas confusas: refactoriza la ontología; mueve los detalles a los atributos; proporciona ejemplos visuales.

Desajuste de la exportación: comprueba los campos esperados de la biblioteca de entrenamiento de destino (por ejemplo, la asignación del índice de clase YOLO, los ID de categoría COCO).

Integración en tu de ML

Preprocesamiento: Cambia el tamaño/normaliza las imágenes antes de subirlas para acelerar la anotación.

Automatización: Preetiqueta con un modelo rápido, corrige en CVAT y luego itera.

CI para los datos: Trata las etiquetas como código: exportaciones versionadas, sumas de comprobación y registros de cambios.

Almacenamiento: Utiliza en la nube y políticas de ciclo de vida para grandes conjuntos de datos de vídeo.

Vale la pena señalar: Si utilizas asistentes de IA para documentar las directrices, generar taxonomías de etiquetas o resumir los comentarios de los revisores, una herramienta como Sider.AI puede ayudarte a crear instrucciones claras y listas de comprobación de revisión coherentes. Puedes capturar decisiones, generar ejemplos y convertirlos en manuales compartibles para tu equipo. Consulta Sider.AI para obtener más información.

Un plan de inicio de 30 minutos

5 minutos: Instala e inicia CVAT localmente.

5 minutos: Crea un proyecto con 3–5 etiquetas y 2 atributos.

5 minutos: Crea una tarea con 100 imágenes.

10 minutos: Anota 20 imágenes utilizando cajas; aprende atajos.

5 minutos: Exporta a YOLO y ejecuta un pase de entrenamiento rápido.

Al final, tendrás un bucle completo desde las imágenes en bruto hasta un conjunto de datos entrenable.

Dónde aprender más

Conceptos básicos de CVAT y tutoriales del equipo.

Detalles de la instalación y la configuración.

Imagen del servidor y referencias del contenedor.

Investigación sobre la anotación interactiva/automática para vídeo para inspirar flujos de trabajo más rápidos.

Conclusiones clave

Define tus etiquetas primero: el diseño del esquema evita el dolor posterior.

Utiliza la interpolación y el seguimiento para el vídeo; fotograma clave de forma inteligente.

La anotación automática acelera el trabajo; la revisión humana garantiza la calidad.

Exporta en el formato que espera tu código de entrenamiento; versiona todo.

Empieza poco a poco, itera rápido y escala con directrices claras.

Preguntas frecuentes

P1: ¿Qué es CVAT y cómo lo utilizo para la anotación de imágenes? CVAT es una plataforma de etiquetado basada en navegador para imágenes y vídeos. Crea un proyecto, define etiquetas, sube datos como una tarea, anota con cajas o polígonos y exporta en formatos como COCO o YOLO.

P2: ¿Cómo instalo CVAT rápidamente? La ruta más fácil es usar Docker. Sigue los pasos de instalación oficiales para iniciar el servidor localmente, y luego accede a la interfaz de usuario web en tu navegador para la configuración y la creación de usuarios.

P3: ¿Puede CVAT autoanotar o ayudar con el seguimiento en vídeos? Sí, CVAT soporta la interpolación y el seguimiento para propagar las anotaciones a través de los fotogramas, y puede integrar el etiquetado asistido por modelos para preetiquetar objetos y acelerar la revisión.

P4: ¿Qué formatos de exportación soporta CVAT? Las exportaciones comunes incluyen COCO, YOLO y Pascal VOC. Elige el formato que coincida con el esquema esperado de tu marco de entrenamiento y la asignación del índice de clase.

P5: ¿Cómo gestiono los equipos y el control de calidad en CVAT? Crea proyectos con etiquetas compartidas, divide las tareas en trabajos, asigna roles (anotadores, revisores) y utiliza revisiones, comentarios, tareas de oro y comprobaciones de solapamiento para garantizar una calidad consistente.