Cómo usar CVAT: Una guía amigable, paso a paso, para anotaciones rápidas y precisas
Si alguna vez has intentado entrenar un modelo de visión artificial, probablemente te hayas topado con el mismo muro que todos: los datos necesitan etiquetas de calidad. CVAT (Computer Vision Annotation Tool) es una de las plataformas más populares para crear anotaciones de imágenes y vídeos de alta calidad: abierta, potente y construida para escalar desde proyectos secundarios hasta de producción. Esta guía práctica te guiará a través de la instalación, la configuración, los flujos de trabajo de etiquetado, los asistentes de automatización, el control de calidad y las exportaciones, para que puedas pasar de cero a conjuntos de datos limpios sin el caos.
Lo mantendremos práctico y directo, con ejemplos, atajos y errores que debes evitar.
¿Qué es CVAT y por qué usarlo?
CVAT es una herramienta basada en web para anotar imágenes y vídeos. Admite la detección de objetos, la segmentación, la clasificación y el seguimiento. Puedes ejecutarlo localmente o en un servidor, invitar a compañeros de equipo, gestionar proyectos/tareas y exportar etiquetas a formatos comunes (como COCO, YOLO, VOC). Si necesitas un etiquetado repetible, colaborativo y preciso, CVAT cumple.
- Basado en navegador, funciona en equipos
- Gestiona imágenes y vídeos largos con interpolación/seguimiento
- Esquema de etiquetas y atributos flexible
- Múltiples formatos de exportación para marcos de entrenamiento populares
Para una orientación oficial, la sección "Getting Started" del equipo de CVAT es una introducción útil.
Configuración rápida: La forma más rápida de ejecutar CVAT
La ruta de instalación típica de CVAT utiliza Docker. Agrupa el servidor, la base de datos y las dependencias para que puedas empezar en minutos.
- Instalar los requisitos previos
- Docker y Docker Compose (o Docker Desktop)
- Recomendado: CPU moderna, suficiente RAM (8–16 GB+ para tareas con muchos vídeos)
- Clona el repositorio de CVAT y ejecuta el de composición, o utiliza las imágenes de contenedor directamente. La documentación oficial proporciona los comandos exactos y las variables de entorno. También hay una imagen de servidor publicada en Docker Hub.
- Accede a la interfaz de usuario
- Una vez que los contenedores estén en funcionamiento, abre tu navegador (normalmente {http://localhost:8080}), crea un administrador/usuario e inicia sesión.
Consejo: Almacenar los datos en volúmenes montados asegura que tus tareas, proyectos y anotaciones persistan a través de las actualizaciones.
El flujo de trabajo de CVAT de un vistazo
Piensa en tres capas: Proyecto → Tarea → Trabajo.
- Proyecto: Una colección para tareas relacionadas (por ejemplo, "Detección de estanterías de venta al por menor 2025"). Define las etiquetas globales.
- Tarea: Una sola unidad de etiquetado (por ejemplo, un lote de 1000 imágenes o un vídeo de 2 horas).
- Trabajo: Una división de una tarea (por ejemplo, fragmentos de un vídeo largo) asignada a los anotadores.
Esta estructura te permite gestionar grandes conjuntos de datos, asignar trabajo a los compañeros de equipo y mantener la coherencia de las definiciones de etiquetas.
Paso 1: Crear un proyecto y etiquetas (Diseño del esquema)
Antes de subir los datos, define tu ontología: qué estás etiquetando y cómo.
- Clases: por ejemplo,
persona, coche, casco, grieta.
- Atributos: por ejemplo,
ocluido: sí/no, tiempo: soleado/lluvioso, gravedad_del_daño: 1–5.
- Codificación por colores: mejora la claridad visual.
Buenas prácticas:
- Mantén los nombres de las clases cortos, coherentes y descriptivos.
- Utiliza atributos para los metadatos que no requieran dibujo (por ejemplo, "es_multitud").
- Evita las clases superpuestas a menos que sean intencionadamente jerárquicas (por ejemplo,
vehículo > coche/autobús/camión).
Puedes definir etiquetas a nivel de Proyecto para que todas las Tareas relacionadas las hereden.
Paso 2: Crear una tarea y subir datos
Desde el panel de control:
- Nuevo → Tarea → Nombra tu tarea.
- Selecciona el proyecto (opcional, pero recomendado).
- Carga de datos: arrastra y suelta imágenes, apunta a un directorio o proporciona enlaces de almacenamiento en la nube (por ejemplo, S3, Azure Blob) dependiendo de tu configuración.
- Confirma que las etiquetas son correctas (heredadas o específicas de la tarea) y pulsa Crear.
Para vídeos largos, considera la posibilidad de dividir o habilitar la división automática de trabajos para que cada trabajo sea manejable y tenga una buena respuesta para los anotadores.
Paso 3: Elige el modo de anotación correcto
CVAT soporta múltiples herramientas de anotación:
- Cajas delimitadoras: lo más rápido para la detección de objetos.
- Polígonos/Polilíneas: para la segmentación de instancias/semántica, carriles de carretera, grietas.
- Cuboides: para cajas de perspectiva 3D en imágenes 2D.
- Puntos: puntos clave o puntos de referencia (poses, puntos de referencia faciales).
- Etiquetas: etiquetas a nivel de imagen (por ejemplo, "diurno").
Los atajos de teclado aceleran las cosas drásticamente:
- N: crear la siguiente forma
- V: cambiar de herramienta
- Mantén pulsado Shift/Alt para formas restringidas (dependiendo de la herramienta) y para encajar.
Consejo: Mantén la lista de etiquetas pequeña y centrada. Demasiadas clases ralentizan a los anotadores y aumentan las tasas de error.
Paso 4: Anotación de vídeo: interpolar y seguir
Para los vídeos, no anotes cada fotograma. En su lugar:
- Crea una caja o un polígono en un fotograma clave.
- Activa la interpolación/seguimiento: CVAT puede propagar las formas hacia delante, y luego las corriges según sea necesario en los nuevos fotogramas clave.
- Divide o fusiona las pistas cuando los objetos se ocluyen o reaparecen.
- Marca estados como "fuera" u "ocluido" para mantener las secuencias limpias.
Esto reduce drásticamente el tiempo, manteniendo la consistencia temporal. La investigación y las mejores prácticas de la comunidad también recomiendan la asistencia interactiva/autoanotación para acelerar el etiquetado de vídeo.
Paso 5: Utiliza la anotación automática y las herramientas asistidas
CVAT soporta el etiquetado asistido para acelerar el trabajo. Dependiendo de tu implementación, puedes:
- Utilizar funciones asistidas por modelos integrados para proponer cajas/máscaras.
- Ejecutar modelos del lado del servidor para preetiquetar los fotogramas y, a continuación, corregirlos.
- Aplicar la interpolación para rellenar los huecos.
Comienza con un pequeño conjunto de semillas de alta calidad, entrena un modelo rápido y utilízalo para preetiquetar los datos restantes. Corrige y vuelve a entrenar de forma iterativa.
Nota: Los detalles específicos dependen de los modelos que habilites en tu entorno. La documentación oficial y los tutoriales de la comunidad muestran cómo conectar modelos a CVAT y habilitar la anotación automática en la interfaz de usuario.
Paso 6: Colabora con roles y revisiones
CVAT es multiusuario. Los roles típicos incluyen:
- Administrador: gestiona el servidor y los usuarios
- Gestor de proyectos: define las etiquetas, crea tareas/trabajos, asigna anotadores
- Anotador: crea y edita etiquetas
- Revisor/QA: comprueba el trabajo, solicita correcciones
Establece directrices claras: ejemplos de anotaciones correctas/incorrectas, definiciones de atributos y casos extremos (por ejemplo, "¿etiquetar reflejos?"). Utiliza las herramientas de revisión —comentarios, indicadores de problemas y cambios de estado— para mejorar la calidad.
Paso 7: Control de calidad en el que puedes confiar
Algunas estrategias prácticas de control de calidad:
- Tareas de oro: inserta algunas imágenes etiquetadas por expertos para comparar a los anotadores.
- Solapamiento: asigna el mismo trabajo a dos anotadores; compara IoU y la concordancia.
- Comprobaciones puntuales: los revisores auditan un porcentaje de cada trabajo.
- Métricas: realiza un seguimiento de los patrones de confusión por clase durante el entrenamiento del modelo para refinar las directrices.
La consistencia a lo largo del tiempo importa más que las etiquetas perfectas y aisladas. Documenta las decisiones y actualiza la guía de etiquetas a medida que descubras casos extremos.
Paso 8: Guardar, versionar y exportar
Guarda con frecuencia (CVAT también guarda automáticamente). Cuando estés listo:
- Formatos de exportación: COCO, YOLO, Pascal VOC y más. Elige el formato que espera tu código de entrenamiento.
- Rangos de fotogramas: exporta segmentos específicos o toda la tarea.
- Filtros: exporta sólo ciertas etiquetas o atributos si es necesario.
Consulta la documentación oficial para conocer las opciones y los parámetros de exportación más recientes. Para obtener detalles sobre la instalación y la imagen del servidor, la documentación y las páginas de Docker Hub son referencias autorizadas.
Escenarios prácticos y consejos
Escenario 1: Detección de objetos en estanterías de venta al por menor
- Etiquetas:
producto, etiqueta_de_precio, cartel_promocional.
- Utiliza cajas para mayor velocidad; añade atributos como
promo=sí/no.
- Exporta a YOLO para un de entrenamiento ligero.
Escenario 2: Segmentación de carriles de carretera
- Utiliza polilíneas o polígonos.
- Interpola a través de los fotogramas; corrige en los giros.
- Exporta a COCO panóptico/segmentación dependiendo de tu marco.
Escenario 3: Cumplimiento de los equipos de seguridad
- Realiza un seguimiento de
persona, casco, chaleco a través del vídeo.
- Utiliza el seguimiento + atributos (
casco=presente/ausente).
- Revisa cuidadosamente las oclusiones en los puntos de entrada/salida.
Consejos profesionales:
- Mantén las tareas por debajo de unos pocos miles de imágenes o divide los vídeos largos para que la interfaz de usuario responda.
- Normaliza los tamaños de las imágenes o comprime los vídeos para equilibrar el rendimiento y la claridad.
- Versiona los conjuntos de datos: exporta con una etiqueta clara (por ejemplo,
v1.2.0) y bloquea las tareas una vez finalizadas.
Solución de problemas de cuellos de botella comunes
- Interfaz de usuario lenta en vídeos grandes: divide en trabajos más cortos; reduce la resolución de la vista previa y el tamaño de la búsqueda previa.
- Deriva de la anotación en el seguimiento: añade fotogramas clave con más frecuencia, especialmente durante movimientos rápidos u oclusiones.
- Etiquetas confusas: refactoriza la ontología; mueve los detalles a los atributos; proporciona ejemplos visuales.
- Desajuste de la exportación: comprueba los campos esperados de la biblioteca de entrenamiento de destino (por ejemplo, la asignación del índice de clase YOLO, los ID de categoría COCO).
Integración en tu de ML
- Preprocesamiento: Cambia el tamaño/normaliza las imágenes antes de subirlas para acelerar la anotación.
- Automatización: Preetiqueta con un modelo rápido, corrige en CVAT y luego itera.
- CI para los datos: Trata las etiquetas como código: exportaciones versionadas, sumas de comprobación y registros de cambios.
- Almacenamiento: Utiliza en la nube y políticas de ciclo de vida para grandes conjuntos de datos de vídeo.
Vale la pena señalar: Si utilizas asistentes de IA para documentar las directrices, generar taxonomías de etiquetas o resumir los comentarios de los revisores, una herramienta como Sider.AI puede ayudarte a crear instrucciones claras y listas de comprobación de revisión coherentes. Puedes capturar decisiones, generar ejemplos y convertirlos en manuales compartibles para tu equipo. Consulta Sider.AI para obtener más información. Un plan de inicio de 30 minutos
- 5 minutos: Instala e inicia CVAT localmente.
- 5 minutos: Crea un proyecto con 3–5 etiquetas y 2 atributos.
- 5 minutos: Crea una tarea con 100 imágenes.
- 10 minutos: Anota 20 imágenes utilizando cajas; aprende atajos.
- 5 minutos: Exporta a YOLO y ejecuta un pase de entrenamiento rápido.
Al final, tendrás un bucle completo desde las imágenes en bruto hasta un conjunto de datos entrenable.
Dónde aprender más
- Conceptos básicos de CVAT y tutoriales del equipo.
- Detalles de la instalación y la configuración.
- Imagen del servidor y referencias del contenedor.
- Investigación sobre la anotación interactiva/automática para vídeo para inspirar flujos de trabajo más rápidos.
Conclusiones clave
- Define tus etiquetas primero: el diseño del esquema evita el dolor posterior.
- Utiliza la interpolación y el seguimiento para el vídeo; fotograma clave de forma inteligente.
- La anotación automática acelera el trabajo; la revisión humana garantiza la calidad.
- Exporta en el formato que espera tu código de entrenamiento; versiona todo.
- Empieza poco a poco, itera rápido y escala con directrices claras.
Preguntas frecuentes
P1: ¿Qué es CVAT y cómo lo utilizo para la anotación de imágenes?
CVAT es una plataforma de etiquetado basada en navegador para imágenes y vídeos. Crea un proyecto, define etiquetas, sube datos como una tarea, anota con cajas o polígonos y exporta en formatos como COCO o YOLO.
P2: ¿Cómo instalo CVAT rápidamente?
La ruta más fácil es usar Docker. Sigue los pasos de instalación oficiales para iniciar el servidor localmente, y luego accede a la interfaz de usuario web en tu navegador para la configuración y la creación de usuarios.
P3: ¿Puede CVAT autoanotar o ayudar con el seguimiento en vídeos?
Sí, CVAT soporta la interpolación y el seguimiento para propagar las anotaciones a través de los fotogramas, y puede integrar el etiquetado asistido por modelos para preetiquetar objetos y acelerar la revisión.
P4: ¿Qué formatos de exportación soporta CVAT?
Las exportaciones comunes incluyen COCO, YOLO y Pascal VOC. Elige el formato que coincida con el esquema esperado de tu marco de entrenamiento y la asignación del índice de clase.
P5: ¿Cómo gestiono los equipos y el control de calidad en CVAT?
Crea proyectos con etiquetas compartidas, divide las tareas en trabajos, asigna roles (anotadores, revisores) y utiliza revisiones, comentarios, tareas de oro y comprobaciones de solapamiento para garantizar una calidad consistente.