Sider.ai
  • Chat
  • Wisebase
  • Herramientas
  • Extensión
  • Clientela
  • Precios
Descargar ahora
Acceso

Aprende más rápido, piensa más profundamente y crece de manera más inteligente con Sider.

Productos
Aplicaciones
  • Extensiones
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
Herramientas
  • Creador de sitios webNew
  • Presentaciones de IANew
  • Escritor de ensayos AI
  • Nano Banana Pro
  • Nano Banana Infographic
  • Generador de imágenes AI
  • Generador de Brainrot Italiano
  • Removedor de fondo
  • Cambiador de fondo
  • Borrador de fotos
  • Removedor de texto
  • Retoque
  • Mejorador de imágenes
  • Crear
  • Traductor AI
  • Traductor de imágenes
  • Traductor de PDF
Sider
  • Contáctanos
  • Centro de ayuda
  • Descargar
  • Precios
  • Plan de Educación
  • Novedades
  • Blog
  • Comunidad
  • Socios
  • Afiliado
  • Invitar
©2026 Todos los derechos reservados
Términos de uso
Política de privacidad
  • Página de inicio
  • Blog
  • Herramientas de IA
  • Cómo usar CVAT: Una guía amigable, paso a paso, para anotaciones rápidas y precisas

Cómo usar CVAT: Una guía amigable, paso a paso, para anotaciones rápidas y precisas

Actualizado el 25 de sep de 2025

8 min


Cómo usar CVAT: Una guía amigable, paso a paso, para anotaciones rápidas y precisas

Si alguna vez has intentado entrenar un modelo de visión artificial, probablemente te hayas topado con el mismo muro que todos: los datos necesitan etiquetas de calidad. CVAT (Computer Vision Annotation Tool) es una de las plataformas más populares para crear anotaciones de imágenes y vídeos de alta calidad: abierta, potente y construida para escalar desde proyectos secundarios hasta de producción. Esta guía práctica te guiará a través de la instalación, la configuración, los flujos de trabajo de etiquetado, los asistentes de automatización, el control de calidad y las exportaciones, para que puedas pasar de cero a conjuntos de datos limpios sin el caos.
Lo mantendremos práctico y directo, con ejemplos, atajos y errores que debes evitar.

¿Qué es CVAT y por qué usarlo?

CVAT es una herramienta basada en web para anotar imágenes y vídeos. Admite la detección de objetos, la segmentación, la clasificación y el seguimiento. Puedes ejecutarlo localmente o en un servidor, invitar a compañeros de equipo, gestionar proyectos/tareas y exportar etiquetas a formatos comunes (como COCO, YOLO, VOC). Si necesitas un etiquetado repetible, colaborativo y preciso, CVAT cumple.
  • Basado en navegador, funciona en equipos
  • Gestiona imágenes y vídeos largos con interpolación/seguimiento
  • Esquema de etiquetas y atributos flexible
  • Múltiples formatos de exportación para marcos de entrenamiento populares
Para una orientación oficial, la sección "Getting Started" del equipo de CVAT es una introducción útil.

Configuración rápida: La forma más rápida de ejecutar CVAT

La ruta de instalación típica de CVAT utiliza Docker. Agrupa el servidor, la base de datos y las dependencias para que puedas empezar en minutos.
  1. Instalar los requisitos previos
  • Docker y Docker Compose (o Docker Desktop)
  • Recomendado: CPU moderna, suficiente RAM (8–16 GB+ para tareas con muchos vídeos)
  1. Descargar e iniciar CVAT
  • Clona el repositorio de CVAT y ejecuta el de composición, o utiliza las imágenes de contenedor directamente. La documentación oficial proporciona los comandos exactos y las variables de entorno. También hay una imagen de servidor publicada en Docker Hub.
  1. Accede a la interfaz de usuario
  • Una vez que los contenedores estén en funcionamiento, abre tu navegador (normalmente {http://localhost:8080}), crea un administrador/usuario e inicia sesión.
Consejo: Almacenar los datos en volúmenes montados asegura que tus tareas, proyectos y anotaciones persistan a través de las actualizaciones.

El flujo de trabajo de CVAT de un vistazo

Piensa en tres capas: Proyecto → Tarea → Trabajo.
  • Proyecto: Una colección para tareas relacionadas (por ejemplo, "Detección de estanterías de venta al por menor 2025"). Define las etiquetas globales.
  • Tarea: Una sola unidad de etiquetado (por ejemplo, un lote de 1000 imágenes o un vídeo de 2 horas).
  • Trabajo: Una división de una tarea (por ejemplo, fragmentos de un vídeo largo) asignada a los anotadores.
Esta estructura te permite gestionar grandes conjuntos de datos, asignar trabajo a los compañeros de equipo y mantener la coherencia de las definiciones de etiquetas.

Paso 1: Crear un proyecto y etiquetas (Diseño del esquema)

Antes de subir los datos, define tu ontología: qué estás etiquetando y cómo.
  • Clases: por ejemplo, persona, coche, casco, grieta.
  • Atributos: por ejemplo, ocluido: sí/no, tiempo: soleado/lluvioso, gravedad_del_daño: 1–5.
  • Codificación por colores: mejora la claridad visual.
Buenas prácticas:
  • Mantén los nombres de las clases cortos, coherentes y descriptivos.
  • Utiliza atributos para los metadatos que no requieran dibujo (por ejemplo, "es_multitud").
  • Evita las clases superpuestas a menos que sean intencionadamente jerárquicas (por ejemplo, vehículo > coche/autobús/camión).
Puedes definir etiquetas a nivel de Proyecto para que todas las Tareas relacionadas las hereden.

Paso 2: Crear una tarea y subir datos

Desde el panel de control:
  • Nuevo → Tarea → Nombra tu tarea.
  • Selecciona el proyecto (opcional, pero recomendado).
  • Carga de datos: arrastra y suelta imágenes, apunta a un directorio o proporciona enlaces de almacenamiento en la nube (por ejemplo, S3, Azure Blob) dependiendo de tu configuración.
  • Confirma que las etiquetas son correctas (heredadas o específicas de la tarea) y pulsa Crear.
Para vídeos largos, considera la posibilidad de dividir o habilitar la división automática de trabajos para que cada trabajo sea manejable y tenga una buena respuesta para los anotadores.

Paso 3: Elige el modo de anotación correcto

CVAT soporta múltiples herramientas de anotación:
  • Cajas delimitadoras: lo más rápido para la detección de objetos.
  • Polígonos/Polilíneas: para la segmentación de instancias/semántica, carriles de carretera, grietas.
  • Cuboides: para cajas de perspectiva 3D en imágenes 2D.
  • Puntos: puntos clave o puntos de referencia (poses, puntos de referencia faciales).
  • Etiquetas: etiquetas a nivel de imagen (por ejemplo, "diurno").
Los atajos de teclado aceleran las cosas drásticamente:
  • N: crear la siguiente forma
  • Z: zoom
  • V: cambiar de herramienta
  • Ctrl/Cmd + S: guardar
  • Mantén pulsado Shift/Alt para formas restringidas (dependiendo de la herramienta) y para encajar.
Consejo: Mantén la lista de etiquetas pequeña y centrada. Demasiadas clases ralentizan a los anotadores y aumentan las tasas de error.

Paso 4: Anotación de vídeo: interpolar y seguir

Para los vídeos, no anotes cada fotograma. En su lugar:
  • Crea una caja o un polígono en un fotograma clave.
  • Activa la interpolación/seguimiento: CVAT puede propagar las formas hacia delante, y luego las corriges según sea necesario en los nuevos fotogramas clave.
  • Divide o fusiona las pistas cuando los objetos se ocluyen o reaparecen.
  • Marca estados como "fuera" u "ocluido" para mantener las secuencias limpias.
Esto reduce drásticamente el tiempo, manteniendo la consistencia temporal. La investigación y las mejores prácticas de la comunidad también recomiendan la asistencia interactiva/autoanotación para acelerar el etiquetado de vídeo.

Paso 5: Utiliza la anotación automática y las herramientas asistidas

CVAT soporta el etiquetado asistido para acelerar el trabajo. Dependiendo de tu implementación, puedes:
  • Utilizar funciones asistidas por modelos integrados para proponer cajas/máscaras.
  • Ejecutar modelos del lado del servidor para preetiquetar los fotogramas y, a continuación, corregirlos.
  • Aplicar la interpolación para rellenar los huecos.
Comienza con un pequeño conjunto de semillas de alta calidad, entrena un modelo rápido y utilízalo para preetiquetar los datos restantes. Corrige y vuelve a entrenar de forma iterativa.
Nota: Los detalles específicos dependen de los modelos que habilites en tu entorno. La documentación oficial y los tutoriales de la comunidad muestran cómo conectar modelos a CVAT y habilitar la anotación automática en la interfaz de usuario.

Paso 6: Colabora con roles y revisiones

CVAT es multiusuario. Los roles típicos incluyen:
  • Administrador: gestiona el servidor y los usuarios
  • Gestor de proyectos: define las etiquetas, crea tareas/trabajos, asigna anotadores
  • Anotador: crea y edita etiquetas
  • Revisor/QA: comprueba el trabajo, solicita correcciones
Establece directrices claras: ejemplos de anotaciones correctas/incorrectas, definiciones de atributos y casos extremos (por ejemplo, "¿etiquetar reflejos?"). Utiliza las herramientas de revisión —comentarios, indicadores de problemas y cambios de estado— para mejorar la calidad.

Paso 7: Control de calidad en el que puedes confiar

Algunas estrategias prácticas de control de calidad:
  • Tareas de oro: inserta algunas imágenes etiquetadas por expertos para comparar a los anotadores.
  • Solapamiento: asigna el mismo trabajo a dos anotadores; compara IoU y la concordancia.
  • Comprobaciones puntuales: los revisores auditan un porcentaje de cada trabajo.
  • Métricas: realiza un seguimiento de los patrones de confusión por clase durante el entrenamiento del modelo para refinar las directrices.
La consistencia a lo largo del tiempo importa más que las etiquetas perfectas y aisladas. Documenta las decisiones y actualiza la guía de etiquetas a medida que descubras casos extremos.

Paso 8: Guardar, versionar y exportar

Guarda con frecuencia (CVAT también guarda automáticamente). Cuando estés listo:
  • Formatos de exportación: COCO, YOLO, Pascal VOC y más. Elige el formato que espera tu código de entrenamiento.
  • Rangos de fotogramas: exporta segmentos específicos o toda la tarea.
  • Filtros: exporta sólo ciertas etiquetas o atributos si es necesario.
Consulta la documentación oficial para conocer las opciones y los parámetros de exportación más recientes. Para obtener detalles sobre la instalación y la imagen del servidor, la documentación y las páginas de Docker Hub son referencias autorizadas.

Escenarios prácticos y consejos

Escenario 1: Detección de objetos en estanterías de venta al por menor
  • Etiquetas: producto, etiqueta_de_precio, cartel_promocional.
  • Utiliza cajas para mayor velocidad; añade atributos como promo=sí/no.
  • Exporta a YOLO para un de entrenamiento ligero.
Escenario 2: Segmentación de carriles de carretera
  • Utiliza polilíneas o polígonos.
  • Interpola a través de los fotogramas; corrige en los giros.
  • Exporta a COCO panóptico/segmentación dependiendo de tu marco.
Escenario 3: Cumplimiento de los equipos de seguridad
  • Realiza un seguimiento de persona, casco, chaleco a través del vídeo.
  • Utiliza el seguimiento + atributos (casco=presente/ausente).
  • Revisa cuidadosamente las oclusiones en los puntos de entrada/salida.
Consejos profesionales:
  • Mantén las tareas por debajo de unos pocos miles de imágenes o divide los vídeos largos para que la interfaz de usuario responda.
  • Normaliza los tamaños de las imágenes o comprime los vídeos para equilibrar el rendimiento y la claridad.
  • Versiona los conjuntos de datos: exporta con una etiqueta clara (por ejemplo, v1.2.0) y bloquea las tareas una vez finalizadas.

Solución de problemas de cuellos de botella comunes

  • Interfaz de usuario lenta en vídeos grandes: divide en trabajos más cortos; reduce la resolución de la vista previa y el tamaño de la búsqueda previa.
  • Deriva de la anotación en el seguimiento: añade fotogramas clave con más frecuencia, especialmente durante movimientos rápidos u oclusiones.
  • Etiquetas confusas: refactoriza la ontología; mueve los detalles a los atributos; proporciona ejemplos visuales.
  • Desajuste de la exportación: comprueba los campos esperados de la biblioteca de entrenamiento de destino (por ejemplo, la asignación del índice de clase YOLO, los ID de categoría COCO).

Integración en tu de ML

  • Preprocesamiento: Cambia el tamaño/normaliza las imágenes antes de subirlas para acelerar la anotación.
  • Automatización: Preetiqueta con un modelo rápido, corrige en CVAT y luego itera.
  • CI para los datos: Trata las etiquetas como código: exportaciones versionadas, sumas de comprobación y registros de cambios.
  • Almacenamiento: Utiliza en la nube y políticas de ciclo de vida para grandes conjuntos de datos de vídeo.
Vale la pena señalar: Si utilizas asistentes de IA para documentar las directrices, generar taxonomías de etiquetas o resumir los comentarios de los revisores, una herramienta como Sider.AI puede ayudarte a crear instrucciones claras y listas de comprobación de revisión coherentes. Puedes capturar decisiones, generar ejemplos y convertirlos en manuales compartibles para tu equipo. Consulta Sider.AI para obtener más información.

Un plan de inicio de 30 minutos

  • 5 minutos: Instala e inicia CVAT localmente.
  • 5 minutos: Crea un proyecto con 3–5 etiquetas y 2 atributos.
  • 5 minutos: Crea una tarea con 100 imágenes.
  • 10 minutos: Anota 20 imágenes utilizando cajas; aprende atajos.
  • 5 minutos: Exporta a YOLO y ejecuta un pase de entrenamiento rápido.
Al final, tendrás un bucle completo desde las imágenes en bruto hasta un conjunto de datos entrenable.

Dónde aprender más

  • Conceptos básicos de CVAT y tutoriales del equipo.
  • Detalles de la instalación y la configuración.
  • Imagen del servidor y referencias del contenedor.
  • Investigación sobre la anotación interactiva/automática para vídeo para inspirar flujos de trabajo más rápidos.

Conclusiones clave

  • Define tus etiquetas primero: el diseño del esquema evita el dolor posterior.
  • Utiliza la interpolación y el seguimiento para el vídeo; fotograma clave de forma inteligente.
  • La anotación automática acelera el trabajo; la revisión humana garantiza la calidad.
  • Exporta en el formato que espera tu código de entrenamiento; versiona todo.
  • Empieza poco a poco, itera rápido y escala con directrices claras.

Preguntas frecuentes

P1: ¿Qué es CVAT y cómo lo utilizo para la anotación de imágenes? CVAT es una plataforma de etiquetado basada en navegador para imágenes y vídeos. Crea un proyecto, define etiquetas, sube datos como una tarea, anota con cajas o polígonos y exporta en formatos como COCO o YOLO.
P2: ¿Cómo instalo CVAT rápidamente? La ruta más fácil es usar Docker. Sigue los pasos de instalación oficiales para iniciar el servidor localmente, y luego accede a la interfaz de usuario web en tu navegador para la configuración y la creación de usuarios.
P3: ¿Puede CVAT autoanotar o ayudar con el seguimiento en vídeos? Sí, CVAT soporta la interpolación y el seguimiento para propagar las anotaciones a través de los fotogramas, y puede integrar el etiquetado asistido por modelos para preetiquetar objetos y acelerar la revisión.
P4: ¿Qué formatos de exportación soporta CVAT? Las exportaciones comunes incluyen COCO, YOLO y Pascal VOC. Elige el formato que coincida con el esquema esperado de tu marco de entrenamiento y la asignación del índice de clase.
P5: ¿Cómo gestiono los equipos y el control de calidad en CVAT? Crea proyectos con etiquetas compartidas, divide las tareas en trabajos, asigna roles (anotadores, revisores) y utiliza revisiones, comentarios, tareas de oro y comprobaciones de solapamiento para garantizar una calidad consistente.

Artículos Recientes
Cómo dominar ChatPDF: Obtén insights más rápidos de documentos densos

Cómo dominar ChatPDF: Obtén insights más rápidos de documentos densos

La mejor alternativa a X Auto-Translation para documentos rápidos y precisos

La mejor alternativa a X Auto-Translation para documentos rápidos y precisos

¿Traducción AI de Samsung no disponible en Irán? Soluciones prácticas

¿Traducción AI de Samsung no disponible en Irán? Soluciones prácticas

Herramientas de traducción persa: una guía práctica para un trabajo más rápido y preciso

Herramientas de traducción persa: una guía práctica para un trabajo más rápido y preciso

La mejor alternativa a Grok para investigaciones profundas y citadas

La mejor alternativa a Grok para investigaciones profundas y citadas

Las 15 mejores funciones de los generadores de imágenes con IA que realmente usarás

Las 15 mejores funciones de los generadores de imágenes con IA que realmente usarás