What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

Com utilitzar CVAT: Una guia amigable, pas a pas, per a anotacions ràpides i precises

Si alguna vegada has intentat entrenar un model de visió artificial, probablement t'has topat amb la mateixa paret que tothom: les dades necessiten etiquetes de gran qualitat. CVAT (Computer Vision Annotation Tool) és una de les plataformes més populars per crear anotacions d'imatges i vídeos d'alta qualitat: oberta, potent i construïda per escalar des de projectes paral·lels fins a de producció. Aquesta guia pràctica et mostra la instal·lació, la configuració, els fluxos de treball d'etiquetatge, els ajudants d'automatització, el control de qualitat i les exportacions, perquè puguis passar de zero a conjunts de dades nets sense el caos.

Ho farem de manera pràctica i directa, amb exemples, dreceres i errors que cal evitar.

Què és CVAT i per què utilitzar-lo?

CVAT és una eina basada en web per a l'anotació d'imatges i vídeos. Admet la detecció d'objectes, la segmentació, la classificació i el seguiment. Pots executar-la localment o en un servidor, convidar companys d'equip, gestionar projectes/tasques i exportar etiquetes a formats comuns (com COCO, YOLO, VOC). Si necessites un etiquetatge repetible, col·laboratiu i precís, CVAT t'ho ofereix.

Basat en navegador, funciona entre equips

Gestiona imatges i vídeos llargs amb interpolació/seguiment

Esquema d'etiquetes i atributs flexible

Múltiples formats d'exportació per a marcs de treball d'entrenament populars

Per a una orientació oficial, la guia "Getting Started" de l'equip de CVAT és una introducció útil.

Configuració ràpida: La forma més ràpida d'executar CVAT

La ruta d'instal·lació típica de CVAT utilitza Docker. Agrupa el servidor, la base de dades i les dependències perquè puguis començar en minuts.

Instal·la els prerequisits

Docker i Docker Compose (o Docker Desktop)

Recomanat: CPU moderna, suficient RAM (8–16 GB+ per a tasques amb molts vídeos)

Extreu i inicia CVAT

Clona el repositori de CVAT i executa l'script de composició, o utilitza imatges de contenidors directament. La documentació oficial proporciona ordres exactes i variables d'entorn. També hi ha una imatge de servidor publicada a Docker Hub.

Accedeix a la IU

Un cop els contenidors estiguin en funcionament, obre el teu navegador (normalment {<a0>http://localhost:8080

}), crea un administrador/usuari i inicia la sessió.</a0>

Consell: Emmagatzemar dades en volums muntats garanteix que les teves tasques, projectes i anotacions persisteixin a través de les actualitzacions.

El flux de treball de CVAT d'un cop d'ull

Pensa en tres capes: Projecte → Tasca → Treball.

Projecte: Una col·lecció de tasques relacionades (p. ex., "Detecció de prestatgeries de venda al detall 2025"). Defineix les etiquetes globals.

Tasca: Una sola unitat d'etiquetatge (p. ex., un lot de 1.000 imatges o un vídeo de 2 hores).

Treball: Una divisió d'una tasca (p. ex., talls d'un vídeo llarg) assignada als anotadors.

Aquesta estructura et permet gestionar grans conjunts de dades, assignar treball als companys d'equip i mantenir les definicions d'etiquetes consistents.

Pas 1: Crea un projecte i etiquetes (disseny d'esquema)

Abans de carregar les dades, defineix la teva ontologia: què estàs etiquetant i com.

Classes: p. ex., persona, cotxe, casc, esquerda.

Atributs: p. ex., ocult: sí/no, temps: assolellat/plujós, gravetat_del_dany: 1–5.

Codificació de colors: millora la claredat visual.

Millors pràctiques:

Mantén els noms de classe curts, consistents i descriptius.

Utilitza atributs per a metadades que no requereixen dibuix (p. ex., "és_multitud").

Evita les classes superposades tret que siguin intencionadament jeràrquiques (p. ex., vehicle > cotxe/autobús/camió).

Pots definir etiquetes a nivell de projecte perquè totes les tasques relacionades les heretin.

Pas 2: Crea una tasca i carrega dades

Des del tauler de control:

Nou → Tasca → Posa un nom a la teva tasca.

Selecciona el projecte (opcional, però recomanable).

Carrega dades: arrossega i deixa anar imatges, apunta a un directori o proporciona enllaços d'emmagatzematge al núvol (p. ex., S3, Azure Blob) depenent de la teva configuració.

Confirma que les etiquetes siguin correctes (heretades o específiques de la tasca) i fes clic a Crea.

Per a vídeos llargs, considera la possibilitat de dividir-los en fragments o habilitar la divisió automàtica de treballs per mantenir cada treball gestionable i sensible per als anotadors.

Pas 3: Tria el mode d'anotació correcte

CVAT admet múltiples eines d'anotació:

Caixes delimitadores: més ràpides per a la detecció d'objectes.

Polígons/Polilínies: per a la segmentació d'instàncies/semàntica, carrils de carretera, esquerdes.

Cuboides: per a caixes de perspectiva 3D en imatges 2D.

Punts: punts clau o punts de referència (poses, punts de referència facials).

Etiquetes: etiquetes a nivell d'imatge (p. ex., "horari diürn").

Les dreceres de teclat acceleren les coses dràsticament:

N: crea la següent forma

Z: zoom

V: canvia d'eines

Ctrl/Cmd + S: desa

Mantén premuda la tecla Maj/Alt per a formes restringides (depenent de l'eina) i l'ajust.

Consell: Mantén la llista d'etiquetes petita i centrada. Massa classes alenteixen els anotadors i augmenten les taxes d'error.

Pas 4: Anotació de vídeo: interpoleu i feu un seguiment

Per als vídeos, no anoteu cada fotograma. En lloc d'això:

Crea una caixa o polígon en un fotograma clau.

Habilita la interpolació/seguiment: CVAT pot propagar formes cap endavant, llavors corregeix quan sigui necessari en nous fotogrames clau.

Divideix o fusiona pistes quan els objectes s'obstrueixen o reapareixen.

Marca estats com "fora" o "ocult" per mantenir les seqüències netes.

Això redueix dràsticament el temps alhora que manté la consistència temporal. La investigació i les millors pràctiques de la comunitat també recomanen l'assistència interactiva/d'autoanotació per accelerar l'etiquetatge de vídeos.

Pas 5: Utilitza l'anotació automàtica i les eines assistides

CVAT admet l'etiquetatge assistit per accelerar el treball. Depenent del teu desplegament, pots:

Utilitzar les funcions assistides per models integrades per proposar caixes/màscares.

Executar models del costat del servidor per pre-etiquetar fotogrames, llavors corregir.

Aplicar la interpolació per omplir buits.

Comença amb un petit conjunt de llavors d'alta qualitat, entrena un model ràpid i utilitza'l per pre-etiquetar les dades restants. Corregeix i reentrena iterativament.

Nota: Les especificitats depenen de quins models habilitis al teu entorn. La documentació oficial i els tutorials de la comunitat mostren com connectar models a CVAT i habilitar l'anotació automàtica a la IU.

Pas 6: Col·labora amb rols i revisions

CVAT és multiusuari. Els rols típics inclouen:

Administrador: gestiona el servidor i els usuaris

Gestor de projectes: defineix etiquetes, crea tasques/treballs, assigna anotadors

Anotador: crea i edita etiquetes

Revisor/QA: comprova el treball, sol·licita correccions

Estableix directrius clares: exemples d'anotacions correctes/incorrectes, definicions d'atributs i casos límit (p. ex., "etiquetar reflexions?"). Utilitza les eines de revisió (comentaris, banderes d'incidències i canvis d'estat) per augmentar la qualitat.

Pas 7: Control de qualitat en el qual pots confiar

Algunes estratègies pràctiques de QC:

Tasques d'or: insereix algunes imatges etiquetades per experts per comparar els anotadors.

Superposició: assigna el mateix treball a dos anotadors; compara IoU i acord.

Comprovacions puntuals: els revisors auditen un percentatge de cada treball.

Mètriques: rastreja els patrons de confusió per classe durant l'entrenament del model per refinar les directrius.

La consistència al llarg del temps importa més que les etiquetes perfectes puntuals. Documenta les decisions i actualitza la guia d'etiquetes a mesura que descobreixes casos límit.

Pas 8: Desa, versiona i exporta

Desa amb freqüència (CVAT també desa automàticament). Quan estiguis a punt:

Formats d'exportació: COCO, YOLO, Pascal VOC i més. Tria el format que espera el teu codi d'entrenament.

Rang de fotogrames: exporta segments específics o tota la tasca.

Filtres: exporta només determinades etiquetes o atributs si és necessari.

Consulta la documentació oficial per obtenir opcions i paràmetres d'exportació actualitzats. Per obtenir detalls sobre la instal·lació i la imatge del servidor, la documentació i les pàgines de Docker Hub són referències autoritzades.

Escenaris i consells pràctics

Escenari 1: Detecció d'objectes a les prestatgeries de venda al detall

Etiquetes: producte, etiqueta_de_preu, cartell_promocional.

Utilitza caixes per velocitat; afegeix atributs com promoció=sí/no.

Exporta a YOLO per a un d'entrenament lleuger.

Escenari 2: Segmentació de carrils de carretera

Utilitza polilínies o polígons.

Interpola entre fotogrames; corregeix en girs.

Exporta a COCO panòptic/segmentació depenent del teu marc de treball.

Escenari 3: Compliment de l'equip de seguretat

Rastreja persona, casc, armilla a través del vídeo.

Utilitza seguiment + atributs (casc=present/absent).

Revisa acuradament les oclusions als punts d'entrada/sortida.

Consells professionals:

Mantén les tasques per sota d'uns quants milers d'imatges o divideix els vídeos llargs per mantenir la IU sensible.

Normalitza les mides de les imatges o comprimeix els vídeos per equilibrar el rendiment i la claredat.

Versiona els conjunts de dades: exporta amb una etiqueta clara (p. ex., v1.2.0) i bloqueja les tasques un cop finalitzades.

Resolució de problemes habituals

IU lenta en vídeos grans: divideix en treballs més curts; redueix la resolució de vista prèvia i la mida de la pre-recuperació.

Deriva d'anotació en el seguiment: afegeix fotogrames clau amb més freqüència, especialment durant el moviment ràpid o les oclusions.

Etiquetes confuses: refactoritza l'ontologia; mou els detalls als atributs; proporciona exemples visuals.

Desajust d'exportació: comprova els camps esperats de la teva biblioteca d'entrenament objectiu (p. ex., assignació d'índex de classe YOLO, ID de categoria COCO).

Integració al teu de ML

Preprocessament: Canvia la mida/normalitza les imatges abans de carregar-les per accelerar l'anotació.

Automatització: Pre-etiqueta amb un model ràpid, corregeix a CVAT, llavors itera.

CI per a dades: Tracta les etiquetes com a codi: exportacions versionades, sumes de comprovació i registres de canvis.

Emmagatzematge: Utilitza al núvol i polítiques de cicle de vida per a grans conjunts de dades de vídeo.

Val la pena destacar: Si utilitzes assistents d'IA per documentar directrius, generar taxonomies d'etiquetes o resumir els comentaris dels revisors, una eina com Sider.AI pot ajudar-te a crear instruccions clares i llistes de verificació de revisió consistents. Pots capturar decisions, generar exemples i convertir-los en manuals compartibles per al teu equip. Consulta Sider.AI per a més informació.

Un pla d'inici de 30 minuts

5 minuts: Instal·la i llança CVAT localment.

5 minuts: Crea un projecte amb 3–5 etiquetes i 2 atributs.

5 minuts: Crea una tasca amb 100 imatges.

10 minuts: Anota 20 imatges utilitzant caixes; aprèn dreceres.

5 minuts: Exporta a YOLO i executa una passada d'entrenament ràpida.

Al final, tindràs un bucle complet des d'imatges brutes fins a un conjunt de dades entrenable.

On aprendre més

Conceptes bàsics i tutorials de CVAT de l'equip.

Detalls d'instal·lació i configuració.

Imatge del servidor i referències de contenidors.

Investigació sobre l'anotació interactiva/automàtica per a vídeo per inspirar fluxos de treball més ràpids.

Conclusions clau

Defineix les teves etiquetes primer: el disseny de l'esquema evita el dolor aigües avall.

Utilitza la interpolació i el seguiment per al vídeo; fotogrames clau de manera intel·ligent.

L'anotació automàtica accelera el treball; la revisió humana garanteix la qualitat.

Exporta en el format que espera el teu codi d'entrenament; versiona tot.

Comença petit, itera ràpid i escala amb directrius clares.

FAQ

Q1: Què és CVAT i com l'utilitzo per a l'anotació d'imatges? CVAT és una plataforma d'etiquetatge basada en navegador per a imatges i vídeos. Crea un projecte, defineix etiquetes, carrega dades com a tasca, anota amb caixes o polígons i exporta en formats com COCO o YOLO.

Q2: Com instal·lo CVAT ràpidament? El camí més fàcil és utilitzar Docker. Segueix els passos d'instal·lació oficials per iniciar el servidor localment, llavors accedeix a la IU web al teu navegador per a la configuració i la creació d'usuaris.

Q3: CVAT pot auto-anotar o ajudar amb el seguiment en vídeos? Sí, CVAT admet la interpolació i el seguiment per propagar anotacions a través de fotogrames, i pot integrar l'etiquetatge assistit per models per pre-etiquetar objectes i accelerar la revisió.

Q4: Quins formats d'exportació admet CVAT? Les exportacions comunes inclouen COCO, YOLO i Pascal VOC. Tria el format que coincideixi amb l'esquema esperat i l'assignació d'índex de classe del teu marc de treball d'entrenament.

Q5: Com gestiono equips i el control de qualitat a CVAT? Crea projectes amb etiquetes compartides, divideix les tasques en treballs, assigna rols (anotadors, revisors) i utilitza revisions, comentaris, tasques d'or i comprovacions de superposició per garantir una qualitat consistent.