What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

Come usare CVAT: una guida amichevole, passo dopo passo, per annotazioni veloci e accurate

Se hai mai provato ad addestrare un modello di computer vision, probabilmente ti sei scontrato con lo stesso problema di tutti: i dati hanno bisogno di etichette di alta qualità. CVAT (Computer Vision Annotation Tool) è una delle piattaforme più popolari per creare annotazioni di immagini e video di alta qualità: aperta, potente e costruita per scalare da progetti personali a pipeline di produzione. Questa guida pratica ti accompagna attraverso l'installazione, la configurazione, i flussi di lavoro di etichettatura, gli strumenti di automazione, il controllo di qualità e le esportazioni, in modo da poter passare da zero a set di dati puliti senza il caos.

Cercheremo di essere pratici e diretti, con esempi, scorciatoie e insidie da evitare.

Cos'è CVAT e perché usarlo?

CVAT è uno strumento basato sul web per annotare immagini e video. Supporta il rilevamento di oggetti, la segmentazione, la classificazione e il tracciamento. Puoi eseguirlo localmente o su un server, invitare i membri del team, gestire progetti/attività ed esportare le etichette in formati comuni (come COCO, YOLO, VOC). Se hai bisogno di un'etichettatura ripetibile, collaborativa e accurata, CVAT ti offre tutto questo.

Basato su browser, funziona tra team

Gestisce immagini e video lunghi con interpolazione/tracciamento

Schema di etichettatura e attributi flessibili

Molteplici formati di esportazione per i framework di addestramento più popolari

Per un orientamento ufficiale, la guida "Getting Started" del team CVAT è un ottimo punto di partenza.

Configurazione rapida: il modo più veloce per eseguire CVAT

Il percorso di installazione tipico di CVAT utilizza Docker. Raggruppa il server, il database e le dipendenze in modo da poter iniziare in pochi minuti.

Installa i prerequisiti

Docker e Docker Compose (o Docker Desktop)

Consigliato: CPU moderna, RAM sufficiente (8–16 GB+ per attività che richiedono molti video)

Scarica e avvia CVAT

Clona il repository CVAT ed esegui lo script di composizione, oppure utilizza direttamente le immagini dei container. La documentazione ufficiale fornisce i comandi esatti e le variabili d'ambiente. C'è anche un'immagine server pubblicata su Docker Hub.

Accedi all'interfaccia utente

Una volta che i container sono in esecuzione, apri il browser (comunemente ), crea un amministratore/utente ed effettua il login.

Suggerimento: l'archiviazione dei dati su volumi montati garantisce che attività, progetti e annotazioni persistano durante gli aggiornamenti.

Il flusso di lavoro di CVAT in sintesi

Pensa a tre livelli: Progetto → Attività → Lavoro.

Progetto: una raccolta per attività correlate (ad es., "Rilevamento scaffali al dettaglio 2025"). Definisce le etichette globali.

Attività: una singola unità di etichettatura (ad es., un lotto di 1.000 immagini o un video di 2 ore).

Lavoro: una suddivisione di un'attività (ad es., segmenti di un video lungo) assegnata agli annotatori.

Questa struttura ti consente di gestire grandi set di dati, assegnare lavoro ai membri del team e mantenere coerenti le definizioni delle etichette.

Passaggio 1: crea un progetto e delle etichette (progettazione dello schema)

Prima di caricare i dati, definisci la tua ontologia: cosa stai etichettando e come.

Classi: es. persona, auto, casco, crepa.

Attributi: es. occluso: sì/no, <a4>meteo: soleggiato/piovoso</a2>, gravità_danno: 1–5.

Codifica a colori: migliora la chiarezza visiva.

Migliori pratiche:

Mantieni i nomi delle classi brevi, coerenti e descrittivi.

Utilizza gli attributi per i metadati che non richiedono il disegno (ad es., "is_crowd").

Evita le classi sovrapposte a meno che non siano intenzionalmente gerarchiche (ad es., veicolo > auto/autobus/camion).

Puoi definire le etichette a livello di Progetto in modo che tutte le Attività correlate le ereditino.

Passaggio 2: crea un'attività e carica i dati

Dalla dashboard:

Nuovo → Attività → Assegna un nome alla tua attività.

Seleziona il progetto (opzionale ma consigliato).

Carica dati: trascina e rilascia immagini, punta a una directory o fornisci collegamenti di archiviazione cloud (ad es., S3, Azure Blob) a seconda della configurazione.

Verifica che le etichette siano corrette (ereditate o specifiche dell'attività) e fai clic su Crea.

Per i video lunghi, considera di suddividerli in blocchi o di abilitare la suddivisione automatica dei lavori per mantenere ogni lavoro gestibile e reattivo per gli annotatori.

Passaggio 3: scegli la modalità di annotazione giusta

CVAT supporta più strumenti di annotazione:

Riquadri di delimitazione: più veloci per il rilevamento di oggetti.

Poligoni/Polilinee: per segmentazione di istanza/semantica, corsie stradali, crepe.

Cuboidi: per caselle prospettiche 3D in immagini 2D.

Punti: punti chiave o punti di riferimento (pose, punti di riferimento facciali).

Tag: etichette a livello di immagine (ad es., "diurno").

Le scorciatoie da tastiera velocizzano notevolmente le cose:

N: crea la forma successiva

Z: zoom

V: cambia strumento

Ctrl/Cmd + S: salva

Tieni premuto Maiusc/Alt per forme vincolate (a seconda dello strumento) e snapping.

Suggerimento: mantieni l'elenco delle etichette piccolo e mirato. Troppe classi rallentano gli annotatori e aumentano i tassi di errore.

Passaggio 4: annotazione video: interpola e traccia

Per i video, non annotare ogni singolo fotogramma. Invece:

Crea una casella o un poligono su un fotogramma chiave.

Abilita l'interpolazione/tracciamento: CVAT può propagare le forme in avanti, quindi correggi secondo necessità su nuovi fotogrammi chiave.

Dividi o unisci le tracce quando gli oggetti si occludono o riappaiono.

Contrassegna stati come "esterno" o "occluso" per mantenere pulite le sequenze.

Questo riduce drasticamente il tempo mantenendo la coerenza temporale. Le migliori pratiche di ricerca e della comunità raccomandano anche l'assistenza interattiva/auto-annotazione per accelerare l'etichettatura dei video.

Passaggio 5: utilizza l'annotazione automatica e gli strumenti assistiti

CVAT supporta l'etichettatura assistita per velocizzare il lavoro. A seconda della tua implementazione, puoi:

Utilizza le funzionalità assistite dal modello integrate per proporre caselle/maschere.

Esegui modelli lato server per pre-etichettare i fotogrammi, quindi correggi.

Applica l'interpolazione per riempire i vuoti.

Inizia con un piccolo set di seed di alta qualità, addestra un modello rapido e utilizzalo per pre-etichettare i dati rimanenti. Correggi e riaddestra iterativamente.

Nota: le specifiche dipendono dai modelli che abiliti nel tuo ambiente. La documentazione ufficiale e i tutorial della comunità mostrano come collegare i modelli a CVAT e abilitare l'annotazione automatica nell'interfaccia utente.

Passaggio 6: collabora con ruoli e revisioni

CVAT è multiutente. I ruoli tipici includono:

Amministratore: gestisce il server e gli utenti

Project manager: definisce le etichette, crea attività/lavori, assegna annotatori

Annotatore: crea e modifica le etichette

Revisore/QA: controlla il lavoro, richiede correzioni

Definisci linee guida chiare: esempi di annotazioni corrette/errate, definizioni di attributi e casi limite (ad es., "etichettare i riflessi?"). Utilizza gli strumenti di revisione: commenti, contrassegni di problemi e modifiche di stato, per rafforzare la qualità.

Passaggio 7: controllo di qualità di cui ti puoi fidare

Alcune strategie pratiche di controllo di qualità:

Attività gold: inserisci alcune immagini etichettate da esperti per valutare gli annotatori.

Sovrapposizione: assegna lo stesso lavoro a due annotatori; confronta IoU e concordanza.

Controlli a campione: i revisori controllano una percentuale di ogni lavoro.

Metriche: monitora i modelli di confusione per classe durante l'addestramento del modello per perfezionare le linee guida.

La coerenza nel tempo conta più delle etichette perfette una tantum. Documenta le decisioni e aggiorna la guida alle etichette man mano che scopri casi limite.

Passaggio 8: salva, versiona ed esporta

Salva frequentemente (CVAT salva anche automaticamente). Quando sei pronto:

Formati di esportazione: COCO, YOLO, Pascal VOC e altro. Scegli il formato previsto dal tuo codice di addestramento.

Intervalli di fotogrammi: esporta segmenti specifici o l'intera attività.

Filtri: esporta solo determinate etichette o attributi se necessario.

Consulta la documentazione ufficiale per le opzioni e i parametri di esportazione più aggiornati. Per i dettagli sull'installazione e sull'immagine del server, la documentazione e le pagine di Docker Hub sono riferimenti autorevoli.

Scenari pratici e suggerimenti

Scenario 1: rilevamento di oggetti su scaffali al dettaglio

Etichette: prodotto, cartellino_prezzo, cartello_promozionale.

Utilizza le caselle per la velocità; aggiungi attributi come promo=sì/no.

Esporta in YOLO per una pipeline di addestramento leggera.

Scenario 2: segmentazione delle corsie stradali

Utilizza polilinee o poligoni.

Interpola tra i fotogrammi; correggi nelle curve.

Esporta in COCO panoptic/segmentation a seconda del tuo framework.

Scenario 3: conformità alle attrezzature di sicurezza

Traccia persona, casco, gilet attraverso il video.

Utilizza il tracciamento + attributi (casco=presente/assente).

Esamina attentamente le occlusioni nei punti di ingresso/uscita.

Suggerimenti professionali:

Mantieni le attività sotto poche migliaia di immagini o dividi i video lunghi per mantenere reattiva l'interfaccia utente.

Normalizza le dimensioni delle immagini o comprimi i video per bilanciare prestazioni e chiarezza.

Versiona i set di dati: esporta con un tag chiaro (ad es., v1.2.0) e blocca le attività una volta finalizzate.

Risoluzione dei problemi comuni

Interfaccia utente lenta su video di grandi dimensioni: dividi in lavori più brevi; riduci la risoluzione dell'anteprima e le dimensioni del prefetch.

Deriva dell'annotazione nel tracciamento: aggiungi fotogrammi chiave più frequentemente, soprattutto durante movimenti veloci o occlusioni.

Etichette confuse: refactoring dell'ontologia; sposta le specifiche negli attributi; fornisci esempi visivi.

Mancata corrispondenza dell'esportazione: ricontrolla i campi previsti dalla libreria di addestramento di destinazione (ad es., mappatura dell'indice di classe YOLO, ID categoria COCO).

Integrazione nella tua pipeline di ML

Preelaborazione: ridimensiona/normalizza le immagini prima di caricarle per velocizzare l'annotazione.

Automazione: pre-etichetta con un modello rapido, correggi in CVAT, quindi ripeti.

CI per i dati: tratta le etichette come codice: esportazioni versionate, checksum e changelog.

Archiviazione: utilizza bucket cloud e politiche del ciclo di vita per set di dati video di grandi dimensioni.

Vale la pena notare: se utilizzi assistenti AI per documentare le linee guida, generare tassonomie di etichette o riepilogare il feedback dei revisori, uno strumento come Sider.AI può aiutarti a creare istruzioni chiare e checklist di revisione coerenti. Puoi acquisire decisioni, generare esempi e trasformarli in playbook condivisibili per il tuo team. Vedi Sider.AI per maggiori informazioni.

Un piano di avviamento di 30 minuti

5 minuti: installa e avvia CVAT localmente.

5 minuti: crea un progetto con 3–5 etichette e 2 attributi.

5 minuti: crea un'attività con 100 immagini.

10 minuti: annota 20 immagini usando le caselle; impara le scorciatoie.

5 minuti: esporta in YOLO ed esegui un rapido passaggio di addestramento.

Alla fine, avrai un ciclo completo dalle immagini grezze a un set di dati addestrabile.

Dove saperne di più

Nozioni di base e tutorial su CVAT dal team.

Dettagli di installazione e configurazione.

Immagine del server e riferimenti ai container.

Ricerca sull'annotazione interattiva/automatica per i video per ispirare flussi di lavoro più veloci.

Punti chiave

Definisci prima le tue etichette: la progettazione dello schema previene problemi a valle.

Utilizza l'interpolazione e il tracciamento per i video; fotogramma chiave in modo intelligente.

L'annotazione automatica accelera il lavoro; la revisione umana garantisce la qualità.

Esporta nel formato previsto dal tuo codice di addestramento; versiona tutto.

Inizia in piccolo, ripeti velocemente e scala con linee guida chiare.

FAQ

D1: Cos'è CVAT e come posso usarlo per l'annotazione di immagini? CVAT è una piattaforma di etichettatura basata su browser per immagini e video. Crea un progetto, definisci le etichette, carica i dati come un'attività, annota con caselle o poligoni ed esporta in formati come COCO o YOLO.

D2: Come posso installare CVAT rapidamente? Il percorso più semplice è utilizzare Docker. Segui i passaggi di installazione ufficiali per avviare il server localmente, quindi accedi all'interfaccia utente web nel tuo browser per la configurazione e la creazione dell'utente.

D3: CVAT può auto-annotare o aiutare con il tracciamento nei video? Sì, CVAT supporta l'interpolazione e il tracciamento per propagare le annotazioni attraverso i fotogrammi e può integrare l'etichettatura assistita dal modello per pre-etichettare gli oggetti e velocizzare la revisione.

D4: Quali formati di esportazione supporta CVAT? Le esportazioni comuni includono COCO, YOLO e Pascal VOC. Scegli il formato che corrisponde allo schema previsto e alla mappatura dell'indice di classe del tuo framework di addestramento.

D5: Come posso gestire i team e il controllo di qualità in CVAT? Crea progetti con etichette condivise, dividi le attività in lavori, assegna ruoli (annotatori, revisori) e utilizza revisioni, commenti, attività gold e controlli di sovrapposizione per garantire una qualità coerente.