Come usare CVAT: una guida amichevole, passo dopo passo, per annotazioni veloci e accurate
Se hai mai provato ad addestrare un modello di computer vision, probabilmente ti sei scontrato con lo stesso problema di tutti: i dati hanno bisogno di etichette di alta qualità. CVAT (Computer Vision Annotation Tool) è una delle piattaforme più popolari per creare annotazioni di immagini e video di alta qualità: aperta, potente e costruita per scalare da progetti personali a pipeline di produzione. Questa guida pratica ti accompagna attraverso l'installazione, la configurazione, i flussi di lavoro di etichettatura, gli strumenti di automazione, il controllo di qualità e le esportazioni, in modo da poter passare da zero a set di dati puliti senza il caos.
Cercheremo di essere pratici e diretti, con esempi, scorciatoie e insidie da evitare.
Cos'è CVAT e perché usarlo?
CVAT è uno strumento basato sul web per annotare immagini e video. Supporta il rilevamento di oggetti, la segmentazione, la classificazione e il tracciamento. Puoi eseguirlo localmente o su un server, invitare i membri del team, gestire progetti/attività ed esportare le etichette in formati comuni (come COCO, YOLO, VOC). Se hai bisogno di un'etichettatura ripetibile, collaborativa e accurata, CVAT ti offre tutto questo.
- Basato su browser, funziona tra team
- Gestisce immagini e video lunghi con interpolazione/tracciamento
- Schema di etichettatura e attributi flessibili
- Molteplici formati di esportazione per i framework di addestramento più popolari
Per un orientamento ufficiale, la guida "Getting Started" del team CVAT è un ottimo punto di partenza.
Configurazione rapida: il modo più veloce per eseguire CVAT
Il percorso di installazione tipico di CVAT utilizza Docker. Raggruppa il server, il database e le dipendenze in modo da poter iniziare in pochi minuti.
- Docker e Docker Compose (o Docker Desktop)
- Consigliato: CPU moderna, RAM sufficiente (8–16 GB+ per attività che richiedono molti video)
- Clona il repository CVAT ed esegui lo script di composizione, oppure utilizza direttamente le immagini dei container. La documentazione ufficiale fornisce i comandi esatti e le variabili d'ambiente. C'è anche un'immagine server pubblicata su Docker Hub.
- Accedi all'interfaccia utente
- Una volta che i container sono in esecuzione, apri il browser (comunemente ), crea un amministratore/utente ed effettua il login.
Suggerimento: l'archiviazione dei dati su volumi montati garantisce che attività, progetti e annotazioni persistano durante gli aggiornamenti.
Il flusso di lavoro di CVAT in sintesi
Pensa a tre livelli: Progetto → Attività → Lavoro.
- Progetto: una raccolta per attività correlate (ad es., "Rilevamento scaffali al dettaglio 2025"). Definisce le etichette globali.
- Attività: una singola unità di etichettatura (ad es., un lotto di 1.000 immagini o un video di 2 ore).
- Lavoro: una suddivisione di un'attività (ad es., segmenti di un video lungo) assegnata agli annotatori.
Questa struttura ti consente di gestire grandi set di dati, assegnare lavoro ai membri del team e mantenere coerenti le definizioni delle etichette.
Passaggio 1: crea un progetto e delle etichette (progettazione dello schema)
Prima di caricare i dati, definisci la tua ontologia: cosa stai etichettando e come.
- Classi: es.
persona, auto, casco, crepa.
- Attributi: es.
occluso: sì/no, <a4>meteo: soleggiato/piovoso</a2>, gravità_danno: 1–5.
- Codifica a colori: migliora la chiarezza visiva.
Migliori pratiche:
- Mantieni i nomi delle classi brevi, coerenti e descrittivi.
- Utilizza gli attributi per i metadati che non richiedono il disegno (ad es., "is_crowd").
- Evita le classi sovrapposte a meno che non siano intenzionalmente gerarchiche (ad es.,
veicolo > auto/autobus/camion).
Puoi definire le etichette a livello di Progetto in modo che tutte le Attività correlate le ereditino.
Passaggio 2: crea un'attività e carica i dati
Dalla dashboard:
- Nuovo → Attività → Assegna un nome alla tua attività.
- Seleziona il progetto (opzionale ma consigliato).
- Carica dati: trascina e rilascia immagini, punta a una directory o fornisci collegamenti di archiviazione cloud (ad es., S3, Azure Blob) a seconda della configurazione.
- Verifica che le etichette siano corrette (ereditate o specifiche dell'attività) e fai clic su Crea.
Per i video lunghi, considera di suddividerli in blocchi o di abilitare la suddivisione automatica dei lavori per mantenere ogni lavoro gestibile e reattivo per gli annotatori.
Passaggio 3: scegli la modalità di annotazione giusta
CVAT supporta più strumenti di annotazione:
- Riquadri di delimitazione: più veloci per il rilevamento di oggetti.
- Poligoni/Polilinee: per segmentazione di istanza/semantica, corsie stradali, crepe.
- Cuboidi: per caselle prospettiche 3D in immagini 2D.
- Punti: punti chiave o punti di riferimento (pose, punti di riferimento facciali).
- Tag: etichette a livello di immagine (ad es., "diurno").
Le scorciatoie da tastiera velocizzano notevolmente le cose:
- N: crea la forma successiva
- Tieni premuto Maiusc/Alt per forme vincolate (a seconda dello strumento) e snapping.
Suggerimento: mantieni l'elenco delle etichette piccolo e mirato. Troppe classi rallentano gli annotatori e aumentano i tassi di errore.
Passaggio 4: annotazione video: interpola e traccia
Per i video, non annotare ogni singolo fotogramma. Invece:
- Crea una casella o un poligono su un fotogramma chiave.
- Abilita l'interpolazione/tracciamento: CVAT può propagare le forme in avanti, quindi correggi secondo necessità su nuovi fotogrammi chiave.
- Dividi o unisci le tracce quando gli oggetti si occludono o riappaiono.
- Contrassegna stati come "esterno" o "occluso" per mantenere pulite le sequenze.
Questo riduce drasticamente il tempo mantenendo la coerenza temporale. Le migliori pratiche di ricerca e della comunità raccomandano anche l'assistenza interattiva/auto-annotazione per accelerare l'etichettatura dei video.
Passaggio 5: utilizza l'annotazione automatica e gli strumenti assistiti
CVAT supporta l'etichettatura assistita per velocizzare il lavoro. A seconda della tua implementazione, puoi:
- Utilizza le funzionalità assistite dal modello integrate per proporre caselle/maschere.
- Esegui modelli lato server per pre-etichettare i fotogrammi, quindi correggi.
- Applica l'interpolazione per riempire i vuoti.
Inizia con un piccolo set di seed di alta qualità, addestra un modello rapido e utilizzalo per pre-etichettare i dati rimanenti. Correggi e riaddestra iterativamente.
Nota: le specifiche dipendono dai modelli che abiliti nel tuo ambiente. La documentazione ufficiale e i tutorial della comunità mostrano come collegare i modelli a CVAT e abilitare l'annotazione automatica nell'interfaccia utente.
Passaggio 6: collabora con ruoli e revisioni
CVAT è multiutente. I ruoli tipici includono:
- Amministratore: gestisce il server e gli utenti
- Project manager: definisce le etichette, crea attività/lavori, assegna annotatori
- Annotatore: crea e modifica le etichette
- Revisore/QA: controlla il lavoro, richiede correzioni
Definisci linee guida chiare: esempi di annotazioni corrette/errate, definizioni di attributi e casi limite (ad es., "etichettare i riflessi?"). Utilizza gli strumenti di revisione: commenti, contrassegni di problemi e modifiche di stato, per rafforzare la qualità.
Passaggio 7: controllo di qualità di cui ti puoi fidare
Alcune strategie pratiche di controllo di qualità:
- Attività gold: inserisci alcune immagini etichettate da esperti per valutare gli annotatori.
- Sovrapposizione: assegna lo stesso lavoro a due annotatori; confronta IoU e concordanza.
- Controlli a campione: i revisori controllano una percentuale di ogni lavoro.
- Metriche: monitora i modelli di confusione per classe durante l'addestramento del modello per perfezionare le linee guida.
La coerenza nel tempo conta più delle etichette perfette una tantum. Documenta le decisioni e aggiorna la guida alle etichette man mano che scopri casi limite.
Passaggio 8: salva, versiona ed esporta
Salva frequentemente (CVAT salva anche automaticamente). Quando sei pronto:
- Formati di esportazione: COCO, YOLO, Pascal VOC e altro. Scegli il formato previsto dal tuo codice di addestramento.
- Intervalli di fotogrammi: esporta segmenti specifici o l'intera attività.
- Filtri: esporta solo determinate etichette o attributi se necessario.
Consulta la documentazione ufficiale per le opzioni e i parametri di esportazione più aggiornati. Per i dettagli sull'installazione e sull'immagine del server, la documentazione e le pagine di Docker Hub sono riferimenti autorevoli.
Scenari pratici e suggerimenti
Scenario 1: rilevamento di oggetti su scaffali al dettaglio
- Etichette:
prodotto, cartellino_prezzo, cartello_promozionale.
- Utilizza le caselle per la velocità; aggiungi attributi come
promo=sì/no.
- Esporta in YOLO per una pipeline di addestramento leggera.
Scenario 2: segmentazione delle corsie stradali
- Utilizza polilinee o poligoni.
- Interpola tra i fotogrammi; correggi nelle curve.
- Esporta in COCO panoptic/segmentation a seconda del tuo framework.
Scenario 3: conformità alle attrezzature di sicurezza
- Traccia
persona, casco, gilet attraverso il video.
- Utilizza il tracciamento + attributi (
casco=presente/assente).
- Esamina attentamente le occlusioni nei punti di ingresso/uscita.
Suggerimenti professionali:
- Mantieni le attività sotto poche migliaia di immagini o dividi i video lunghi per mantenere reattiva l'interfaccia utente.
- Normalizza le dimensioni delle immagini o comprimi i video per bilanciare prestazioni e chiarezza.
- Versiona i set di dati: esporta con un tag chiaro (ad es.,
v1.2.0) e blocca le attività una volta finalizzate.
Risoluzione dei problemi comuni
- Interfaccia utente lenta su video di grandi dimensioni: dividi in lavori più brevi; riduci la risoluzione dell'anteprima e le dimensioni del prefetch.
- Deriva dell'annotazione nel tracciamento: aggiungi fotogrammi chiave più frequentemente, soprattutto durante movimenti veloci o occlusioni.
- Etichette confuse: refactoring dell'ontologia; sposta le specifiche negli attributi; fornisci esempi visivi.
- Mancata corrispondenza dell'esportazione: ricontrolla i campi previsti dalla libreria di addestramento di destinazione (ad es., mappatura dell'indice di classe YOLO, ID categoria COCO).
Integrazione nella tua pipeline di ML
- Preelaborazione: ridimensiona/normalizza le immagini prima di caricarle per velocizzare l'annotazione.
- Automazione: pre-etichetta con un modello rapido, correggi in CVAT, quindi ripeti.
- CI per i dati: tratta le etichette come codice: esportazioni versionate, checksum e changelog.
- Archiviazione: utilizza bucket cloud e politiche del ciclo di vita per set di dati video di grandi dimensioni.
Vale la pena notare: se utilizzi assistenti AI per documentare le linee guida, generare tassonomie di etichette o riepilogare il feedback dei revisori, uno strumento come Sider.AI può aiutarti a creare istruzioni chiare e checklist di revisione coerenti. Puoi acquisire decisioni, generare esempi e trasformarli in playbook condivisibili per il tuo team. Vedi Sider.AI per maggiori informazioni. Un piano di avviamento di 30 minuti
- 5 minuti: installa e avvia CVAT localmente.
- 5 minuti: crea un progetto con 3–5 etichette e 2 attributi.
- 5 minuti: crea un'attività con 100 immagini.
- 10 minuti: annota 20 immagini usando le caselle; impara le scorciatoie.
- 5 minuti: esporta in YOLO ed esegui un rapido passaggio di addestramento.
Alla fine, avrai un ciclo completo dalle immagini grezze a un set di dati addestrabile.
Dove saperne di più
- Nozioni di base e tutorial su CVAT dal team.
- Dettagli di installazione e configurazione.
- Immagine del server e riferimenti ai container.
- Ricerca sull'annotazione interattiva/automatica per i video per ispirare flussi di lavoro più veloci.
Punti chiave
- Definisci prima le tue etichette: la progettazione dello schema previene problemi a valle.
- Utilizza l'interpolazione e il tracciamento per i video; fotogramma chiave in modo intelligente.
- L'annotazione automatica accelera il lavoro; la revisione umana garantisce la qualità.
- Esporta nel formato previsto dal tuo codice di addestramento; versiona tutto.
- Inizia in piccolo, ripeti velocemente e scala con linee guida chiare.
FAQ
D1: Cos'è CVAT e come posso usarlo per l'annotazione di immagini?
CVAT è una piattaforma di etichettatura basata su browser per immagini e video. Crea un progetto, definisci le etichette, carica i dati come un'attività, annota con caselle o poligoni ed esporta in formati come COCO o YOLO.
D2: Come posso installare CVAT rapidamente?
Il percorso più semplice è utilizzare Docker. Segui i passaggi di installazione ufficiali per avviare il server localmente, quindi accedi all'interfaccia utente web nel tuo browser per la configurazione e la creazione dell'utente.
D3: CVAT può auto-annotare o aiutare con il tracciamento nei video?
Sì, CVAT supporta l'interpolazione e il tracciamento per propagare le annotazioni attraverso i fotogrammi e può integrare l'etichettatura assistita dal modello per pre-etichettare gli oggetti e velocizzare la revisione.
D4: Quali formati di esportazione supporta CVAT?
Le esportazioni comuni includono COCO, YOLO e Pascal VOC. Scegli il formato che corrisponde allo schema previsto e alla mappatura dell'indice di classe del tuo framework di addestramento.
D5: Come posso gestire i team e il controllo di qualità in CVAT?
Crea progetti con etichette condivise, dividi le attività in lavori, assegna ruoli (annotatori, revisori) e utilizza revisioni, commenti, attività gold e controlli di sovrapposizione per garantire una qualità coerente.