Sider.ai
  • Chat
  • Wisebase
  • Utensili
  • Estensione
  • Clienti
  • Prezzi
Scarica ora
Login

Impara più velocemente, pensa più profondamente e cresci in modo più intelligente con Sider.

Prodotti
App
  • Estensioni
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
Strumenti
  • Creatore di Siti WebNew
  • AI SlidesNew
  • Scrittore di saggi AI
  • Nano Banana Pro
  • Nano Banana Infographic
  • Generatore di immagini AI
  • Generatore di Brainrot Italiano
  • Rimuovi sfondo
  • Cambia sfondo
  • Cancellatore di foto
  • Rimuovi testo
  • Ritocca
  • Ingranditore di immagini
  • Crea
  • Traduttore AI
  • Traduttore di immagini
  • Traduttore PDF
Sider
  • Contattaci
  • Centro assistenza
  • Scarica
  • Prezzi
  • Piano Educativo
  • Novità
  • Blog
  • Comunità
  • Partner
  • Affiliazione
  • Invita
©2026 Tutti i diritti riservati
Termini di utilizzo
Informativa sulla privacy
  • Pagina iniziale
  • Blog
  • Strumenti AI
  • Come Usare CVAT: Una Guida Passo-Passo Semplice per Annotazioni Rapide e Accurate

Come Usare CVAT: Una Guida Passo-Passo Semplice per Annotazioni Rapide e Accurate

Aggiornato il 25 set 2025

8 min


Come usare CVAT: una guida amichevole, passo dopo passo, per annotazioni veloci e accurate

Se hai mai provato ad addestrare un modello di computer vision, probabilmente ti sei scontrato con lo stesso problema di tutti: i dati hanno bisogno di etichette di alta qualità. CVAT (Computer Vision Annotation Tool) è una delle piattaforme più popolari per creare annotazioni di immagini e video di alta qualità: aperta, potente e costruita per scalare da progetti personali a pipeline di produzione. Questa guida pratica ti accompagna attraverso l'installazione, la configurazione, i flussi di lavoro di etichettatura, gli strumenti di automazione, il controllo di qualità e le esportazioni, in modo da poter passare da zero a set di dati puliti senza il caos.
Cercheremo di essere pratici e diretti, con esempi, scorciatoie e insidie da evitare.

Cos'è CVAT e perché usarlo?

CVAT è uno strumento basato sul web per annotare immagini e video. Supporta il rilevamento di oggetti, la segmentazione, la classificazione e il tracciamento. Puoi eseguirlo localmente o su un server, invitare i membri del team, gestire progetti/attività ed esportare le etichette in formati comuni (come COCO, YOLO, VOC). Se hai bisogno di un'etichettatura ripetibile, collaborativa e accurata, CVAT ti offre tutto questo.
  • Basato su browser, funziona tra team
  • Gestisce immagini e video lunghi con interpolazione/tracciamento
  • Schema di etichettatura e attributi flessibili
  • Molteplici formati di esportazione per i framework di addestramento più popolari
Per un orientamento ufficiale, la guida "Getting Started" del team CVAT è un ottimo punto di partenza.

Configurazione rapida: il modo più veloce per eseguire CVAT

Il percorso di installazione tipico di CVAT utilizza Docker. Raggruppa il server, il database e le dipendenze in modo da poter iniziare in pochi minuti.
  1. Installa i prerequisiti
  • Docker e Docker Compose (o Docker Desktop)
  • Consigliato: CPU moderna, RAM sufficiente (8–16 GB+ per attività che richiedono molti video)
  1. Scarica e avvia CVAT
  • Clona il repository CVAT ed esegui lo script di composizione, oppure utilizza direttamente le immagini dei container. La documentazione ufficiale fornisce i comandi esatti e le variabili d'ambiente. C'è anche un'immagine server pubblicata su Docker Hub.
  1. Accedi all'interfaccia utente
  • Una volta che i container sono in esecuzione, apri il browser (comunemente ), crea un amministratore/utente ed effettua il login.
Suggerimento: l'archiviazione dei dati su volumi montati garantisce che attività, progetti e annotazioni persistano durante gli aggiornamenti.

Il flusso di lavoro di CVAT in sintesi

Pensa a tre livelli: Progetto → Attività → Lavoro.
  • Progetto: una raccolta per attività correlate (ad es., "Rilevamento scaffali al dettaglio 2025"). Definisce le etichette globali.
  • Attività: una singola unità di etichettatura (ad es., un lotto di 1.000 immagini o un video di 2 ore).
  • Lavoro: una suddivisione di un'attività (ad es., segmenti di un video lungo) assegnata agli annotatori.
Questa struttura ti consente di gestire grandi set di dati, assegnare lavoro ai membri del team e mantenere coerenti le definizioni delle etichette.

Passaggio 1: crea un progetto e delle etichette (progettazione dello schema)

Prima di caricare i dati, definisci la tua ontologia: cosa stai etichettando e come.
  • Classi: es. persona, auto, casco, crepa.
  • Attributi: es. occluso: sì/no, <a4>meteo: soleggiato/piovoso</a2>, gravità_danno: 1–5.
  • Codifica a colori: migliora la chiarezza visiva.
Migliori pratiche:
  • Mantieni i nomi delle classi brevi, coerenti e descrittivi.
  • Utilizza gli attributi per i metadati che non richiedono il disegno (ad es., "is_crowd").
  • Evita le classi sovrapposte a meno che non siano intenzionalmente gerarchiche (ad es., veicolo > auto/autobus/camion).
Puoi definire le etichette a livello di Progetto in modo che tutte le Attività correlate le ereditino.

Passaggio 2: crea un'attività e carica i dati

Dalla dashboard:
  • Nuovo → Attività → Assegna un nome alla tua attività.
  • Seleziona il progetto (opzionale ma consigliato).
  • Carica dati: trascina e rilascia immagini, punta a una directory o fornisci collegamenti di archiviazione cloud (ad es., S3, Azure Blob) a seconda della configurazione.
  • Verifica che le etichette siano corrette (ereditate o specifiche dell'attività) e fai clic su Crea.
Per i video lunghi, considera di suddividerli in blocchi o di abilitare la suddivisione automatica dei lavori per mantenere ogni lavoro gestibile e reattivo per gli annotatori.

Passaggio 3: scegli la modalità di annotazione giusta

CVAT supporta più strumenti di annotazione:
  • Riquadri di delimitazione: più veloci per il rilevamento di oggetti.
  • Poligoni/Polilinee: per segmentazione di istanza/semantica, corsie stradali, crepe.
  • Cuboidi: per caselle prospettiche 3D in immagini 2D.
  • Punti: punti chiave o punti di riferimento (pose, punti di riferimento facciali).
  • Tag: etichette a livello di immagine (ad es., "diurno").
Le scorciatoie da tastiera velocizzano notevolmente le cose:
  • N: crea la forma successiva
  • Z: zoom
  • V: cambia strumento
  • Ctrl/Cmd + S: salva
  • Tieni premuto Maiusc/Alt per forme vincolate (a seconda dello strumento) e snapping.
Suggerimento: mantieni l'elenco delle etichette piccolo e mirato. Troppe classi rallentano gli annotatori e aumentano i tassi di errore.

Passaggio 4: annotazione video: interpola e traccia

Per i video, non annotare ogni singolo fotogramma. Invece:
  • Crea una casella o un poligono su un fotogramma chiave.
  • Abilita l'interpolazione/tracciamento: CVAT può propagare le forme in avanti, quindi correggi secondo necessità su nuovi fotogrammi chiave.
  • Dividi o unisci le tracce quando gli oggetti si occludono o riappaiono.
  • Contrassegna stati come "esterno" o "occluso" per mantenere pulite le sequenze.
Questo riduce drasticamente il tempo mantenendo la coerenza temporale. Le migliori pratiche di ricerca e della comunità raccomandano anche l'assistenza interattiva/auto-annotazione per accelerare l'etichettatura dei video.

Passaggio 5: utilizza l'annotazione automatica e gli strumenti assistiti

CVAT supporta l'etichettatura assistita per velocizzare il lavoro. A seconda della tua implementazione, puoi:
  • Utilizza le funzionalità assistite dal modello integrate per proporre caselle/maschere.
  • Esegui modelli lato server per pre-etichettare i fotogrammi, quindi correggi.
  • Applica l'interpolazione per riempire i vuoti.
Inizia con un piccolo set di seed di alta qualità, addestra un modello rapido e utilizzalo per pre-etichettare i dati rimanenti. Correggi e riaddestra iterativamente.
Nota: le specifiche dipendono dai modelli che abiliti nel tuo ambiente. La documentazione ufficiale e i tutorial della comunità mostrano come collegare i modelli a CVAT e abilitare l'annotazione automatica nell'interfaccia utente.

Passaggio 6: collabora con ruoli e revisioni

CVAT è multiutente. I ruoli tipici includono:
  • Amministratore: gestisce il server e gli utenti
  • Project manager: definisce le etichette, crea attività/lavori, assegna annotatori
  • Annotatore: crea e modifica le etichette
  • Revisore/QA: controlla il lavoro, richiede correzioni
Definisci linee guida chiare: esempi di annotazioni corrette/errate, definizioni di attributi e casi limite (ad es., "etichettare i riflessi?"). Utilizza gli strumenti di revisione: commenti, contrassegni di problemi e modifiche di stato, per rafforzare la qualità.

Passaggio 7: controllo di qualità di cui ti puoi fidare

Alcune strategie pratiche di controllo di qualità:
  • Attività gold: inserisci alcune immagini etichettate da esperti per valutare gli annotatori.
  • Sovrapposizione: assegna lo stesso lavoro a due annotatori; confronta IoU e concordanza.
  • Controlli a campione: i revisori controllano una percentuale di ogni lavoro.
  • Metriche: monitora i modelli di confusione per classe durante l'addestramento del modello per perfezionare le linee guida.
La coerenza nel tempo conta più delle etichette perfette una tantum. Documenta le decisioni e aggiorna la guida alle etichette man mano che scopri casi limite.

Passaggio 8: salva, versiona ed esporta

Salva frequentemente (CVAT salva anche automaticamente). Quando sei pronto:
  • Formati di esportazione: COCO, YOLO, Pascal VOC e altro. Scegli il formato previsto dal tuo codice di addestramento.
  • Intervalli di fotogrammi: esporta segmenti specifici o l'intera attività.
  • Filtri: esporta solo determinate etichette o attributi se necessario.
Consulta la documentazione ufficiale per le opzioni e i parametri di esportazione più aggiornati. Per i dettagli sull'installazione e sull'immagine del server, la documentazione e le pagine di Docker Hub sono riferimenti autorevoli.

Scenari pratici e suggerimenti

Scenario 1: rilevamento di oggetti su scaffali al dettaglio
  • Etichette: prodotto, cartellino_prezzo, cartello_promozionale.
  • Utilizza le caselle per la velocità; aggiungi attributi come promo=sì/no.
  • Esporta in YOLO per una pipeline di addestramento leggera.
Scenario 2: segmentazione delle corsie stradali
  • Utilizza polilinee o poligoni.
  • Interpola tra i fotogrammi; correggi nelle curve.
  • Esporta in COCO panoptic/segmentation a seconda del tuo framework.
Scenario 3: conformità alle attrezzature di sicurezza
  • Traccia persona, casco, gilet attraverso il video.
  • Utilizza il tracciamento + attributi (casco=presente/assente).
  • Esamina attentamente le occlusioni nei punti di ingresso/uscita.
Suggerimenti professionali:
  • Mantieni le attività sotto poche migliaia di immagini o dividi i video lunghi per mantenere reattiva l'interfaccia utente.
  • Normalizza le dimensioni delle immagini o comprimi i video per bilanciare prestazioni e chiarezza.
  • Versiona i set di dati: esporta con un tag chiaro (ad es., v1.2.0) e blocca le attività una volta finalizzate.

Risoluzione dei problemi comuni

  • Interfaccia utente lenta su video di grandi dimensioni: dividi in lavori più brevi; riduci la risoluzione dell'anteprima e le dimensioni del prefetch.
  • Deriva dell'annotazione nel tracciamento: aggiungi fotogrammi chiave più frequentemente, soprattutto durante movimenti veloci o occlusioni.
  • Etichette confuse: refactoring dell'ontologia; sposta le specifiche negli attributi; fornisci esempi visivi.
  • Mancata corrispondenza dell'esportazione: ricontrolla i campi previsti dalla libreria di addestramento di destinazione (ad es., mappatura dell'indice di classe YOLO, ID categoria COCO).

Integrazione nella tua pipeline di ML

  • Preelaborazione: ridimensiona/normalizza le immagini prima di caricarle per velocizzare l'annotazione.
  • Automazione: pre-etichetta con un modello rapido, correggi in CVAT, quindi ripeti.
  • CI per i dati: tratta le etichette come codice: esportazioni versionate, checksum e changelog.
  • Archiviazione: utilizza bucket cloud e politiche del ciclo di vita per set di dati video di grandi dimensioni.
Vale la pena notare: se utilizzi assistenti AI per documentare le linee guida, generare tassonomie di etichette o riepilogare il feedback dei revisori, uno strumento come Sider.AI può aiutarti a creare istruzioni chiare e checklist di revisione coerenti. Puoi acquisire decisioni, generare esempi e trasformarli in playbook condivisibili per il tuo team. Vedi Sider.AI per maggiori informazioni.

Un piano di avviamento di 30 minuti

  • 5 minuti: installa e avvia CVAT localmente.
  • 5 minuti: crea un progetto con 3–5 etichette e 2 attributi.
  • 5 minuti: crea un'attività con 100 immagini.
  • 10 minuti: annota 20 immagini usando le caselle; impara le scorciatoie.
  • 5 minuti: esporta in YOLO ed esegui un rapido passaggio di addestramento.
Alla fine, avrai un ciclo completo dalle immagini grezze a un set di dati addestrabile.

Dove saperne di più

  • Nozioni di base e tutorial su CVAT dal team.
  • Dettagli di installazione e configurazione.
  • Immagine del server e riferimenti ai container.
  • Ricerca sull'annotazione interattiva/automatica per i video per ispirare flussi di lavoro più veloci.

Punti chiave

  • Definisci prima le tue etichette: la progettazione dello schema previene problemi a valle.
  • Utilizza l'interpolazione e il tracciamento per i video; fotogramma chiave in modo intelligente.
  • L'annotazione automatica accelera il lavoro; la revisione umana garantisce la qualità.
  • Esporta nel formato previsto dal tuo codice di addestramento; versiona tutto.
  • Inizia in piccolo, ripeti velocemente e scala con linee guida chiare.

FAQ

D1: Cos'è CVAT e come posso usarlo per l'annotazione di immagini? CVAT è una piattaforma di etichettatura basata su browser per immagini e video. Crea un progetto, definisci le etichette, carica i dati come un'attività, annota con caselle o poligoni ed esporta in formati come COCO o YOLO.
D2: Come posso installare CVAT rapidamente? Il percorso più semplice è utilizzare Docker. Segui i passaggi di installazione ufficiali per avviare il server localmente, quindi accedi all'interfaccia utente web nel tuo browser per la configurazione e la creazione dell'utente.
D3: CVAT può auto-annotare o aiutare con il tracciamento nei video? Sì, CVAT supporta l'interpolazione e il tracciamento per propagare le annotazioni attraverso i fotogrammi e può integrare l'etichettatura assistita dal modello per pre-etichettare gli oggetti e velocizzare la revisione.
D4: Quali formati di esportazione supporta CVAT? Le esportazioni comuni includono COCO, YOLO e Pascal VOC. Scegli il formato che corrisponde allo schema previsto e alla mappatura dell'indice di classe del tuo framework di addestramento.
D5: Come posso gestire i team e il controllo di qualità in CVAT? Crea progetti con etichette condivise, dividi le attività in lavori, assegna ruoli (annotatori, revisori) e utilizza revisioni, commenti, attività gold e controlli di sovrapposizione per garantire una qualità coerente.

Articoli Recenti
Come Padroneggiare ChatPDF: Approfondimenti Rapidi da Documenti Complessi

Come Padroneggiare ChatPDF: Approfondimenti Rapidi da Documenti Complessi

La migliore alternativa a X Auto-Translation per documenti rapidi e precisi

La migliore alternativa a X Auto-Translation per documenti rapidi e precisi

La traduzione AI di Samsung non disponibile in Iran? Soluzioni pratiche

La traduzione AI di Samsung non disponibile in Iran? Soluzioni pratiche

Strumenti di traduzione persiana: una guida pratica per un lavoro più rapido e preciso

Strumenti di traduzione persiana: una guida pratica per un lavoro più rapido e preciso

La migliore alternativa a Grok per ricerche approfondite e citate

La migliore alternativa a Grok per ricerche approfondite e citate

Le 15 principali funzionalità dei generatori di immagini AI che userai davvero

Le 15 principali funzionalità dei generatori di immagini AI che userai davvero