What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

Comment utiliser CVAT : Un guide amical, étape par étape, pour des annotations rapides et précises

Si vous avez déjà essayé d'entraîner un modèle de vision par ordinateur, vous vous êtes probablement heurté au même obstacle que tout le monde : les données ont besoin d'étiquettes de qualité. CVAT (Computer Vision Annotation Tool) est l'une des plateformes les plus populaires pour créer des annotations d'images et de vidéos de haute qualité, ouverte, puissante et conçue pour évoluer des projets parallèles aux pipelines de production. Ce guide pratique vous guide à travers l'installation, la configuration, les flux de travail d'étiquetage, les outils d'automatisation, le contrôle qualité et les exports, afin que vous puissiez passer de zéro à des ensembles de données propres sans le chaos.

Nous resterons pratiques et directs, avec des exemples, des raccourcis et des pièges à éviter.

Qu'est-ce que CVAT et pourquoi l'utiliser ?

CVAT est un outil en ligne pour annoter des images et des vidéos. Il prend en charge la détection d'objets, la segmentation, la classification et le suivi. Vous pouvez l'exécuter localement ou sur un serveur, inviter des coéquipiers, gérer des projets/tâches et exporter des étiquettes vers des formats courants (comme COCO, YOLO, VOC). Si vous avez besoin d'un étiquetage reproductible, collaboratif et précis, CVAT est la solution.

Basé sur un navigateur, fonctionne en équipe

Gère les images et les longues vidéos avec interpolation/suivi

Schéma d'étiquettes et attributs flexibles

Plusieurs formats d'export pour les frameworks d'entraînement populaires

Pour une orientation officielle, le "Getting Started" de l'équipe CVAT est une introduction utile.

Configuration rapide : La façon la plus rapide d'exécuter CVAT

Le chemin d'installation typique de CVAT utilise Docker. Il regroupe le serveur, la base de données et les dépendances afin que vous puissiez démarrer en quelques minutes.

Installer les prérequis

Docker et Docker Compose (ou Docker Desktop)

Recommandé : CPU moderne, suffisamment de RAM (8 à 16 Go+ pour les tâches gourmandes en vidéo)

Télécharger et démarrer CVAT

Clonez le dépôt CVAT et exécutez le script compose, ou utilisez directement les images de conteneur. La documentation officielle fournit des commandes exactes et des variables d'environnement. Il existe également une image serveur publiée sur Docker Hub.

Accéder à l'interface utilisateur

Une fois les conteneurs en cours d'exécution, ouvrez votre navigateur (généralement ), créez un administrateur/utilisateur et connectez-vous.

Conseil : Le stockage des données sur des volumes montés garantit que vos tâches, projets et annotations persistent lors des mises à jour.

Le flux de travail de CVAT en un coup d'œil

Pensez en trois couches : Projet → Tâche → Job.

Projet : Une collection de tâches connexes (par exemple, "Détection des rayons de vente au détail 2025"). Définit les étiquettes globales.

Tâche : Une seule unité d'étiquetage (par exemple, un lot de 1 000 images ou une vidéo de 2 heures).

Job : Une division d'une tâche (par exemple, des tranches d'une longue vidéo) attribuée aux annotateurs.

Cette structure vous permet de gérer de grands ensembles de données, d'attribuer du travail aux coéquipiers et de maintenir la cohérence des définitions d'étiquettes.

Étape 1 : Créer un projet et des étiquettes (conception du schéma)

Avant de télécharger des données, définissez votre ontologie : ce que vous étiquetez et comment.

Classes : par exemple, personne, voiture, casque, fissure.

Attributs : par exemple, occulté : oui/non, météo : ensoleillé/pluvieux, gravité_des_dommages : 1–5.

Codage couleur : améliore la clarté visuelle.

Meilleures pratiques :

Gardez les noms de classe courts, cohérents et descriptifs.

Utilisez des attributs pour les métadonnées qui ne nécessitent pas de dessin (par exemple, "est_foule").

Évitez les classes qui se chevauchent, sauf si elles sont intentionnellement hiérarchiques (par exemple, véhicule > voiture/bus/camion).

Vous pouvez définir des étiquettes au niveau du projet afin que toutes les tâches connexes les héritent.

Étape 2 : Créer une tâche et télécharger des données

Depuis le tableau de bord :

Nouveau → Tâche → Nommez votre tâche.

Sélectionnez le projet (facultatif mais recommandé).

Téléchargez les données : glissez-déposez des images, pointez vers un répertoire ou fournissez des liens de stockage en nuage (par exemple, S3, Azure Blob) en fonction de votre configuration.

Confirmez que les étiquettes sont correctes (héritées ou spécifiques à la tâche) et cliquez sur Créer.

Pour les longues vidéos, envisagez de découper ou d'activer la division automatique des tâches afin que chaque tâche reste gérable et réactive pour les annotateurs.

Étape 3 : Choisir le bon mode d'annotation

CVAT prend en charge plusieurs outils d'annotation :

Boîtes englobantes : le plus rapide pour la détection d'objets.

Polygones/Polylignes : pour la segmentation d'instance/sémantique, les voies routières, les fissures.

Cuboïdes : pour les boîtes de perspective 3D dans les images 2D.

Points : points clés ou points de repère (poses, points de repère faciaux).

Tags : étiquettes au niveau de l'image (par exemple, "jour").

Les raccourcis clavier accélèrent considérablement les choses :

N : créer la forme suivante

Z : zoom

V : changer d'outil

Ctrl/Cmd + S : enregistrer

Maintenez Shift/Alt enfoncé pour les formes contraintes (selon l'outil) et l'alignement.

Conseil : Gardez la liste des étiquettes petite et ciblée. Trop de classes ralentissent les annotateurs et augmentent les taux d'erreur.

Étape 4 : Annotation vidéo — Interpoler et suivre

Pour les vidéos, n'annotez pas chaque image. Au lieu de cela :

Créez une boîte ou un polygone sur une image clé.

Activez l'interpolation/le suivi : CVAT peut propager les formes vers l'avant, puis vous corrigez au besoin sur de nouvelles images clés.

Divisez ou fusionnez les pistes lorsque des objets s'occultent ou réapparaissent.

Marquez des états comme "extérieur" ou "occulté" pour garder les séquences propres.

Cela réduit considérablement le temps tout en maintenant la cohérence temporelle. La recherche et les meilleures pratiques de la communauté recommandent également une assistance interactive/d'auto-annotation pour accélérer l'étiquetage vidéo.

Étape 5 : Utiliser l'auto-annotation et les outils assistés

CVAT prend en charge l'étiquetage assisté pour accélérer le travail. Selon votre déploiement, vous pouvez :

Utiliser les fonctions intégrées d'assistance du modèle pour proposer des boîtes/masques.

Exécuter des modèles côté serveur pour pré-étiqueter les images, puis corriger.

Appliquer l'interpolation pour combler les lacunes.

Commencez par un petit ensemble de semences de haute qualité, entraînez un modèle rapide et utilisez-le pour pré-étiqueter les données restantes. Corrigez et réentraînez de manière itérative.

Remarque : Les spécificités dépendent des modèles que vous activez dans votre environnement. La documentation officielle et les tutoriels de la communauté montrent comment connecter des modèles à CVAT et activer l'auto-annotation dans l'interface utilisateur.

Étape 6 : Collaborer avec des rôles et des examens

CVAT est multi-utilisateur. Les rôles typiques incluent :

Administrateur : gère le serveur et les utilisateurs

Chef de projet : définit les étiquettes, crée des tâches/jobs, attribue des annotateurs

Annotateur : crée et modifie des étiquettes

Réviseur/AQ : vérifie le travail, demande des corrections

Définissez des directives claires : des exemples d'annotations correctes/incorrectes, des définitions d'attributs et des cas limites (par exemple, "étiqueter les reflets ?"). Utilisez les outils de révision — commentaires, drapeaux de problème et changements d'état — pour renforcer la qualité.

Étape 7 : Contrôle de la qualité auquel vous pouvez faire confiance

Quelques stratégies pratiques de CQ :

Tâches d'or : insérez quelques images étiquetées par des experts pour évaluer les annotateurs.

Chevauchement : attribuez le même job à deux annotateurs ; comparez IoU et l'accord.

Vérifications ponctuelles : les réviseurs vérifient un pourcentage de chaque job.

Mesures : suivez les schémas de confusion par classe pendant l'entraînement du modèle pour affiner les directives.

La cohérence dans le temps compte plus que des étiquettes parfaites ponctuelles. Documentez les décisions et mettez à jour le guide d'étiquettes à mesure que vous découvrez des cas limites.

Étape 8 : Enregistrer, versionner et exporter

Enregistrez fréquemment (CVAT enregistre également automatiquement). Lorsque vous êtes prêt :

Formats d'exportation : COCO, YOLO, Pascal VOC, et plus encore. Choisissez le format attendu par votre code d'entraînement.

Plages d'images : exportez des segments spécifiques ou la totalité de la tâche.

Filtres : exportez uniquement certaines étiquettes ou attributs si nécessaire.

Consultez la documentation officielle pour les options d'exportation et les paramètres à jour. Pour les détails d'installation et d'image serveur, la documentation et les pages Docker Hub sont des références faisant autorité.

Scénarios pratiques et conseils

Scénario 1 : Détection d'objets sur les rayons de vente au détail

Étiquettes : produit, étiquette_de_prix, panneau_promotionnel.

Utilisez des boîtes pour la vitesse ; ajoutez des attributs comme promo=oui/non.

Exportez vers YOLO pour un pipeline d'entraînement léger.

Scénario 2 : Segmentation des voies routières

Utilisez des polylignes ou des polygones.

Interpolez sur les images ; corrigez dans les virages.

Exportez vers COCO panoptique/segmentation selon votre framework.

Scénario 3 : Conformité des équipements de sécurité

Suivez personne, casque, gilet à travers la vidéo.

Utilisez le suivi + les attributs (casque=présent/absent).

Examinez attentivement les occlusions aux points d'entrée/sortie.

Conseils de pro :

Gardez les tâches sous quelques milliers d'images ou divisez les longues vidéos pour que l'interface utilisateur reste réactive.

Normalisez les tailles d'image ou compressez les vidéos pour équilibrer les performances et la clarté.

Versionnez les ensembles de données — exportez avec une étiquette claire (par exemple, v1.2.0) et verrouillez les tâches une fois finalisées.

Dépannage des problèmes courants

Interface utilisateur lente sur les grandes vidéos : divisez en jobs plus courts ; réduisez la résolution de prévisualisation et la taille de prélecture.

Dérive d'annotation dans le suivi : ajoutez des images clés plus fréquemment, en particulier lors de mouvements rapides ou d'occlusions.

Étiquettes confuses : refactorisez l'ontologie ; déplacez les spécificités dans les attributs ; fournissez des exemples visuels.

Incompatibilité d'exportation : vérifiez les champs attendus de votre bibliothèque d'entraînement cible (par exemple, le mappage d'index de classe YOLO, les ID de catégorie COCO).

Intégration dans votre pipeline ML

Prétraitement : Redimensionnez/normalisez les images avant de les télécharger pour accélérer l'annotation.

Automatisation : Pré-étiquetez avec un modèle rapide, corrigez dans CVAT, puis itérez.

IC pour les données : Traitez les étiquettes comme du code — exports versionnés, sommes de contrôle et journaux des modifications.

Stockage : Utilisez des compartiments en nuage et des politiques de cycle de vie pour les grands ensembles de données vidéo.

Il convient de noter : Si vous utilisez des assistants IA pour documenter les directives, générer des taxonomies d'étiquettes ou résumer les commentaires des réviseurs, un outil comme Sider.AI peut vous aider à créer des instructions claires et des listes de contrôle de révision cohérentes. Vous pouvez capturer des décisions, générer des exemples et les transformer en manuels partageables pour votre équipe. Voir Sider.AI pour plus d'informations.

Un plan de démarrage de 30 minutes

5 minutes : Installez et lancez CVAT localement.

5 minutes : Créez un projet avec 3 à 5 étiquettes et 2 attributs.

5 minutes : Créez une tâche avec 100 images.

10 minutes : Annoter 20 images à l'aide de boîtes ; apprendre les raccourcis.

5 minutes : Exportez vers YOLO et exécutez un passage d'entraînement rapide.

À la fin, vous aurez une boucle complète des images brutes à un ensemble de données entraînable.

Où en apprendre davantage

Les bases de CVAT et les tutoriels de l'équipe.

Détails d'installation et de configuration.

Image serveur et références de conteneur.

Recherche sur l'annotation interactive/automatique pour la vidéo afin d'inspirer des flux de travail plus rapides.

Points clés à retenir

Définissez d'abord vos étiquettes — la conception du schéma évite les problèmes en aval.

Utilisez l'interpolation et le suivi pour la vidéo ; image clé intelligemment.

L'auto-annotation accélère le travail ; la révision humaine assure la qualité.

Exportez dans le format attendu par votre code d'entraînement ; versionnez tout.

Commencez petit, itérez rapidement et évoluez avec des directives claires.

FAQ

Q1 : Qu'est-ce que CVAT et comment l'utiliser pour l'annotation d'images ?\nCVAT est une plateforme d'étiquetage basée sur un navigateur pour les images et les vidéos. Créez un projet, définissez des étiquettes, téléchargez des données en tant que tâche, annotez avec des boîtes ou des polygones et exportez dans des formats comme COCO ou YOLO.

Q2 : Comment installer CVAT rapidement ?\nLe chemin le plus simple est d'utiliser Docker. Suivez les étapes d'installation officielles pour démarrer le serveur localement, puis accédez à l'interface utilisateur web dans votre navigateur pour la configuration et la création d'utilisateurs.

Q3 : CVAT peut-il auto-annoter ou aider au suivi dans les vidéos ?\nOui, CVAT prend en charge l'interpolation et le suivi pour propager les annotations à travers les images, et peut intégrer l'étiquetage assisté par modèle pour pré-étiqueter les objets et accélérer la révision.

Q4 : Quels formats d'exportation CVAT prend-il en charge ?\nLes exportations courantes incluent COCO, YOLO et Pascal VOC. Choisissez le format qui correspond au schéma attendu de votre framework d'entraînement et au mappage d'index de classe.

Q5 : Comment gérer les équipes et le contrôle qualité dans CVAT ?\nCréez des projets avec des étiquettes partagées, divisez les tâches en jobs, attribuez des rôles (annotateurs, réviseurs) et utilisez des révisions, des commentaires, des tâches d'or et des vérifications de chevauchement pour garantir une qualité constante.