What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

Sådan bruges CVAT: En venlig, trin-for-trin guide til hurtige og præcise annoteringer

Hvis du nogensinde har prøvet at træne en computervisionsmodel, er du sandsynligvis stødt på den samme mur som alle andre: Dataene skal have fantastiske etiketter. CVAT (Computer Vision Annotation Tool) er en af de mest populære platforme til at skabe billed- og videoannoteringer af høj kvalitet – åben, kraftfuld og bygget til at skalere fra sideprojekter til produktionspipelines. Denne how-to guide fører dig gennem installation, opsætning, labeling workflows, automatiseringshjælpere, kvalitetskontrol og eksport – så du kan gå fra nul til rene datasæt uden kaos.

Vi holder det praktisk og direkte, med eksempler, genveje og faldgruber, du skal undgå.

Hvad er CVAT, og hvorfor bruge det?

CVAT er et webbaseret værktøj til annotering af billeder og videoer. Det understøtter objektdetektering, segmentering, klassificering og sporing. Du kan køre det lokalt eller på en server, invitere teammedlemmer, administrere projekter/opgaver og eksportere etiketter til almindelige formater (som COCO, YOLO, VOC). Hvis du har brug for gentagelig, kollaborativ og præcis labeling – leverer CVAT.

Browserbaseret, fungerer på tværs af teams

Håndterer billeder og lange videoer med interpolation/sporing

Fleksibelt label-skema og attributter

Flere eksportformater til populære trænings frameworks

For en officiel orientering er CVAT-teamets "Kom godt i gang" en nyttig introduktion.

Hurtig opsætning: Den hurtigste måde at køre CVAT på

CVAT's typiske installationssti bruger Docker. Det samler serveren, databasen og afhængigheder, så du kan komme i gang på få minutter.

Installer forudsætninger

Docker og Docker Compose (eller Docker Desktop)

Anbefales: moderne CPU, nok RAM (8–16 GB+ til video-tunge opgaver)

Hent og start CVAT

Klon CVAT-repository'et og kør compose-scriptet, eller brug container-images direkte. De officielle dokumenter giver nøjagtige kommandoer og miljøvariabler. Der er også et publiceret server-image på Docker Hub.

Få adgang til UI

Når containerne kører, skal du åbne din browser (typisk {Chrome}), oprette en admin/bruger og logge ind.

Tip: Lagring af data på monterede volumes sikrer, at dine opgaver, projekter og annoteringer bevares på tværs af opdateringer.

CVAT Workflow i et overblik

Tænk i tre lag: Projekt → Opgave → Job.

Projekt: En samling til relaterede opgaver (f.eks. "Retail Shelf Detection 2025"). Definerer globale etiketter.

Opgave: En enkelt labeling-enhed (f.eks. et batch af 1.000 billeder eller en 2-timers video).

Job: En opdeling af en opgave (f.eks. segmenter af en lang video) tildelt til annotatorer.

Denne struktur giver dig mulighed for at administrere store datasæt, tildele arbejde til teammedlemmer og holde label-definitioner konsistente.

Trin 1: Opret et projekt og etiketter (skemadesign)

Før du uploader data, skal du definere din ontologi – hvad du labeler, og hvordan.

Klasser: f.eks. , , , .

Attributter: f.eks. , , .

Farvekodning: forbedrer visuel klarhed.

Bedste praksisser:

Hold klassenavne korte, konsistente og beskrivende.

Brug attributter til metadata, der ikke kræver tegning (f.eks. "er_crowd").

Undgå overlappende klasser, medmindre de er bevidst hierarkiske (f.eks. ).

Du kan definere etiketter på projektniveau, så alle relaterede opgaver arver dem.

Trin 2: Opret en opgave og upload data

Fra dashboardet:

Ny → Opgave → Navngiv din opgave.

Vælg projekt (valgfrit, men anbefales).

Upload data: træk-og-slip billeder, peg på en mappe, eller angiv links til cloud-lager (f.eks. S3, Azure Blob) afhængigt af din opsætning.

Bekræft, at etiketterne er korrekte (arvet eller opgavespecifikke), og tryk på Opret.

For lange videoer skal du overveje chunking eller aktivering af automatisk jobdeling for at holde hvert job håndterbart og responsivt for annotatorer.

Trin 3: Vælg den rigtige annoteringsmetode

CVAT understøtter flere annoteringsværktøjer:

Bounding boxes: hurtigst til objektdetektering.

Polygoner/Polylinjer: til instans/semantisk segmentering, vejbaner, revner.

Cuboids: til 3D-lignende perspektivbokse i 2D-billeder.

Punkter: keypoints eller landmærker (poser, ansigtslandmærker).

Tags: billedniveau-etiketter (f.eks. "dagtimerne").

Tastaturgenveje fremskynder tingene dramatisk:

N: opret næste form

Z: zoom

V: skift værktøjer

Ctrl/Cmd + S: gem

Hold Shift/Alt nede for at begrænse former (afhængigt af værktøj) og snapping.

Tip: Hold label-listen lille og fokuseret. For mange klasser gør annotatorer langsommere og øger fejlfrekvensen.

Trin 4: Videoannotering – Interpoler og spor

For videoer skal du ikke annotere hver eneste frame. I stedet:

Opret en boks eller polygon på en keyframe.

Aktiver interpolation/sporing: CVAT kan sprede former fremad, og derefter kan du rette til efter behov på nye keyframes.

Opdel eller flet spor, når objekter okkluderer eller genopstår.

Marker tilstande som "udenfor" eller "okkluderet" for at holde sekvenser rene.

Dette reducerer drastisk tiden og holder den tidsmæssige konsistens. Forskning og community best practices anbefaler også interaktiv/selv-annoteringshjælp til at fremskynde videolabeling.

Trin 5: Brug Auto-Annotation og assisterede værktøjer

CVAT understøtter assisteret labeling for at fremskynde arbejdet. Afhængigt af din implementering kan du:

Brug indbyggede model-assisterede funktioner til at foreslå bokse/masker.

Kør server-side modeller for at præ-label rammer, og ret derefter.

Anvend interpolation for at udfylde huller.

Start med et lille, højkvalitets seed-sæt, træn en hurtig model, og brug den til at præ-label resterende data. Ret og omtræn iterativt.

Bemærk: Det specifikke afhænger af, hvilke modeller du aktiverer i dit miljø. De officielle dokumenter og community tutorials viser, hvordan du tilslutter modeller til CVAT og aktiverer Auto-Annotation i UI.

Trin 6: Samarbejd med roller og anmeldelser

CVAT er multi-bruger. Typiske roller omfatter:

Admin: administrerer server og brugere

Projektleder: definerer etiketter, opretter opgaver/jobs, tildeler annotatorer

Annotator: opretter og redigerer etiketter

Reviewer/QA: kontrollerer arbejde, anmoder om rettelser

Angiv klare retningslinjer: eksempler på korrekte/forkerte annoteringer, attributdefinitioner og edge cases (f.eks. "label refleksioner?"). Brug anmeldelsesværktøjerne – kommentarer, problemflag og statusændringer – til at stramme kvaliteten.

Trin 7: Kvalitetskontrol, du kan stole på

Et par praktiske QC-strategier:

Guldopgaver: Indsæt et par ekspert-labelede billeder for at benchmarke annotatorer.

Overlap: Tildel det samme job til to annotatorer; sammenlign IoU og enighed.

Spot checks: reviewers reviderer en procentdel af hvert job.

Metrics: spor per-klasse forvirringsmønstre under modeltræning for at forfine retningslinjer.

Konsistens over tid betyder mere end engangs perfekte etiketter. Dokumenter beslutninger og opdater label-guiden, efterhånden som du opdager edge cases.

Trin 8: Gem, versioner og eksporter

Gem ofte (CVAT gemmer også automatisk). Når du er klar:

Eksportformater: COCO, YOLO, Pascal VOC og mere. Vælg det format, din træningskode forventer.

Frame-områder: eksporter specifikke segmenter eller hele opgaven.

Filtre: eksporter kun visse etiketter eller attributter, hvis det er nødvendigt.

Se den officielle dokumentation for opdaterede eksportmuligheder og parametre. For installations- og server image-detaljer er dokumenterne og Docker Hub-siderne autoritative referencer.

Praktiske scenarier og tips

Scenarie 1: Objektdetektering på detailhandelsreoler

Etiketter: , , .

Brug bokse for hastighed; tilføj attributter som .

Eksporter til YOLO for en letvægts træningspipeline.

Scenarie 2: Vejbanesegmentering

Brug polylinjer eller polygoner.

Interpoler på tværs af frames; ret ved sving.

Eksporter til COCO panoptisk/segmentering afhængigt af dit framework.

Scenarie 3: Overholdelse af sikkerhedsudstyr

Spor , , på tværs af video.

Brug sporing + attributter ().

Gennemgå okklusioner omhyggeligt ved ind-/udgangspunkter.

Pro tips:

Hold opgaver under et par tusinde billeder, eller opdel lange videoer for at holde UI responsiv.

Normaliser billedstørrelser eller komprimer videoer for at balancere ydeevne og klarhed.

Version datasets – eksporter med et klart tag (f.eks. ), og lås opgaver, når de er færdiggjort.

Fejlfinding af almindelige problemer

Laggy UI på store videoer: opdel i kortere jobs; reducer forhåndsvisningsopløsning og prefetch-størrelse.

Annoteringsdrift i sporing: tilføj keyframes oftere, især under hurtig bevægelse eller okklusioner.

Forvirrende etiketter: refaktorer ontologi; flyt specifikke detaljer til attributter; angiv visuelle eksempler.

Eksportuoverensstemmelse: dobbelttjek din måltræningsbiblioteks forventede felter (f.eks. YOLO klasseindeks-mapping, COCO kategori-ID'er).

Integration i din ML-pipeline

Forbehandling: Resize/normaliser billeder, før du uploader for at fremskynde annotering.

Automatisering: Præ-label med en hurtig model, ret i CVAT, og gentag derefter.

CI for data: Behandl etiketter som kode – versionerede eksporter, checksums og changelogs.

Lagring: Brug cloud buckets og lifecycle policies til store videodatasæt.

Værd at bemærke: Hvis du bruger AI-assistenter til at dokumentere retningslinjer, generere label-taksonomier eller opsummere reviewer-feedback, kan et værktøj som {Sider.AI} hjælpe dig med at oprette klare instruktioner og konsistente review-tjeklister. Du kan fange beslutninger, generere eksempler og gøre dem til delbare playbooks til dit team. Se {Sider.AI} for mere.

En 30-minutters startplan

5 minutter: Installer og start CVAT lokalt.

5 minutter: Opret et projekt med 3–5 etiketter og 2 attributter.

5 minutter: Opret en opgave med 100 billeder.

10 minutter: Annoter 20 billeder ved hjælp af bokse; lær genveje.

5 minutter: Eksporter til YOLO og kør en hurtig træningsrunde.

Ved slutningen har du en komplet loop fra rå billeder til et træningsbart datasæt.

Hvor kan du lære mere

CVAT basics og tutorials fra teamet.

Installations- og konfigurationsdetaljer.

Server image- og containerreferencer.

Forskning i interaktiv/selv-annotering til video for at inspirere hurtigere workflows.

Vigtigste pointer

Definer dine etiketter først – skemadesign forhindrer downstream smerte.

Brug interpolation og sporing til video; keyframe smart.

Auto-annotation fremskynder arbejdet; menneskelig gennemgang sikrer kvalitet.

Eksporter i det format, din træningskode forventer; versioner alt.

Start småt, gentag hurtigt, og skaler med klare retningslinjer.

FAQ

Q1: Hvad er CVAT, og hvordan bruger jeg det til billedannotering? CVAT er en browserbaseret labelingplatform til billeder og videoer. Opret et projekt, definer etiketter, upload data som en opgave, annoter med bokse eller polygoner, og eksporter i formater som COCO eller YOLO.

Q2: Hvordan installerer jeg CVAT hurtigt? Den nemmeste vej er at bruge Docker. Følg de officielle installationstrin for at starte serveren lokalt, og få derefter adgang til web-UI i din browser til opsætning og brugeroprettelse.

Q3: Kan CVAT auto-annotere eller hjælpe med sporing i videoer? Ja, CVAT understøtter interpolation og sporing for at sprede annoteringer på tværs af rammer og kan integrere modelassisteret labeling for at præ-label objekter og fremskynde gennemgangen.

Q4: Hvilke eksportformater understøtter CVAT? Almindelige eksportformater inkluderer COCO, YOLO og Pascal VOC. Vælg det format, der matcher dit trænings frameworks forventede skema og klasseindeks-mapping.

Q5: Hvordan administrerer jeg teams og kvalitetskontrol i CVAT? Opret projekter med delte etiketter, opdel opgaver i jobs, tildel roller (annotatorer, reviewers), og brug reviews, kommentarer, guldopgaver og overlap-kontroller for at sikre ensartet kvalitet.