What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

Hvordan bruke CVAT: En vennlig, trinnvis guide til raske og nøyaktige annoteringer

Hvis du noen gang har prøvd å trene en datamodell for datasyn, har du sannsynligvis støtt på den samme veggen som alle andre: dataene trenger gode etiketter. CVAT (Computer Vision Annotation Tool) er en av de mest populære plattformene for å lage høykvalitets bilde- og videoannoteringer – åpen, kraftig og bygget for å skalere fra sideprosjekter til produksjons-pipelines. Denne veiledningen tar deg gjennom installasjon, oppsett, merke-arbeidsflyter, automatiseringshjelpere, kvalitetskontroll og eksport – slik at du kan gå fra null til rene datasett uten kaos.

Vi holder det praktisk og direkte, med eksempler, snarveier og fallgruver du bør unngå.

Hva er CVAT og hvorfor bruke det?

CVAT er et nettbasert verktøy for å annotere bilder og videoer. Det støtter objektdeteksjon, segmentering, klassifisering og sporing. Du kan kjøre det lokalt eller på en server, invitere teammedlemmer, administrere prosjekter/oppgaver og eksportere etiketter til vanlige formater (som COCO, YOLO, VOC). Hvis du trenger repeterbar, samarbeidsorientert og nøyaktig merking – leverer CVAT.

Nettleserbasert, fungerer på tvers av team

Håndterer bilder og lange videoer med interpolering/sporing

Fleksibelt etikettskjema og attributter

Flere eksportformater for populære treningsrammeverk

For en offisiell orientering er CVAT-teamets "Getting Started" en nyttig innføring.

Raskt oppsett: Den raskeste måten å kjøre CVAT på

CVATs typiske installasjonsvei bruker Docker. Den pakker serveren, databasen og avhengigheter slik at du kan komme i gang på få minutter.

Installer forhåndskrav

Docker og Docker Compose (eller Docker Desktop)

Anbefalt: moderne CPU, nok RAM (8–16 GB+ for video-intensive oppgaver)

Hent og start CVAT

Klon CVAT-repositoriet og kjør compose-skriptet, eller bruk container-images direkte. De offisielle dokumentene gir eksakte kommandoer og miljøvariabler. Det finnes også et publisert server-image på Docker Hub.

Få tilgang til brukergrensesnittet

Når containere kjører, åpne nettleseren din (vanligvis {http://localhost:8080}), opprett en administrator/bruker og logg på.

Tips: Lagring av data på monterte volumer sikrer at oppgaver, prosjekter og annoteringer vedvarer på tvers av oppdateringer.

CVAT-arbeidsflyten i et overblikk

Tenk i tre lag: Prosjekt → Oppgave → Jobb.

Prosjekt: En samling for relaterte oppgaver (f.eks. “Retail Shelf Detection 2025”). Definerer globale etiketter.

Oppgave: En enkelt merkeenhet (f.eks. en batch med 1000 bilder eller en 2-timers video).

Jobb: En del av en oppgave (f.eks. utsnitt av en lang video) tildelt til annotatorer.

Denne strukturen lar deg administrere store datasett, tildele arbeid til teammedlemmer og holde etikettdefinisjoner konsistente.

Trinn 1: Opprett et prosjekt og etiketter (skjemadesign)

Før du laster opp data, definer din ontologi – hva du merker og hvordan.

Klasser: f.eks. , , , .

Attributter: f.eks. , , .

Fargekoding: forbedrer visuell klarhet.

Beste praksis:

Hold klassenavnene korte, konsistente og beskrivende.

Bruk attributter for metadata som ikke krever tegning (f.eks. "er_mengde").

Unngå overlappende klasser med mindre det er tilsiktet hierarkisk (f.eks. ).

Du kan definere etiketter på prosjektnivå slik at alle relaterte oppgaver arver dem.

Trinn 2: Opprett en oppgave og last opp data

Fra dashbordet:

Ny → Oppgave → Gi oppgaven et navn.

Velg prosjekt (valgfritt, men anbefales).

Last opp data: dra-og-slipp bilder, pek til en katalog, eller oppgi skylagringslinker (f.eks. S3, Azure Blob) avhengig av oppsettet.

Bekreft at etikettene er korrekte (arvet eller oppgavespesifikke) og trykk på Opprett.

For lange videoer, vurder å dele opp eller aktivere automatisk jobbdeling for å holde hver jobb håndterlig og responsiv for annotatorer.

Trinn 3: Velg riktig annoteringsmodus

CVAT støtter flere annoteringsverktøy:

Avgrensningsbokser: raskest for objektdeteksjon.

Polygoner/Polylinjer: for instans-/semantisk segmentering, veibaner, sprekker.

Kuboider: for 3D-aktige perspektivbokser i 2D-bilder.

Punkter: nøkkelpunkter eller landemerker (poser, ansiktslandemerker).

Tag-er: etiketter på bildenivå (f.eks. “dagtid”).

Tastatursnarveier øker hastigheten dramatisk:

N: opprett neste form

Z: zoom

V: bytt verktøy

Ctrl/Cmd + S: lagre

Hold Shift/Alt for begrensede former (avhengig av verktøy) og snapping.

Tips: Hold etikettlisten liten og fokusert. For mange klasser senker annotatorer og øker feilraten.

Trinn 4: Videoannotering – interpoler og spor

For videoer, ikke annoter hver eneste frame. I stedet:

Opprett en boks eller polygon på en keyframe.

Aktiver interpolering/sporing: CVAT kan forplante former fremover, og du kan korrigere etter behov på nye keyframes.

Del eller slå sammen spor når objekter okkluderer eller dukker opp igjen.

Merk tilstander som "utenfor" eller "okkludert" for å holde sekvenser rene.

Dette reduserer tiden drastisk samtidig som den tidsmessige konsistensen opprettholdes. Forskning og beste praksis i fellesskapet anbefaler også interaktiv/selv-annoteringsassistanse for å akselerere videomerking.

Trinn 5: Bruk auto-annotering og assisterte verktøy

CVAT støtter assistert merking for å øke hastigheten på arbeidet. Avhengig av distribusjonen din, kan du:

Bruk innebygde modellassisterte funksjoner for å foreslå bokser/masker.

Kjør server-side modeller for å forhåndsmerke frames, og korriger deretter.

Bruk interpolering for å fylle hull.

Start med et lite, høykvalitets sett, tren en rask modell og bruk den til å forhåndsmerke gjenværende data. Korriger og tren på nytt iterativt.

Merk: Spesifikasjonene avhenger av hvilke modeller du aktiverer i miljøet ditt. De offisielle dokumentene og fellesskapets veiledninger viser hvordan du kobler modeller til CVAT og aktiverer auto-annotering i brukergrensesnittet.

Trinn 6: Samarbeid med roller og vurderinger

CVAT er for flere brukere. Typiske roller inkluderer:

Admin: administrerer server og brukere

Prosjektleder: definerer etiketter, oppretter oppgaver/jobber, tildeler annotatorer

Annotator: oppretter og redigerer etiketter

Revisor/QA: sjekker arbeid, ber om rettelser

Sett klare retningslinjer: eksempler på korrekte/uriktige annoteringer, attributtdefinisjoner og grensetilfeller (f.eks. “merke refleksjoner?”). Bruk vurderingsverktøyene – kommentarer, problemflagg og statusendringer – for å stramme kvaliteten.

Trinn 7: Kvalitetskontroll du kan stole på

Noen få praktiske QC-strategier:

Gulloppgaver: sett inn noen få ekspertmerkede bilder for å benchmarke annotatorer.

Overlapp: tildel den samme jobben til to annotatorer; sammenlign IoU og enighet.

Stikkprøver: revisorer gransker en prosentandel av hver jobb.

Metrikker: spor forvirringsmønstre per klasse under modelltrening for å forbedre retningslinjene.

Konsistens over tid betyr mer enn engangs perfekte etiketter. Dokumenter beslutninger og oppdater etikettveiledningen når du oppdager grensetilfeller.

Trinn 8: Lagre, versjoner og eksporter

Lagre ofte (CVAT lagrer også automatisk). Når du er klar:

Eksporter formater: COCO, YOLO, Pascal VOC og mer. Velg formatet treningskoden din forventer.

Frame-områder: eksporter spesifikke segmenter eller hele oppgaven.

Filtre: eksporter bare visse etiketter eller attributter om nødvendig.

Se den offisielle dokumentasjonen for oppdaterte eksportalternativer og parametere. For installasjons- og serverimage-detaljer er dokumentene og Docker Hub-sidene autoritative referanser.

Praktiske scenarier og tips

Scenario 1: Objektdeteksjon på butikkhyller

Etiketter: , , .

Bruk bokser for fart; legg til attributter som .

Eksporter til YOLO for en lett trenings-pipeline.

Scenario 2: Veibanesegmentering

Bruk polylinjer eller polygoner.

Interpoler over frames; korriger i svinger.

Eksporter til COCO panoptisk/segmentering avhengig av rammeverket ditt.

Scenario 3: Overholdelse av sikkerhetsutstyr

Spor , , på tvers av video.

Bruk sporing + attributter ().

Gjennomgå okklusjoner nøye ved inngangs-/utgangspunkter.

Pro-tips:

Hold oppgavene under noen få tusen bilder eller del lange videoer for å holde brukergrensesnittet responsivt.

Normaliser bildestørrelser eller komprimer videoer for å balansere ytelse og klarhet.

Versjonsdatasett – eksporter med en klar tag (f.eks. ) og lås oppgaver når de er ferdigstilt.

Feilsøking av vanlige problemer

Treigt brukergrensesnitt på store videoer: del inn i kortere jobber; reduser forhåndsvisningsoppløsningen og prefetch-størrelsen.

Annoteringsdrift i sporing: legg til keyframes oftere, spesielt under raske bevegelser eller okklusjoner.

Forvirrende etiketter: refaktor ontologien; flytt spesifikasjoner til attributter; gi visuelle eksempler.

Eksporter mismatch: dobbeltsjekk målbilderbibliotekets forventede felt (f.eks. YOLO klasseindeks mapping, COCO kategori-IDer).

Integrering i din ML-pipeline

Forbehandling: Endre størrelse/normaliser bilder før du laster opp for å øke hastigheten på annoteringen.

Automatisering: Forhåndsmerke med en rask modell, korriger i CVAT, og iterer deretter.

CI for data: Behandle etiketter som kode – versjonsbestemte eksporter, sjekksummer og endringslogger.

Lagring: Bruk sky-buckets og livssykluspolicyer for store videodatasett.

Verdt å merke seg: Hvis du bruker AI-assistenter til å dokumentere retningslinjer, generere etikett-taksonomier eller oppsummere tilbakemeldinger fra revisorer, kan et verktøy som hjelpe deg med å lage klare instruksjoner og konsistente sjekklister for gjennomgang. Du kan fange beslutninger, generere eksempler og gjøre dem om til delbare playbooks for teamet ditt. Se for mer.

En 30-minutters startplan

5 minutter: Installer og start CVAT lokalt.

5 minutter: Opprett et prosjekt med 3–5 etiketter og 2 attributter.

5 minutter: Opprett en oppgave med 100 bilder.

10 minutter: Annoter 20 bilder ved hjelp av bokser; lær snarveier.

5 minutter: Eksporter til YOLO og kjør en rask treningsrunde.

Innen slutten vil du ha en komplett loop fra råbilder til et trenbart datasett.

Hvor du kan lære mer

CVAT-grunnleggende og veiledninger fra teamet.

Installasjons- og konfigurasjonsdetaljer.

Server-image og container-referanser.

Forskning på interaktiv/selv-annotering for video for å inspirere raskere arbeidsflyter.

Viktige punkter

Definer etikettene dine først – skjemadesign forhindrer problemer nedstrøms.

Bruk interpolering og sporing for video; keyframe smart.

Auto-annotering akselererer arbeidet; menneskelig gjennomgang sikrer kvalitet.

Eksporter i formatet treningskoden din forventer; versjonsbestem alt.

Start smått, iterer raskt og skaler med klare retningslinjer.

Hvordan bruke CVAT: En vennlig, trinnvis guide til raske og nøyaktige annoteringer

Hvordan bruke CVAT: En vennlig, trinnvis guide til raske og nøyaktige annoteringer

Hva er CVAT og hvorfor bruke det?

Raskt oppsett: Den raskeste måten å kjøre CVAT på

CVAT-arbeidsflyten i et overblikk

Trinn 1: Opprett et prosjekt og etiketter (skjemadesign)

Trinn 2: Opprett en oppgave og last opp data

Trinn 3: Velg riktig annoteringsmodus

Trinn 4: Videoannotering – interpoler og spor

Trinn 5: Bruk auto-annotering og assisterte verktøy

Trinn 6: Samarbeid med roller og vurderinger

Trinn 7: Kvalitetskontroll du kan stole på

Trinn 8: Lagre, versjoner og eksporter

Praktiske scenarier og tips

Feilsøking av vanlige problemer

Integrering i din ML-pipeline

En 30-minutters startplan

Hvor du kan lære mer

Viktige punkter

FAQ