What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

CVAT:n käyttö: ystävällinen, vaiheittainen opas nopeaan ja tarkkaan annotointiin

Jos olet joskus yrittänyt kouluttaa tietokonenäkömallia, olet todennäköisesti törmännyt samaan seinään kuin kaikki muut: datan on oltava hyvin merkittyä. CVAT (Computer Vision Annotation Tool) on yksi suosituimmista alustoista korkealaatuisten kuva- ja videoannotaatioiden luomiseen – avoin, tehokas ja rakennettu skaalautumaan sivuhankkeista tuotantoputkiin. Tämä ohje opastaa sinut asennuksen, asetusten, merkintätyönkulkujen, automaatioavustajien, laadunvalvonnan ja viennin läpi – jotta pääset nollasta puhtaisiin tietokokonaisuuksiin ilman kaaosta.

Pidämme sen käytännöllisenä ja suoraviivaisena, esimerkeillä, oikoteillä ja vältettävillä sudenkuopilla.

Mikä on CVAT ja miksi sitä kannattaa käyttää?

CVAT on verkkopohjainen työkalu kuvien ja videoiden annotointiin. Se tukee objektien tunnistusta, segmentointia, luokittelua ja seurantaa. Voit käyttää sitä paikallisesti tai palvelimella, kutsua tiimikavereita, hallita projekteja/tehtäviä ja viedä merkinnät yleisiin muotoihin (kuten COCO, YOLO, VOC). Jos tarvitset toistettavaa, yhteistyöhön perustuvaa ja tarkkaa merkintää – CVAT toimittaa.

Selainpohjainen, toimii tiimien välillä

Käsittelee kuvia ja pitkiä videoita interpoloinnilla/seurannalla

Joustava merkintäskeema ja attribuutit

Useita vientimuotoja suosituille koulutuskehyksille

CVAT-tiimin virallinen perehdytys "Getting Started" on hyödyllinen alustus.

Nopea asennus: Nopein tapa käyttää CVAT:ia

CVAT:n tyypillinen asennuspolku käyttää Dockeria. Se niputtaa palvelimen, tietokannan ja riippuvuudet, jotta pääset alkuun muutamassa minuutissa.

Asenna edellytykset

Docker ja Docker Compose (tai Docker Desktop)

Suositus: moderni suoritin, riittävästi RAM-muistia (8–16 Gt+ videopainotteisiin tehtäviin)

Hae ja käynnistä CVAT

Kloonaa CVAT-repositorio ja suorita compose-skripti tai käytä suoraan konttikuvaa. Viralliset dokumentit tarjoavat tarkat komennot ja ympäristömuuttujat. Docker Hubissa on myös julkaistu palvelinkuva.

Pääsy käyttöliittymään

Kun kontit ovat käynnissä, avaa selaimesi (yleensä {http://localhost:8080}), luo järjestelmänvalvoja/käyttäjä ja kirjaudu sisään.

Vinkki: Tietojen tallentaminen asennettuihin volyymeihin varmistaa, että tehtäväsi, projektisi ja annotaatiosi säilyvät päivitysten välillä.

CVAT-työnkulku yhdellä silmäyksellä

Ajattele kolmessa kerroksessa: Projekti → Tehtävä → Työ.

Projekti: Samankaltaisten tehtävien kokoelma (esim. "Retail Shelf Detection 2025"). Määrittelee globaalit merkinnät.

Tehtävä: Yksi merkintäyksikkö (esim. yksi 1 000 kuvan erä tai 2 tunnin video).

Työ: Tehtävän jako (esim. pitkän videon osat), joka on määritetty annotoijille.

Tämän rakenteen avulla voit hallita suuria tietokokonaisuuksia, jakaa työtä tiimin jäsenille ja pitää merkintämääritykset johdonmukaisina.

Vaihe 1: Luo projekti ja merkinnät (skeeman suunnittelu)

Ennen kuin lataat dataa, määritä ontologiasi – mitä merkitset ja miten.

Luokat: esim. henkilö, auto, kypärä, halkeama.

Attribuutit: esim. tukossa: kyllä/ei, sää: aurinkoinen/sateinen, vahingon_vakavuus: 1–5.

Värikoodaus: parantaa visuaalista selkeyttä.

Parhaat käytännöt:

Pidä luokkien nimet lyhyinä, johdonmukaisina ja kuvaavina.

Käytä attribuutteja metatiedolle, joka ei vaadi piirtämistä (esim. "on_väkijoukko").

Vältä luokkien päällekkäisyyttä, ellei se ole tarkoituksella hierarkkinen (esim. ajoneuvo > auto/bussi/kuorma-auto).

Voit määrittää merkinnät projektitasolla, jotta kaikki niihin liittyvät tehtävät perivät ne.

Vaihe 2: Luo tehtävä ja lataa dataa

Kojelaudasta:

Uusi → Tehtävä → Nimeä tehtäväsi.

Valitse projekti (valinnainen, mutta suositeltava).

Lataa dataa: vedä ja pudota kuvia, osoita hakemistoon tai anna pilvitallennuslinkkejä (esim. S3, Azure Blob) asetuksistasi riippuen.

Varmista, että merkinnät ovat oikein (peritty tai tehtäväkohtainen) ja paina Luo.

Pitkien videoiden kohdalla harkitse paloittelua tai automaattisen työnjaon käyttöönottoa, jotta jokainen työ on hallittavissa ja reagoiva annotoijille.

Vaihe 3: Valitse oikea annotointitila

CVAT tukee useita annotointityökaluja:

Rajauslaatikot: nopein objektien tunnistukseen.

Monikulmiot/polyviivat: instanssi-/semanttiseen segmentointiin, tiemerkintöihin, halkeamiin.

Suorakulmaiset särmiöt: 3D-tyyppisiin perspektiivilaatikoihin 2D-kuvissa.

Pisteet: avainpisteet tai maamerkit (asennot, kasvojen maamerkit).

Tunnisteet: kuvan tason merkinnät (esim. "päiväsaika").

Pikanäppäimet nopeuttavat asioita dramaattisesti:

N: luo seuraava muoto

Z: zoomaa

V: vaihda työkaluja

Ctrl/Cmd + S: tallenna

Pidä Shift/Alt-näppäintä painettuna rajoitettujen muotojen (työkalusta riippuen) ja kohdistuksen vuoksi.

Vinkki: Pidä merkintäluettelo pienenä ja kohdennettuna. Liian monet luokat hidastavat annotoijia ja lisäävät virheprosenttia.

Vaihe 4: Videoannotointi – interpoloi ja seuraa

Videon kohdalla älä annotoi jokaista yksittäistä ruutua. Sen sijaan:

Luo laatikko tai monikulmio avainruudussa.

Ota interpolointi/seuranta käyttöön: CVAT voi levittää muotoja eteenpäin, jolloin korjaat tarvittaessa uusissa avainruuduissa.

Jaa tai yhdistä raitoja, kun objektit peittyvät tai ilmestyvät uudelleen.

Merkitse tilat, kuten "ulkopuolella" tai "tukossa", jotta jaksot pysyvät puhtaina.

Tämä vähentää huomattavasti aikaa säilyttäen samalla ajallisen johdonmukaisuuden. Tutkimus ja yhteisön parhaat käytännöt suosittelevat myös interaktiivista/itseannotointiapua videoetiketöinnin nopeuttamiseksi.

Vaihe 5: Käytä automaattista annotointia ja avustettuja työkaluja

CVAT tukee avustettua merkintää työn nopeuttamiseksi. Käyttöönotostasi riippuen voit:

Käytä sisäänrakennettuja malliavusteisia ominaisuuksia laatikoiden/maskien ehdottamiseen.

Suorita palvelinpuolen malleja ruutujen esimerkitsemiseksi ja korjaa sitten.

Käytä interpolointia aukkojen täyttämiseen.

Aloita pienellä, korkealaatuisella siemenjoukolla, kouluta nopea malli ja käytä sitä jäljellä olevien tietojen esimerkitsemiseen. Korjaa ja kouluta iteratiivisesti uudelleen.

Huomaa: Erityispiirteet riippuvat siitä, mitkä mallit otat käyttöön ympäristössäsi. Viralliset dokumentit ja yhteisön opetusohjelmat näyttävät, kuinka malleja kytketään CVAT:iin ja kuinka automaattinen annotointi otetaan käyttöön käyttöliittymässä.

Vaihe 6: Tee yhteistyötä roolien ja arvioiden kanssa

CVAT on monikäyttäjäinen. Tyypillisiä rooleja ovat:

Järjestelmänvalvoja: hallitsee palvelinta ja käyttäjiä

Projektipäällikkö: määrittelee merkinnät, luo tehtäviä/töitä, määrittää annotoijia

Annotoija: luo ja muokkaa merkintöjä

Arvioija/QA: tarkistaa työn, pyytää korjauksia

Aseta selkeät ohjeet: esimerkkejä oikeista/vääristä annotaatioista, attribuuttimäärityksistä ja reunaehdoista (esim. "merkitse heijastukset?"). Käytä arviointityökaluja – kommentteja, ongelmaliput ja tilamuutoksia – laadun parantamiseen.

Vaihe 7: Laadunvalvonta, johon voit luottaa

Muutamia käytännöllisiä laadunvalvontastrategioita:

Kultaiset tehtävät: lisää muutama asiantuntevasti merkitty kuva annotoijien vertailuarvoksi.

Päällekkäisyys: määritä sama työ kahdelle annotoijalle; vertaa IoU:ta ja sopimusta.

Pistokokeet: arvioijat tarkastavat prosenttiosuuden jokaisesta työstä.

Mittarit: seuraa luokkakohtaisia sekaannusmalleja mallin koulutuksen aikana ohjeiden tarkentamiseksi.

Johdonmukaisuus ajan mittaan on tärkeämpää kuin kertaluonteiset täydelliset merkinnät. Dokumentoi päätökset ja päivitä merkintäopas, kun löydät reunaehtoja.

Vaihe 8: Tallenna, versioi ja vie

Tallenna usein (CVAT tallentaa myös automaattisesti). Kun olet valmis:

Vientimuodot: COCO, YOLO, Pascal VOC ja paljon muuta. Valitse muoto, jota koulutuskoodisi odottaa.

Ruutualueet: vie tietyt segmentit tai koko tehtävä.

Suodattimet: vie vain tietyt merkinnät tai attribuutit tarvittaessa.

Katso virallisesta dokumentaatiosta ajantasaiset vientivaihtoehdot ja parametrit. Asennus- ja palvelinkuvatiedot löytyvät dokumentaatiosta ja Docker Hub -sivuilta.

Käytännöllisiä skenaarioita ja vinkkejä

Skenaario 1: Objektien tunnistus vähittäiskaupan hyllyillä

Merkinnät: tuote, hintalappu, mainoskyltti.

Käytä laatikoita nopeuden vuoksi; lisää attribuutteja, kuten kampanja=kyllä/ei.

Vie YOLO:on kevyttä koulutusputkea varten.

Skenaario 2: Tiemerkintöjen segmentointi

Käytä polyviivoja tai monikulmioita.

Interpoloi ruutujen välillä; korjaa käännöksissä.

Vie COCO panoptic/segmentointiin kehyksestäsi riippuen.

Skenaario 3: Turvavarusteiden noudattaminen

Seuraa henkilö, <a4>kypärä</a2>, liivi videon poikki.

Käytä seurantaa + attribuutteja (kypärä=läsnä/poissa).

Tarkista peittymät huolellisesti sisään-/uloskäyntipisteissä.

Ammattilaisvinkkejä:

Pidä tehtävät alle muutamassa tuhannessa kuvassa tai jaa pitkät videot, jotta käyttöliittymä pysyy reagoivana.

Normalisoi kuvakoot tai pakkaa videot suorituskyvyn ja selkeyden tasapainottamiseksi.

Versioi tietokokonaisuudet – vie selkeällä tunnisteella (esim. v1.2.0) ja lukitse tehtävät, kun ne on viimeistelty.

Yleisten ongelmien vianmääritys

Hidas käyttöliittymä suurissa videoissa: jaa lyhyempiin töihin; pienennä esikatselutarkkuutta ja noutokokoa.

Annotaatioiden siirtyminen seurannassa: lisää avainruutuja useammin, erityisesti nopean liikkeen tai peittymien aikana.

Hämmentävät merkinnät: muokkaa ontologiaa; siirrä yksityiskohdat attribuutteihin; anna visuaalisia esimerkkejä.

Vientien yhteensopimattomuus: tarkista kohdekoulutuskirjastosi odotetut kentät (esim. YOLO-luokkaindeksin yhdistäminen, COCO-luokkien tunnukset).

Integrointi ML-putkeesi

Esikäsittely: Muuta kuvien kokoa/normalisoi ne ennen CVAT:iin lataamista annotoinnin nopeuttamiseksi.

Automaatio: Esimerkitse nopealla mallilla, korjaa CVAT:ssa ja iterio sitten.

CI datalle: Käsittele merkintöjä kuin koodia – versioidut viennit, tarkistussummat ja muutoslokit.

Tallennus: Käytä pilvisäiliöitä ja elinkaarikäytäntöjä suurille videotietokokonaisuuksille.

Huomionarvoista: Jos käytät tekoälyavustajia ohjeiden dokumentointiin, merkintätaksonomioiden luomiseen tai arvioijien palautteen tiivistämiseen, työkalu, kuten Sider.AI, voi auttaa sinua luomaan selkeät ohjeet ja johdonmukaiset tarkistuslistat. Voit tallentaa päätöksiä, luoda esimerkkejä ja muuttaa ne jaettaviksi pelikirjoiksi tiimillesi. Katso Sider.AI saadaksesi lisätietoja.

30 minuutin aloituspaketti

5 minuuttia: Asenna ja käynnistä CVAT paikallisesti.

5 minuuttia: Luo projekti, jossa on 3–5 merkintää ja 2 attribuuttia.

5 minuuttia: Luo tehtävä, jossa on 100 kuvaa.

10 minuuttia: Annotoi 20 kuvaa laatikoilla; opi pikanäppäimiä.

5 minuuttia: Vie YOLO:on ja suorita nopea koulutusjakso.

Loppujen lopuksi sinulla on täydellinen silmukka raakakuvista koulutettavaan tietokokonaisuuteen.

Mistä saan lisätietoja

CVAT-tiimin perusteet ja opetusohjelmat.

Asennus- ja määritystiedot.

Palvelinkuva- ja konttireferenssit.

Tutkimus interaktiivisesta/itseannotoinnista videoille nopeampien työnkulkujen innoittamiseksi.

Tärkeimmät huomiot

Määritä merkinnät ensin – skeeman suunnittelu estää ongelmia myöhemmin.

Käytä interpolointia ja seurantaa videolle; käytä avainruutuja älykkäästi.

Automaattinen annotointi nopeuttaa työtä; ihmisen arviointi varmistaa laadun.

Vie muodossa, jota koulutuskoodisi odottaa; versioi kaikki.

Aloita pienestä, iteroi nopeasti ja skaalaa selkeillä ohjeilla.

UKK

K1: Mikä on CVAT ja miten käytän sitä kuvien annotointiin? CVAT on selainpohjainen merkintäalusta kuville ja videoille. Luo projekti, määritä merkinnät, lataa dataa tehtävänä, annotoi laatikoilla tai monikulmioilla ja vie muodoissa, kuten COCO tai YOLO.

K2: Miten asennan CVAT:n nopeasti? Helpoin tapa on käyttää Dockeria. Noudata virallisia asennusohjeita palvelimen käynnistämiseksi paikallisesti ja pääset sitten verkko-käyttöliittymään selaimessasi asetuksia ja käyttäjän luomista varten.

K3: Voiko CVAT annotoida automaattisesti tai auttaa seurannassa videoissa? Kyllä, CVAT tukee interpolointia ja seurantaa annotaatioiden levittämiseksi ruutujen välillä ja voi integroida malliavusteisen merkinnän objektien esimerkitsemiseksi ja arvion nopeuttamiseksi.

K4: Mitä vientimuotoja CVAT tukee? Yleisiä vientimuotoja ovat COCO, YOLO ja Pascal VOC. Valitse muoto, joka vastaa koulutuskehyksesi odotettua skeemaa ja luokkaindeksin yhdistämistä.

K5: Miten hallitsen tiimejä ja laadunvalvontaa CVAT:ssa? Luo projekteja jaetuilla merkinnöillä, jaa tehtävät töihin, määritä rooleja (annotoijat, arvioijat) ja käytä arviointeja, kommentteja, kultaisia tehtäviä ja päällekkäisyystarkistuksia johdonmukaisen laadun varmistamiseksi.