A CVAT használata: Barátságos, lépésről lépésre útmutató a gyors, pontos annotációkhoz
Ha valaha is próbáltál már betanítani egy számítógépes látásmodellt, valószínűleg ugyanabba a falba ütköztél, mint mindenki más: az adatoknak nagyszerű címkékre van szükségük. A CVAT (Computer Vision Annotation Tool, Számítógépes Látás Annotációs Eszköz) az egyik legnépszerűbb platform a kiváló minőségű kép- és videóannotációk létrehozásához – nyílt, hatékony, és úgy tervezték, hogy a mellékprojektektől a gyártási folyamatokig skálázható legyen. Ez a használati útmutató végigvezet a telepítésen, a beállításon, a címkézési munkafolyamatokon, az automatizálási segédeszközökön, a minőségellenőrzésen és az exportáláson – így a káosz nélkül juthatsz el a nulláról a tiszta adathalmazokig.
Praktikusak és közvetlenek leszünk, példákkal, gyorsbillentyűkkel és elkerülendő buktatókkal.
Mi az a CVAT és miért érdemes használni?
A CVAT egy webes eszköz képek és videók annotálására. Támogatja az objektumfelismerést, a szegmentálást, a klasszifikációt és a követést. Futtathatod helyben vagy egy szerveren, meghívhatsz csapattársakat, kezelheted a projekteket/feladatokat, és exportálhatod a címkéket általános formátumokba (például COCO, YOLO, VOC). Ha megismételhető, együttműködésen alapuló és pontos címkézésre van szükséged – a CVAT ezt biztosítja.
- Böngészőalapú, csapatokban is működik
- Képeket és hosszú videókat is kezel interpolációval/követéssel
- Rugalmas címkeséma és attribútumok
- Több exportálási formátum a népszerű képzési keretrendszerekhez
A hivatalos tájékozódáshoz a CVAT csapat „Getting Started” (Elindulás) című anyaga hasznos bevezető.
Gyors beállítás: A leggyorsabb módja a CVAT futtatásának
A CVAT tipikus telepítési útvonala a Dockert használja. Ez magában foglalja a szervert, az adatbázist és a függőségeket, így percek alatt elkezdheted.
- Telepítsd a szükséges előfeltételeket
- Docker és Docker Compose (vagy Docker Desktop)
- Ajánlott: modern CPU, elegendő RAM (8–16 GB+ a videóigényes feladatokhoz)
- Töltsd le és indítsd el a CVAT-ot
- Klónozd a CVAT adattárat és futtasd a compose szkriptet, vagy használd közvetlenül a konténerlemezképeket. A hivatalos dokumentáció pontos parancsokat és környezeti változókat tartalmaz. A Docker Hubon is található egy közzétett szerver lemezkép.
- Hozzáférés a felhasználói felülethez
- A konténerek futása után nyisd meg a böngésződet (általában {http://localhost:8080}-on), hozz létre egy adminisztrátort/felhasználót, és jelentkezz be.
Tipp: Az adatok csatlakoztatott köteteken való tárolása biztosítja, hogy a feladataid, projektjeid és annotációid megmaradjanak a frissítések során.
A CVAT munkafolyamat dióhéjban
Gondolkodj három rétegben: Projekt → Feladat → Munka.
- Projekt: A kapcsolódó feladatok gyűjteménye (pl. „Kiskereskedelmi polcfelismerés 2025”). Meghatározza a globális címkéket.
- Feladat: Egyetlen címkézési egység (pl. 1000 képből álló köteg vagy egy 2 órás videó).
- Munka: A feladat egy része (pl. egy hosszú videó szeletei), amely a jegyzetelők számára van hozzárendelve.
Ez a szerkezet lehetővé teszi a nagy adathalmazok kezelését, a munka csapattársakhoz rendelését és a címkemegadások konzisztens megőrzését.
1. lépés: Projekt és címkék létrehozása (sématervezés)
Az adatok feltöltése előtt határozd meg az ontológiádat – mit és hogyan címkézel.
- Osztályok: pl.
személy, autó, sisak, repedés.
- Attribútumok: pl.
eltakarva: igen/nem, időjárás: napos/esős, károsodás_súlyossága: 1–5.
- Színkódolás: javítja a vizuális áttekinthetőséget.
Bevált gyakorlatok:
- Tartsd az osztályneveket rövidnek, következetesnek és leírónak.
- Használj attribútumokat olyan metaadatokhoz, amelyek nem igényelnek rajzolást (pl. „tömeg”).
- Kerüld az átfedő osztályokat, kivéve, ha szándékosan hierarchikusak (pl.
jármű > autó/busz/teherautó).
A címkéket projekt szinten is meghatározhatod, így az összes kapcsolódó feladat örökli azokat.
2. lépés: Feladat létrehozása és adatok feltöltése
A műszerfalról:
- Új → Feladat → Nevezd el a feladatot.
- Válassz projektet (opcionális, de ajánlott).
- Tölts fel adatokat: húzd és dobd a képeket, mutass egy könyvtárra, vagy adj meg felhőtárhely-hivatkozásokat (pl. S3, Azure Blob) a beállításodtól függően.
- Ellenőrizd, hogy a címkék helyesek-e (örökölt vagy feladatspecifikus), és kattints a Létrehozás gombra.
Hosszú videók esetén fontold meg a darabolást vagy az automatikus feladatosztás engedélyezését, hogy az egyes munkák kezelhetőek és reszponzívak maradjanak a jegyzetelők számára.
3. lépés: Válaszd ki a megfelelő annotációs módot
A CVAT több annotációs eszközt támogat:
- Határolókeretek: a leggyorsabb az objektumfelismeréshez.
- Sokszögek/Polilinek: példány/szemantikus szegmentáláshoz, útsávokhoz, repedésekhez.
- Hasábok: 3D‑szerű perspektivikus dobozokhoz 2D képeken.
- Pontok: kulcspontok vagy tereptárgyak (pózok, arc tereptárgyai).
- Címkék: kép szintű címkék (pl. „nappal”).
A billentyűparancsok drámaian felgyorsítják a dolgokat:
- N: következő alakzat létrehozása
- Tartsd lenyomva a Shift/Alt billentyűt a korlátozott alakzatokhoz (az eszköztől függően) és a rögzítéshez.
Tipp: Tartsd a címkelistát kicsinek és fókuszáltnak. Túl sok osztály lelassítja a jegyzetelőket és növeli a hibák számát.
4. lépés: Videó annotáció – interpolálás és követés
Videók esetén ne minden egyes képkockát jegyzetelj.
- Hozd létre egy dobozt vagy sokszöget egy kulcskockán.
- Engedélyezd az interpolációt/követést: A CVAT képes továbbvinni az alakzatokat, majd szükség szerint korrigálhatod az új kulcskockákon.
- Oszd fel vagy egyesítsd a sávokat, amikor az objektumok eltakarják vagy újra megjelennek.
- Jelölj meg olyan állapotokat, mint a „kívül” vagy az „eltakarva”, hogy a sorozatok tiszták maradjanak.
Ez drasztikusan csökkenti az időt, miközben megőrzi az időbeli konzisztenciát. A kutatások és a közösségi bevált gyakorlatok az interaktív/önannotációs segítséget is javasolják a videócímkézés felgyorsítására.
5. lépés: Automatikus annotáció és támogatott eszközök használata
A CVAT támogatja a támogatott címkézést a munka felgyorsítása érdekében. A telepítéstől függően:
- Használd a beépített modell által támogatott funkciókat dobozok/maszkok javaslatához.
- Futtass szerveroldali modelleket a keretek előzetes címkézéséhez, majd javítsd ki.
- Alkalmazz interpolációt a hézagok kitöltéséhez.
Kezdd egy kis, kiváló minőségű kiinduló készlettel, képezz ki egy gyors modellt, és használd azt a fennmaradó adatok előzetes címkézéséhez. Ismételten javítsd és képezd újra.
Megjegyzés: A részletek attól függnek, hogy mely modelleket engedélyezed a környezetedben. A hivatalos dokumentációk és a közösségi oktatóanyagok bemutatják, hogyan lehet modelleket csatlakoztatni a CVAT-hoz, és engedélyezni az automatikus annotációt a felhasználói felületen.
6. lépés: Együttműködés szerepekkel és felülvizsgálatokkal
A CVAT több felhasználós. A tipikus szerepek a következők:
- Admin: kezeli a szervert és a felhasználókat
- Projektmenedzser: meghatározza a címkéket, létrehozza a feladatokat/munkákat, hozzárendeli a jegyzetelőket
- Annotátor: létrehozza és szerkeszti a címkéket
- Felülvizsgáló/QA: ellenőrzi a munkát, javításokat kér
Állíts be világos irányelveket: példákat a helyes/helytelen annotációkra, az attribútumok definícióira és a határhelyzetekre (pl. „címkézzük a tükröződéseket?”). Használd a felülvizsgálati eszközöket – megjegyzéseket, problémás jelzéseket és állapotváltozásokat – a minőség javításához.
7. lépés: Minőségellenőrzés, amelyben megbízhatsz
Néhány gyakorlati minőségellenőrzési stratégia:
- Arany feladatok: illessz be néhány szakértő által címkézett képet a jegyzetelők összehasonlításához.
- Átfedés: rendeld ugyanazt a munkát két jegyzetelőhöz; hasonlítsd össze az IoU-t és a megállapodást.
- Helyszíni ellenőrzések: a felülvizsgálók minden munka egy százalékát ellenőrzik.
- Mérőszámok: kövesd nyomon az osztályonkénti zavaró mintákat a modell betanítása során az irányelvek finomítása érdekében.
Az időbeli következetesség fontosabb, mint az egyszeri tökéletes címkék. Dokumentáld a döntéseket, és frissítsd a címkeútmutatót, ahogy határhelyzeteket fedezel fel.
8. lépés: Mentés, verziózás és exportálás
Gyakran ments (a CVAT automatikusan is ment). Amikor készen állsz:
- Exportálási formátumok: COCO, YOLO, Pascal VOC és mások. Válaszd ki azt a formátumot, amelyet a betanítási kódod elvár.
- Kerettartományok: exportálj meghatározott szegmenseket vagy a teljes feladatot.
- Szűrők: szükség esetén csak bizonyos címkéket vagy attribútumokat exportálj.
A naprakész exportálási lehetőségekért és paraméterekért tekintsd meg a hivatalos dokumentációt. A telepítési és szerverlemezkép-részletekért a dokumentációk és a Docker Hub oldalak mérvadó referenciák.
Gyakorlati forgatókönyvek és tippek
1. forgatókönyv: Objektumfelismerés kiskereskedelmi polcokon
- Címkék:
termék, ár_címke, promóciós_tábla.
- Használj dobozokat a sebesség érdekében; adj hozzá olyan attribútumokat, mint a
promóció=igen/nem.
- Exportáld YOLO-ba egy könnyű betanítási folyamathoz.
2. forgatókönyv: Útsáv szegmentálás
- Használj polilineket vagy sokszögeket.
- Interpolálj a kereteken keresztül; javítsd ki a kanyarokban.
- Exportáld COCO panoptikus/szegmentáláshoz a keretrendszeredtől függően.
3. forgatókönyv: Biztonsági felszerelésnek való megfelelés
- Kövesd nyomon a
személy, sisak, mellény elemeket a videóban.
- Használj követést + attribútumokat (
sisak=jelen/hiányzik).
- Gondosan vizsgáld meg az eltakarásokat a belépési/kilépési pontokon.
Pro tippek:
- Tartsd a feladatokat néhány ezer kép alatt, vagy oszd fel a hosszú videókat, hogy a felhasználói felület reszponzív maradjon.
- Normalizáld a képméreteket vagy tömörítsd a videókat a teljesítmény és a tisztaság egyensúlyának megteremtése érdekében.
- Verziózd az adathalmazokat – exportáld egyértelmű címkével (pl.
v1.2.0), és zárd le a feladatokat, ha véglegesítetted őket.
Gyakori akadályok elhárítása
- Lassú felhasználói felület nagy videókon: oszd fel rövidebb munkákra; csökkentsd az előnézeti felbontást és az előtöltési méretet.
- Annotációs eltérés a követésben: adj hozzá kulcskockákat gyakrabban, különösen gyors mozgás vagy eltakarás során.
- Zavaró címkék: alakítsd át az ontológiát; helyezd át a részleteket az attribútumokba; adj meg vizuális példákat.
- Exportálási eltérés: ellenőrizd kétszer a cél betanítási könyvtár által elvárt mezőket (pl. YOLO osztályindex-leképezés, COCO kategóriaazonosítók).
Integrálás a gépi tanulási folyamatba
- Előfeldolgozás: Méretezd át/normalizáld a képeket a feltöltés előtt a jegyzetelés felgyorsítása érdekében.
- Automatizálás: Előzetes címkézés egy gyors modellel, javítás a CVAT-ban, majd ismétlés.
- CI adatokhoz: Kezeld a címkéket kódként – verziózott exportok, ellenőrzőösszegek és változásnaplók.
- Tárolás: Használj felhőtárolókat és életciklus-szabályzatokat nagy videó adathalmazokhoz.
Érdemes megjegyezni: Ha AI asszisztenseket használsz az irányelvek dokumentálásához, a címketaxonómiák generálásához vagy a felülvizsgálói visszajelzések összegzéséhez, egy olyan eszköz, mint a Sider.AI segíthet világos utasítások és következetes ellenőrzőlisták létrehozásában. Rögzítheted a döntéseket, példákat generálhatsz, és megosztható kézikönyvekké alakíthatod őket a csapatod számára. További információért lásd a Sider.AI oldalt. Egy 30 perces kezdő terv
- 5 perc: Telepítsd és indítsd el a CVAT-ot helyben.
- 5 perc: Hozz létre egy projektet 3–5 címkével és 2 attribútummal.
- 5 perc: Hozz létre egy feladatot 100 képpel.
- 10 perc: Jegyzetelj 20 képet dobozok használatával; tanuld meg a gyorsbillentyűket.
- 5 perc: Exportáld YOLO-ba és futtass egy gyors betanítási menetet.
A végére egy teljes hurkod lesz a nyers képektől a betanítható adathalmazig.
Hol tudhatsz meg többet
- CVAT alapok és oktatóanyagok a csapattól.
- Telepítési és konfigurációs részletek.
- Szerver lemezkép és konténer referenciák.
- Kutatás az interaktív/önannotációról a videóknál a gyorsabb munkafolyamatok inspirálására.
Főbb tudnivalók
- Először határozd meg a címkéket – a sématervezés megakadályozza a későbbi problémákat.
- Használj interpolációt és követést a videókhoz; kulcskockázz okosan.
- Az automatikus annotáció felgyorsítja a munkát; az emberi felülvizsgálat biztosítja a minőséget.
- Exportáld abban a formátumban, amelyet a betanítási kódod elvár; verziózz mindent.
- Kezdd kicsiben, iterálj gyorsan, és skálázd világos irányelvekkel.
GYIK
Q1: Mi az a CVAT, és hogyan használhatom képannotációhoz?
A CVAT egy böngészőalapú címkéző platform képekhez és videókhoz. Hozz létre egy projektet, definiálj címkéket, tölts fel adatokat feladatként, jegyzetelj dobozokkal vagy sokszögekkel, és exportálj olyan formátumokban, mint a COCO vagy a YOLO.
Q2: Hogyan telepíthetem gyorsan a CVAT-ot?
A legegyszerűbb út a Docker használata. Kövesd a hivatalos telepítési lépéseket a szerver helyi elindításához, majd a beállításhoz és a felhasználó létrehozásához a böngészőben nyisd meg a webes felhasználói felületet.
Q3: Tud a CVAT automatikusan jegyzetelni, vagy segíteni a videók követésében?
Igen, a CVAT támogatja az interpolációt és a követést a keretek közötti annotációk terjesztéséhez, és integrálhat modell által támogatott címkézést az objektumok előzetes címkézéséhez és a felülvizsgálat felgyorsításához.
Q4: Milyen exportálási formátumokat támogat a CVAT?
A gyakori exportok közé tartozik a COCO, a YOLO és a Pascal VOC. Válaszd ki azt a formátumot, amely megfelel a betanítási keretrendszered által elvárt sémának és osztályindex-leképezésnek.
Q5: Hogyan kezelhetem a csapatokat és a minőségellenőrzést a CVAT-ban?
Hozz létre projekteket megosztott címkékkel, oszd fel a feladatokat munkákra, rendelj szerepeket (jegyzetelők, felülvizsgálók), és használj felülvizsgálatokat, megjegyzéseket, arany feladatokat és átfedés-ellenőrzéseket a következetes minőség biztosításához.