What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

Jak korzystać z CVAT: Przyjazny, krok po kroku przewodnik po szybkich i dokładnych adnotacjach

Jeśli kiedykolwiek próbowałeś wytrenować model wizji komputerowej, prawdopodobnie natknąłeś się na tę samą przeszkodę, co wszyscy: dane potrzebują świetnych etykiet. CVAT (Computer Vision Annotation Tool) to jedna z najpopularniejszych platform do tworzenia wysokiej jakości adnotacji obrazów i wideo — otwarta, potężna i zbudowana do skalowania od projektów pobocznych po potoki produkcyjne. Ten poradnik przeprowadzi Cię przez instalację, konfigurację, przepływy pracy związane z etykietowaniem, narzędzia automatyzacji, kontrolę jakości i eksport — dzięki czemu możesz przejść od zera do czystych zbiorów danych bez chaosu.

Będziemy działać praktycznie i bezpośrednio, z przykładami, skrótami i pułapkami, których należy unikać.

Czym jest CVAT i dlaczego warto go używać?

CVAT to narzędzie internetowe do adnotowania obrazów i filmów. Obsługuje wykrywanie obiektów, segmentację, klasyfikację i śledzenie. Możesz uruchomić go lokalnie lub na serwerze, zapraszać członków zespołu, zarządzać projektami/zadaniami i eksportować etykiety do popularnych formatów (takich jak COCO, YOLO, VOC). Jeśli potrzebujesz powtarzalnego, opartego na współpracy i dokładnego etykietowania — CVAT to zapewnia.

Działa w przeglądarce, współpracuje z zespołami

Obsługuje obrazy i długie filmy z interpolacją/śledzeniem

Elastyczny schemat etykiet i atrybutów

Wiele formatów eksportu dla popularnych frameworków treningowych

Oficjalne wprowadzenie od zespołu CVAT, „Getting Started”, jest pomocnym wstępem.

Szybka konfiguracja: Najszybszy sposób na uruchomienie CVAT

Typowa ścieżka instalacji CVAT wykorzystuje Docker. Zawiera serwer, bazę danych i zależności, dzięki czemu możesz rozpocząć pracę w ciągu kilku minut.

Zainstaluj wymagania wstępne

Docker i Docker Compose (lub Docker Desktop)

Zalecane: nowoczesny procesor, wystarczająca ilość pamięci RAM (8–16 GB+ dla zadań intensywnie wykorzystujących wideo)

Pobierz i uruchom CVAT

Sklonuj repozytorium CVAT i uruchom skrypt compose lub użyj bezpośrednio obrazów kontenerów. Oficjalna dokumentacja zawiera dokładne polecenia i zmienne środowiskowe. Dostępny jest również opublikowany obraz serwera w Docker Hub.

Uzyskaj dostęp do interfejsu użytkownika

Po uruchomieniu kontenerów otwórz przeglądarkę (zwykle {adres IP}:8080), utwórz administratora/użytkownika i zaloguj się.

Wskazówka: Przechowywanie danych na podmontowanych wolumenach zapewnia, że zadania, projekty i adnotacje będą trwałe podczas aktualizacji.

Przepływ pracy CVAT w skrócie

Myśl w trzech warstwach: Projekt → Zadanie → Praca.

Projekt: Zbiór powiązanych zadań (np. „Wykrywanie półek sklepowych 2025”). Definiuje globalne etykiety.

Zadanie: Pojedyncza jednostka etykietowania (np. jedna partia 1000 obrazów lub 2‑godzinny film).

Praca: Podział zadania (np. fragmenty długiego filmu) przypisane do annotatorów.

Ta struktura pozwala zarządzać dużymi zbiorami danych, przydzielać pracę członkom zespołu i zachować spójność definicji etykiet.

Krok 1: Utwórz projekt i etykiety (projekt schematu)

Przed przesłaniem danych zdefiniuj swoją ontologię — co etykietujesz i jak.

Klasy: np. osoba, samochód, kask, pęknięcie.

Atrybuty: np. zasłonięty: tak/nie, pogoda: słonecznie/deszczowo, stopień_uszkodzenia: 1–5.

Kodowanie kolorami: poprawia przejrzystość wizualną.

Najlepsze praktyki:

Utrzymuj krótkie, spójne i opisowe nazwy klas.

Używaj atrybutów dla metadanych, które nie wymagają rysowania (np. „jest_tłum”).

Unikaj nakładających się klas, chyba że są celowo hierarchiczne (np. pojazd > samochód/autobus/ciężarówka).

Możesz definiować etykiety na poziomie projektu, aby wszystkie powiązane zadania je dziedziczyły.

Krok 2: Utwórz zadanie i prześlij dane

Z pulpitu nawigacyjnego:

Nowy → Zadanie → Nazwij swoje zadanie.

Wybierz projekt (opcjonalne, ale zalecane).

Prześlij dane: przeciągnij i upuść obrazy, wskaż katalog lub podaj linki do pamięci w chmurze (np. S3, Azure Blob) w zależności od konfiguracji.

Potwierdź, że etykiety są poprawne (odziedziczone lub specyficzne dla zadania) i kliknij Utwórz.

W przypadku długich filmów rozważ podzielenie na części lub włączenie automatycznego podziału zadań, aby każde zadanie było łatwe w zarządzaniu i responsywne dla annotatorów.

Krok 3: Wybierz odpowiedni tryb adnotacji

CVAT obsługuje wiele narzędzi do adnotacji:

Ramki ograniczające: najszybsze do wykrywania obiektów.

Wielokąty/Polilinie: do segmentacji instancji/semantycznej, pasów ruchu, pęknięć.

Prostopadłościany: dla pudełek z perspektywą 3D w obrazach 2D.

Punkty: punkty kluczowe lub orientacyjne (pozy, punkty orientacyjne twarzy).

Tagi: etykiety na poziomie obrazu (np. „dzień”).

Skróty klawiszowe znacznie przyspieszają pracę:

N: utwórz następny kształt

Z: powiększenie

V: przełącz narzędzia

Ctrl/Cmd + S: zapisz

Przytrzymaj Shift/Alt dla ograniczonych kształtów (w zależności od narzędzia) i przyciągania.

Wskazówka: Utrzymuj małą i skoncentrowaną listę etykiet. Zbyt duża liczba klas spowalnia annotatorów i zwiększa wskaźniki błędów.

Krok 4: Adnotacja wideo — interpolacja i śledzenie

W przypadku filmów nie oznaczaj każdej pojedynczej klatki. Zamiast tego:

Utwórz pole lub wielokąt na klatce kluczowej.

Włącz interpolację/śledzenie: CVAT może propagować kształty do przodu, a następnie poprawiasz je w razie potrzeby na nowych klatkach kluczowych.

Dziel lub łącz ścieżki, gdy obiekty zasłaniają się lub pojawiają ponownie.

Oznaczaj stany, takie jak „na zewnątrz” lub „zasłonięty”, aby zachować czystość sekwencji.

To drastycznie skraca czas, zachowując spójność czasową. Badania i najlepsze praktyki społeczności zalecają również interaktywną/samo-adnotacyjną pomoc w celu przyspieszenia etykietowania wideo.

Krok 5: Użyj automatycznego oznaczania i narzędzi wspomagających

CVAT obsługuje etykietowanie wspomagane, aby przyspieszyć pracę. W zależności od wdrożenia możesz:

Użyj wbudowanych funkcji wspomaganych przez model, aby proponować pola/maski.

Uruchamiaj modele po stronie serwera, aby wstępnie etykietować klatki, a następnie poprawiać.

Zastosuj interpolację, aby wypełnić luki.

Zacznij od małego, wysokiej jakości zbioru początkowego, wytrenuj szybki model i użyj go do wstępnego etykietowania pozostałych danych. Iteracyjnie poprawiaj i ponownie trenuj.

Uwaga: Szczegóły zależą od tego, które modele włączysz w swoim środowisku. Oficjalna dokumentacja i samouczki społeczności pokazują, jak podłączyć modele do CVAT i włączyć automatyczne oznaczanie w interfejsie użytkownika.

Krok 6: Współpracuj z rolami i recenzjami

CVAT jest wieloużytkownikowy. Typowe role to:

Administrator: zarządza serwerem i użytkownikami

Kierownik projektu: definiuje etykiety, tworzy zadania/prace, przydziela annotatorów

Annotator: tworzy i edytuje etykiety

Recenzent/QA: sprawdza pracę, prosi o poprawki

Ustal jasne wytyczne: przykłady poprawnych/niepoprawnych adnotacji, definicje atrybutów i przypadki brzegowe (np. „etykietować odbicia?”). Użyj narzędzi recenzji — komentarzy, flag problemów i zmian statusu — aby poprawić jakość.

Krok 7: Kontrola jakości, której możesz zaufać

Kilka praktycznych strategii kontroli jakości:

Złote zadania: wstaw kilka fachowo oznaczonych obrazów, aby porównać annotatorów.

Nakładanie się: przypisz to samo zadanie dwóm annotatorom; porównaj IoU i zgodność.

Kontrole punktowe: recenzenci sprawdzają procent każdego zadania.

Metryki: śledź wzorce zamieszania dla każdej klasy podczas trenowania modelu, aby udoskonalić wytyczne.

Spójność w czasie liczy się bardziej niż jednorazowe idealne etykiety. Dokumentuj decyzje i aktualizuj przewodnik po etykietach, gdy odkryjesz przypadki brzegowe.

Krok 8: Zapisz, wersjonuj i eksportuj

Zapisuj często (CVAT również automatycznie zapisuje). Kiedy będziesz gotowy:

Formaty eksportu: COCO, YOLO, Pascal VOC i inne. Wybierz format, którego oczekuje twój kod treningowy.

Zakresy klatek: eksportuj określone segmenty lub całe zadanie.

Filtry: eksportuj tylko określone etykiety lub atrybuty, jeśli to konieczne.

Zapoznaj się z oficjalną dokumentacją, aby uzyskać aktualne opcje i parametry eksportu. W przypadku szczegółów dotyczących instalacji i obrazu serwera, dokumentacja i strony Docker Hub są autorytatywnymi odniesieniami.

Praktyczne scenariusze i wskazówki

Scenariusz 1: Wykrywanie obiektów na półkach sklepowych

Etykiety: produkt, cena, znak_promocyjny.

Użyj pól dla szybkości; dodaj atrybuty, takie jak promocja=tak/nie.

Eksportuj do YOLO dla lekkiego potoku treningowego.

Scenariusz 2: Segmentacja pasów ruchu

Użyj polilinii lub wielokątów.

Interpoluj między klatkami; poprawiaj na zakrętach.

Eksportuj do COCO panoptic/segmentation w zależności od frameworka.

Scenariusz 3: Zgodność ze sprzętem bezpieczeństwa

Śledź osoba, kask, kamizelka na filmie.

Użyj śledzenia + atrybutów (kask=obecny/nieobecny).

Ostrożnie sprawdzaj zasłonięcia w punktach wejścia/wyjścia.

Porady od profesjonalistów:

Utrzymuj zadania poniżej kilku tysięcy obrazów lub dziel długie filmy, aby interfejs użytkownika był responsywny.

Normalizuj rozmiary obrazów lub kompresuj filmy, aby zrównoważyć wydajność i przejrzystość.

Wersjonuj zbiory danych — eksportuj z wyraźnym tagiem (np. v1.2.0) i blokuj zadania po sfinalizowaniu.

Rozwiązywanie typowych problemów

Lagujący interfejs użytkownika na dużych filmach: podziel na krótsze zadania; zmniejsz rozdzielczość podglądu i rozmiar pobierania wstępnego.

Dryf adnotacji podczas śledzenia: dodawaj klatki kluczowe częściej, szczególnie podczas szybkiego ruchu lub zasłonięć.

Mylące etykiety: refaktoryzuj ontologię; przenieś szczegóły do atrybutów; podaj przykłady wizualne.

Niezgodność eksportu: sprawdź dokładnie oczekiwane pola docelowej biblioteki treningowej (np. mapowanie indeksu klas YOLO, identyfikatory kategorii COCO).

Integracja z potokiem ML

Wstępne przetwarzanie: Zmień rozmiar/normalizuj obrazy przed przesłaniem, aby przyspieszyć adnotacje.

Automatyzacja: Wstępnie etykietuj za pomocą szybkiego modelu, poprawiaj w CVAT, a następnie iteruj.

CI dla danych: Traktuj etykiety jak kod — wersjonowane eksporty, sumy kontrolne i dzienniki zmian.

Przechowywanie: Używaj zasobników w chmurze i zasad cyklu życia dla dużych zbiorów danych wideo.

Warto zauważyć: Jeśli używasz asystentów AI do dokumentowania wytycznych, generowania taksonomii etykiet lub podsumowywania opinii recenzentów, narzędzie takie jak Sider.AI może pomóc w tworzeniu jasnych instrukcji i spójnych list kontrolnych recenzji. Możesz rejestrować decyzje, generować przykłady i przekształcać je w udostępniane podręczniki dla swojego zespołu. Zobacz Sider.AI, aby uzyskać więcej informacji.

30‑minutowy plan startowy

5 minut: Zainstaluj i uruchom CVAT lokalnie.

5 minut: Utwórz projekt z 3–5 etykietami i 2 atrybutami.

5 minut: Utwórz zadanie ze 100 obrazami.

10 minut: Oznacz 20 obrazów za pomocą pól; naucz się skrótów.

5 minut: Eksportuj do YOLO i uruchom szybkie trenowanie.

Na koniec będziesz mieć kompletną pętlę od surowych obrazów do zbioru danych, który można wytrenować.

Gdzie dowiedzieć się więcej

Podstawy CVAT i samouczki od zespołu.

Szczegóły instalacji i konfiguracji.

Obraz serwera i odniesienia do kontenerów.

Badania nad interaktywną/samo-adnotacją dla wideo, aby inspirować szybsze przepływy pracy.

Kluczowe wnioski

Zdefiniuj najpierw swoje etykiety — projekt schematu zapobiega późniejszym problemom.

Użyj interpolacji i śledzenia dla wideo; inteligentnie dobieraj klatki kluczowe.

Automatyczne oznaczanie przyspiesza pracę; recenzja człowieka zapewnia jakość.

Eksportuj w formacie, którego oczekuje twój kod treningowy; wersjonuj wszystko.

Zacznij od małego, iteruj szybko i skaluj z jasnymi wytycznymi.

FAQ

P1: Co to jest CVAT i jak go używać do adnotacji obrazów? CVAT to platforma do etykietowania obrazów i filmów działająca w przeglądarce. Utwórz projekt, zdefiniuj etykiety, prześlij dane jako zadanie, oznacz za pomocą pól lub wielokątów i eksportuj w formatach takich jak COCO lub YOLO.

P2: Jak szybko zainstalować CVAT? Najłatwiej jest użyć Dockera. Postępuj zgodnie z oficjalnymi krokami instalacji, aby uruchomić serwer lokalnie, a następnie uzyskaj dostęp do internetowego interfejsu użytkownika w przeglądarce w celu konfiguracji i tworzenia użytkowników.

P3: Czy CVAT może automatycznie oznaczać lub pomagać w śledzeniu w filmach? Tak, CVAT obsługuje interpolację i śledzenie w celu propagowania adnotacji między klatkami i może integrować etykietowanie wspomagane przez model, aby wstępnie oznaczać obiekty i przyspieszyć przegląd.

P4: Jakie formaty eksportu obsługuje CVAT? Popularne eksporty obejmują COCO, YOLO i Pascal VOC. Wybierz format, który pasuje do oczekiwanego schematu i mapowania indeksu klas Twojego frameworka treningowego.

P5: Jak zarządzać zespołami i kontrolą jakości w CVAT? Twórz projekty ze współdzielonymi etykietami, dziel zadania na prace, przypisuj role (annotatorzy, recenzenci) i używaj recenzji, komentarzy, złotych zadań i kontroli nakładania się, aby zapewnić spójną jakość.