Jak korzystać z CVAT: Przyjazny, krok po kroku przewodnik po szybkich i dokładnych adnotacjach
Jeśli kiedykolwiek próbowałeś wytrenować model wizji komputerowej, prawdopodobnie natknąłeś się na tę samą przeszkodę, co wszyscy: dane potrzebują świetnych etykiet. CVAT (Computer Vision Annotation Tool) to jedna z najpopularniejszych platform do tworzenia wysokiej jakości adnotacji obrazów i wideo — otwarta, potężna i zbudowana do skalowania od projektów pobocznych po potoki produkcyjne. Ten poradnik przeprowadzi Cię przez instalację, konfigurację, przepływy pracy związane z etykietowaniem, narzędzia automatyzacji, kontrolę jakości i eksport — dzięki czemu możesz przejść od zera do czystych zbiorów danych bez chaosu.
Będziemy działać praktycznie i bezpośrednio, z przykładami, skrótami i pułapkami, których należy unikać.
Czym jest CVAT i dlaczego warto go używać?
CVAT to narzędzie internetowe do adnotowania obrazów i filmów. Obsługuje wykrywanie obiektów, segmentację, klasyfikację i śledzenie. Możesz uruchomić go lokalnie lub na serwerze, zapraszać członków zespołu, zarządzać projektami/zadaniami i eksportować etykiety do popularnych formatów (takich jak COCO, YOLO, VOC). Jeśli potrzebujesz powtarzalnego, opartego na współpracy i dokładnego etykietowania — CVAT to zapewnia.
- Działa w przeglądarce, współpracuje z zespołami
- Obsługuje obrazy i długie filmy z interpolacją/śledzeniem
- Elastyczny schemat etykiet i atrybutów
- Wiele formatów eksportu dla popularnych frameworków treningowych
Oficjalne wprowadzenie od zespołu CVAT, „Getting Started”, jest pomocnym wstępem.
Szybka konfiguracja: Najszybszy sposób na uruchomienie CVAT
Typowa ścieżka instalacji CVAT wykorzystuje Docker. Zawiera serwer, bazę danych i zależności, dzięki czemu możesz rozpocząć pracę w ciągu kilku minut.
- Zainstaluj wymagania wstępne
- Docker i Docker Compose (lub Docker Desktop)
- Zalecane: nowoczesny procesor, wystarczająca ilość pamięci RAM (8–16 GB+ dla zadań intensywnie wykorzystujących wideo)
- Sklonuj repozytorium CVAT i uruchom skrypt compose lub użyj bezpośrednio obrazów kontenerów. Oficjalna dokumentacja zawiera dokładne polecenia i zmienne środowiskowe. Dostępny jest również opublikowany obraz serwera w Docker Hub.
- Uzyskaj dostęp do interfejsu użytkownika
- Po uruchomieniu kontenerów otwórz przeglądarkę (zwykle {adres IP}:8080), utwórz administratora/użytkownika i zaloguj się.
Wskazówka: Przechowywanie danych na podmontowanych wolumenach zapewnia, że zadania, projekty i adnotacje będą trwałe podczas aktualizacji.
Przepływ pracy CVAT w skrócie
Myśl w trzech warstwach: Projekt → Zadanie → Praca.
- Projekt: Zbiór powiązanych zadań (np. „Wykrywanie półek sklepowych 2025”). Definiuje globalne etykiety.
- Zadanie: Pojedyncza jednostka etykietowania (np. jedna partia 1000 obrazów lub 2‑godzinny film).
- Praca: Podział zadania (np. fragmenty długiego filmu) przypisane do annotatorów.
Ta struktura pozwala zarządzać dużymi zbiorami danych, przydzielać pracę członkom zespołu i zachować spójność definicji etykiet.
Krok 1: Utwórz projekt i etykiety (projekt schematu)
Przed przesłaniem danych zdefiniuj swoją ontologię — co etykietujesz i jak.
- Klasy: np.
osoba, samochód, kask, pęknięcie.
- Atrybuty: np.
zasłonięty: tak/nie, pogoda: słonecznie/deszczowo, stopień_uszkodzenia: 1–5.
- Kodowanie kolorami: poprawia przejrzystość wizualną.
Najlepsze praktyki:
- Utrzymuj krótkie, spójne i opisowe nazwy klas.
- Używaj atrybutów dla metadanych, które nie wymagają rysowania (np. „jest_tłum”).
- Unikaj nakładających się klas, chyba że są celowo hierarchiczne (np.
pojazd > samochód/autobus/ciężarówka).
Możesz definiować etykiety na poziomie projektu, aby wszystkie powiązane zadania je dziedziczyły.
Krok 2: Utwórz zadanie i prześlij dane
Z pulpitu nawigacyjnego:
- Nowy → Zadanie → Nazwij swoje zadanie.
- Wybierz projekt (opcjonalne, ale zalecane).
- Prześlij dane: przeciągnij i upuść obrazy, wskaż katalog lub podaj linki do pamięci w chmurze (np. S3, Azure Blob) w zależności od konfiguracji.
- Potwierdź, że etykiety są poprawne (odziedziczone lub specyficzne dla zadania) i kliknij Utwórz.
W przypadku długich filmów rozważ podzielenie na części lub włączenie automatycznego podziału zadań, aby każde zadanie było łatwe w zarządzaniu i responsywne dla annotatorów.
Krok 3: Wybierz odpowiedni tryb adnotacji
CVAT obsługuje wiele narzędzi do adnotacji:
- Ramki ograniczające: najszybsze do wykrywania obiektów.
- Wielokąty/Polilinie: do segmentacji instancji/semantycznej, pasów ruchu, pęknięć.
- Prostopadłościany: dla pudełek z perspektywą 3D w obrazach 2D.
- Punkty: punkty kluczowe lub orientacyjne (pozy, punkty orientacyjne twarzy).
- Tagi: etykiety na poziomie obrazu (np. „dzień”).
Skróty klawiszowe znacznie przyspieszają pracę:
- N: utwórz następny kształt
- Przytrzymaj Shift/Alt dla ograniczonych kształtów (w zależności od narzędzia) i przyciągania.
Wskazówka: Utrzymuj małą i skoncentrowaną listę etykiet. Zbyt duża liczba klas spowalnia annotatorów i zwiększa wskaźniki błędów.
Krok 4: Adnotacja wideo — interpolacja i śledzenie
W przypadku filmów nie oznaczaj każdej pojedynczej klatki. Zamiast tego:
- Utwórz pole lub wielokąt na klatce kluczowej.
- Włącz interpolację/śledzenie: CVAT może propagować kształty do przodu, a następnie poprawiasz je w razie potrzeby na nowych klatkach kluczowych.
- Dziel lub łącz ścieżki, gdy obiekty zasłaniają się lub pojawiają ponownie.
- Oznaczaj stany, takie jak „na zewnątrz” lub „zasłonięty”, aby zachować czystość sekwencji.
To drastycznie skraca czas, zachowując spójność czasową. Badania i najlepsze praktyki społeczności zalecają również interaktywną/samo-adnotacyjną pomoc w celu przyspieszenia etykietowania wideo.
Krok 5: Użyj automatycznego oznaczania i narzędzi wspomagających
CVAT obsługuje etykietowanie wspomagane, aby przyspieszyć pracę. W zależności od wdrożenia możesz:
- Użyj wbudowanych funkcji wspomaganych przez model, aby proponować pola/maski.
- Uruchamiaj modele po stronie serwera, aby wstępnie etykietować klatki, a następnie poprawiać.
- Zastosuj interpolację, aby wypełnić luki.
Zacznij od małego, wysokiej jakości zbioru początkowego, wytrenuj szybki model i użyj go do wstępnego etykietowania pozostałych danych. Iteracyjnie poprawiaj i ponownie trenuj.
Uwaga: Szczegóły zależą od tego, które modele włączysz w swoim środowisku. Oficjalna dokumentacja i samouczki społeczności pokazują, jak podłączyć modele do CVAT i włączyć automatyczne oznaczanie w interfejsie użytkownika.
Krok 6: Współpracuj z rolami i recenzjami
CVAT jest wieloużytkownikowy. Typowe role to:
- Administrator: zarządza serwerem i użytkownikami
- Kierownik projektu: definiuje etykiety, tworzy zadania/prace, przydziela annotatorów
- Annotator: tworzy i edytuje etykiety
- Recenzent/QA: sprawdza pracę, prosi o poprawki
Ustal jasne wytyczne: przykłady poprawnych/niepoprawnych adnotacji, definicje atrybutów i przypadki brzegowe (np. „etykietować odbicia?”). Użyj narzędzi recenzji — komentarzy, flag problemów i zmian statusu — aby poprawić jakość.
Krok 7: Kontrola jakości, której możesz zaufać
Kilka praktycznych strategii kontroli jakości:
- Złote zadania: wstaw kilka fachowo oznaczonych obrazów, aby porównać annotatorów.
- Nakładanie się: przypisz to samo zadanie dwóm annotatorom; porównaj IoU i zgodność.
- Kontrole punktowe: recenzenci sprawdzają procent każdego zadania.
- Metryki: śledź wzorce zamieszania dla każdej klasy podczas trenowania modelu, aby udoskonalić wytyczne.
Spójność w czasie liczy się bardziej niż jednorazowe idealne etykiety. Dokumentuj decyzje i aktualizuj przewodnik po etykietach, gdy odkryjesz przypadki brzegowe.
Krok 8: Zapisz, wersjonuj i eksportuj
Zapisuj często (CVAT również automatycznie zapisuje). Kiedy będziesz gotowy:
- Formaty eksportu: COCO, YOLO, Pascal VOC i inne. Wybierz format, którego oczekuje twój kod treningowy.
- Zakresy klatek: eksportuj określone segmenty lub całe zadanie.
- Filtry: eksportuj tylko określone etykiety lub atrybuty, jeśli to konieczne.
Zapoznaj się z oficjalną dokumentacją, aby uzyskać aktualne opcje i parametry eksportu. W przypadku szczegółów dotyczących instalacji i obrazu serwera, dokumentacja i strony Docker Hub są autorytatywnymi odniesieniami.
Praktyczne scenariusze i wskazówki
Scenariusz 1: Wykrywanie obiektów na półkach sklepowych
- Etykiety:
produkt, cena, znak_promocyjny.
- Użyj pól dla szybkości; dodaj atrybuty, takie jak
promocja=tak/nie.
- Eksportuj do YOLO dla lekkiego potoku treningowego.
Scenariusz 2: Segmentacja pasów ruchu
- Użyj polilinii lub wielokątów.
- Interpoluj między klatkami; poprawiaj na zakrętach.
- Eksportuj do COCO panoptic/segmentation w zależności od frameworka.
Scenariusz 3: Zgodność ze sprzętem bezpieczeństwa
- Śledź
osoba, kask, kamizelka na filmie.
- Użyj śledzenia + atrybutów (
kask=obecny/nieobecny).
- Ostrożnie sprawdzaj zasłonięcia w punktach wejścia/wyjścia.
Porady od profesjonalistów:
- Utrzymuj zadania poniżej kilku tysięcy obrazów lub dziel długie filmy, aby interfejs użytkownika był responsywny.
- Normalizuj rozmiary obrazów lub kompresuj filmy, aby zrównoważyć wydajność i przejrzystość.
- Wersjonuj zbiory danych — eksportuj z wyraźnym tagiem (np.
v1.2.0) i blokuj zadania po sfinalizowaniu.
Rozwiązywanie typowych problemów
- Lagujący interfejs użytkownika na dużych filmach: podziel na krótsze zadania; zmniejsz rozdzielczość podglądu i rozmiar pobierania wstępnego.
- Dryf adnotacji podczas śledzenia: dodawaj klatki kluczowe częściej, szczególnie podczas szybkiego ruchu lub zasłonięć.
- Mylące etykiety: refaktoryzuj ontologię; przenieś szczegóły do atrybutów; podaj przykłady wizualne.
- Niezgodność eksportu: sprawdź dokładnie oczekiwane pola docelowej biblioteki treningowej (np. mapowanie indeksu klas YOLO, identyfikatory kategorii COCO).
Integracja z potokiem ML
- Wstępne przetwarzanie: Zmień rozmiar/normalizuj obrazy przed przesłaniem, aby przyspieszyć adnotacje.
- Automatyzacja: Wstępnie etykietuj za pomocą szybkiego modelu, poprawiaj w CVAT, a następnie iteruj.
- CI dla danych: Traktuj etykiety jak kod — wersjonowane eksporty, sumy kontrolne i dzienniki zmian.
- Przechowywanie: Używaj zasobników w chmurze i zasad cyklu życia dla dużych zbiorów danych wideo.
Warto zauważyć: Jeśli używasz asystentów AI do dokumentowania wytycznych, generowania taksonomii etykiet lub podsumowywania opinii recenzentów, narzędzie takie jak Sider.AI może pomóc w tworzeniu jasnych instrukcji i spójnych list kontrolnych recenzji. Możesz rejestrować decyzje, generować przykłady i przekształcać je w udostępniane podręczniki dla swojego zespołu. Zobacz Sider.AI, aby uzyskać więcej informacji. 30‑minutowy plan startowy
- 5 minut: Zainstaluj i uruchom CVAT lokalnie.
- 5 minut: Utwórz projekt z 3–5 etykietami i 2 atrybutami.
- 5 minut: Utwórz zadanie ze 100 obrazami.
- 10 minut: Oznacz 20 obrazów za pomocą pól; naucz się skrótów.
- 5 minut: Eksportuj do YOLO i uruchom szybkie trenowanie.
Na koniec będziesz mieć kompletną pętlę od surowych obrazów do zbioru danych, który można wytrenować.
Gdzie dowiedzieć się więcej
- Podstawy CVAT i samouczki od zespołu.
- Szczegóły instalacji i konfiguracji.
- Obraz serwera i odniesienia do kontenerów.
- Badania nad interaktywną/samo-adnotacją dla wideo, aby inspirować szybsze przepływy pracy.
Kluczowe wnioski
- Zdefiniuj najpierw swoje etykiety — projekt schematu zapobiega późniejszym problemom.
- Użyj interpolacji i śledzenia dla wideo; inteligentnie dobieraj klatki kluczowe.
- Automatyczne oznaczanie przyspiesza pracę; recenzja człowieka zapewnia jakość.
- Eksportuj w formacie, którego oczekuje twój kod treningowy; wersjonuj wszystko.
- Zacznij od małego, iteruj szybko i skaluj z jasnymi wytycznymi.
FAQ
P1: Co to jest CVAT i jak go używać do adnotacji obrazów?
CVAT to platforma do etykietowania obrazów i filmów działająca w przeglądarce. Utwórz projekt, zdefiniuj etykiety, prześlij dane jako zadanie, oznacz za pomocą pól lub wielokątów i eksportuj w formatach takich jak COCO lub YOLO.
P2: Jak szybko zainstalować CVAT?
Najłatwiej jest użyć Dockera. Postępuj zgodnie z oficjalnymi krokami instalacji, aby uruchomić serwer lokalnie, a następnie uzyskaj dostęp do internetowego interfejsu użytkownika w przeglądarce w celu konfiguracji i tworzenia użytkowników.
P3: Czy CVAT może automatycznie oznaczać lub pomagać w śledzeniu w filmach?
Tak, CVAT obsługuje interpolację i śledzenie w celu propagowania adnotacji między klatkami i może integrować etykietowanie wspomagane przez model, aby wstępnie oznaczać obiekty i przyspieszyć przegląd.
P4: Jakie formaty eksportu obsługuje CVAT?
Popularne eksporty obejmują COCO, YOLO i Pascal VOC. Wybierz format, który pasuje do oczekiwanego schematu i mapowania indeksu klas Twojego frameworka treningowego.
P5: Jak zarządzać zespołami i kontrolą jakości w CVAT?
Twórz projekty ze współdzielonymi etykietami, dziel zadania na prace, przypisuj role (annotatorzy, recenzenci) i używaj recenzji, komentarzy, złotych zadań i kontroli nakładania się, aby zapewnić spójną jakość.