What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

Как да използвате CVAT: Приятелски, стъпка по стъпка наръчник за бързи и точни анотации

Ако някога сте се опитвали да обучите модел за компютърно зрение, вероятно сте се сблъсквали със същия проблем като всички останали: данните трябва да имат страхотни етикети. CVAT (Computer Vision Annotation Tool) е една от най-популярните платформи за създаване на висококачествени анотации на изображения и видеоклипове – отворена, мощна и създадена да се мащабира от странични проекти до производствени процеси. Това ръководство ще ви преведе през инсталирането, настройването, работните процеси за етикетиране, помощниците за автоматизация, контрола на качеството и експортирането – за да можете да преминете от нула до чисти набори от данни без хаос.

Ще го запазим практично и директно, с примери, преки пътища и клопки, които трябва да избягвате.

Какво е CVAT и защо да го използвате?

CVAT е уеб-базиран инструмент за анотиране на изображения и видеоклипове. Той поддържа откриване на обекти, сегментиране, класификация и проследяване. Можете да го стартирате локално или на сървър, да поканите съотборници, да управлявате проекти/задачи и да експортирате етикети в общи формати (като COCO, YOLO, VOC). Ако имате нужда от повтарящо се, съвместно и точно етикетиране – CVAT предоставя това.

Базиран на браузър, работи в екипи

Обработва изображения и дълги видеоклипове с интерполация/проследяване

Гъвкава схема на етикети и атрибути

Множество формати за експортиране за популярни рамки за обучение

За официална ориентация, “Getting Started” на екипа на CVAT е полезен въвод.

Бърза настройка: Най-бързият начин за стартиране на CVAT

Типичният път за инсталиране на CVAT използва Docker. Той обединява сървъра, базата данни и зависимостите, така че можете да започнете за минути.

Инсталирайте необходимите условия

Docker и Docker Compose (или Docker Desktop)

Препоръчително: модерен CPU, достатъчно RAM (8–16GB+ за задачи с много видео)

Изтеглете и стартирайте CVAT

Клонирайте хранилището на CVAT и стартирайте скрипта за композиране или използвайте директно изображения на контейнери. Официалните документи предоставят точни команди и променливи на средата. Има и публикувано изображение на сървър в Docker Hub.

Достъп до потребителския интерфейс

След като контейнерите работят, отворете браузъра си (обикновено ), създайте администратор/потребител и влезте.

Съвет: Съхраняването на данни на монтирани томове гарантира, че вашите задачи, проекти и анотации ще бъдат запазени при актуализации.

Работен процес на CVAT с един поглед

Мислете в три слоя: Проект → Задача → Работа.

Проект: Колекция за свързани задачи (напр. „Откриване на рафтове за търговия на дребно 2025“). Определя глобални етикети.

Задача: Единична единица за етикетиране (напр. една партида от 1000 изображения или 2‑часов видеоклип).

Работа: Разделяне на задача (напр. части от дълъг видеоклип), възложена на анотатори.

Тази структура ви позволява да управлявате големи набори от данни, да възлагате работа на съотборници и да поддържате дефинициите на етикети последователни.

Стъпка 1: Създайте проект и етикети (дизайн на схема)

Преди да качите данни, определете вашата онтология – какво етикетирате и как.

Класове: напр. човек, кола, каска, пукнатина.

Атрибути: напр. закрит: да/не, време: слънчево/дъждовно, тежест_на_щетата: 1–5.

Цветово кодиране: подобрява визуалната яснота.

Най-добри практики:

Поддържайте имената на класовете кратки, последователни и описателни.

Използвайте атрибути за метаданни, които не изискват рисуване (напр. „е_тълпа“).

Избягвайте припокриващи се класове, освен ако не са умишлено йерархични (напр. превозно_средство > кола/автобус/камион).

Можете да дефинирате етикети на ниво проект, така че всички свързани задачи да ги наследяват.

Стъпка 2: Създайте задача и качете данни

От таблото за управление:

Нова → Задача → Наименувайте задачата си.

Изберете проект (по избор, но се препоръчва).

Качете данни: плъзнете и пуснете изображения, посочете директория или предоставете връзки към облачно хранилище (напр. S3, Azure Blob) в зависимост от вашата настройка.

Потвърдете, че етикетите са правилни (наследени или специфични за задачата) и натиснете Създаване.

За дълги видеоклипове помислете за разделяне на части или активиране на автоматично разделяне на задачи, за да поддържате всяка задача управляема и отзивчива за анотаторите.

Стъпка 3: Изберете правилния режим на анотация

CVAT поддържа множество инструменти за анотация:

Ограничаващи кутии: най-бързият за откриване на обекти.

Многоъгълници/Полилинии: за сегментиране на екземпляри/семантично сегментиране, пътни ленти, пукнатини.

Кубоиди: за 3D‑подобни перспективни кутии в 2D изображения.

Точки: ключови точки или ориентири (пози, лицеви ориентири).

Етикети: етикети на ниво изображение (напр. „дневно време“).

Клавишните комбинации ускоряват нещата драстично:

N: създаване на следваща форма

Z: мащабиране

V: превключване на инструменти

Ctrl/Cmd + S: запазване

Задръжте Shift/Alt за ограничени форми (в зависимост от инструмента) и заснемане.

Съвет: Поддържайте списъка с етикети малък и фокусиран. Твърде много класове забавят анотаторите и увеличават процента на грешки.

Стъпка 4: Анотация на видео – Интерполиране и проследяване

За видеоклипове не анотирайте всеки отделен кадър. Вместо това:

Създайте кутия или многоъгълник на ключов кадър.

Активирайте интерполация/проследяване: CVAT може да разпространява форми напред, след което коригирате, ако е необходимо, на нови ключови кадри.

Разделяйте или обединявайте следи, когато обектите се закриват или се появяват отново.

Маркирайте състояния като „отвън“ или „закрит“, за да поддържате последователностите чисти.

Това драстично намалява времето, като същевременно поддържа времевата консистентност. Изследванията и най-добрите практики на общността също препоръчват интерактивна/само-анотационна помощ за ускоряване на етикетирането на видео.

Стъпка 5: Използвайте автоматична анотация и подпомагани инструменти

CVAT поддържа подпомагано етикетиране за ускоряване на работата. В зависимост от вашето внедряване, можете:

Използвайте вградени функции, подпомагани от модели, за да предложите кутии/маски.

Стартирайте модели от страна на сървъра, за да предварително етикетирате кадри, след което коригирайте.

Приложете интерполация, за да запълните празнини.

Започнете с малък, висококачествен набор от данни, обучете бърз модел и го използвайте за предварително етикетиране на оставащите данни. Итеративно коригирайте и преобучавайте.

Забележка: Спецификите зависят от това кои модели активирате във вашата среда. Официалните документи и уроците на общността показват как да свържете модели към CVAT и да активирате автоматична анотация в потребителския интерфейс.

Стъпка 6: Сътрудничете с роли и прегледи

CVAT е с много потребители. Типичните роли включват:

Администратор: управлява сървъра и потребителите

Мениджър на проекти: определя етикети, създава задачи/работи, възлага анотатори

Анотатор: създава и редактира етикети

Рецензент/QA: проверява работата, иска поправки

Задайте ясни насоки: примери за правилни/неправилни анотации, дефиниции на атрибути и гранични случаи (напр. „етикетират ли се отраженията?“). Използвайте инструментите за преглед – коментари, флагове за проблеми и промени в състоянието – за да затегнете качеството.

Стъпка 7: Контрол на качеството, на който можете да се доверите

Няколко практически стратегии за QC:

Златни задачи: вмъкнете няколко експертно етикетирани изображения, за да сравните анотаторите.

Припокриване: възложете една и съща работа на двама анотатори; сравнете IoU и съгласието.

Проверки на място: рецензентите одитират процент от всяка работа.

Метрики: проследявайте модели на объркване за всеки клас по време на обучението на модела, за да прецизирате насоките.

Последователността във времето има по-голямо значение от еднократните перфектни етикети. Документирайте решенията и актуализирайте ръководството за етикети, когато откриете гранични случаи.

Стъпка 8: Запазете, Версионирайте и Експортирайте

Запазвайте често (CVAT също автоматично запазва). Когато сте готови:

Формати за експортиране: COCO, YOLO, Pascal VOC и други. Изберете формата, който очаква вашият код за обучение.

Диапазони на кадри: експортирайте конкретни сегменти или цялата задача.

Филтри: експортирайте само определени етикети или атрибути, ако е необходимо.

Вижте официалната документация за актуални опции и параметри за експортиране. За подробности относно инсталирането и изображението на сървъра, документацията и страниците на Docker Hub са авторитетни справки.

Практически сценарии и съвети

Сценарий 1: Откриване на обекти на рафтове за търговия на дребно

Етикети: продукт, ценник, рекламен_знак.

Използвайте кутии за скорост; добавете атрибути като промоция=да/не.

Експортирайте в YOLO за лек конвейер за обучение.

Сценарий 2: Сегментиране на пътни ленти

Използвайте полилинии или многоъгълници.

Интерполирайте през кадрите; коригирайте при завои.

Експортирайте в COCO panoptic/segmentation в зависимост от вашата рамка.

Сценарий 3: Съответствие с предпазни средства

Проследявайте човек, каска, жилетка във видеоклипа.

Използвайте проследяване + атрибути (каска=наличие/отсъствие).

Прегледайте внимателно закриванията при точки на влизане/излизане.

Професионални съвети:

Поддържайте задачите под няколко хиляди изображения или разделете дълги видеоклипове, за да поддържате потребителския интерфейс отзивчив.

Нормализирайте размерите на изображенията или компресирайте видеоклиповете, за да балансирате производителността и яснотата.

Версионирайте наборите от данни – експортирайте с ясен маркер (напр. v1.2.0) и заключете задачите, след като бъдат финализирани.

Отстраняване на често срещани проблеми

Труден потребителски интерфейс при големи видеоклипове: разделете на по-къси задачи; намалете разделителната способност на визуализацията и размера на предварително извличане.

Отклонение на анотациите при проследяване: добавяйте ключови кадри по-често, особено по време на бързо движение или закривания.

Объркващи етикети: преработете онтологията; преместете спецификите в атрибути; предоставете визуални примери.

Несъответствие при експортиране: проверете отново очакваните полета на целевата библиотека за обучение (напр. съпоставяне на индекса на класа YOLO, идентификатори на категории COCO).

Интегриране във вашия ML конвейер

Предварителна обработка: Преоразмерете/нормализирайте изображенията, преди да ги качите, за да ускорите анотацията.

Автоматизация: Предварително етикетирайте с бърз модел, коригирайте в CVAT, след това повторете.

CI за данни: Третирайте етикетите като код – версионирани експортирания, контролни суми и дневници на промените.

Съхранение: Използвайте облачни кошчета и правила за жизнения цикъл за големи видео набори от данни.

Струва си да се отбележи: Ако използвате AI асистенти за документиране на насоки, генериране на таксономии на етикети или обобщаване на обратна връзка от рецензенти, инструмент като Sider.AI може да ви помогне да създадете ясни инструкции и последователни контролни списъци за преглед. Можете да заснемате решения, да генерирате примери и да ги превръщате в споделяеми наръчници за вашия екип. Вижте Sider.AI за повече информация.

30‑минутен начален план

5 минути: Инсталирайте и стартирайте CVAT локално.

5 минути: Създайте проект с 3–5 етикета и 2 атрибута.

5 минути: Създайте задача със 100 изображения.

10 минути: Анотирайте 20 изображения с помощта на кутии; научете преки пътища.

5 минути: Експортирайте в YOLO и стартирайте бързо обучение.

До края ще имате завършен цикъл от необработени изображения до набор от данни, който може да се обучи.

Къде да научите повече

CVAT основи и уроци от екипа.

Подробности за инсталиране и конфигуриране.

Изображение на сървъра и препратки към контейнери.

Изследвания върху интерактивна/само-анотация за видео, за да вдъхновите по-бързи работни процеси.

Основни изводи

Първо дефинирайте етикетите си – проектирането на схемата предотвратява последваща болка.

Използвайте интерполация и проследяване за видео; ключови кадри умно.

Автоматичната анотация ускорява работата; човешкият преглед гарантира качество.

Експортирайте във формата, който очаква вашият код за обучение; версионирайте всичко.

Започнете малко, повторете бързо и мащабирайте с ясни насоки.

ЧЗВ

В1: Какво е CVAT и как да го използвам за анотация на изображения? CVAT е платформа за етикетиране на изображения и видеоклипове, базирана на браузър. Създайте проект, дефинирайте етикети, качете данни като задача, анотирайте с кутии или многоъгълници и експортирайте във формати като COCO или YOLO.

В2: Как да инсталирам CVAT бързо? Най-лесният начин е да използвате Docker. Следвайте официалните стъпки за инсталиране, за да стартирате сървъра локално, след което отворете уеб потребителския интерфейс в браузъра си за настройка и създаване на потребител.

В3: Може ли CVAT да автоматично анотира или да помогне с проследяването във видеоклипове? Да, CVAT поддържа интерполация и проследяване за разпространение на анотации през кадри и може да интегрира етикетиране с помощта на модели за предварително етикетиране на обекти и ускоряване на прегледа.

В4: Кои формати за експортиране поддържа CVAT? Общите експортирания включват COCO, YOLO и Pascal VOC. Изберете формата, който съответства на очакваната схема и съпоставяне на индекса на класа на вашата рамка за обучение.

В5: Как да управлявам екипи и контрол на качеството в CVAT? Създайте проекти със споделени етикети, разделете задачите на работи, възложете роли (анотатори, рецензенти) и използвайте прегледи, коментари, златни задачи и проверки за припокриване, за да осигурите постоянно качество.