What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

Cara Menggunakan CVAT: Panduan Langkah Demi Langkah yang Ramah untuk Anotasi yang Cepat dan Akurat

Jika Anda pernah mencoba melatih model computer vision, Anda mungkin mengalami masalah yang sama dengan yang lain: data membutuhkan label yang bagus. CVAT (Computer Vision Annotation Tool) adalah salah satu platform paling populer untuk membuat anotasi gambar dan video berkualitas tinggi—terbuka, andal, dan dibangun untuk diskalakan dari proyek sampingan hingga alur kerja produksi. Panduan ini akan memandu Anda melalui instalasi, pengaturan, alur kerja pelabelan, alat bantu otomatisasi, kontrol kualitas, dan ekspor—sehingga Anda dapat beralih dari nol ke dataset yang bersih tanpa kekacauan.

Kami akan membahasnya secara praktis dan langsung, dengan contoh, pintasan, dan jebakan yang perlu dihindari.

Apa Itu CVAT dan Mengapa Menggunakannya?

CVAT adalah alat berbasis web untuk menganotasi gambar dan video. Mendukung deteksi objek, segmentasi, klasifikasi, dan pelacakan. Anda dapat menjalankannya secara lokal atau di server, mengundang rekan tim, mengelola proyek/tugas, dan mengekspor label ke format umum (seperti COCO, YOLO, VOC). Jika Anda membutuhkan pelabelan yang dapat diulang, kolaboratif, dan akurat—CVAT adalah solusinya.

Berbasis peramban, berfungsi di seluruh tim

Menangani gambar dan video panjang dengan interpolasi/pelacakan

Skema dan atribut label yang fleksibel

Berbagai format ekspor untuk kerangka kerja pelatihan populer

Untuk orientasi resmi, "Memulai" dari tim CVAT adalah pengantar yang bermanfaat.

Pengaturan Cepat: Cara Tercepat untuk Menjalankan CVAT

Jalur instalasi umum CVAT menggunakan Docker. Ini menggabungkan server, database, dan dependensi sehingga Anda dapat mulai dalam hitungan menit.

Instal prasyarat

Docker dan Docker Compose (atau Docker Desktop)

Disarankan: CPU modern, RAM yang cukup (8–16GB+ untuk tugas yang banyak videonya)

Tarik dan mulai CVAT

Klon repositori CVAT dan jalankan skrip compose, atau gunakan image container secara langsung. Dokumentasi resmi menyediakan perintah dan variabel lingkungan yang tepat. Ada juga image server yang dipublikasikan di Docker Hub.

Akses UI

Setelah container berjalan, buka peramban Anda (biasanya ), buat admin/pengguna, dan masuk.

Tip: Menyimpan data pada volume yang dipasang memastikan tugas, proyek, dan anotasi Anda tetap ada di seluruh pembaruan.

Alur Kerja CVAT Sekilas

Pikirkan dalam tiga lapisan: Proyek → Tugas → Pekerjaan.

Proyek: Kumpulan untuk tugas terkait (misalnya, “Deteksi Rak Ritel 2025”). Mendefinisikan label global.

Tugas: Unit pelabelan tunggal (misalnya, satu batch 1.000 gambar atau video 2 jam).

Pekerjaan: Pembagian tugas (misalnya, potongan video panjang) yang ditugaskan ke anotator.

Struktur ini memungkinkan Anda mengelola dataset besar, menugaskan pekerjaan ke rekan tim, dan menjaga definisi label tetap konsisten.

Langkah 1: Buat Proyek dan Label (Desain Skema)

Sebelum mengunggah data, definisikan ontologi Anda—apa yang Anda label dan bagaimana.

Kelas: misalnya, orang, mobil, helm, retakan.

Atribut: misalnya, tersembunyi: ya/tidak, cuaca: cerah/hujan, tingkat_kerusakan: 1–5.

Kode warna: meningkatkan kejelasan visual.

Praktik terbaik:

Jaga nama kelas tetap pendek, konsisten, dan deskriptif.

Gunakan atribut untuk metadata yang tidak memerlukan penggambaran (misalnya, “is_crowd”).

Hindari kelas yang tumpang tindih kecuali jika secara sengaja hierarkis (misalnya, kendaraan > mobil/bus/truk).

Anda dapat mendefinisikan label di tingkat Proyek sehingga semua Tugas terkait mewarisinya.

Langkah 2: Buat Tugas dan Unggah Data

Dari dasbor:

Baru → Tugas → Beri nama tugas Anda.

Pilih proyek (opsional tetapi disarankan).

Unggah data: seret dan lepas gambar, arahkan ke direktori, atau berikan tautan penyimpanan cloud (misalnya, S3, Azure Blob) tergantung pada pengaturan Anda.

Konfirmasikan bahwa label sudah benar (diwarisi atau khusus tugas) dan klik Buat.

Untuk video panjang, pertimbangkan untuk membagi atau mengaktifkan pemisahan pekerjaan otomatis agar setiap pekerjaan tetap mudah dikelola dan responsif bagi anotator.

Langkah 3: Pilih Mode Anotasi yang Tepat

CVAT mendukung beberapa alat anotasi:

Kotak pembatas: tercepat untuk deteksi objek.

Poligon/Pol Garis: untuk segmentasi instance/semantik, jalur jalan, retakan.

Kuboid: untuk kotak perspektif 3D di gambar 2D.

Titik: titik kunci atau landmark (pose, landmark wajah).

Tag: label tingkat gambar (misalnya, “siang hari”).

Pintasan keyboard mempercepat semuanya secara dramatis:

N: buat bentuk berikutnya

Z: perbesar

V: ganti alat

Ctrl/Cmd + S: simpan

Tahan Shift/Alt untuk bentuk yang dibatasi (tergantung pada alat) dan snapping.

Tip: Jaga daftar label tetap kecil dan fokus. Terlalu banyak kelas memperlambat anotator dan meningkatkan tingkat kesalahan.

Langkah 4: Anotasi Video—Interpolasi dan Lacak

Untuk video, jangan anotasi setiap frame. Sebagai gantinya:

Buat kotak atau poligon pada keyframe.

Aktifkan interpolasi/pelacakan: CVAT dapat menyebarkan bentuk ke depan, lalu Anda koreksi sesuai kebutuhan pada keyframe baru.

Pisahkan atau gabungkan trek saat objek terhalang atau muncul kembali.

Tandai status seperti “di luar” atau “terhalang” agar urutan tetap bersih.

Ini secara drastis mengurangi waktu sambil menjaga konsistensi temporal. Penelitian dan praktik terbaik komunitas juga merekomendasikan bantuan anotasi interaktif/mandiri untuk mempercepat pelabelan video.

Langkah 5: Gunakan Anotasi Otomatis dan Alat Bantu

CVAT mendukung pelabelan berbantuan untuk mempercepat pekerjaan. Tergantung pada penerapan Anda, Anda dapat:

Gunakan fitur berbantuan model bawaan untuk mengusulkan kotak/masker.

Jalankan model sisi server untuk pra-label frame, lalu koreksi.

Terapkan interpolasi untuk mengisi celah.

Mulai dengan set benih kecil berkualitas tinggi, latih model cepat, dan gunakan untuk pra-label data yang tersisa. Koreksi dan latih ulang secara iteratif.

Catatan: Spesifikasinya bergantung pada model mana yang Anda aktifkan di lingkungan Anda. Dokumentasi resmi dan tutorial komunitas menunjukkan cara menghubungkan model ke CVAT dan mengaktifkan Anotasi Otomatis di UI.

Langkah 6: Berkolaborasi dengan Peran dan Ulasan

CVAT adalah multi-pengguna. Peran umum meliputi:

Admin: mengelola server dan pengguna

Manajer proyek: mendefinisikan label, membuat tugas/pekerjaan, menugaskan anotator

Anotator: membuat dan mengedit label

Reviewer/QA: memeriksa pekerjaan, meminta perbaikan

Tetapkan panduan yang jelas: contoh anotasi yang benar/salah, definisi atribut, dan kasus ekstrem (misalnya, “label pantulan?”). Gunakan alat ulasan—komentar, bendera masalah, dan perubahan status—untuk memperketat kualitas.

Langkah 7: Kontrol Kualitas yang Dapat Anda Percayai

Beberapa strategi QC praktis:

Tugas emas: masukkan beberapa gambar berlabel ahli untuk membandingkan anotator.

Tumpang tindih: tugaskan pekerjaan yang sama ke dua anotator; bandingkan IoU dan kesepakatan.

Pemeriksaan mendadak: reviewer mengaudit persentase dari setiap pekerjaan.

Metrik: lacak pola kebingungan per kelas selama pelatihan model untuk menyempurnakan panduan.

Konsistensi dari waktu ke waktu lebih penting daripada label sempurna satu kali. Dokumentasikan keputusan dan perbarui panduan label saat Anda menemukan kasus ekstrem.

Langkah 8: Simpan, Versi, dan Ekspor

Simpan sesering mungkin (CVAT juga menyimpan otomatis). Saat Anda siap:

Format ekspor: COCO, YOLO, Pascal VOC, dan lainnya. Pilih format yang diharapkan oleh kode pelatihan Anda.

Rentang frame: ekspor segmen tertentu atau seluruh tugas.

Filter: ekspor hanya label atau atribut tertentu jika diperlukan.

Lihat dokumentasi resmi untuk opsi dan parameter ekspor terbaru. Untuk detail instalasi dan image server, dokumentasi dan halaman Docker Hub adalah referensi yang berwibawa.

Skenario dan Tip Praktis

Skenario 1: Deteksi Objek di Rak Ritel

Label: produk, label_harga, tanda_promosi.

Gunakan kotak untuk kecepatan; tambahkan atribut seperti promo=ya/tidak.

Ekspor ke YOLO untuk alur pelatihan yang ringan.

Skenario 2: Segmentasi Jalur Jalan

Gunakan pol garis atau poligon.

Interpolasi di seluruh frame; koreksi pada belokan.

Ekspor ke COCO panoptic/segmentation tergantung pada kerangka kerja Anda.

Skenario 3: Kepatuhan Perlengkapan Keselamatan

Lacak orang, helm, rompi di seluruh video.

Gunakan pelacakan + atribut (helm=ada/tidak_ada).

Tinjau oklusi dengan hati-hati di titik masuk/keluar.

Tip pro:

Jaga agar tugas tetap di bawah beberapa ribu gambar atau pisahkan video panjang agar UI tetap responsif.

Normalkan ukuran gambar atau kompres video untuk menyeimbangkan kinerja dan kejelasan.

Beri versi dataset—ekspor dengan tag yang jelas (misalnya, v1.2.0) dan kunci tugas setelah selesai.

Memecahkan Masalah Umum

UI lambat pada video besar: bagi menjadi pekerjaan yang lebih pendek; kurangi resolusi pratinjau dan ukuran prefetch.

Penyimpangan anotasi dalam pelacakan: tambahkan keyframe lebih sering, terutama selama gerakan cepat atau oklusi.

Label yang membingungkan: refaktor ontologi; pindahkan spesifikasi ke dalam atribut; berikan contoh visual.

Ketidakcocokan ekspor: periksa kembali bidang yang diharapkan pustaka pelatihan target Anda (misalnya, pemetaan indeks kelas YOLO, ID kategori COCO).

Mengintegrasikan ke Dalam Alur ML Anda

Pra-pemrosesan: Ubah ukuran/normalisasi gambar sebelum mengunggah untuk mempercepat anotasi.

Otomatisasi: Pra-label dengan model cepat, koreksi di CVAT, lalu ulangi.

CI untuk data: Perlakukan label seperti kode—ekspor versi, checksum, dan changelog.

Penyimpanan: Gunakan bucket cloud dan kebijakan siklus hidup untuk dataset video besar.

Perlu dicatat: Jika Anda menggunakan asisten AI untuk mendokumentasikan panduan, menghasilkan taksonomi label, atau meringkas umpan balik reviewer, alat seperti Sider.AI dapat membantu Anda membuat instruksi yang jelas dan daftar periksa ulasan yang konsisten. Anda dapat menangkap keputusan, menghasilkan contoh, dan mengubahnya menjadi buku pedoman yang dapat dibagikan untuk tim Anda. Lihat Sider.AI untuk lebih lanjut.

Rencana Memulai 30 Menit

5 menit: Instal dan luncurkan CVAT secara lokal.

5 menit: Buat Proyek dengan 3–5 label dan 2 atribut.

5 menit: Buat Tugas dengan 100 gambar.

10 menit: Anotasi 20 gambar menggunakan kotak; pelajari pintasan.

5 menit: Ekspor ke YOLO dan jalankan pelatihan cepat.

Pada akhirnya, Anda akan memiliki loop lengkap dari gambar mentah ke dataset yang dapat dilatih.

Tempat untuk Mempelajari Lebih Lanjut

Dasar-dasar dan tutorial CVAT dari tim.

Detail instalasi dan konfigurasi.

Image server dan referensi container.

Penelitian tentang anotasi interaktif/mandiri untuk video untuk menginspirasi alur kerja yang lebih cepat.

Poin Penting

Definisikan label Anda terlebih dahulu—desain skema mencegah masalah di kemudian hari.

Gunakan interpolasi dan pelacakan untuk video; keyframe dengan cerdas.

Anotasi otomatis mempercepat pekerjaan; tinjauan manusia memastikan kualitas.

Ekspor dalam format yang diharapkan oleh kode pelatihan Anda; beri versi semuanya.

Mulai dari yang kecil, ulangi dengan cepat, dan skala dengan panduan yang jelas.

FAQ

Q1: Apa itu CVAT dan bagaimana cara menggunakannya untuk anotasi gambar? CVAT adalah platform pelabelan berbasis peramban untuk gambar dan video. Buat proyek, definisikan label, unggah data sebagai tugas, anotasi dengan kotak atau poligon, dan ekspor dalam format seperti COCO atau YOLO.

Q2: Bagaimana cara menginstal CVAT dengan cepat? Cara termudah adalah menggunakan Docker. Ikuti langkah-langkah instalasi resmi untuk memulai server secara lokal, lalu akses UI web di peramban Anda untuk pengaturan dan pembuatan pengguna.

Q3: Dapatkah CVAT menganotasi otomatis atau membantu pelacakan dalam video? Ya, CVAT mendukung interpolasi dan pelacakan untuk menyebarkan anotasi di seluruh frame, dan dapat mengintegrasikan pelabelan berbantuan model untuk pra-label objek dan mempercepat tinjauan.

Q4: Format ekspor mana yang didukung CVAT? Ekspor umum meliputi COCO, YOLO, dan Pascal VOC. Pilih format yang sesuai dengan skema yang diharapkan kerangka kerja pelatihan Anda dan pemetaan indeks kelas.

Q5: Bagaimana cara mengelola tim dan kontrol kualitas di CVAT? Buat proyek dengan label bersama, bagi tugas menjadi pekerjaan, tetapkan peran (anotator, reviewer), dan gunakan ulasan, komentar, tugas emas, dan pemeriksaan tumpang tindih untuk memastikan kualitas yang konsisten.