What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

CVAT कसे वापरावे: जलद, अचूक ॲनोटेशनसाठी एक सोपा, चरण-दर-चरण मार्गदर्शक

जर तुम्ही कधी कॉम्प्युटर व्हिजन मॉडेलला प्रशिक्षित करण्याचा प्रयत्न केला असेल, तर तुम्हाला नक्कीच एक समस्या आली असेल: डेटाला उत्कृष्ट लेबलची आवश्यकता असते. CVAT (कॉम्प्युटर व्हिजन ॲनोटेशन टूल) हे उच्च-गुणवत्तेचे इमेज आणि व्हिडिओ ॲनोटेशन तयार करण्यासाठी सर्वात लोकप्रिय प्लॅटफॉर्मपैकी एक आहे—ओपन, शक्तिशाली आणि साइड प्रोजेक्ट्सपासून ते प्रोडक्शन पाइपलाइनपर्यंत स्केल करण्यासाठी तयार केलेले आहे. हे मार्गदर्शक तुम्हाला इंस्टॉलेशन, सेटअप, लेबलिंग वर्कफ्लो, ऑटोमेशन हेल्पर्स, क्वालिटी कंट्रोल आणि एक्सपोर्ट्स यांबद्दल मार्गदर्शन करेल—त्यामुळे तुम्ही गोंधळ न करता डेटासेट तयार करू शकता.

आम्ही हे व्यावहारिक आणि थेट ठेवू, उदाहरणे, शॉर्टकट आणि टाळण्याजोग्या चुकांसहित.

CVAT म्हणजे काय आणि ते का वापरावे?

CVAT हे इमेज आणि व्हिडिओ ॲनोटेट करण्यासाठी एक वेब-आधारित टूल आहे. हे ऑब्जेक्ट डिटेक्शन, सेगमेंटेशन, क्लासिफिकेशन आणि ट्रॅकिंगला सपोर्ट करते. तुम्ही ते स्थानिक पातळीवर किंवा सर्व्हरवर चालवू शकता, टीममधील सदस्यांना आमंत्रित करू शकता, प्रोजेक्ट्स/टास्क व्यवस्थापित करू शकता आणि सामान्य फॉरमॅटमध्ये (जसे की COCO, YOLO, VOC) लेबल एक्सपोर्ट करू शकता. जर तुम्हाला पुन्हा करता येण्याजोगे, सहकार्याने करता येण्याजोगे आणि अचूक लेबलिंग हवे असेल—तर CVAT नक्कीच उपयोगी आहे.

ब्राउझर-आधारित, टीममध्ये काम करते

इमेज आणि लांब व्हिडिओ इंटरपोलेशन/ट्रॅकिंगसह हाताळते

लवचिक लेबल स्कीमा आणि विशेषता

प्रसिद्ध प्रशिक्षण फ्रेमवर्कसाठी अनेक एक्सपोर्ट फॉरमॅट

अधिकृत माहितीसाठी, CVAT टीमचे "Getting Started" हे उपयुक्त आहे.

त्वरित सेटअप: CVAT चालवण्याचा सर्वात वेगवान मार्ग

CVAT चा नेहमीचा इंस्टॉलेशन मार्ग Docker वापरतो. हे सर्व्हर, डेटाबेस आणि अवलंबित्व एकत्र करते, ज्यामुळे तुम्ही काही मिनिटांत सुरुवात करू शकता.

आवश्यक गोष्टी स्थापित करा

Docker आणि Docker Compose (किंवा Docker Desktop)

शिफारस केलेले: आधुनिक CPU, पुरेशी RAM (व्हिडिओ-आधारित कार्यांसाठी 8-16GB+)

CVAT पुल आणि स्टार्ट करा

CVAT रिपॉजिटरी क्लोन करा आणि कंपोझ स्क्रिप्ट चालवा, किंवा थेट कंटेनर इमेज वापरा. अधिकृत डॉक्समध्ये अचूक कमांड आणि एन्व्हायरनमेंट व्हेरिएबल्स दिलेले आहेत. Docker Hub वर एक प्रकाशित सर्व्हर इमेज देखील आहे.

UI ॲक्सेस करा

कंटेनर चालू झाल्यावर, तुमचा ब्राउझर उघडा (सामान्यतः {http://localhost:8080}), ॲडमिन/युजर तयार करा आणि साइन इन करा.

टीप: माउंटेड व्हॉल्यूमवर डेटा स्टोअर केल्याने तुमचे टास्क, प्रोजेक्ट आणि ॲनोटेशन अपडेटमध्ये टिकून राहतील.

CVAT वर्कफ्लो एका दृष्टीक्षेपात

तीन स्तरांमध्ये विचार करा: प्रोजेक्ट → टास्क → जॉब.

प्रोजेक्ट: संबंधित कार्यांसाठी एक संग्रह (उदा. “रिटेल शेल्फ डिटेक्शन 2025”). जागतिक लेबल्स परिभाषित करते.

टास्क: एक सिंगल लेबलिंग युनिट (उदा. 1,000 इमेजचा एक बॅच किंवा 2-तासांचा व्हिडिओ).

जॉब: टास्कचा एक भाग (उदा. लांब व्हिडिओचे स्लाइस) ॲनोटेटर्सना नियुक्त केलेले.

ही रचना तुम्हाला मोठे डेटासेट व्यवस्थापित करण्यास, टीममधील सदस्यांना काम सोपविण्यास आणि लेबल व्याख्या सुसंगत ठेवण्यास मदत करते.

चरण 1: प्रोजेक्ट आणि लेबल्स तयार करा (स्कीमा डिझाइन)

डेटा अपलोड करण्यापूर्वी, तुमची ऑन्टोलॉजी परिभाषित करा—तुम्ही काय लेबल करत आहात आणि कसे.

क्लासेस: उदा. व्यक्ती, कार, हेल्मेट, तडा.

ॲट्रिब्युट्स: उदा. झाकलेले: होय/नाही, हवामान: सनी/पावसाळी, नुकसान_तीव्रता: 1–5.

कलर कोडिंग: दृश्य स्पष्टता सुधारते.

उत्तम उपाय:

क्लासची नावे लहान, सुसंगत आणि वर्णनात्मक ठेवा.

डेटासाठी ॲट्रिब्युट्स वापरा ज्याला रेखांकन आवश्यक नाही (उदा. “गर्दी आहे”).

ओव्हरलॅपिंग क्लासेस टाळा, जोपर्यंत हेतुपुरस्सर श्रेणीबद्ध नाही (उदा. वाहन > कार/बस/ट्रक).

तुम्ही प्रोजेक्ट स्तरावर लेबल्स परिभाषित करू शकता, जेणेकरून संबंधित सर्व टास्क ते वारसाने मिळवतील.

चरण 2: टास्क तयार करा आणि डेटा अपलोड करा

डॅशबोर्डवरून:

नवीन → टास्क → तुमच्या टास्कला नाव द्या.

प्रोजेक्ट सिलेक्ट करा (पर्यायी पण शिफारस केलेले).

डेटा अपलोड करा: इमेज ड्रॅग-ॲन्ड-ड्रॉप करा, निर्देशिका दर्शवा किंवा क्लाउड स्टोरेज लिंक्स (उदा. S3, Azure Blob) तुमच्या सेटअपनुसार द्या.

लेबल्स बरोबर असल्याची खात्री करा (वारसाने मिळालेली किंवा टास्क-विशिष्ट) आणि तयार करा दाबा.

लांब व्हिडिओसाठी, प्रत्येक जॉब व्यवस्थापित करण्यायोग्य आणि प्रतिसादात्मक ठेवण्यासाठी चंकिंगचा विचार करा किंवा स्वयंचलित जॉब स्प्लिटिंग सक्षम करा.

चरण 3: योग्य ॲनोटेशन मोड निवडा

CVAT अनेक ॲनोटेशन टूल्सना सपोर्ट करते:

बाउंडिंग बॉक्सेस: ऑब्जेक्ट डिटेक्शनसाठी सर्वात वेगवान.

पॉलीगॉन/पॉलीलाइन्स: उदाहरण/सिमेंटिक सेगमेंटेशन, रोड लेन, क्रॅकसाठी.

क्युबॉइड्स: 2D इमेजमध्ये 3D-इश परस्पेक्टिव्ह बॉक्सेससाठी.

पॉइंट्स: कीपॉइंट्स किंवा लँडमार्क (पोझेस, फेशियल लँडमार्क).

टॅग: इमेज-लेव्हल लेबल्स (उदा. “दिवसा”).

कीबोर्ड शॉर्टकटमुळे काम खूप लवकर होते:

N: पुढील आकार तयार करा

Z: झूम

V: टूल्स बदला

Ctrl/Cmd + S: सेव्ह करा

आकारांना बांधण्यासाठी (टूलनुसार) Shift/Alt दाबा.

टीप: लेबल लिस्ट लहान आणि केंद्रित ठेवा. खूप जास्त क्लासेसमुळे ॲनोटेटर्सचा वेग कमी होतो आणि त्रुटी वाढतात.

चरण 4: व्हिडिओ ॲनोटेशन—इंटरपोलेट आणि ट्रॅक

व्हिडिओसाठी, प्रत्येक फ्रेम ॲनोटेट करू नका. त्याऐवजी:

कीफ्रेमवर बॉक्स किंवा पॉलीगॉन तयार करा.

इंटरपोलेशन/ट्रॅकिंग सक्षम करा: CVAT आकार पुढे वाढवू शकते, नंतर तुम्ही आवश्यकतेनुसार नवीन कीफ्रेमवर दुरुस्त करू शकता.

जेव्हा ऑब्जेक्ट झाकतात किंवा पुन्हा दिसतात तेव्हा ट्रॅक स्प्लिट किंवा मर्ज करा.

सिक्वेन्स स्वच्छ ठेवण्यासाठी “बाहेर” किंवा “झाकलेले” अशी स्टेट्स मार्क करा.

हे वेळेची बचत करते आणि वेळेनुसार सुसंगतता राखते. व्हिडिओ लेबलिंगला गती देण्यासाठी रिसर्च आणि सामुदायिक सर्वोत्तम उपाय इंटरॅक्टिव्ह/सेल्फ-ॲनोटेशन सहाय्यक प्रणालीची शिफारस करतात.

चरण 5: ऑटो-ॲनोटेशन आणि असिस्टेड टूल्स वापरा

CVAT कामाला गती देण्यासाठी असिस्टेड लेबलिंगला सपोर्ट करते. तुमच्या डिप्लॉयमेंटनुसार, तुम्ही हे करू शकता:

बॉक्स/मास्क प्रस्तावित करण्यासाठी अंगभूत मॉडेल-असिस्टेड वैशिष्ट्ये वापरा.

फ्रेम्सना प्री-लेबल करण्यासाठी सर्व्हर-साइड मॉडेल चालवा, नंतर दुरुस्त करा.

गॅप्स भरण्यासाठी इंटरपोलेशन लागू करा.

लहान, उच्च-गुणवत्तेचा सीड सेट तयार करा, एक जलद मॉडेल प्रशिक्षित करा आणि उर्वरित डेटाला प्री-लेबल करण्यासाठी त्याचा वापर करा. वारंवार दुरुस्त करा आणि पुन्हा प्रशिक्षित करा.

टीप: हे तुमच्या वातावरणात तुम्ही कोणती मॉडेल सक्षम करता यावर अवलंबून असते. अधिकृत डॉक्स आणि सामुदायिक ट्यूटोरियल CVAT मध्ये मॉडेल कसे जोडावे आणि UI मध्ये ऑटो-ॲनोटेशन कसे सक्षम करावे हे दर्शवतात.

चरण 6: भूमिका आणि पुनरावलोकनांसह सहयोग करा

CVAT मल्टी-युजर आहे. सामान्य भूमिकांमध्ये हे समाविष्ट आहे:

ॲडमिन: सर्व्हर आणि युजर्स व्यवस्थापित करते

प्रोजेक्ट मॅनेजर: लेबल्स परिभाषित करते, टास्क/जॉब तयार करते, ॲनोटेटर्सना नियुक्त करते

ॲनोटेटर: लेबल्स तयार करते आणि संपादित करते

समीक्षक/QA: कामाची तपासणी करते, निराकरण करण्याची विनंती करते

स्पष्ट मार्गदर्शक तत्त्वे सेट करा: योग्य/अयोग्य ॲनोटेशनची उदाहरणे, ॲट्रिब्युट व्याख्या आणि विशिष्ट परिस्थिती (उदा. “लेबल्स रिफ्लेक्शन?”). गुणवत्ता सुधारण्यासाठी पुनरावलोकन साधने—टिप्पण्या, इश्यू फ्लॅग आणि स्टेटस बदल—वापरा.

चरण 7: गुणवत्ता नियंत्रण ज्यावर तुम्ही विश्वास ठेवू शकता

काही व्यावहारिक QC धोरणे:

गोल्ड टास्क: ॲनोटेटर्सना बेंचमार्क देण्यासाठी काही तज्ञांनी लेबल केलेल्या इमेज टाका.

ओव्हरलॅप: दोन ॲनोटेटर्सना समान जॉब नियुक्त करा; IoU आणि कराराची तुलना करा.

स्पॉट चेक: समीक्षक प्रत्येक जॉबच्या काही भागांचे ऑडिट करतात.

मेट्रीक्स: मार्गदर्शक तत्त्वे सुधारण्यासाठी मॉडेल प्रशिक्षणादरम्यान प्रति-क्लास गोंधळ नमुन्यांचा मागोवा घ्या.

एका वेळेच्या परिपूर्ण लेबल्सपेक्षा कालांतराने सुसंगतता अधिक महत्त्वाची आहे. घेतलेले निर्णय नोंदवा आणि जेव्हा तुम्हाला विशिष्ट परिस्थिती आढळतात तेव्हा लेबल मार्गदर्शिका अपडेट करा.

चरण 8: सेव्ह करा, व्हर्जन करा आणि एक्सपोर्ट करा

वारंवार सेव्ह करा (CVAT ऑटोसेव्ह देखील करते). जेव्हा तुम्ही तयार असाल:

एक्सपोर्ट फॉरमॅट: COCO, YOLO, Pascal VOC आणि बरेच काही. तुमच्या प्रशिक्षण कोडला अपेक्षित असलेला फॉरमॅट निवडा.

फ्रेम रेंज: विशिष्ट भाग किंवा संपूर्ण टास्क एक्सपोर्ट करा.

फिल्टर: आवश्यक असल्यास फक्त काही लेबल्स किंवा ॲट्रिब्युट्स एक्सपोर्ट करा.

अद्ययावत एक्सपोर्ट पर्याय आणि पॅरामीटर्ससाठी अधिकृत डॉक्युमेंटेशनचा संदर्भ घ्या. इंस्टॉलेशन आणि सर्व्हर इमेज तपशीलांसाठी, डॉक्स आणि Docker Hub पृष्ठे अधिकृत संदर्भ आहेत.

व्यावहारिक परिस्थिती आणि टिप्स

परिस्थिती 1: रिटेल शेल्फवर ऑब्जेक्ट डिटेक्शन

लेबल्स: उत्पादन, किंमत_टॅग, promotional_sign.

गतीसाठी बॉक्सेस वापरा; promo=yes/no सारखे ॲट्रिब्युट्स जोडा.

हलके प्रशिक्षण पाइपलाइनसाठी YOLO मध्ये एक्सपोर्ट करा.

परिस्थिती 2: रोड लेन सेगमेंटेशन

पॉलीलाइन्स किंवा पॉलीगॉन वापरा.

फ्रेममध्ये इंटरपोलेट करा; वळणावर दुरुस्त करा.

तुमच्या फ्रेमवर्कनुसार COCO पॅनोप्टिक/सेगमेंटेशनमध्ये एक्सपोर्ट करा.

परिस्थिती 3: सुरक्षा उपकरणे पालन

व्हिडिओमध्ये व्यक्ती, हेल्मेट, वेस्ट ट्रॅक करा.

ट्रॅकिंग + ॲट्रिब्युट्स वापरा (helmet=present/absent).

प्रवेश/निर्गमन बिंदूंवर काळजीपूर्वक निरीक्षण करा.

प्रो टिप्स:

UI प्रतिसादात्मक ठेवण्यासाठी काही हजार इमेजच्या खाली टास्क ठेवा किंवा लांब व्हिडिओ स्प्लिट करा.

कार्यक्षमता आणि स्पष्टता संतुलित करण्यासाठी इमेज आकार सामान्य करा किंवा व्हिडिओ कॉम्प्रेस करा.

डेटासेट व्हर्जन करा—स्पष्ट टॅगसह एक्सपोर्ट करा (उदा. v1.2.0) आणि अंतिम झाल्यावर टास्क लॉक करा.

सामान्य अडचणींचे निवारण

मोठ्या व्हिडिओवर UI हळू चालणे: लहान जॉबमध्ये विभाजित करा; पूर्वावलोकन रिझोल्यूशन आणि प्रीफेच आकार कमी करा.

ट्रॅकिंगमध्ये ॲनोटेशन बदलणे: वारंवार कीफ्रेम जोडा, विशेषत: वेगवान हालचाल किंवा झाकण्याच्या दरम्यान.

गोंधळात टाकणारे लेबल्स: ऑन्टोलॉजी रिफॅक्टर करा; ॲट्रिब्युट्समध्ये तपशील हलवा; दृश्य उदाहरणे द्या.

एक्सपोर्ट जुळत नाही: तुमच्या लक्ष्य प्रशिक्षण लायब्ररीची अपेक्षित फील्ड्स दोनदा तपासा (उदा. YOLO क्लास इंडेक्स मॅपिंग, COCO कॅटेगरी आयडी).

तुमच्या ML पाइपलाइनमध्ये एकत्रित करणे

प्रीप्रोसेसिंग: ॲनोटेशनला गती देण्यासाठी अपलोड करण्यापूर्वी इमेजचा आकार बदला/सामान्य करा.

ऑटोमेशन: जलद मॉडेलसह प्री-लेबल करा, CVAT मध्ये दुरुस्त करा, नंतर पुन्हा करा.

डेटासाठी CI: लेबल्सना कोडसारखे वागवा—व्हर्जन केलेले एक्सपोर्ट, चेकसम आणि बदल नोंदी.

स्टोरेज: मोठ्या व्हिडिओ डेटासेटसाठी क्लाउड बकेट आणि लाइफसायकल धोरणे वापरा.

लक्षात घेण्यासारखे: जर तुम्ही मार्गदर्शक तत्त्वे दस्तऐवजीकरण करण्यासाठी, लेबल वर्गीकरण तयार करण्यासाठी किंवा समीक्षकांच्या प्रतिक्रियेचा सारांश देण्यासाठी AI सहाय्यकांचा वापर करत असाल, तर Sider.AI सारखे टूल तुम्हाला स्पष्ट सूचना आणि सुसंगत पुनरावलोकन चेकलिस्ट तयार करण्यात मदत करू शकते. तुम्ही निर्णय कॅप्चर करू शकता, उदाहरणे तयार करू शकता आणि तुमच्या टीमसाठी सामायिक करण्यायोग्य प्लेबुकमध्ये रूपांतरित करू शकता. अधिक माहितीसाठी Sider.AI पहा.

30-मिनिटांची स्टार्टर योजना

5 मिनिटे: CVAT स्थानिक पातळीवर स्थापित करा आणि सुरू करा.

5 मिनिटे: 3-5 लेबल्स आणि 2 ॲट्रिब्युट्ससह एक प्रोजेक्ट तयार करा.

5 मिनिटे: 100 इमेजसह एक टास्क तयार करा.

10 मिनिटे: बॉक्सेस वापरून 20 इमेज ॲनोटेट करा; शॉर्टकट शिका.

5 मिनिटे: YOLO मध्ये एक्सपोर्ट करा आणि एक जलद प्रशिक्षण पास चालवा.

अखेरीस, तुमच्याकडे कच्च्या इमेजपासून प्रशिक्षित करण्यायोग्य डेटासेटपर्यंत एक पूर्ण लूप असेल.

अधिक माहिती कोठे मिळेल

CVAT टीमकडून मूलभूत माहिती आणि ट्यूटोरियल.

स्थापना आणि कॉन्फिगरेशन तपशील.

सर्व्हर इमेज आणि कंटेनर संदर्भ.

जलद वर्कफ्लोसाठी व्हिडिओसाठी इंटरॅक्टिव्ह/सेल्फ-ॲनोटेशनवरील संशोधन.

महत्वाचे मुद्दे

प्रथम तुमचे लेबल्स परिभाषित करा—स्कीमा डिझाइनमुळे पुढील त्रास टाळता येतो.

व्हिडिओसाठी इंटरपोलेशन आणि ट्रॅकिंग वापरा; स्मार्टपणे कीफ्रेम करा.

ऑटो-ॲनोटेशन कामाला गती देते; मानवी पुनरावलोकन गुणवत्तेची खात्री करते.

तुमच्या प्रशिक्षण कोडला अपेक्षित असलेल्या फॉरमॅटमध्ये एक्सपोर्ट करा; प्रत्येक गोष्टीचे व्हर्जनिंग करा.

लहान सुरुवात करा, जलद रीतीने पुन्हा करा आणि स्पष्ट मार्गदर्शक तत्त्वांसह स्केल करा.

FAQ

प्रश्न 1: CVAT काय आहे आणि मी ते इमेज ॲनोटेशनसाठी कसे वापरू शकतो? CVAT हे इमेज आणि व्हिडिओसाठी ब्राउझर-आधारित लेबलिंग प्लॅटफॉर्म आहे. एक प्रोजेक्ट तयार करा, लेबल्स परिभाषित करा, डेटा एक टास्क म्हणून अपलोड करा, बॉक्सेस किंवा पॉलीगॉनसह ॲनोटेट करा आणि COCO किंवा YOLO सारख्या फॉरमॅटमध्ये एक्सपोर्ट करा.

प्रश्न 2: मी CVAT लवकर कसे स्थापित करू? सर्वात सोपा मार्ग म्हणजे Docker वापरणे. सर्व्हर स्थानिक पातळीवर सुरू करण्यासाठी अधिकृत इंस्टॉलेशन स्टेप्स फॉलो करा, नंतर सेटअप आणि युजर तयार करण्यासाठी तुमच्या ब्राउझरमध्ये वेब UI ॲक्सेस करा.

प्रश्न 3: CVAT व्हिडिओमध्ये ऑटो-ॲनोटेट किंवा ट्रॅकिंगमध्ये मदत करू शकते का? होय, CVAT फ्रेम्समध्ये ॲनोटेशन प्रसारित करण्यासाठी इंटरपोलेशन आणि ट्रॅकिंगला सपोर्ट करते आणि ऑब्जेक्ट्सना प्री-लेबल करण्यासाठी आणि पुनरावलोकनाला गती देण्यासाठी मॉडेल-असिस्टेड लेबलिंग समाकलित करू शकते.

प्रश्न 4: CVAT कोणते एक्सपोर्ट फॉरमॅट सपोर्ट करते? सामान्य एक्सपोर्टमध्ये COCO, YOLO आणि Pascal VOC समाविष्ट आहेत. तुमच्या प्रशिक्षण फ्रेमवर्कच्या अपेक्षित स्कीमा आणि क्लास इंडेक्स मॅपिंगशी जुळणारा फॉरमॅट निवडा.

प्रश्न 5: मी CVAT मध्ये टीम आणि गुणवत्ता नियंत्रण कसे व्यवस्थापित करू? सामायिक लेबल्ससह प्रोजेक्ट तयार करा, टास्कला जॉबमध्ये विभाजित करा, भूमिका (ॲनोटेटर्स, समीक्षक) नियुक्त करा आणि सुसंगत गुणवत्तेची खात्री करण्यासाठी पुनरावलोकने, टिप्पण्या, गोल्ड टास्क आणि ओव्हरलॅप तपासणी वापरा.