Πώς να χρησιμοποιήσετε το CVAT: Ένας φιλικός, βήμα προς βήμα οδηγός για γρήγορες, ακριβείς επισημειώσεις
Εάν έχετε προσπαθήσει ποτέ να εκπαιδεύσετε ένα μοντέλο όρασης υπολογιστή, πιθανότατα έχετε χτυπήσει τον ίδιο τοίχο που χτυπούν όλοι: τα δεδομένα χρειάζονται εξαιρετικές ετικέτες. Το CVAT (Computer Vision Annotation Tool) είναι μια από τις πιο δημοφιλείς πλατφόρμες για τη δημιουργία εικόνων και επισημειώσεων βίντεο υψηλής ποιότητας—ανοιχτό, ισχυρό και κατασκευασμένο για να κλιμακώνεται από παράπλευρα έργα έως παραγωγικές διοχετεύσεις. Αυτός ο οδηγός «πώς να» σας καθοδηγεί στην εγκατάσταση, τη ρύθμιση, τις ροές εργασιών επισήμανσης, βοηθούς αυτοματισμού, ποιοτικό έλεγχο και εξαγωγές—έτσι ώστε να μπορείτε να μεταβείτε από το μηδέν σε καθαρά σύνολα δεδομένων χωρίς το χάος.
Θα το κρατήσουμε πρακτικό και άμεσο, με παραδείγματα, συντομεύσεις και παγίδες που πρέπει να αποφύγετε.
Τι είναι το CVAT και γιατί να το χρησιμοποιήσετε;
Το CVAT είναι ένα εργαλείο που βασίζεται στον ιστό για την επισήμανση εικόνων και βίντεο. Υποστηρίζει ανίχνευση αντικειμένων, τμηματοποίηση, ταξινόμηση και παρακολούθηση. Μπορείτε να το εκτελέσετε τοπικά ή σε έναν διακομιστή, να προσκαλέσετε συμπαίκτες, να διαχειριστείτε έργα/εργασίες και να εξαγάγετε ετικέτες σε κοινές μορφές (όπως COCO, YOLO, VOC). Εάν χρειάζεστε επαναλαμβανόμενη, συνεργατική και ακριβή επισήμανση—το CVAT παραδίδει.
- Βασισμένο σε πρόγραμμα περιήγησης, λειτουργεί σε ομάδες
- Χειρίζεται εικόνες και μεγάλα βίντεο με παρεμβολή/παρακολούθηση
- Ευέλικτο σχήμα ετικετών και χαρακτηριστικών
- Πολλαπλές μορφές εξαγωγής για δημοφιλή πλαίσια εκπαίδευσης
Για έναν επίσημο προσανατολισμό, το «Ξεκινώντας» της ομάδας CVAT είναι ένα χρήσιμο αστάρι.
Γρήγορη εγκατάσταση: Ο ταχύτερος τρόπος για να εκτελέσετε το CVAT
Η τυπική διαδρομή εγκατάστασης του CVAT χρησιμοποιεί το Docker. Συμπεριλαμβάνει τον διακομιστή, τη βάση δεδομένων και τις εξαρτήσεις, ώστε να μπορείτε να ξεκινήσετε σε λίγα λεπτά.
- Εγκαταστήστε τις προϋποθέσεις
- Docker και Docker Compose (ή Docker Desktop)
- Συνιστάται: σύγχρονος CPU, αρκετή μνήμη RAM (8–16 GB+ για εργασίες με μεγάλο όγκο βίντεο)
- Τραβήξτε και ξεκινήστε το CVAT
- Κλωνοποιήστε το αποθετήριο CVAT και εκτελέστε το σενάριο σύνθεσης ή χρησιμοποιήστε απευθείας εικόνες κοντέινερ. Τα επίσημα έγγραφα παρέχουν ακριβείς εντολές και μεταβλητές περιβάλλοντος. Υπάρχει επίσης μια δημοσιευμένη εικόνα διακομιστή στο Docker Hub.
- Μόλις εκτελούνται τα κοντέινερ, ανοίξτε το πρόγραμμα περιήγησής σας (συνήθως ), δημιουργήστε έναν διαχειριστή/χρήστη και συνδεθείτε.
Συμβουλή: Η αποθήκευση δεδομένων σε τοποθετημένους τόμους διασφαλίζει ότι οι εργασίες, τα έργα και οι επισημειώσεις σας διατηρούνται σε όλες τις ενημερώσεις.
Η ροή εργασιών CVAT με μια ματιά
Σκεφτείτε σε τρία επίπεδα: Έργο → Εργασία → Εργασία.
- Έργο: Μια συλλογή για σχετικές εργασίες (π.χ., «Ανίχνευση Ραφιών Λιανικής 2025»). Καθορίζει καθολικές ετικέτες.
- Εργασία: Μια ενιαία μονάδα επισήμανσης (π.χ., μία παρτίδα 1.000 εικόνων ή ένα βίντεο 2 ωρών).
- Εργασία: Μια διάσπαση μιας εργασίας (π.χ., φέτες ενός μεγάλου βίντεο) που έχει ανατεθεί σε σχολιαστές.
Αυτή η δομή σάς επιτρέπει να διαχειρίζεστε μεγάλα σύνολα δεδομένων, να αναθέτετε εργασίες σε συμπαίκτες και να διατηρείτε τις ορισμούς ετικετών συνεπείς.
Βήμα 1: Δημιουργήστε ένα έργο και ετικέτες (σχεδιασμός σχήματος)
Πριν ανεβάσετε δεδομένα, ορίστε την οντολογία σας—τι επισημαίνετε και πώς.
- Κατηγορίες: π.χ.,
person, car, helmet, crack.
- Χαρακτηριστικά: π.χ.,
occluded: yes/no, weather: sunny/rainy, damage_severity: 1–5.
- Κωδικοποίηση χρωμάτων: βελτιώνει την οπτική σαφήνεια.
Βέλτιστες πρακτικές:
- Διατηρήστε τα ονόματα κατηγοριών σύντομα, συνεπή και περιγραφικά.
- Χρησιμοποιήστε χαρακτηριστικά για μεταδεδομένα που δεν απαιτούν σχέδιο (π.χ., «is_crowd»).
- Αποφύγετε τις αλληλεπικαλυπτόμενες κατηγορίες, εκτός εάν είναι σκόπιμα ιεραρχικές (π.χ.,
vehicle > car/bus/truck).
Μπορείτε να ορίσετε ετικέτες σε επίπεδο έργου, έτσι ώστε όλες οι σχετικές εργασίες να τις κληρονομούν.
Βήμα 2: Δημιουργήστε μια εργασία και ανεβάστε δεδομένα
Από τον πίνακα ελέγχου:
- Νέο → Εργασία → Ονομάστε την εργασία σας.
- Επιλέξτε έργο (προαιρετικό αλλά συνιστάται).
- Ανεβάστε δεδομένα: μεταφέρετε και αποθέστε εικόνες, υποδείξτε έναν κατάλογο ή δώστε συνδέσμους αποθήκευσης στο cloud (π.χ., S3, Azure Blob) ανάλογα με τη ρύθμισή σας.
- Επιβεβαιώστε ότι οι ετικέτες είναι σωστές (κληρονομημένες ή συγκεκριμένες για την εργασία) και πατήστε Δημιουργία.
Για μεγάλα βίντεο, σκεφτείτε να κάνετε chunking ή να ενεργοποιήσετε τον αυτόματο διαχωρισμό εργασιών για να διατηρήσετε κάθε εργασία διαχειρίσιμη και ανταποκρινόμενη για τους σχολιαστές.
Βήμα 3: Επιλέξτε τη σωστή λειτουργία επισήμανσης
Το CVAT υποστηρίζει πολλαπλά εργαλεία επισήμανσης:
- Πλαίσια οριοθέτησης: ταχύτερα για ανίχνευση αντικειμένων.
- Πολύγωνα/Πολυγραμμές: για τμηματοποίηση στιγμιοτύπων/σημασιολογική, λωρίδες δρόμων, ρωγμές.
- Κυβοειδή: για τρισδιάστατα κουτιά προοπτικής σε δισδιάστατες εικόνες.
- Σημεία: βασικά σημεία ή ορόσημα (πόζες, σημεία προσώπου).
- Ετικέτες: ετικέτες επιπέδου εικόνας (π.χ., «daytime»).
Οι συντομεύσεις πληκτρολογίου επιταχύνουν τα πράγματα δραματικά:
- N: δημιουργία επόμενου σχήματος
- Κρατήστε πατημένο το Shift/Alt για περιορισμένα σχήματα (ανάλογα με το εργαλείο) και κούμπωμα.
Συμβουλή: Διατηρήστε τη λίστα ετικετών μικρή και εστιασμένη. Πάρα πολλές κατηγορίες επιβραδύνουν τους σχολιαστές και αυξάνουν τα ποσοστά σφαλμάτων.
Βήμα 4: Επισήμανση βίντεο—Παρεμβολή και παρακολούθηση
Για βίντεο, μην επισημάνετε κάθε μεμονωμένο καρέ. Αντί αυτού:
- Δημιουργήστε ένα πλαίσιο ή πολύγωνο σε ένα καρέ κλειδί.
- Ενεργοποιήστε την παρεμβολή/παρακολούθηση: Το CVAT μπορεί να διαδώσει σχήματα προς τα εμπρός και, στη συνέχεια, να διορθώσετε όπως χρειάζεται σε νέα καρέ κλειδιά.
- Διαχωρίστε ή συγχωνεύστε κομμάτια όταν τα αντικείμενα αποκρύπτονται ή επανεμφανίζονται.
- Σημειώστε καταστάσεις όπως «έξω» ή «αποκρυμμένο» για να διατηρήσετε τις ακολουθίες καθαρές.
Αυτό μειώνει δραστικά το χρόνο διατηρώντας παράλληλα τη χρονική συνέπεια. Η έρευνα και οι βέλτιστες πρακτικές της κοινότητας συνιστούν επίσης διαδραστική/αυτόματη βοήθεια επισήμανσης για την επιτάχυνση της επισήμανσης βίντεο.
Βήμα 5: Χρησιμοποιήστε εργαλεία αυτόματης επισήμανσης και υποβοήθησης
Το CVAT υποστηρίζει υποβοηθούμενη επισήμανση για να επιταχύνει την εργασία. Ανάλογα με την ανάπτυξή σας, μπορείτε:
- Χρησιμοποιήστε ενσωματωμένες λειτουργίες υποβοηθούμενης από μοντέλο για να προτείνετε πλαίσια/μάσκες.
- Εκτελέστε μοντέλα από την πλευρά του διακομιστή για να επισημάνετε εκ των προτέρων καρέ και, στη συνέχεια, διορθώστε.
- Εφαρμόστε παρεμβολή για να γεμίσετε κενά.
Ξεκινήστε με ένα μικρό, υψηλής ποιότητας σύνολο σπόρων, εκπαιδεύστε ένα γρήγορο μοντέλο και χρησιμοποιήστε το για να επισημάνετε εκ των προτέρων τα υπόλοιπα δεδομένα. Διορθώστε και επανεκπαιδεύστε επαναληπτικά.
Σημείωση: Οι λεπτομέρειες εξαρτώνται από τα μοντέλα που ενεργοποιείτε στο περιβάλλον σας. Τα επίσημα έγγραφα και τα κοινοτικά σεμινάρια δείχνουν πώς να συνδέσετε μοντέλα στο CVAT και να ενεργοποιήσετε την αυτόματη επισήμανση στο UI.
Βήμα 6: Συνεργαστείτε με ρόλους και κριτικές
Το CVAT είναι πολλαπλών χρηστών. Οι τυπικοί ρόλοι περιλαμβάνουν:
- Διαχειριστής: διαχειρίζεται τον διακομιστή και τους χρήστες
- Διαχειριστής έργου: ορίζει ετικέτες, δημιουργεί εργασίες/εργασίες, αναθέτει σχολιαστές
- Σχολιαστής: δημιουργεί και επεξεργάζεται ετικέτες
- Ελεγκτής/QA: ελέγχει την εργασία, ζητά διορθώσεις
Ορίστε σαφείς οδηγίες: παραδείγματα σωστών/λανθασμένων επισημειώσεων, ορισμούς χαρακτηριστικών και ακραίες περιπτώσεις (π.χ., «ετικέτες αντανακλάσεων;»). Χρησιμοποιήστε τα εργαλεία ελέγχου—σχόλια, σημαίες προβλημάτων και αλλαγές κατάστασης—για να αυξήσετε την ποιότητα.
Βήμα 7: Ποιοτικός έλεγχος που μπορείτε να εμπιστευτείτε
Μερικές πρακτικές στρατηγικές QC:
- Χρυσές εργασίες: εισαγάγετε μερικές επιδέξια επισημασμένες εικόνες για να συγκρίνετε τους σχολιαστές.
- Επικάλυψη: αναθέστε την ίδια εργασία σε δύο σχολιαστές. συγκρίνετε IoU και συμφωνία.
- Έλεγχοι σημείων: οι ελεγκτές ελέγχουν ένα ποσοστό κάθε εργασίας.
- Μετρήσεις: παρακολουθήστε μοτίβα σύγχυσης ανά κατηγορία κατά τη διάρκεια της εκπαίδευσης μοντέλου για να βελτιώσετε τις οδηγίες.
Η συνέπεια με την πάροδο του χρόνου έχει μεγαλύτερη σημασία από τις εφάπαξ τέλειες ετικέτες. Τεκμηριώστε τις αποφάσεις και ενημερώστε τον οδηγό ετικετών καθώς ανακαλύπτετε ακραίες περιπτώσεις.
Βήμα 8: Αποθήκευση, έκδοση και εξαγωγή
Αποθηκεύστε συχνά (το CVAT αποθηκεύει επίσης αυτόματα). Όταν είστε έτοιμοι:
- Μορφές εξαγωγής: COCO, YOLO, Pascal VOC και άλλα. Επιλέξτε τη μορφή που αναμένει ο κώδικας εκπαίδευσής σας.
- Εύρη καρέ: εξαγάγετε συγκεκριμένα τμήματα ή ολόκληρη την εργασία.
- Φίλτρα: εξαγάγετε μόνο ορισμένες ετικέτες ή χαρακτηριστικά εάν είναι απαραίτητο.
Ανατρέξτε στην επίσημη τεκμηρίωση για ενημερωμένες επιλογές και παραμέτρους εξαγωγής. Για λεπτομέρειες εγκατάστασης και εικόνας διακομιστή, τα έγγραφα και οι σελίδες Docker Hub είναι έγκυρες αναφορές.
Πρακτικά σενάρια και συμβουλές
Σενάριο 1: Ανίχνευση αντικειμένων σε ράφια λιανικής
- Ετικέτες:
product, price_tag, promotional_sign.
- Χρησιμοποιήστε πλαίσια για ταχύτητα. προσθέστε χαρακτηριστικά όπως
promo=yes/no.
- Εξαγωγή σε YOLO για μια ελαφριά διοχέτευση εκπαίδευσης.
Σενάριο 2: Τμηματοποίηση λωρίδας δρόμου
- Χρησιμοποιήστε πολυγραμμές ή πολύγωνα.
- Παρεμβολή σε καρέ. διορθώστε στις στροφές.
- Εξαγωγή σε COCO πανοπτικό/τμηματοποίηση ανάλογα με το πλαίσιο σας.
Σενάριο 3: Συμμόρφωση με τον εξοπλισμό ασφαλείας
- Παρακολούθηση
person, helmet, vest σε όλο το βίντεο.
- Χρησιμοποιήστε παρακολούθηση + χαρακτηριστικά (
helmet=present/absent).
- Ελέγξτε προσεκτικά τις αποφράξεις στα σημεία εισόδου/εξόδου.
Επαγγελματικές συμβουλές:
- Διατηρήστε τις εργασίες κάτω από μερικές χιλιάδες εικόνες ή χωρίστε μεγάλα βίντεο για να διατηρήσετε το UI ανταποκρινόμενο.
- Κανονικοποιήστε τα μεγέθη εικόνων ή συμπιέστε βίντεο για να εξισορροπήσετε την απόδοση και τη σαφήνεια.
- Έκδοση συνόλων δεδομένων—εξαγωγή με μια σαφή ετικέτα (π.χ.,
v1.2.0) και κλείδωμα εργασιών μόλις οριστικοποιηθούν.
Αντιμετώπιση κοινών προβλημάτων
- Laggy UI σε μεγάλα βίντεο: χωρίστε σε μικρότερες εργασίες. μειώστε την ανάλυση προεπισκόπησης και το μέγεθος προεπιλογής.
- Μετατόπιση επισήμανσης στην παρακολούθηση: προσθέστε πιο συχνά καρέ κλειδιά, ειδικά κατά τη διάρκεια γρήγορης κίνησης ή αποφράξεων.
- Συγκεχυμένες ετικέτες: αναδιαμορφώστε την οντολογία. μετακινήστε συγκεκριμένα στοιχεία σε χαρακτηριστικά. δώστε οπτικά παραδείγματα.
- Αντιστοιχία εξαγωγής: ελέγξτε διπλά τα αναμενόμενα πεδία της βιβλιοθήκης εκπαίδευσης προορισμού σας (π.χ., αντιστοίχιση ευρετηρίου κατηγορίας YOLO, αναγνωριστικά κατηγορίας COCO).
Ενσωμάτωση στη διοχέτευση ML σας
- Προεπεξεργασία: Αλλάξτε το μέγεθος/κανονικοποιήστε τις εικόνες πριν τις ανεβάσετε για να επιταχύνετε την επισήμανση.
- Αυτοματοποίηση: Επισημάνετε εκ των προτέρων με ένα γρήγορο μοντέλο, διορθώστε στο CVAT και, στη συνέχεια, επαναλάβετε.
- CI για δεδομένα: Αντιμετωπίστε τις ετικέτες σαν κώδικα—εκδόσεις εξαγωγές, αθροίσματα ελέγχου και αρχεία καταγραφής αλλαγών.
- Αποθήκευση: Χρησιμοποιήστε κάδους cloud και πολιτικές κύκλου ζωής για μεγάλα σύνολα δεδομένων βίντεο.
Αξίζει να σημειωθεί: Εάν χρησιμοποιείτε βοηθούς AI για να τεκμηριώσετε οδηγίες, να δημιουργήσετε ταξινομίες ετικετών ή να συνοψίσετε σχόλια ελεγκτών, ένα εργαλείο όπως το Sider.AI μπορεί να σας βοηθήσει να δημιουργήσετε σαφείς οδηγίες και συνεπείς λίστες ελέγχου ελέγχου. Μπορείτε να καταγράψετε αποφάσεις, να δημιουργήσετε παραδείγματα και να τα μετατρέψετε σε κοινόχρηστα εγχειρίδια για την ομάδα σας. Δείτε το Sider.AI για περισσότερα. Ένα σχέδιο εκκίνησης 30 λεπτών
- 5 λεπτά: Εγκαταστήστε και εκκινήστε το CVAT τοπικά.
- 5 λεπτά: Δημιουργήστε ένα έργο με 3–5 ετικέτες και 2 χαρακτηριστικά.
- 5 λεπτά: Δημιουργήστε μια εργασία με 100 εικόνες.
- 10 λεπτά: Επισημάνετε 20 εικόνες χρησιμοποιώντας πλαίσια. μάθετε συντομεύσεις.
- 5 λεπτά: Εξαγωγή σε YOLO και εκτέλεση ενός γρήγορου περάσματος εκπαίδευσης.
Στο τέλος, θα έχετε έναν πλήρη βρόχο από ακατέργαστες εικόνες σε ένα εκπαιδεύσιμο σύνολο δεδομένων.
Πού να μάθετε περισσότερα
- Βασικές πληροφορίες και σεμινάρια CVAT από την ομάδα.
- Λεπτομέρειες εγκατάστασης και διαμόρφωσης.
- Εικόνα διακομιστή και αναφορές κοντέινερ.
- Έρευνα σχετικά με τη διαδραστική/αυτόματη επισήμανση για βίντεο για να εμπνεύσετε ταχύτερες ροές εργασιών.
Βασικά συμπεράσματα
- Ορίστε πρώτα τις ετικέτες σας—ο σχεδιασμός σχήματος αποτρέπει τον πόνο κατάντη.
- Χρησιμοποιήστε παρεμβολή και παρακολούθηση για βίντεο. βασικό καρέ έξυπνα.
- Η αυτόματη επισήμανση επιταχύνει την εργασία. ο ανθρώπινος έλεγχος εξασφαλίζει την ποιότητα.
- Εξαγωγή στη μορφή που αναμένει ο κώδικας εκπαίδευσής σας. έκδοση τα πάντα.
- Ξεκινήστε μικρά, επαναλάβετε γρήγορα και κλιμακώστε με σαφείς οδηγίες.
Συχνές ερωτήσεις
Ε1: Τι είναι το CVAT και πώς το χρησιμοποιώ για την επισήμανση εικόνων;\nΤο CVAT είναι μια πλατφόρμα επισήμανσης που βασίζεται σε πρόγραμμα περιήγησης για εικόνες και βίντεο. Δημιουργήστε ένα έργο, ορίστε ετικέτες, ανεβάστε δεδομένα ως εργασία, επισημάνετε με πλαίσια ή πολύγωνα και εξαγάγετε σε μορφές όπως COCO ή YOLO.
Ε2: Πώς μπορώ να εγκαταστήσω γρήγορα το CVAT;\nΗ ευκολότερη διαδρομή είναι η χρήση του Docker. Ακολουθήστε τα επίσημα βήματα εγκατάστασης για να ξεκινήσετε τον διακομιστή τοπικά και, στη συνέχεια, αποκτήστε πρόσβαση στο web UI στο πρόγραμμα περιήγησής σας για ρύθμιση και δημιουργία χρήστη.
Ε3: Μπορεί το CVAT να επισημάνει αυτόματα ή να βοηθήσει στην παρακολούθηση σε βίντεο;\nΝαι, το CVAT υποστηρίζει παρεμβολή και παρακολούθηση για τη διάδοση επισημειώσεων σε καρέ και μπορεί να ενσωματώσει επισήμανση υποβοηθούμενη από μοντέλο για να επισημάνει εκ των προτέρων αντικείμενα και να επιταχύνει τον έλεγχο.
Ε4: Ποιες μορφές εξαγωγής υποστηρίζει το CVAT;\nΟι κοινές εξαγωγές περιλαμβάνουν COCO, YOLO και Pascal VOC. Επιλέξτε τη μορφή που ταιριάζει με το αναμενόμενο σχήμα και την αντιστοίχιση ευρετηρίου κατηγορίας του πλαισίου εκπαίδευσής σας.
Ε5: Πώς μπορώ να διαχειριστώ ομάδες και ποιοτικό έλεγχο στο CVAT;\nΔημιουργήστε έργα με κοινόχρηστες ετικέτες, χωρίστε εργασίες σε εργασίες, αναθέστε ρόλους (σχολιαστές, ελεγκτές) και χρησιμοποιήστε κριτικές, σχόλια, χρυσές εργασίες και ελέγχους επικάλυψης για να διασφαλίσετε σταθερή ποιότητα.