What is CVAT and how do I use it for image annotation?

CVAT is a browser-based labeling platform for images and videos. Create a project, define labels, upload data as a task, annotate with boxes or polygons, and export in formats like COCO or YOLO.

How do I install CVAT quickly?

The easiest path is using Docker. Follow the official installation steps to start the server locally, then access the web UI in your browser for setup and user creation.

Can CVAT auto-annotate or help with tracking in videos?

Yes, CVAT supports interpolation and tracking to propagate annotations across frames, and can integrate model-assisted labeling to pre-label objects and speed up review.

Which export formats does CVAT support?

Common exports include COCO, YOLO, and Pascal VOC. Choose the format that matches your training framework’s expected schema and class index mapping.

How do I manage teams and quality control in CVAT?

Create projects with shared labels, split tasks into jobs, assign roles (annotators, reviewers), and use reviews, comments, gold tasks, and overlap checks to ensure consistent quality.

Hướng dẫn sử dụng CVAT: Hướng dẫn từng bước thân thiện để chú thích nhanh chóng và chính xác

Nếu bạn đã từng thử huấn luyện một mô hình thị giác máy tính, bạn có thể đã gặp phải vấn đề tương tự mà mọi người đều gặp: dữ liệu cần nhãn chất lượng cao. CVAT (Computer Vision Annotation Tool) là một trong những nền tảng phổ biến nhất để tạo các chú thích hình ảnh và video chất lượng cao—mở, mạnh mẽ và được xây dựng để mở rộng quy mô từ các dự án phụ đến quy trình sản xuất. Hướng dẫn này sẽ hướng dẫn bạn cài đặt, thiết lập, quy trình gắn nhãn, trình trợ giúp tự động hóa, kiểm soát chất lượng và xuất—để bạn có thể chuyển từ con số không thành các tập dữ liệu sạch mà không gặp rắc rối.

Chúng tôi sẽ giữ cho nó thiết thực và trực tiếp, với các ví dụ, phím tắt và cạm bẫy cần tránh.

CVAT là gì và tại sao nên sử dụng nó?

CVAT là một công cụ dựa trên web để chú thích hình ảnh và video. Nó hỗ trợ phát hiện đối tượng, phân đoạn, phân loại và theo dõi. Bạn có thể chạy nó cục bộ hoặc trên máy chủ, mời đồng đội, quản lý dự án/tác vụ và xuất nhãn sang các định dạng phổ biến (như COCO, YOLO, VOC). Nếu bạn cần gắn nhãn có thể lặp lại, hợp tác và chính xác—CVAT sẽ đáp ứng.

Dựa trên trình duyệt, hoạt động trên các nhóm

Xử lý hình ảnh và video dài với nội suy/theo dõi

Lược đồ và thuộc tính nhãn linh hoạt

Nhiều định dạng xuất cho các framework huấn luyện phổ biến

Để có định hướng chính thức, phần “Bắt đầu” của nhóm CVAT là một tài liệu giới thiệu hữu ích.

Thiết lập nhanh: Cách nhanh nhất để chạy CVAT

Đường dẫn cài đặt điển hình của CVAT sử dụng Docker. Nó gói máy chủ, cơ sở dữ liệu và các phụ thuộc để bạn có thể bắt đầu trong vài phút.

Cài đặt các điều kiện tiên quyết

Docker và Docker Compose (hoặc Docker Desktop)

Khuyến nghị: CPU hiện đại, đủ RAM (8–16GB+ cho các tác vụ nặng về video)

Kéo và khởi động CVAT

Sao chép kho lưu trữ CVAT và chạy tập lệnh soạn thảo hoặc sử dụng trực tiếp hình ảnh vùng chứa. Các tài liệu chính thức cung cấp các lệnh và biến môi trường chính xác. Ngoài ra còn có một hình ảnh máy chủ được xuất bản trên Docker Hub.

Truy cập UI

Sau khi các vùng chứa đang chạy, hãy mở trình duyệt của bạn (thường là {http://localhost:8080}), tạo quản trị viên/người dùng và đăng nhập.

Mẹo: Lưu trữ dữ liệu trên các ổ đĩa được gắn đảm bảo các tác vụ, dự án và chú thích của bạn tồn tại sau các bản cập nhật.

Quy trình làm việc của CVAT trong nháy mắt

Hãy nghĩ theo ba lớp: Dự án → Tác vụ → Công việc.

Dự án: Một tập hợp cho các tác vụ liên quan (ví dụ: “Phát hiện kệ bán lẻ 2025”). Xác định nhãn chung.

Tác vụ: Một đơn vị gắn nhãn duy nhất (ví dụ: một lô 1.000 hình ảnh hoặc video dài 2 giờ).

Công việc: Một phần của tác vụ (ví dụ: các lát cắt của một video dài) được chỉ định cho người chú thích.

Cấu trúc này cho phép bạn quản lý các tập dữ liệu lớn, giao việc cho đồng đội và giữ cho các định nghĩa nhãn nhất quán.

Bước 1: Tạo dự án và nhãn (Thiết kế lược đồ)

Trước khi tải dữ liệu lên, hãy xác định hệ thống phân loại của bạn—những gì bạn đang gắn nhãn và cách thức.

Lớp: ví dụ: người, xe hơi, mũ bảo hiểm, vết nứt.

Thuộc tính: ví dụ: bị che khuất: có/không, thời tiết: nắng/mưa, mức độ nghiêm trọng của hư hỏng: 1–5.

Mã hóa màu: cải thiện độ rõ nét trực quan.

Thực hành tốt nhất:

Giữ tên lớp ngắn gọn, nhất quán và mô tả.

Sử dụng các thuộc tính cho siêu dữ liệu không yêu cầu vẽ (ví dụ: “is_crowd”).

Tránh các lớp chồng chéo trừ khi có chủ ý phân cấp (ví dụ: phương tiện > xe hơi/xe buýt/xe tải).

Bạn có thể xác định nhãn ở cấp Dự án để tất cả các Tác vụ liên quan kế thừa chúng.

Bước 2: Tạo tác vụ và tải dữ liệu lên

Từ bảng điều khiển:

Mới → Tác vụ → Đặt tên cho tác vụ của bạn.

Chọn dự án (tùy chọn nhưng được khuyến nghị).

Tải dữ liệu lên: kéo và thả hình ảnh, trỏ đến một thư mục hoặc cung cấp các liên kết lưu trữ đám mây (ví dụ: S3, Azure Blob) tùy thuộc vào thiết lập của bạn.

Xác nhận nhãn chính xác (được kế thừa hoặc dành riêng cho tác vụ) và nhấn Tạo.

Đối với các video dài, hãy cân nhắc việc chia nhỏ hoặc bật tính năng tự động chia công việc để giữ cho mỗi công việc dễ quản lý và đáp ứng cho người chú thích.

Bước 3: Chọn chế độ chú thích phù hợp

CVAT hỗ trợ nhiều công cụ chú thích:

Hộp giới hạn: nhanh nhất để phát hiện đối tượng.

Đa giác/Đường đa giác: để phân đoạn thể hiện/ngữ nghĩa, làn đường, vết nứt.

Hình hộp: cho các hộp phối cảnh 3D trong hình ảnh 2D.

Điểm: các điểm chính hoặc điểm đánh dấu (tư thế, điểm đánh dấu trên khuôn mặt).

Thẻ: nhãn cấp hình ảnh (ví dụ: “ban ngày”).

Phím tắt giúp tăng tốc mọi thứ đáng kể:

N: tạo hình dạng tiếp theo

Z: thu phóng

V: chuyển đổi công cụ

Ctrl/Cmd + S: lưu

Giữ Shift/Alt cho các hình dạng bị ràng buộc (tùy thuộc vào công cụ) và chụp nhanh.

Mẹo: Giữ cho danh sách nhãn nhỏ và tập trung. Quá nhiều lớp làm chậm người chú thích và tăng tỷ lệ lỗi.

Bước 4: Chú thích video—Nội suy và theo dõi

Đối với video, không chú thích mọi khung hình.

Tạo một hộp hoặc đa giác trên một khung hình chính.

Bật nội suy/theo dõi: CVAT có thể truyền các hình dạng về phía trước, sau đó bạn điều chỉnh khi cần thiết trên các khung hình chính mới.

Chia hoặc hợp nhất các đoạn khi các đối tượng bị che khuất hoặc xuất hiện lại.

Đánh dấu các trạng thái như “bên ngoài” hoặc “bị che khuất” để giữ cho chuỗi sạch sẽ.

Điều này làm giảm đáng kể thời gian trong khi vẫn duy trì tính nhất quán về thời gian. Nghiên cứu và các phương pháp hay nhất của cộng đồng cũng khuyến nghị hỗ trợ chú thích tương tác/tự động để tăng tốc độ gắn nhãn video.

Bước 5: Sử dụng các công cụ tự động chú thích và hỗ trợ

CVAT hỗ trợ gắn nhãn có hỗ trợ để tăng tốc công việc. Tùy thuộc vào việc triển khai của bạn, bạn có thể:

Sử dụng các tính năng hỗ trợ mô hình tích hợp để đề xuất các hộp/mặt nạ.

Chạy các mô hình phía máy chủ để gắn nhãn trước cho các khung hình, sau đó sửa.

Áp dụng nội suy để lấp đầy các khoảng trống.

Bắt đầu với một bộ hạt giống nhỏ, chất lượng cao, huấn luyện một mô hình nhanh chóng và sử dụng nó để gắn nhãn trước cho dữ liệu còn lại. Sửa và đào tạo lại lặp đi lặp lại.

Lưu ý: Các chi tiết cụ thể phụ thuộc vào mô hình bạn bật trong môi trường của mình. Các tài liệu chính thức và hướng dẫn của cộng đồng cho thấy cách kết nối các mô hình vào CVAT và bật Tự động chú thích trong UI.

Bước 6: Cộng tác với các vai trò và đánh giá

CVAT là đa người dùng. Các vai trò điển hình bao gồm:

Quản trị viên: quản lý máy chủ và người dùng

Quản lý dự án: xác định nhãn, tạo tác vụ/công việc, chỉ định người chú thích

Người chú thích: tạo và chỉnh sửa nhãn

Người đánh giá/QA: kiểm tra công việc, yêu cầu sửa lỗi

Đặt ra các hướng dẫn rõ ràng: ví dụ về các chú thích đúng/sai, định nghĩa thuộc tính và các trường hợp đặc biệt (ví dụ: “nhãn phản xạ?”). Sử dụng các công cụ đánh giá—nhận xét, cờ vấn đề và thay đổi trạng thái—để thắt chặt chất lượng.

Bước 7: Kiểm soát chất lượng mà bạn có thể tin tưởng

Một vài chiến lược QC thực tế:

Các tác vụ vàng: chèn một vài hình ảnh được gắn nhãn chuyên nghiệp để đánh giá người chú thích.

Chồng chéo: giao cùng một công việc cho hai người chú thích; so sánh IoU và thỏa thuận.

Kiểm tra điểm: người đánh giá kiểm tra một tỷ lệ phần trăm của mỗi công việc.

Số liệu: theo dõi các mẫu nhầm lẫn trên mỗi lớp trong quá trình huấn luyện mô hình để tinh chỉnh các hướng dẫn.

Tính nhất quán theo thời gian quan trọng hơn các nhãn hoàn hảo một lần. Ghi lại các quyết định và cập nhật hướng dẫn nhãn khi bạn khám phá các trường hợp đặc biệt.

Bước 8: Lưu, Phiên bản và Xuất

Lưu thường xuyên (CVAT cũng tự động lưu). Khi bạn đã sẵn sàng:

Định dạng xuất: COCO, YOLO, Pascal VOC, v.v. Chọn định dạng mà mã huấn luyện của bạn mong đợi.

Phạm vi khung hình: xuất các phân đoạn cụ thể hoặc toàn bộ tác vụ.

Bộ lọc: chỉ xuất các nhãn hoặc thuộc tính nhất định nếu cần.

Tham khảo tài liệu chính thức để biết các tùy chọn và tham số xuất được cập nhật. Để biết chi tiết về cài đặt và hình ảnh máy chủ, các tài liệu và trang Docker Hub là các tài liệu tham khảo có thẩm quyền.

Các tình huống và mẹo thực tế

Tình huống 1: Phát hiện đối tượng trên kệ bán lẻ

Nhãn: sản phẩm, thẻ_giá, biển_quảng_cáo.

Sử dụng hộp để tăng tốc; thêm các thuộc tính như khuyến mãi=có/không.

Xuất sang YOLO cho một quy trình huấn luyện nhẹ.

Tình huống 2: Phân đoạn làn đường

Sử dụng đường đa giác hoặc đa giác.

Nội suy trên các khung hình; sửa trên các lượt.

Xuất sang COCO toàn cảnh/phân đoạn tùy thuộc vào framework của bạn.

Tình huống 3: Tuân thủ thiết bị an toàn

Theo dõi người, <a4>mũ_bảo_hiểm</a2>, áo_ghile trên video.

Sử dụng theo dõi + thuộc tính (mũ_bảo_hiểm=hiện_diện/vắng_mặt).

Xem xét kỹ các chỗ bị che khuất tại các điểm vào/ra.

Mẹo chuyên nghiệp:

Giữ các tác vụ dưới vài nghìn hình ảnh hoặc chia nhỏ các video dài để giữ cho UI phản hồi nhanh.

Chuẩn hóa kích thước hình ảnh hoặc nén video để cân bằng hiệu suất và độ rõ nét.

Phiên bản tập dữ liệu—xuất với một thẻ rõ ràng (ví dụ: v1.2.0) và khóa các tác vụ sau khi hoàn thành.

Khắc phục các sự cố thường gặp

UI bị lag trên các video lớn: chia thành các công việc ngắn hơn; giảm độ phân giải xem trước và kích thước tìm nạp trước.

Trôi chú thích trong theo dõi: thêm khung hình chính thường xuyên hơn, đặc biệt là trong chuyển động nhanh hoặc che khuất.

Nhãn gây nhầm lẫn: tái cấu trúc hệ thống phân loại; di chuyển các chi tiết cụ thể vào thuộc tính; cung cấp các ví dụ trực quan.

Xuất không khớp: kiểm tra kỹ các trường dự kiến của thư viện huấn luyện mục tiêu của bạn (ví dụ: ánh xạ chỉ mục lớp YOLO, ID danh mục COCO).

Tích hợp vào quy trình ML của bạn

Tiền xử lý: Thay đổi kích thước/chuẩn hóa hình ảnh trước khi tải lên để tăng tốc độ chú thích.

Tự động hóa: Gắn nhãn trước bằng một mô hình nhanh chóng, sửa trong CVAT, sau đó lặp lại.

CI cho dữ liệu: Xử lý các nhãn như mã—xuất phiên bản, tổng kiểm tra và nhật ký thay đổi.

Lưu trữ: Sử dụng các nhóm đám mây và các chính sách vòng đời cho các tập dữ liệu video lớn.

Đáng chú ý: Nếu bạn sử dụng trợ lý AI để ghi lại các hướng dẫn, tạo hệ thống phân loại nhãn hoặc tóm tắt phản hồi của người đánh giá, một công cụ như Sider.AI có thể giúp bạn tạo các hướng dẫn rõ ràng và danh sách kiểm tra đánh giá nhất quán. Bạn có thể nắm bắt các quyết định, tạo ví dụ và biến chúng thành các sách hướng dẫn có thể chia sẻ cho nhóm của bạn. Xem Sider.AI để biết thêm.

Kế hoạch khởi đầu trong 30 phút

5 phút: Cài đặt và khởi chạy CVAT cục bộ.

5 phút: Tạo một Dự án với 3–5 nhãn và 2 thuộc tính.

5 phút: Tạo một Tác vụ với 100 hình ảnh.

10 phút: Chú thích 20 hình ảnh bằng cách sử dụng hộp; tìm hiểu các phím tắt.

5 phút: Xuất sang YOLO và chạy một lượt huấn luyện nhanh chóng.

Đến cuối, bạn sẽ có một vòng lặp hoàn chỉnh từ hình ảnh thô đến một tập dữ liệu có thể huấn luyện.

Nơi để tìm hiểu thêm

Các kiến thức cơ bản và hướng dẫn về CVAT từ nhóm.

Chi tiết cài đặt và cấu hình.

Tham khảo hình ảnh máy chủ và vùng chứa.

Nghiên cứu về chú thích tương tác/tự động cho video để truyền cảm hứng cho quy trình làm việc nhanh hơn.

Những điểm chính

Xác định nhãn của bạn trước tiên—thiết kế lược đồ ngăn ngừa đau đớn về sau.

Sử dụng nội suy và theo dõi cho video; khung hình chính một cách thông minh.

Tự động chú thích tăng tốc công việc; đánh giá của con người đảm bảo chất lượng.

Xuất ở định dạng mà mã huấn luyện của bạn mong đợi; phiên bản mọi thứ.

Bắt đầu nhỏ, lặp lại nhanh chóng và mở rộng quy mô với các hướng dẫn rõ ràng.

Câu hỏi thường gặp

Q1: CVAT là gì và làm cách nào để sử dụng nó để chú thích hình ảnh? CVAT là một nền tảng gắn nhãn dựa trên trình duyệt cho hình ảnh và video. Tạo một dự án, xác định nhãn, tải dữ liệu lên dưới dạng một tác vụ, chú thích bằng các hộp hoặc đa giác và xuất ở các định dạng như COCO hoặc YOLO.

Q2: Làm cách nào để cài đặt CVAT một cách nhanh chóng? Cách dễ nhất là sử dụng Docker. Làm theo các bước cài đặt chính thức để khởi động máy chủ cục bộ, sau đó truy cập UI web trong trình duyệt của bạn để thiết lập và tạo người dùng.

Q3: CVAT có thể tự động chú thích hoặc giúp theo dõi trong video không? Có, CVAT hỗ trợ nội suy và theo dõi để truyền các chú thích trên các khung hình và có thể tích hợp gắn nhãn có hỗ trợ mô hình để gắn nhãn trước cho các đối tượng và tăng tốc độ đánh giá.

Q4: CVAT hỗ trợ định dạng xuất nào? Các định dạng xuất phổ biến bao gồm COCO, YOLO và Pascal VOC. Chọn định dạng phù hợp với lược đồ dự kiến và ánh xạ chỉ mục lớp của framework huấn luyện của bạn.

Q5: Làm cách nào để quản lý nhóm và kiểm soát chất lượng trong CVAT? Tạo dự án với các nhãn được chia sẻ, chia tác vụ thành các công việc, chỉ định vai trò (người chú thích, người đánh giá) và sử dụng đánh giá, nhận xét, tác vụ vàng và kiểm tra chồng chéo để đảm bảo chất lượng nhất quán.