Jak korzystać z Label Studio: Kompletny przewodnik bez zbędnych ozdobników na rok 2025
Jeśli tworzysz systemy computer vision, NLP lub multimodal AI, prawdopodobnie natkniesz się na to samo wąskie gardło: wysokiej jakości, oznaczone dane. Label Studio, platforma open-source do oznaczania danych, daje Ci elastyczną kontrolę nad adnotacjami obrazów, tekstu, audio, szeregów czasowych i wideo, bez blokowania Cię w jednym stosie ML. W tym praktycznym, krok po kroku samouczku pokażemy Ci, jak korzystać z Label Studio – od instalacji po eksport – abyś mógł przejść od „pustego projektu” do „etykiet gotowych do produkcji” z pewnością.
Będziemy trzymać się praktycznego i zorientowanego na rozwiązania stylu: krótkie kroki, jasne decyzje i pomocne wskazówki, aby uniknąć typowych pułapek.
Czego się nauczysz
- Jak zainstalować i uruchomić Label Studio
- Jak utworzyć swój pierwszy projekt i wybrać szablon etykietowania
- Jak importować dane (lokalne pliki, zasobniki w chmurze, adresy URL)
- Jak skonfigurować interfejs etykietowania dla obrazów, tekstu, audio lub wideo
- Jak zarządzać etykietującymi, recenzjami i zapewnieniem jakości
- Jak eksportować adnotacje do formatów kompatybilnych z Twoimi potokami szkoleniowymi
Warto zauważyć: Jeśli organizujesz badania z wykorzystaniem wielu modeli lub tworzysz dokumentację zestawu danych, AI copilot, taki jak Sider.AI, może pomóc w generowaniu wytycznych dotyczących zadań lub automatycznych podsumowań zasad adnotacji, aby zapewnić spójność zespołów. Możesz to sprawdzić na stronie Sider.ai. Dlaczego Label Studio?
- Elastyczny schemat: Zdefiniuj niestandardową konfigurację etykietowania dla bounding boxów, poligonów, punktów kluczowych, zakresów tekstu, relacji, regionów audio i innych.
- Szeroki zakres typów danych: Obrazy, tekst, audio, HTML, szeregi czasowe i wideo.
- Przepływy pracy zespołowej: Przypisuj zadania, włączaj konsensus, przeglądaj adnotacje i zarządzaj jakością.
- Rozszerzalność: Integracja z backendami pamięci masowej, webhookami i etykietowaniem wspomaganym przez model.
Oficjalny przegląd i pliki do pobrania można znaleźć na stronie domowej Label Studio.
Krok 1: Zainstaluj Label Studio
Możesz uruchomić Label Studio lokalnie za pomocą Pythona lub Dockera. Wybierz jedną z metod:
Opcja A: Python (pip)
# Utwórz środowisko wirtualne (zalecane)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
# Zainstaluj Label Studio
pip install label-studio
# Uruchom
label-studio start
Następnie odwiedź wydrukowany lokalny adres URL (często `).
Opcja B: Docker
docker run -it -p 8080:8080 heartexlabs/label-studio:latest
Jeśli dopiero zaczynasz przygodę z Label Studio, oficjalny przewodnik „Getting Started” jest zwięzły i regularnie aktualizowany, a szybki start koncentruje się na minimalnych krokach potrzebnych do oznaczenia przykładowego zestawu danych.
Pro tip: Dla zespołów rozważ zarządzaną bazę danych (PostgreSQL) i podłączoną pamięć masową dla zapewnienia odporności.
Krok 2: Utwórz projekt
- Zaloguj się do interfejsu użytkownika i kliknij „Create Project”.
- Nadaj mu jasną nazwę (np. „Retail Shelf Detection v1”) i opis (uwzględnij wersję zestawu danych i cel).
- Wybierz „Labeling Setup”. Możesz:
- Zacznij od szablonu (np. detekcja obiektów, NER, analiza sentymentu, regiony audio)
- Lub napisz niestandardową konfigurację XML, aby dostosować narzędzia i klasy
Kreator szybkiego startu pomoże Ci wybrać szablon, zmienić nazwy klas i zapisać konfigurację.
Krok 3: Zaimportuj swoje dane
Możesz importować dane za pośrednictwem interfejsu użytkownika lub API. Typowe ścieżki:
- Prześlij lokalne pliki (przeciągnij i upuść)
- Podaj adresy URL do zdalnych plików
- Połącz pamięć masową w chmurze (S3, GCS, Azure Blob) za pośrednictwem ustawień
- Użyj REST API do programowego pozyskiwania danych
Rekordy danych zwykle zawierają ładunek data, który wskazuje na Twój zasób (np. "image": " lub "text": "To jest zdanie."`). Utrzymuj stabilne nazwy plików, aby uprościć mapowanie podczas eksportu.
Wskazówka dotycząca jakości: Wersjonuj swój zestaw danych i prowadź manifest źródła → eksport adnotacji, aby móc odtworzyć przebiegi szkoleniowe.
Krok 4: Skonfiguruj interfejs etykietowania
Interfejs etykietowania definiuje narzędzia i klasy. Zobaczysz konfigurację w stylu XML, w której wybierasz komponenty, takie jak RectangleLabels, PolygonLabels, KeyPointLabels, TextArea, Choices, Audio, TimeSeries itp.
Przykłady:
Detekcja obiektów na obrazach
<View>
<Image name="img" value="$image"/>
<RectangleLabels name="label" toName="img">
<Label value="Product" background="#34D399"/>
<Label value="PriceTag" background="#60A5FA"/>
</RectangleLabels>
</View>
Rozpoznawanie nazwanych jednostek w tekście (NER)
<View>
<Text name="txt" value="$text"/>
<Labels name="label" toName="txt">
<Label value="ORG"/>
<Label value="PERSON"/>
<Label value="LOC"/>
</Labels>
</View>
Etykietowanie regionów audio
<View>
<Audio name="audio" value="$audio"/>
<Labels name="label" toName="audio">
<Label value="Speech"/>
<Label value="Noise"/>
<Label value="Music"/>
</Labels>
</View>
Zacznij od szablonu najbardziej zbliżonego do Twojego zadania i iteruj. Utrzymuj stabilne nazwy klas w różnych wersjach, aby ułatwić scalanie zestawów danych.
Krok 5: Najlepsze praktyki etykietowania
- Zdefiniuj jasne wytyczne: Dołącz przykłady poprawnych i niepoprawnych adnotacji oraz przypadki graniczne.
- Używaj skrótów klawiszowych: Trenuj szybkość i spójność, ucząc się skrótów klawiszowych dla swoich narzędzi.
- Kalibruj wcześnie: Poproś 2–3 etykietujących o oznaczenie tych samych 50–100 elementów, porównaj wyniki i doprecyzuj przewodnik.
- Dodaj wstępne adnotacje: Jeśli masz model bazowy, zaimportuj predykcje, aby przyspieszyć poprawki.
- Zrównoważ przepustowość i jakość: Używaj konsensusu lub kolejek recenzji, gdy stawka jest wysoka.
A tak przy okazji, do pisania przejrzystych, spójnych wytycznych dotyczących adnotacji lub przekształcania wiedzy dziedzinowej w przyjazne dla etykietujących listy kontrolne, Sider.AI może szybko tworzyć i ulepszać instrukcje, jednocześnie prowadząc dziennik zmian, który zespoły mogą śledzić. Krok 6: Zarządzaj etykietującymi, recenzjami i QA
Label Studio obsługuje zespoły:
- Przypisuj zadania do konkretnych anotatorów
- Włącz przepływy pracy związane z recenzją/zatwierdzaniem
- Śledź postępy i wydajność etykietującego
- Używaj konsensusu (wielu adnotacji na zadanie), aby zmierzyć zgodność
Ustaw wyraźne kryteria akceptacji (np. próg IoU dla bounding boxów, reguły dotyczące granic zakresu, minimalny czas trwania regionu audio) i egzekwuj je podczas recenzji.
Typowe kontrole QA:
- Brakujące etykiety lub nieprawidłowe klasy
- Niespójna szczelność bounding boxów
- Nakładające się jednostki w NER
- Zmieniające się definicje w czasie (zaktualizuj przewodnik!)
Krok 7: Eksportuj adnotacje
Gdy partia jest gotowa, wyeksportuj adnotacje do szkolenia. Label Studio przechowuje adnotacje wewnętrznie w formacie JSON i pozwala eksportować do wielu formatów. Zobacz oficjalną dokumentację eksportu, aby uzyskać aktualną listę i kroki.
Typowe formaty obejmują:
- Surowe JSON Label Studio (najbardziej kompletny i bezstratny)
- COCO (do detekcji/segmentacji)
- YOLO (do detekcji obiektów)
- CSV/TSV dla prostszych zadań
Ważne uwagi:
- Niektóre narzędzia (np. pędzel/segmentacje) nie mapują się czysto do niektórych formatów — COCO i YOLO mogą nie obsługiwać bezpośrednio pędzli o dowolnym kształcie. Zobacz wskazówki społeczności dotyczące zastrzeżeń dotyczących eksportu segmentacji.
- Istnieją konwertery do przekształcania JSON Label Studio na YOLO, ale mogą wystąpić luki w zależności od użytego narzędzia do etykietowania i zachowanych metadanych.
Praktyczny przepływ eksportu:
- Uruchom wcześnie mały eksport testowy; sprawdź, czy Twój skrypt szkoleniowy go analizuje.
- Zablokuj ustawienie eksportu (kolejność klas, założenia dotyczące rozdzielczości itp.).
- Udokumentuj wszelkie kroki konwersji (skrypty, hasze wersji) w celu zapewnienia powtarzalności.
Krok 8: Zintegruj z potokiem ML
- Użyj API, aby pobrać ukończone adnotacje do zadań szkoleniowych.
- Utrzymuj deterministyczne podziały: dołącz metadane, takie jak
split: train/val/test do zadań.
- Wersjonuj wszystko: manifesty zestawów danych, eksporty adnotacji, konfiguracje modeli.
- Zamknij pętlę: uruchom analizę błędów, zidentyfikuj klastry awarii i zaplanuj rundy ponownego etykietowania.
Wzorzec przepływu pracy:
- Wydobądź trudne przykłady z błędów modelu
- Ponownie oznacz ukierunkowane wycinki
Ta pętla aktywnego uczenia się zwiększa jakość szybciej niż etykietowanie metodą brute-force.
Rozwiązywanie typowych problemów
- „Mój eksport nie chce się załadować do YOLO/COCO”.
- Sprawdź kompatybilność narzędzi (np. pędzle vs. poligony). W razie potrzeby przekonwertuj na kompatybilne kształty i zapoznaj się z dokumentacją eksportu i notatkami społeczności.
- „Etykiety nie pasują do kolejności klas szkoleniowych”.
- Napraw kolejność wcześnie. Ustandaryzuj nazwy etykiet i zachowaj mapowanie w swoim potoku.
- „Anotatorzy bardzo się nie zgadzają”.
- Dodaj rundy kalibracji, wyjaśnij zasady i rozważ kroki konsensusu lub arbitrażu.
- „Adnotacja jest powolna”.
- Używaj wstępnych adnotacji, skrótów klawiszowych i przyspieszeń specyficznych dla narzędzia (np. automatyczna segmentacja, przyciąganie). Przycinaj zadania o niskiej wartości.
Lista kontrolna szybkiego startu w 30 minut
- Zainstaluj Label Studio (pip lub Docker)
- Utwórz projekt z najbardziej odpowiednim szablonem
- Zaimportuj 50–100 przykładowych elementów
- Przygotuj wytyczne z przypadkami granicznymi i przykładami
- Przydziel dwóch etykietujących do partii kalibracyjnej
- Przejrzyj niezgodności i zaktualizuj zasady
- Przetestuj eksport do swojego kodu szkoleniowego
Aby uzyskać oficjalny, zwięzły przewodnik, wróć do „Getting Started” i „Quick Start” guide.
Zaawansowane wskazówki dla zaawansowanych użytkowników
- Niestandardowe widżety: Rozszerz interfejs o narzędzia specyficzne dla domeny.
- Webhooki: Wyzwalaj zadania (np. uruchom konwersje lub trenowanie modelu) po zakończeniu zadań.
- Etykietowanie wspomagane przez model: Używaj wstępnych etykiet z własnych modeli lub modeli w chmurze, aby zmniejszyć ilość pracy ręcznej.
- Prywatność danych: Uruchamiaj lokalnie, ograniczaj eksport i rejestruj dostęp do regulowanych zestawów danych.
- Analityka: Śledź rozkład na klasę i metryki na etykietującego, aby wykryć odchylenia.
Wnioski: Od prototypu do zestawów danych gotowych do produkcji
Label Studio pomaga szybko przejść od koncepcji do spójnych danych szkoleniowych: wybierz szablon, zdefiniuj schemat, skalibruj swój zespół i eksportuj w formatach potrzebnych Twoim modelom. Utrzymuj swoje wytyczne przy życiu, sprawdzaj eksporty wcześnie i zamknij pętlę za pomocą aktywnego uczenia się. Dzięki tym nawykom spędzisz mniej czasu na zmaganiach z formatami, a więcej na wdrażaniu działających modeli.
Aby uzyskać głębsze informacje i szablony, zobacz:
- Strona domowa Label Studio
- Samouczek Getting Started
- Przewodnik szybkiego startu
- Formaty eksportu i zastrzeżenia
FAQ
P1: Do czego służy Label Studio?
Label Studio to platforma open‑source do adnotowania obrazów, tekstu, audio, szeregów czasowych i wideo. Umożliwia projektowanie niestandardowych interfejsów etykietowania i eksportowanie adnotacji do formatów, które mogą być używane przez potoki szkoleniowe ML.
P2: Jak rozpocząć nowy projekt w Label Studio?
Utwórz projekt z interfejsu użytkownika, wybierz szablon pasujący do Twojego zadania i dostosuj konfigurację etykietowania. Następnie zaimportuj dane (lokalne pliki, adresy URL lub pamięć masową w chmurze) i przypisz zadania anotatorom.
P3: Jakie formaty eksportu obsługuje Label Studio?
Możesz eksportować surowe JSON, a także formaty takie jak COCO, YOLO, Pascal VOC i CSV/TSV. Niektóre narzędzia (takie jak maski pędzla) mogą nie być mapowane na wszystkie formaty; sprawdź dokumentację eksportu, aby uzyskać szczegółowe informacje.
P4: Jak mogę przyspieszyć etykietowanie w Label Studio?
Użyj wstępnych adnotacji z modelu bazowego, naucz się skrótów klawiszowych i uprość schemat etykiet. Przeprowadzaj rundy kalibracji, aby zmniejszyć ilość przeróbek, i ustaw kryteria recenzji, aby wcześnie wychwycić błędy.
P5: Czy mogę uruchomić Label Studio z zespołem?
Tak. Przypisuj zadania anotatorom, włącz recenzje i używaj konsensusu do mierzenia zgodności. Przechowuj dane i adnotacje w niezawodnych backendach i automatyzuj eksporty za pomocą webhooków lub API.