Come usare Label Studio: Una guida completa e senza fronzoli per il 2025
Se stai sviluppando sistemi di computer vision, NLP o IA multimodale, probabilmente ti imbatterai nello stesso collo di bottiglia: dati etichettati di alta qualità. Label Studio, una piattaforma open source per l'etichettatura dei dati, ti offre un controllo flessibile sulle annotazioni di immagini, testo, audio, serie temporali e video senza vincolarti a un singolo stack di ML. In questo tutorial pratico e dettagliato, ti mostreremo come usare Label Studio, dall'installazione all'esportazione, in modo che tu possa passare da un "progetto vuoto" a "etichette pronte per la produzione" con sicurezza.
Seguiremo uno stile pratico e orientato alla soluzione: passaggi brevi, decisioni chiare e suggerimenti utili per evitare errori comuni.
Cosa imparerai
- Come installare e avviare Label Studio
- Come creare il tuo primo progetto e scegliere un modello di etichettatura
- Come importare dati (file locali, bucket cloud, URL)
- Come impostare l'interfaccia di etichettatura per immagini, testo, audio o video
- Come gestire etichettatori, revisioni e controllo qualità
- Come esportare le annotazioni in formati compatibili con le tue pipeline di training
Vale la pena notare: se stai orchestrando una ricerca multi-modello o stai redigendo la documentazione del set di dati, un copilota AI come Sider.AI può aiutarti a generare linee guida per le attività o riepiloghi automatici delle politiche di annotazione per mantenere i team allineati. Puoi provarlo su Sider.ai. Perché Label Studio?
- Schema flessibile: Definisci una configurazione di etichettatura personalizzata per bounding box, poligoni, keypoint, span di testo, relazioni, regioni audio e altro.
- Ampia gamma di tipi di dati: Immagini, testo, audio, HTML, serie temporali e video.
- Workflow di team: Assegna attività, abilita il consenso, rivedi le annotazioni e gestisci la qualità.
- Estensibile: Integra con backend di storage, webhook ed etichettatura assistita da modelli.
Per una panoramica ufficiale e i download, consulta la homepage di Label Studio.
Passaggio 1: Installa Label Studio
Puoi eseguire Label Studio localmente con Python o Docker. Scegli un approccio:
Opzione A: Python (pip)
# Crea un ambiente virtuale (consigliato)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
# Installa Label Studio
pip install label-studio
# Avvia
label-studio start
Quindi visita l'URL locale stampato (spesso `).
Opzione B: Docker
docker run -it -p 8080:8080 heartexlabs/label-studio:latest
Se sei nuovo di Label Studio, la guida ufficiale "Getting Started" è concisa e aggiornata regolarmente, e la guida rapida si concentra sui passaggi minimi per etichettare un set di dati di esempio.
Suggerimento da professionista: Per i team, considera un database gestito (PostgreSQL) e uno storage montato per la resilienza.
Passaggio 2: Crea un progetto
- Accedi all'interfaccia utente e fai clic su "Crea progetto".
- Dagli un nome chiaro (ad esempio, "Rilevamento scaffali al dettaglio v1") e una descrizione (includi la versione e lo scopo del set di dati).
- Scegli "Impostazione etichettatura". Puoi:
- Iniziare da un modello (ad esempio, rilevamento oggetti, NER, sentiment, regioni audio)
- Oppure scrivere una configurazione XML personalizzata per adattare strumenti e classi
La procedura guidata di avvio rapido ti aiuta a scegliere un modello, rinominare le classi e salvare la configurazione.
Passaggio 3: Importa i tuoi dati
Puoi importare i dati tramite l'interfaccia utente o l'API. Percorsi comuni:
- Carica file locali (drag-and-drop)
- Fornisci URL a file remoti
- Collega lo storage cloud (S3, GCS, Azure Blob) tramite le impostazioni
- Usa l'API REST per l'inserimento programmatico
I record di dati di solito includono un payload data che punta alla tua risorsa (ad esempio, "image": " o "text": "Questa è una frase."`). Mantieni i nomi dei file stabili per semplificare la mappatura durante l'esportazione.
Suggerimento di qualità: Versiona il tuo set di dati e mantieni un manifesto dell'origine → esportazione dell'annotazione in modo da poter riprodurre le esecuzioni di training.
Passaggio 4: Configura l'interfaccia di etichettatura
L'interfaccia di etichettatura definisce strumenti e classi. Vedrai una configurazione simile a XML in cui selezioni componenti come RectangleLabels, PolygonLabels, KeyPointLabels, TextArea, Choices, Audio, TimeSeries, ecc.
Esempi:
Rilevamento oggetti immagine
<View>
<Image name="img" value="$image"/>
<RectangleLabels name="label" toName="img">
<Label value="Product" background="#34D399"/>
<Label value="PriceTag" background="#60A5FA"/>
</RectangleLabels>
</View>
Riconoscimento di entità denominate (NER) di testo
<View>
<Text name="txt" value="$text"/>
<Labels name="label" toName="txt">
<Label value="ORG"/>
<Label value="PERSON"/>
<Label value="LOC"/>
</Labels>
</View>
Etichettatura della regione audio
<View>
<Audio name="audio" value="$audio"/>
<Labels name="label" toName="audio">
<Label value="Speech"/>
<Label value="Noise"/>
<Label value="Music"/>
</Labels>
</View>
Inizia con il modello più vicino alla tua attività e itera. Mantieni i nomi delle classi stabili tra le versioni per facilitare l'unione dei set di dati.
Passaggio 5: Best practice per l'etichettatura
- Definisci linee guida chiare: Includi esempi di annotazioni corrette vs. errate e casi limite.
- Usa tasti di scelta rapida: Aumenta la velocità e la coerenza imparando le scorciatoie da tastiera per i tuoi strumenti.
- Calibra in anticipo: Chiedi a 2-3 etichettatori di annotare gli stessi 50-100 elementi, confronta i risultati e perfeziona la guida.
- Aggiungi pre-annotazioni: Se hai un modello di base, importa le previsioni per accelerare le correzioni.
- Bilancia throughput e qualità: Usa il consenso o le code di revisione quando la posta in gioco è alta.
A proposito, per scrivere linee guida di annotazione chiare e coerenti o per convertire la conoscenza del dominio in checklist adatte agli etichettatori, Sider.AI può redigere e perfezionare rapidamente le istruzioni mantenendo un changelog che i team possono seguire. Passaggio 6: Gestisci etichettatori, revisioni e controllo qualità
Label Studio supporta i team:
- Assegna attività a specifici annotatori
- Abilita workflow di revisione/approvazione
- Monitora i progressi e le prestazioni degli etichettatori
- Usa il consenso (annotazioni multiple per attività) per misurare la concordanza
Imposta criteri di accettazione espliciti (ad esempio, soglia IoU per i box, regole sui confini degli span, durata minima della regione audio) e applicali durante la revisione.
Controlli di qualità comuni:
- Etichette mancanti o classi errate
- Tenuta della bounding box incoerente
- Entità sovrapposte in NER
- Definizioni che cambiano nel tempo (aggiorna la guida!)
Passaggio 7: Esporta annotazioni
Quando il tuo batch è pronto, esporta le annotazioni per il training. Label Studio archivia internamente le annotazioni in JSON e ti consente di esportare in più formati. Consulta la documentazione ufficiale sull'esportazione per l'elenco corrente e i passaggi.
I formati tipici includono:
- JSON Label Studio grezzo (più completo e senza perdita di dati)
- COCO (per rilevamento/segmentazione)
- YOLO (per rilevamento oggetti)
- CSV/TSV per attività più semplici
Note importanti:
- Alcuni strumenti (ad esempio, pennello/segmentazioni) non si mappano in modo pulito a determinati formati: COCO e YOLO potrebbero non supportare direttamente i pennelli a mano libera. Consulta le guide della community sugli avvertimenti sull'esportazione della segmentazione.
- Esistono convertitori per trasformare JSON di Label Studio in YOLO, ma possono verificarsi lacune a seconda dello strumento di etichettatura utilizzato e dei metadati conservati.
Flusso di esportazione pratico:
- Esegui un piccolo test di esportazione in anticipo; valida che il tuo script di training lo analizzi.
- Blocca il tuo preset di esportazione (ordine delle classi, presupposti sulla risoluzione, ecc.).
- Documenta qualsiasi passaggio di conversione (script, hash di versione) per la riproducibilità.
Passaggio 8: Integra con la tua pipeline ML
- Usa l'API per estrarre le annotazioni completate nei tuoi lavori di training.
- Mantieni le divisioni deterministiche: aggiungi metadati come
split: train/val/test alle attività.
- Versiona tutto: manifest di set di dati, esportazioni di annotazioni, configurazioni del modello.
- Chiudi il cerchio: esegui l'analisi degli errori, identifica i cluster di errori e pianifica i cicli di rietichettatura.
Schema del workflow:
- Addestra un modello di base
- Estrai esempi difficili dagli errori del modello
- Rietichetta le slice mirate
Questo ciclo di apprendimento attivo aumenta la qualità più velocemente dell'etichettatura a forza bruta.
Risoluzione dei problemi comuni
- "La mia esportazione non si carica in YOLO/COCO."
- Verifica la compatibilità degli strumenti (ad esempio, pennelli vs. poligoni). Converti in forme compatibili quando possibile e consulta i documenti di esportazione e le note della community.
- "Le etichette non corrispondono all'ordine delle mie classi di training."
- Correggi l'ordinamento in anticipo. Standardizza i nomi delle etichette e preserva la mappatura nella tua pipeline.
- "Gli annotatori non sono molto d'accordo."
- Aggiungi cicli di calibrazione, chiarisci le regole e considera passaggi di consenso o arbitrato.
- Usa pre-annotazioni, tasti di scelta rapida e accelerazioni specifiche per lo strumento (ad esempio, auto-segmentazione, snapping). Elimina le attività di basso valore.
Una checklist di avvio rapido di 30 minuti
- Installa Label Studio (pip o Docker)
- Crea un progetto con il modello più rilevante
- Importa 50-100 elementi di esempio
- Redigi linee guida con casi limite ed esempi
- Assegna due etichettatori per un batch di calibrazione
- Rivedi i disaccordi e aggiorna le regole
- Testa l'esportazione nel tuo codice di training
Per una guida ufficiale e concisa, rivisita "Getting Started" e la guida "Quick Start".
Suggerimenti avanzati per utenti esperti
- Widget personalizzati: Estendi l'interfaccia per strumenti specifici del dominio.
- Webhook: Attiva lavori (ad esempio, avvia conversioni o training del modello) quando le attività sono completate.
- Etichettatura assistita da modello: Usa pre-etichette dai tuoi modelli interni o cloud per ridurre il lavoro manuale.
- Privacy dei dati: Esegui on-prem, limita le esportazioni e registra l'accesso per set di dati regolamentati.
- Analytics: Monitora la distribuzione per classe e le metriche per etichettatore per individuare distorsioni.
Conclusione: Dal prototipo a set di dati pronti per la produzione
Label Studio ti aiuta a passare rapidamente dal concetto a dati di training coerenti: scegli un modello, definisci il tuo schema, calibra il tuo team ed esporta nei formati di cui i tuoi modelli hanno bisogno. Mantieni le tue linee guida aggiornate, valida le esportazioni in anticipo e chiudi il cerchio con l'apprendimento attivo. Con queste abitudini, passerai meno tempo a lottare con i formati e più tempo a spedire modelli che funzionano.
Per approfondimenti e modelli, vedi:
- Formati di esportazione e avvertenze
FAQ
D1: A cosa serve Label Studio?
Label Studio è una piattaforma open source per annotare immagini, testo, audio, serie temporali e video. Ti consente di progettare interfacce di etichettatura personalizzate ed esportare le annotazioni in formati che le tue pipeline di training ML possono utilizzare.
D2: Come avvio un nuovo progetto in Label Studio?
Crea un progetto dall'interfaccia utente, seleziona un modello che corrisponda alla tua attività e personalizza la configurazione dell'etichettatura. Quindi importa i dati (file locali, URL o storage cloud) e assegna le attività agli annotatori.
D3: Quali formati di esportazione supporta Label Studio?
Puoi esportare JSON grezzo, nonché formati come COCO, YOLO, Pascal VOC e CSV/TSV. Alcuni strumenti (come le maschere a pennello) potrebbero non essere mappati a tutti i formati; controlla la documentazione di esportazione per i dettagli.
D4: Come posso accelerare l'etichettatura in Label Studio?
Usa pre-annotazioni da un modello di base, impara i tasti di scelta rapida e semplifica lo schema delle etichette. Esegui cicli di calibrazione per ridurre il lavoro e imposta i criteri di revisione per individuare gli errori in anticipo.
D5: Posso eseguire Label Studio con un team?
Sì. Assegna attività agli annotatori, abilita le revisioni e usa il consenso per misurare la concordanza. Archivia dati e annotazioni in backend affidabili e automatizza le esportazioni con webhook o API.