Com utilitzar Label Studio: Una guia completa i sense floritures per al 2025
Si esteu creant visió per computador, PNL o IA multimodal, probablement us trobareu amb el mateix coll d'ampolla: dades etiquetades d'alta qualitat. Label Studio, una plataforma d'etiquetatge de dades de codi obert, us ofereix un control flexible sobre les anotacions d'imatges, text, àudio, sèries temporals i vídeo sense lligar-vos a una única pila de ML. En aquest tutorial pràctic i pas a pas, us mostrarem com utilitzar Label Studio, des de la instal·lació fins a l'exportació, perquè pugueu passar de "projecte en blanc" a "etiquetes llestes per a la producció" amb confiança.
Seguirem un estil pràctic i orientat a la solució: passos curts, decisions clares i consells útils per evitar problemes comuns.
Què aprendreu
- Com instal·lar i iniciar Label Studio
- Com crear el vostre primer projecte i triar una plantilla d'etiquetatge
- Com importar dades (fitxers locals, buckets al núvol, URL)
- Com configurar la interfície d'etiquetatge per a imatges, text, àudio o vídeo
- Com gestionar etiquetadors, revisions i control de qualitat
- Com exportar anotacions a formats compatibles amb les vostres pipelines d'entrenament
Val la pena destacar: Si esteu orquestrant investigacions multi-model o redactant documentació de conjunts de dades, un copilot d'IA com Sider.AI pot ajudar a generar directrius de tasques o auto-resums de polítiques d'anotació per mantenir els equips alineats. Podeu consultar-ho a Sider.ai. Per què Label Studio?
- Esquema flexible: Definiu una configuració d'etiquetatge personalitzada per a caixes delimitadores, polígons, punts clau, spans de text, relacions, regions d'àudio i molt més.
- Àmplia varietat de tipus de dades: Imatges, text, àudio, HTML, sèries temporals i vídeo.
- Fluxos de treball en equip: Assigneu tasques, activeu el consens, reviseu les anotacions i gestioneu la qualitat.
- Extensible: Integreu-vos amb backends d'emmagatzematge, webhooks i etiquetatge assistit per models.
Per obtenir una visió general oficial i descàrregues, consulteu la pàgina d'inici de Label Studio.
Pas 1: Instal·lar Label Studio
Podeu executar Label Studio localment amb Python o Docker. Trieu un enfocament:
Opció A: Python (pip)
# Crea un entorn virtual (recomanat)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
# Instal·la Label Studio
pip install label-studio
# Inicia
label-studio start
A continuació, visiteu l'URL local imprès (sovint `).
Opció B: Docker
docker run -it -p 8080:8080 heartexlabs/label-studio:latest
Si sou nou a Label Studio, la guia oficial de "Començar" és concisa i s'actualitza regularment, i l'inici ràpid se centra en els passos mínims per etiquetar un conjunt de dades de mostra.
Consell professional: Per als equips, considereu una base de dades gestionada (PostgreSQL) i un emmagatzematge muntat per a la resiliència.
Pas 2: Crear un projecte
- Inicieu sessió a la interfície d'usuari i feu clic a "Crear projecte".
- Doneu-li un nom clar (p. ex., "Detecció de prestatgeries minoristes v1") i una descripció (incloeu la versió i el propòsit del conjunt de dades).
- Trieu "Configuració d'etiquetatge". Podeu:
- Començar a partir d'una plantilla (p. ex., detecció d'objectes, NER, sentiment, regions d'àudio)
- O escriure una configuració XML personalitzada per adaptar les eines i les classes
L'assistent d'inici ràpid us ajuda a triar una plantilla, canviar el nom de les classes i desar la configuració.
Pas 3: Importar les vostres dades
Podeu importar dades mitjançant la interfície d'usuari o l'API. Rutes comunes:
- Carregar fitxers locals (arrossegar i deixar anar)
- Proporcionar URL a fitxers remots
- Connectar l'emmagatzematge al núvol (S3, GCS, Azure Blob) mitjançant la configuració
- Utilitzar l'API REST per a la ingesta programàtica
Els registres de dades solen incloure una càrrega útil de data que apunta al vostre actiu (p. ex., "image": " o "text": "Aquesta és una frase."`). Mantingueu els noms de fitxer estables per simplificar el mapeig durant l'exportació.
Consell de qualitat: Versioneu el vostre conjunt de dades i mantingueu un manifest de l'exportació de font → anotació perquè pugueu reproduir les execucions d'entrenament.
Pas 4: Configurar la interfície d'etiquetatge
La interfície d'etiquetatge defineix eines i classes. Veureu una configuració semblant a XML on seleccioneu components com ara RectangleLabels, PolygonLabels, KeyPointLabels, TextArea, Choices, Audio, TimeSeries, etc.
Exemples:
Detecció d'objectes d'imatge
<View>
<Image name="img" value="$image"/>
<RectangleLabels name="label" toName="img">
<Label value="Product" background="#34D399"/>
<Label value="PriceTag" background="#60A5FA"/>
</RectangleLabels>
</View>
Reconeixement d'entitats amb nom de text (NER)
<View>
<Text name="txt" value="$text"/>
<Labels name="label" toName="txt">
<Label value="ORG"/>
<Label value="PERSON"/>
<Label value="LOC"/>
</Labels>
</View>
Etiquetatge de regions d'àudio
<View>
<Audio name="audio" value="$audio"/>
<Labels name="label" toName="audio">
<Label value="Speech"/>
<Label value="Noise"/>
<Label value="Music"/>
</Labels>
</View>
Comenceu amb la plantilla més propera a la vostra tasca i itereu. Mantingueu els noms de classe estables entre versions per facilitar les fusions de conjunts de dades.
Pas 5: Bones pràctiques d'etiquetatge
- Definiu directrius clares: Incloeu exemples d'anotacions correctes vs. incorrectes i casos límit.
- Utilitzeu tecles d'accés ràpid: Augmenteu la velocitat i la coherència entrenant-vos amb les dreceres de teclat per a les vostres eines.
- Calibreu d'hora: Feu que 2-3 etiquetadors annotin els mateixos 50-100 elements, compareu els resultats i perfeccioneu la guia.
- Afegiu pre-anotacions: Si teniu un model de referència, importeu prediccions per accelerar les correccions.
- Equilibreu el rendiment i la qualitat: Utilitzeu cues de consens o revisió quan hi hagi molt en joc.
Per cert, per escriure directrius d'anotació nítides i coherents o convertir el coneixement del domini en llistes de verificació fàcils d'utilitzar per als etiquetadors, Sider.AI pot redactar i perfeccionar les instruccions ràpidament tot mantenint un registre de canvis que els equips puguin seguir. Pas 6: Gestionar etiquetadors, revisions i control de qualitat
Label Studio admet equips:
- Assigneu tasques a anotadors específics
- Activeu els fluxos de treball de revisió/aprovació
- Feu un seguiment del progrés i del rendiment dels etiquetadors
- Utilitzeu el consens (múltiples anotacions per tasca) per mesurar l'acord
Establiu criteris d'acceptació explícits (p. ex., llindar d'IoU per a les caixes, regles de límits d'abast, durada mínima de la regió d'àudio) i feu-los complir durant la revisió.
Comprovacions de control de qualitat comunes:
- Etiquetes que falten o classes incorrectes
- Ajust de caixes delimitadores inconsistent
- Entitats superposades a NER
- Definicions que canvien amb el temps (actualitzeu la guia!)
Pas 7: Exportar anotacions
Quan el vostre lot estigui a punt, exporteu les anotacions per a l'entrenament. Label Studio emmagatzema les anotacions internament en JSON i us permet exportar-les a múltiples formats. Consulteu la documentació oficial d'exportació per obtenir la llista i els passos actuals.
Els formats típics inclouen:
- JSON de Label Studio en brut (més complet i sense pèrdues)
- COCO (per a detecció/segmentació)
- YOLO (per a la detecció d'objectes)
- CSV/TSV per a tasques més senzilles
Notes importants:
- Algunes eines (p. ex., pinzell/segmentacions) no es poden mapejar de manera neta a certs formats; COCO i YOLO poden no admetre pinzells de forma lliure directament. Consulteu la guia de la comunitat sobre les advertències d'exportació de segmentació.
- Existeixen convertidors per transformar JSON de Label Studio a YOLO, però poden produir-se llacunes en funció de l'eina d'etiquetatge utilitzada i de les metadades que hagueu conservat.
Flux d'exportació pràctic:
- Executeu una petita exportació de prova d'hora; valideu que el vostre script d'entrenament l'analitza.
- Bloquegeu el vostre preset d'exportació (ordre de classe, supòsits de resolució, etc.).
- Documenteu qualsevol pas de conversió (scripts, hash de versió) per a la reproductibilitat.
Pas 8: Integrar amb la vostra pipeline de ML
- Utilitzeu l'API per extreure anotacions completades als vostres treballs d'entrenament.
- Mantingueu les divisions deterministes: adjunteu metadades com ara
split: train/val/test a les tasques.
- Versioneu tot: manifestos de conjunts de dades, exportacions d'anotacions, configuracions de models.
- Tanqueu el bucle: executeu l'anàlisi d'errors, identifiqueu els clústers d'errors i programeu rondes de reetiquetatge.
Patró de flux de treball:
- Etiqueteu un conjunt de llavors
- Entreneu un model de referència
- Extreu exemples difícils dels errors del model
- Reetiqueteu llesques dirigides
Aquest bucle d'aprenentatge actiu augmenta la qualitat més ràpidament que l'etiquetatge per força bruta.
Resolució de problemes comuns
- "La meva exportació no es carregarà a YOLO/COCO."
- Comproveu la compatibilitat de les eines (p. ex., pinzells vs. polígons). Convertiu a formes compatibles quan sigui possible i consulteu els documents d'exportació i les notes de la comunitat.
- "Les etiquetes no coincideixen amb l'ordre de classe del meu entrenament."
- Corregiu l'ordenació d'hora. Estandaritzeu els noms de les etiquetes i conserveu el mapeig a la vostra pipeline.
- "Els anotadors no estan d'acord molt."
- Afegiu rondes de calibratge, aclareu les regles i considereu passos de consens o arbitratge.
- Utilitzeu pre-anotacions, tecles d'accés ràpid i acceleracions específiques de l'eina (p. ex., segmentació automàtica, ajustament). Elimineu les tasques de baix valor.
Una llista de verificació d'inici ràpid de 30 minuts
- Instal·leu Label Studio (pip o Docker)
- Creeu un projecte amb la plantilla més rellevant
- Importeu 50-100 elements de mostra
- Redacteu directrius amb casos límit i exemples
- Assigneu dos etiquetadors per a un lot de calibratge
- Reviseu els desacords i actualitzeu les regles
- Proveu l'exportació al vostre codi d'entrenament
Per obtenir un recorregut oficial i concís, torneu a visitar "Començar" i la guia "Inici ràpid".
Consells avançats per a usuaris avançats
- Widgets personalitzats: Amplieu la interfície per a eines específiques del domini.
- Webhooks: Activeu treballs (p. ex., inicieu conversions o entrenament de models) quan les tasques es completin.
- Etiquetatge assistit per models: Utilitzeu pre-etiquetes dels vostres models interns o al núvol per reduir el treball manual.
- Privacitat de les dades: Executeu-ho de manera local, restringiu les exportacions i registreu l'accés per a conjunts de dades regulats.
- Anàlisi: Feu un seguiment de la distribució per classe i de les mètriques per etiquetador per detectar biaixos.
Conclusió: Des de prototip fins a conjunts de dades llestos per a la producció
Label Studio us ajuda a passar ràpidament del concepte a dades d'entrenament coherents: trieu una plantilla, definiu el vostre esquema, calibreu el vostre equip i exporteu-lo als formats que necessiten els vostres models. Mantingueu vives les vostres directrius, valideu les exportacions d'hora i tanqueu el bucle amb l'aprenentatge actiu. Amb aquests hàbits, passareu menys temps lluitant amb els formats i més temps enviant models que funcionin.
Per a immersions i plantilles més profundes, consulteu:
- Pàgina d'inici de Label Studio
- Formats d'exportació i advertències
PMF
P1: Per a què s'utilitza Label Studio?
Label Studio és una plataforma de codi obert per anotar imatges, text, àudio, sèries temporals i vídeo. Us permet dissenyar interfícies d'etiquetatge personalitzades i exportar anotacions a formats que les vostres pipelines d'entrenament de ML puguin utilitzar.
P2: Com inicio un nou projecte a Label Studio?
Creeu un projecte des de la interfície d'usuari, seleccioneu una plantilla que coincideixi amb la vostra tasca i personalitzeu la configuració d'etiquetatge. A continuació, importeu dades (fitxers locals, URL o emmagatzematge al núvol) i assigneu tasques als anotadors.
P3: Quins formats d'exportació admet Label Studio?
Podeu exportar JSON en brut, així com formats com COCO, YOLO, Pascal VOC i CSV/TSV. Algunes eines (com les màscares de pinzell) poden no mapejar-se a tots els formats; consulteu la documentació d'exportació per obtenir més informació.
P4: Com puc accelerar l'etiquetatge a Label Studio?
Utilitzeu pre-anotacions d'un model de referència, apreneu tecles d'accés ràpid i simplifiqueu el vostre esquema d'etiquetes. Executeu rondes de calibratge per reduir la reelaboració i establiu criteris de revisió per detectar errors d'hora.
P5: Puc executar Label Studio amb un equip?
Sí. Assigneu tasques als anotadors, activeu les revisions i utilitzeu el consens per mesurar l'acord. Emmagatzemeu dades i anotacions en backends fiables i automatitzeu les exportacions amb webhooks o l'API.