Cómo usar Label Studio: Una guía completa y directa para 2025
Si estás desarrollando visión artificial, PNL o IA multimodal, es probable que te encuentres con el mismo cuello de botella: datos etiquetados de alta calidad. Label Studio, una plataforma de etiquetado de datos de código abierto, te brinda un control flexible sobre las anotaciones de imágenes, texto, audio, series de tiempo y video sin limitarte a una sola pila de ML. En este tutorial práctico y paso a paso, te mostraremos cómo usar Label Studio, desde la instalación hasta la exportación, para que puedas pasar de un "proyecto en blanco" a "etiquetas listas para producción" con confianza.
Seguiremos un estilo práctico y orientado a la solución: pasos cortos, decisiones claras y consejos útiles para evitar errores comunes.
Qué aprenderás
- Cómo instalar y ejecutar Label Studio
- Cómo crear tu primer proyecto y elegir una plantilla de etiquetado
- Cómo importar datos (archivos locales, buckets en la nube, URLs)
- Cómo configurar la interfaz de etiquetado para imágenes, texto, audio o video
- Cómo gestionar etiquetadores, revisiones y control de calidad
- Cómo exportar anotaciones a formatos compatibles con tus pipelines de entrenamiento
Vale la pena destacar: si estás orquestando investigación multi-modelo o redactando documentación de conjuntos de datos, un copiloto de IA como Sider.AI puede ayudar a generar guías de tareas o auto-resúmenes de políticas de anotación para mantener a los equipos alineados. Puedes echarle un vistazo en Sider.ai. ¿Por qué Label Studio?
- Esquema flexible: Define configuraciones de etiquetado personalizadas para bounding boxes, polígonos, keypoints, spans de texto, relaciones, regiones de audio y más.
- Amplia variedad de tipos de datos: Imágenes, texto, audio, HTML, series de tiempo y video.
- Flujos de trabajo en equipo: Asigna tareas, habilita el consenso, revisa anotaciones y gestiona la calidad.
- Extensible: Integración con backends de almacenamiento, webhooks y etiquetado asistido por modelos.
Para obtener una descripción general oficial y descargas, consulta la página de inicio de Label Studio.
Paso 1: Instalar Label Studio
Puedes ejecutar Label Studio localmente con Python o Docker. Elige uno de estos enfoques:
Opción A: Python (pip)
# Crear un entorno virtual (recomendado)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
# Instalar Label Studio
pip install label-studio
# Ejecutar
label-studio start
Luego visita la URL local impresa (generalmente `).
Opción B: Docker
docker run -it -p 8080:8080 heartexlabs/label-studio:latest
Si eres nuevo en Label Studio, la guía oficial de "Empezando" es concisa y se actualiza regularmente, y el inicio rápido se centra en los pasos mínimos para etiquetar un conjunto de datos de muestra.
Consejo profesional: Para equipos, considera una base de datos gestionada (PostgreSQL) y almacenamiento montado para mayor resiliencia.
Paso 2: Crear un Proyecto
- Inicia sesión en la interfaz de usuario y haz clic en "Crear Proyecto".
- Dale un nombre claro (por ejemplo, "Detección de estantes de venta al por menor v1") y una descripción (incluye la versión y el propósito del conjunto de datos).
- Elige "Configuración de Etiquetado". Puedes:
- Comenzar desde una plantilla (por ejemplo, detección de objetos, NER, sentimiento, regiones de audio)
- O escribir una configuración XML personalizada para adaptar las herramientas y las clases
El asistente de inicio rápido te ayuda a elegir una plantilla, cambiar el nombre de las clases y guardar la configuración.
Paso 3: Importar tus Datos
Puedes importar datos a través de la interfaz de usuario o la API. Rutas comunes:
- Cargar archivos locales (arrastrar y soltar)
- Proporcionar URLs a archivos remotos
- Conectar almacenamiento en la nube (S3, GCS, Azure Blob) a través de la configuración
- Usar la API REST para la ingestión programática
Los registros de datos generalmente incluyen una carga útil de data que apunta a tu activo (por ejemplo, "image": " o "text": "Esta es una oración."`). Mantén los nombres de archivo estables para simplificar la asignación durante la exportación.
Consejo de calidad: Versiona tu conjunto de datos y mantén un manifiesto de la fuente → exportación de anotaciones para que puedas reproducir las ejecuciones de entrenamiento.
Paso 4: Configurar la Interfaz de Etiquetado
La interfaz de etiquetado define las herramientas y las clases. Verás una configuración similar a XML donde seleccionas componentes como RectangleLabels, PolygonLabels, KeyPointLabels, TextArea, Choices, Audio, TimeSeries, etc.
Ejemplos:
Detección de Objetos en Imágenes
<View>
<Image name="img" value="$image"/>
<RectangleLabels name="label" toName="img">
<Label value="Product" background="#34D399"/>
<Label value="PriceTag" background="#60A5FA"/>
</RectangleLabels>
</View>
Reconocimiento de Entidades Nombradas (NER) en Texto
<View>
<Text name="txt" value="$text"/>
<Labels name="label" toName="txt">
<Label value="ORG"/>
<Label value="PERSON"/>
<Label value="LOC"/>
</Labels>
</View>
Etiquetado de Regiones de Audio
<View>
<Audio name="audio" value="$audio"/>
<Labels name="label" toName="audio">
<Label value="Speech"/>
<Label value="Noise"/>
<Label value="Music"/>
</Labels>
</View>
Comienza con la plantilla más cercana a tu tarea e itera. Mantén los nombres de clase estables entre las versiones para facilitar la fusión de conjuntos de datos.
Paso 5: Mejores Prácticas de Etiquetado
- Define pautas claras: Incluye ejemplos de anotaciones correctas e incorrectas y casos límite.
- Usa atajos de teclado: Aumenta la velocidad y la consistencia aprendiendo los atajos de teclado para tus herramientas.
- Calibra temprano: Haz que 2 o 3 etiquetadores anoten los mismos 50-100 elementos, compara los resultados y refina la guía.
- Añade pre-anotaciones: Si tienes un modelo de referencia, importa las predicciones para acelerar las correcciones.
- Equilibra el rendimiento y la calidad: Usa el consenso o las colas de revisión cuando haya mucho en juego.
Por cierto, para escribir directrices de anotación nítidas y coherentes o para convertir el conocimiento del dominio en listas de comprobación fáciles de usar para los etiquetadores, Sider.AI puede redactar y perfeccionar las instrucciones rápidamente, al tiempo que mantiene un registro de cambios que los equipos pueden seguir. Paso 6: Gestionar Etiquetadores, Revisiones y Control de Calidad
Label Studio soporta equipos:
- Asigna tareas a anotadores específicos
- Habilita flujos de trabajo de revisión/aprobación
- Realiza un seguimiento del progreso y del rendimiento del etiquetador
- Usa el consenso (múltiples anotaciones por tarea) para medir el acuerdo
Establece criterios de aceptación explícitos (por ejemplo, umbral de IoU para cuadros, reglas de límite de span, duración mínima de la región de audio) y aplícalos durante la revisión.
Comprobaciones de control de calidad comunes:
- Etiquetas faltantes o clases incorrectas
- Ajuste inconsistente del bounding box
- Entidades superpuestas en NER
- Definiciones que cambian con el tiempo (¡actualiza la guía!)
Paso 7: Exportar Anotaciones
Cuando tu lote esté listo, exporta las anotaciones para el entrenamiento. Label Studio almacena las anotaciones internamente en JSON y te permite exportar a múltiples formatos. Consulta la documentación oficial de exportación para obtener la lista y los pasos actuales.
Los formatos típicos incluyen:
- JSON sin procesar de Label Studio (más completo y sin pérdidas)
- COCO (para detección/segmentación)
- YOLO (para detección de objetos)
- CSV/TSV para tareas más sencillas
Notas importantes:
- Algunas herramientas (por ejemplo, pincel/segmentaciones) no se asignan limpiamente a ciertos formatos; COCO y YOLO pueden no ser compatibles directamente con los pinceles de forma libre. Consulta la guía de la comunidad sobre las advertencias de la exportación de segmentación.
- Existen convertidores para transformar JSON de Label Studio a YOLO, pero pueden producirse lagunas dependiendo de la herramienta de etiquetado utilizada y de los metadatos que hayas conservado.
Flujo de exportación práctico:
- Ejecuta una pequeña exportación de prueba al principio; valida que tu script de entrenamiento la analice.
- Bloquea tu preajuste de exportación (orden de las clases, supuestos de resolución, etc.).
- Documenta cualquier paso de conversión (scripts, hashes de versión) para la reproducibilidad.
Paso 8: Integrar Con Tu Pipeline de ML
- Utiliza la API para extraer las anotaciones completadas en tus trabajos de entrenamiento.
- Mantén las divisiones deterministas: adjunta metadatos como
split: train/val/test a las tareas.
- Versiona todo: manifiestos del conjunto de datos, exportaciones de anotaciones, configuraciones del modelo.
- Cierra el círculo: ejecuta el análisis de errores, identifica los clústeres de fallos y programa rondas de reetiquetado.
Patrón de flujo de trabajo:
- Etiqueta un conjunto semilla
- Entrena un modelo de referencia
- Extrae ejemplos difíciles de los errores del modelo
- Reetiqueta las secciones específicas
Este bucle de aprendizaje activo aumenta la calidad más rápido que el etiquetado por fuerza bruta.
Solución de Problemas Comunes
- "Mi exportación no se carga en YOLO/COCO."
- Comprueba la compatibilidad de las herramientas (por ejemplo, pinceles frente a polígonos). Convierte a formas compatibles cuando sea posible y consulta los documentos de exportación y las notas de la comunidad.
- "Las etiquetas no coinciden con el orden de mis clases de entrenamiento."
- Corrige el orden al principio. Estandariza los nombres de las etiquetas y conserva la asignación en tu pipeline.
- "Los anotadores no están de acuerdo mucho."
- Añade rondas de calibración, aclara las reglas y considera los pasos de consenso o arbitraje.
- Utiliza pre-anotaciones, atajos de teclado y aceleraciones específicas de la herramienta (por ejemplo, auto-segmentación, ajuste). Elimina las tareas de bajo valor.
Una lista de verificación de inicio rápido de 30 minutos
- Instala Label Studio (pip o Docker)
- Crea un proyecto con la plantilla más relevante
- Importa 50-100 elementos de muestra
- Redacta directrices con casos límite y ejemplos
- Asigna dos etiquetadores para un lote de calibración
- Revisa los desacuerdos y actualiza las reglas
- Prueba la exportación en tu código de entrenamiento
Para obtener un tutorial oficial y conciso, revisa "Empezando" y la guía de "Inicio Rápido".
Consejos Avanzados para Usuarios Expertos
- Widgets personalizados: Amplía la interfaz para herramientas específicas del dominio.
- Webhooks: Activa trabajos (por ejemplo, inicia conversiones o entrenamiento de modelos) cuando se completen las tareas.
- Etiquetado asistido por modelos: Utiliza pre-etiquetas de tus modelos internos o en la nube para reducir el trabajo manual.
- Privacidad de los datos: Ejecuta en las instalaciones, restringe las exportaciones y registra el acceso para los conjuntos de datos regulados.
- Análisis: Realiza un seguimiento de la distribución por clase y de las métricas por etiquetador para detectar sesgos.
Conclusión: Del Prototipo a los Conjuntos de Datos Listos para la Producción
Label Studio te ayuda a pasar rápidamente del concepto a los datos de entrenamiento consistentes: elige una plantilla, define tu esquema, calibra a tu equipo y exporta en los formatos que necesitan tus modelos. Mantén tus directrices actualizadas, valida las exportaciones al principio y cierra el círculo con el aprendizaje activo. Con estos hábitos, pasarás menos tiempo luchando con los formatos y más tiempo enviando modelos que funcionan.
Para inmersiones más profundas y plantillas, consulta:
- Página de inicio de Label Studio
- Formatos de exportación y advertencias
Preguntas frecuentes
P1: ¿Para qué se utiliza Label Studio?
Label Studio es una plataforma de código abierto para anotar imágenes, texto, audio, series de tiempo y video. Te permite diseñar interfaces de etiquetado personalizadas y exportar anotaciones a formatos que tus pipelines de entrenamiento de ML puedan utilizar.
P2: ¿Cómo inicio un nuevo proyecto en Label Studio?
Crea un proyecto desde la interfaz de usuario, selecciona una plantilla que coincida con tu tarea y personaliza la configuración de etiquetado. Luego importa datos (archivos locales, URLs o almacenamiento en la nube) y asigna tareas a los anotadores.
P3: ¿Qué formatos de exportación soporta Label Studio?
Puedes exportar JSON sin procesar, así como formatos como COCO, YOLO, Pascal VOC y CSV/TSV. Algunas herramientas (como las máscaras de pincel) pueden no asignarse a todos los formatos; consulta los documentos de exportación para obtener más detalles.
P4: ¿Cómo puedo acelerar el etiquetado en Label Studio?
Utiliza pre-anotaciones de un modelo de referencia, aprende los atajos de teclado y simplifica tu esquema de etiquetas. Realiza rondas de calibración para reducir el trabajo de revisión y establece criterios de revisión para detectar errores al principio.
P5: ¿Puedo ejecutar Label Studio con un equipo?
Sí. Asigna tareas a los anotadores, habilita las revisiones y utiliza el consenso para medir el acuerdo. Almacena los datos y las anotaciones en backends fiables y automatiza las exportaciones con webhooks o la API.