What is Label Studio used for?

Label Studio is an open‑source platform for annotating images, text, audio, time series, and video. It lets you design custom labeling interfaces and export annotations to formats your ML training pipelines can use.

How do I start a new project in Label Studio?

Create a project from the UI, select a template that matches your task, and customize the labeling config. Then import data (local files, URLs, or cloud storage) and assign tasks to annotators.

Which export formats does Label Studio support?

You can export raw JSON as well as formats like COCO, YOLO, Pascal VOC, and CSV/TSV. Some tools (like brush masks) may not map to all formats; check the export docs for details.

How can I speed up labeling in Label Studio?

Use pre‑annotations from a baseline model, learn hotkeys, and simplify your label schema. Run calibration rounds to reduce rework and set review criteria to catch errors early.

Can I run Label Studio with a team?

Yes. Assign tasks to annotators, enable reviews, and use consensus to measure agreement. Store data and annotations in reliable backends and automate exports with webhooks or the API.

Comment utiliser Label Studio : Un guide complet et sans fioritures pour 2025

Si vous développez de la vision par ordinateur, du NLP ou de l'IA multimodale, vous rencontrerez probablement le même goulot d'étranglement : des données étiquetées de haute qualité. Label Studio, une plateforme open source d'annotation de données, vous offre un contrôle flexible sur les annotations d'images, de texte, d'audio, de séries temporelles et de vidéos sans vous enfermer dans une seule pile ML. Dans ce tutoriel pratique, étape par étape, nous vous montrerons comment utiliser Label Studio, de l'installation à l'exportation, afin que vous puissiez passer d'un "projet vierge" à des "étiquettes prêtes pour la production" en toute confiance.

Nous adopterons un style pratique et axé sur les solutions : étapes courtes, décisions claires et conseils utiles pour éviter les pièges courants.

Ce que vous apprendrez

Comment installer et lancer Label Studio

Comment créer votre premier projet et choisir un modèle d'étiquetage

Comment importer des données (fichiers locaux, buckets cloud, URL)

Comment configurer l'interface d'étiquetage pour les images, le texte, l'audio ou la vidéo

Comment gérer les étiqueteurs, les révisions et l'assurance qualité

Comment exporter les annotations dans des formats compatibles avec vos pipelines d'entraînement

Il est bon de noter : Si vous orchestrez une recherche multi-modèle ou rédigez de la documentation sur les ensembles de données, un copilote IA comme Sider.AI peut vous aider à générer des directives de tâches ou des auto-résumés des politiques d'annotation pour maintenir l'alignement des équipes. Vous pouvez le consulter sur Sider.ai.

Pourquoi Label Studio ?

Schéma flexible : Définissez une configuration d'étiquetage personnalisée pour les boîtes englobantes, les polygones, les points clés, les portions de texte, les relations, les régions audio, et plus encore.

Types de données variés : Images, texte, audio, HTML, séries temporelles et vidéo.

Workflows d'équipe : Attribuez des tâches, activez le consensus, révisez les annotations et gérez la qualité.

Extensible : Intégrez avec des backends de stockage, des webhooks et l'étiquetage assisté par modèle.

Pour une présentation officielle et des téléchargements, consultez la page d'accueil de Label Studio.

Étape 1 : Installer Label Studio

Vous pouvez exécuter Label Studio localement avec Python ou Docker. Choisissez une approche :

Option A : Python (pip)

# Créer un environnement virtuel (recommandé)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
# Installer Label Studio
pip install label-studio
# Lancer
label-studio start

Ensuite, visitez l'URL locale imprimée (souvent ``).

Option B : Docker

docker run -it -p 8080:8080 heartexlabs/label-studio:latest

Si vous êtes novice sur Label Studio, le guide officiel "Démarrage" est concis et régulièrement mis à jour, et le démarrage rapide se concentre sur les étapes minimales pour étiqueter un ensemble de données d'exemple.

Conseil de pro : Pour les équipes, envisagez une base de données gérée (PostgreSQL) et un stockage monté pour la résilience.

Étape 2 : Créer un projet

Connectez-vous à l'interface utilisateur et cliquez sur "Créer un projet".

Donnez-lui un nom clair (par exemple, "Détection d'étagères de vente au détail v1") et une description (incluez la version et le but de l'ensemble de données).

Choisissez "Configuration de l'étiquetage". Vous pouvez :

Partir d'un modèle (par exemple, détection d'objets, NER, sentiment, régions audio)

Ou écrivez une configuration XML personnalisée pour adapter les outils et les classes

L'assistant de démarrage rapide vous aide à choisir un modèle, à renommer les classes et à enregistrer la configuration.

Étape 3 : Importer vos données

Vous pouvez importer des données via l'interface utilisateur ou l'API. Chemins courants :

Télécharger des fichiers locaux (glisser-déposer)

Fournir des URL vers des fichiers distants

Connecter un stockage cloud (S3, GCS, Azure Blob) via les paramètres

Utiliser l'API REST pour l'ingestion programmatique

Les enregistrements de données incluent généralement une charge utile data qui pointe vers votre actif (par exemple, "image": " ou "text": "Ceci est une phrase."`). Conservez des noms de fichiers stables pour simplifier le mappage lors de l'exportation.

Conseil qualité : Versionnez votre ensemble de données et conservez un manifeste de la source → exportation d'annotations afin de pouvoir reproduire les exécutions d'entraînement.

Étape 4 : Configurer l'interface d'étiquetage

L'interface d'étiquetage définit les outils et les classes. Vous verrez une configuration de type XML où vous sélectionnez des composants tels que RectangleLabels, PolygonLabels, KeyPointLabels, TextArea, Choices, Audio, TimeSeries, etc.

Exemples :

Détection d'objets d'image

<View>
<Image name="img" value="$image"/>
<RectangleLabels name="label" toName="img">
<Label value="Product" background="#34D399"/>
<Label value="PriceTag" background="#60A5FA"/>
</RectangleLabels>
</View>

Reconnaissance d'entités nommées (NER) de texte

<View>
<Text name="txt" value="$text"/>
<Labels name="label" toName="txt">
<Label value="ORG"/>
<Label value="PERSON"/>
<Label value="LOC"/>
</Labels>
</View>

Étiquetage de régions audio

<View>
<Audio name="audio" value="$audio"/>
<Labels name="label" toName="audio">
<Label value="Speech"/>
<Label value="Noise"/>
<Label value="Music"/>
</Labels>
</View>

Commencez avec le modèle le plus proche de votre tâche et itérez. Conservez des noms de classes stables d'une version à l'autre pour faciliter la fusion des ensembles de données.

Étape 5 : Meilleures pratiques d'étiquetage

Définir des directives claires : Inclure des exemples d'annotations correctes et incorrectes, ainsi que des cas limites.

Utiliser des raccourcis clavier : Augmenter la vitesse et la cohérence en apprenant les raccourcis clavier pour vos outils.

Calibrer tôt : Demander à 2 à 3 étiqueteurs d'annoter les mêmes 50 à 100 éléments, comparer les résultats et affiner le guide.

Ajouter des pré-annotations : Si vous avez un modèle de base, importez les prédictions pour accélérer les corrections.

Équilibrer débit et qualité : Utiliser le consensus ou les files d'attente de révision lorsque les enjeux sont élevés.

À propos, pour rédiger des directives d'annotation claires et cohérentes ou pour convertir des connaissances du domaine en listes de contrôle conviviales pour les étiqueteurs, Sider.AI peut rédiger et affiner rapidement les instructions tout en conservant un journal des modifications que les équipes peuvent suivre.

Étape 6 : Gérer les étiqueteurs, les révisions et l'assurance qualité

Label Studio prend en charge les équipes :

Attribuer des tâches à des annotateurs spécifiques

Activer les workflows de révision/approbation

Suivre les progrès et les performances des étiqueteurs

Utiliser le consensus (plusieurs annotations par tâche) pour mesurer l'accord

Définir des critères d'acceptation explicites (par exemple, seuil IoU pour les boîtes, règles de limites d'étendue, durée minimale de la région audio) et les appliquer lors de la révision.

Vérifications d'assurance qualité courantes :

Étiquettes manquantes ou classes incorrectes

Étanchéité incohérente des boîtes englobantes

Entités qui se chevauchent dans NER

Dérives de définitions au fil du temps (mettre à jour le guide !)

Étape 7 : Exporter les annotations

Lorsque votre lot est prêt, exportez les annotations pour l'entraînement. Label Studio stocke les annotations en JSON en interne et vous permet d'exporter vers plusieurs formats. Consultez la documentation officielle sur l'exportation pour la liste actuelle et les étapes.

Les formats typiques incluent :

JSON Label Studio brut (le plus complet et sans perte)

COCO (pour la détection/segmentation)

YOLO (pour la détection d'objets)

Pascal VOC

CSV/TSV pour les tâches plus simples

Notes importantes :

Certains outils (par exemple, pinceau/segmentations) ne correspondent pas parfaitement à certains formats - COCO et YOLO peuvent ne pas prendre en charge directement les pinceaux de forme libre. Consultez les conseils de la communauté sur les mises en garde relatives à l'exportation de segmentation.

Des convertisseurs existent pour transformer le JSON Label Studio en YOLO, mais des lacunes peuvent survenir en fonction de l'outil d'étiquetage utilisé et des métadonnées que vous avez conservées.

Flux d'exportation pratique :

Exécutez une petite exportation de test tôt ; validez que votre script d'entraînement l'analyse.

Verrouillez votre préréglage d'exportation (ordre des classes, hypothèses de résolution, etc.).

Documentez toutes les étapes de conversion (scripts, hachages de version) pour la reproductibilité.

Étape 8 : Intégrer à votre pipeline ML

Utilisez l'API pour extraire les annotations terminées dans vos tâches d'entraînement.

Conservez des divisions déterministes : attachez des métadonnées comme split: train/val/test aux tâches.

Versionnez tout : les manifestes d'ensemble de données, les exportations d'annotations, les configurations de modèle.

Fermez la boucle : exécutez une analyse des erreurs, identifiez les clusters d'échec et planifiez des cycles de ré-étiquetage.

Modèle de workflow :

Étiqueter un ensemble de semences

Entraîner un modèle de base

Extraire des exemples difficiles à partir des erreurs du modèle

Ré-étiqueter les tranches ciblées

Répéter

Cette boucle d'apprentissage actif améliore la qualité plus rapidement que l'étiquetage à la force brute.

Dépannage des problèmes courants

"Mon exportation ne se chargera pas dans YOLO/COCO."

Vérifiez la compatibilité des outils (par exemple, pinceaux vs. polygones). Convertissez vers des formes compatibles lorsque cela est possible et consultez les documents d'exportation et les notes de la communauté.

"Les étiquettes ne correspondent pas à l'ordre de ma classe d'entraînement."

Corrigez l'ordre tôt. Normalisez les noms des étiquettes et conservez le mappage dans votre pipeline.

"Les annotateurs sont très en désaccord."

Ajoutez des cycles de calibration, clarifiez les règles et envisagez des étapes de consensus ou d'arbitrage.

"L'annotation est lente."

Utilisez des pré-annotations, des raccourcis clavier et des accélérations spécifiques à l'outil (par exemple, auto-segmentation, alignement). Éliminez les tâches de faible valeur.

Une liste de contrôle de démarrage rapide de 30 minutes

Installer Label Studio (pip ou Docker)

Créer un projet avec le modèle le plus pertinent

Importer 50 à 100 éléments d'échantillon

Rédiger des directives avec des cas limites et des exemples

Attribuer deux étiqueteurs pour un lot de calibration

Examiner les désaccords et mettre à jour les règles

Tester l'exportation dans votre code d'entraînement

Commencer la mise à l'échelle

Pour une présentation officielle et concise, consultez "Démarrage" et le guide "Démarrage rapide".

Conseils avancés pour les utilisateurs expérimentés

Widgets personnalisés : Étendez l'interface pour les outils spécifiques au domaine.

Webhooks : Déclenchez des tâches (par exemple, lancez des conversions ou un entraînement de modèle) lorsque les tâches sont terminées.

Étiquetage assisté par modèle : Utilisez des pré-étiquettes à partir de vos modèles internes ou cloud pour réduire le travail manuel.

Confidentialité des données : Exécutez sur site, limitez les exportations et enregistrez l'accès pour les ensembles de données réglementés.

Analytique : Suivez la distribution par classe et les métriques par étiqueteur pour repérer les biais.

Conclusion : Du prototype aux ensembles de données prêts pour la production

Label Studio vous aide à passer rapidement du concept aux données d'entraînement cohérentes : choisissez un modèle, définissez votre schéma, calibrez votre équipe et exportez dans les formats dont vos modèles ont besoin. Gardez vos directives vivantes, validez les exportations tôt et fermez la boucle avec l'apprentissage actif. Avec ces habitudes, vous passerez moins de temps à vous battre avec les formats et plus de temps à expédier des modèles qui fonctionnent.

Pour des plongées plus profondes et des modèles, voir :

Page d'accueil de Label Studio

Tutoriel de démarrage

Guide de démarrage rapide

Formats d'exportation et mises en garde

FAQ

Q1 : À quoi sert Label Studio ? Label Studio est une plateforme open source pour l'annotation d'images, de texte, d'audio, de séries temporelles et de vidéos. Il vous permet de concevoir des interfaces d'étiquetage personnalisées et d'exporter des annotations dans des formats que vos pipelines d'entraînement ML peuvent utiliser.

Q2 : Comment démarrer un nouveau projet dans Label Studio ? Créez un projet à partir de l'interface utilisateur, sélectionnez un modèle qui correspond à votre tâche et personnalisez la configuration d'étiquetage. Ensuite, importez des données (fichiers locaux, URL ou stockage cloud) et attribuez des tâches aux annotateurs.

Q3 : Quels formats d'exportation Label Studio prend-il en charge ? Vous pouvez exporter du JSON brut ainsi que des formats comme COCO, YOLO, Pascal VOC et CSV/TSV. Certains outils (comme les masques de pinceau) peuvent ne pas correspondre à tous les formats ; consultez les documents d'exportation pour plus de détails.

Q4 : Comment puis-je accélérer l'étiquetage dans Label Studio ? Utilisez des pré-annotations à partir d'un modèle de base, apprenez les raccourcis clavier et simplifiez votre schéma d'étiquette. Exécutez des cycles de calibration pour réduire le retravail et définissez des critères de révision pour détecter les erreurs tôt.

Q5 : Puis-je exécuter Label Studio avec une équipe ? Oui. Attribuez des tâches aux annotateurs, activez les révisions et utilisez le consensus pour mesurer l'accord. Stockez les données et les annotations dans des backends fiables et automatisez les exportations avec des webhooks ou l'API.