Comment utiliser Label Studio : Un guide complet et sans fioritures pour 2025
Si vous développez de la vision par ordinateur, du NLP ou de l'IA multimodale, vous rencontrerez probablement le même goulot d'étranglement : des données étiquetées de haute qualité. Label Studio, une plateforme open source d'annotation de données, vous offre un contrôle flexible sur les annotations d'images, de texte, d'audio, de séries temporelles et de vidéos sans vous enfermer dans une seule pile ML. Dans ce tutoriel pratique, étape par étape, nous vous montrerons comment utiliser Label Studio, de l'installation à l'exportation, afin que vous puissiez passer d'un "projet vierge" à des "étiquettes prêtes pour la production" en toute confiance.
Nous adopterons un style pratique et axé sur les solutions : étapes courtes, décisions claires et conseils utiles pour éviter les pièges courants.
Ce que vous apprendrez
- Comment installer et lancer Label Studio
- Comment créer votre premier projet et choisir un modèle d'étiquetage
- Comment importer des données (fichiers locaux, buckets cloud, URL)
- Comment configurer l'interface d'étiquetage pour les images, le texte, l'audio ou la vidéo
- Comment gérer les étiqueteurs, les révisions et l'assurance qualité
- Comment exporter les annotations dans des formats compatibles avec vos pipelines d'entraînement
Il est bon de noter : Si vous orchestrez une recherche multi-modèle ou rédigez de la documentation sur les ensembles de données, un copilote IA comme Sider.AI peut vous aider à générer des directives de tâches ou des auto-résumés des politiques d'annotation pour maintenir l'alignement des équipes. Vous pouvez le consulter sur Sider.ai. Pourquoi Label Studio ?
- Schéma flexible : Définissez une configuration d'étiquetage personnalisée pour les boîtes englobantes, les polygones, les points clés, les portions de texte, les relations, les régions audio, et plus encore.
- Types de données variés : Images, texte, audio, HTML, séries temporelles et vidéo.
- Workflows d'équipe : Attribuez des tâches, activez le consensus, révisez les annotations et gérez la qualité.
- Extensible : Intégrez avec des backends de stockage, des webhooks et l'étiquetage assisté par modèle.
Pour une présentation officielle et des téléchargements, consultez la page d'accueil de Label Studio.
Étape 1 : Installer Label Studio
Vous pouvez exécuter Label Studio localement avec Python ou Docker. Choisissez une approche :
Option A : Python (pip)
# Créer un environnement virtuel (recommandé)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
# Installer Label Studio
pip install label-studio
# Lancer
label-studio start
Ensuite, visitez l'URL locale imprimée (souvent ``).
Option B : Docker
docker run -it -p 8080:8080 heartexlabs/label-studio:latest
Si vous êtes novice sur Label Studio, le guide officiel "Démarrage" est concis et régulièrement mis à jour, et le démarrage rapide se concentre sur les étapes minimales pour étiqueter un ensemble de données d'exemple.
Conseil de pro : Pour les équipes, envisagez une base de données gérée (PostgreSQL) et un stockage monté pour la résilience.
Étape 2 : Créer un projet
- Connectez-vous à l'interface utilisateur et cliquez sur "Créer un projet".
- Donnez-lui un nom clair (par exemple, "Détection d'étagères de vente au détail v1") et une description (incluez la version et le but de l'ensemble de données).
- Choisissez "Configuration de l'étiquetage". Vous pouvez :
- Partir d'un modèle (par exemple, détection d'objets, NER, sentiment, régions audio)
- Ou écrivez une configuration XML personnalisée pour adapter les outils et les classes
L'assistant de démarrage rapide vous aide à choisir un modèle, à renommer les classes et à enregistrer la configuration.
Étape 3 : Importer vos données
Vous pouvez importer des données via l'interface utilisateur ou l'API. Chemins courants :
- Télécharger des fichiers locaux (glisser-déposer)
- Fournir des URL vers des fichiers distants
- Connecter un stockage cloud (S3, GCS, Azure Blob) via les paramètres
- Utiliser l'API REST pour l'ingestion programmatique
Les enregistrements de données incluent généralement une charge utile data qui pointe vers votre actif (par exemple, "image": " ou "text": "Ceci est une phrase."`). Conservez des noms de fichiers stables pour simplifier le mappage lors de l'exportation.
Conseil qualité : Versionnez votre ensemble de données et conservez un manifeste de la source → exportation d'annotations afin de pouvoir reproduire les exécutions d'entraînement.
Étape 4 : Configurer l'interface d'étiquetage
L'interface d'étiquetage définit les outils et les classes. Vous verrez une configuration de type XML où vous sélectionnez des composants tels que RectangleLabels, PolygonLabels, KeyPointLabels, TextArea, Choices, Audio, TimeSeries, etc.
Exemples :
Détection d'objets d'image
<View>
<Image name="img" value="$image"/>
<RectangleLabels name="label" toName="img">
<Label value="Product" background="#34D399"/>
<Label value="PriceTag" background="#60A5FA"/>
</RectangleLabels>
</View>
Reconnaissance d'entités nommées (NER) de texte
<View>
<Text name="txt" value="$text"/>
<Labels name="label" toName="txt">
<Label value="ORG"/>
<Label value="PERSON"/>
<Label value="LOC"/>
</Labels>
</View>
Étiquetage de régions audio
<View>
<Audio name="audio" value="$audio"/>
<Labels name="label" toName="audio">
<Label value="Speech"/>
<Label value="Noise"/>
<Label value="Music"/>
</Labels>
</View>
Commencez avec le modèle le plus proche de votre tâche et itérez. Conservez des noms de classes stables d'une version à l'autre pour faciliter la fusion des ensembles de données.
Étape 5 : Meilleures pratiques d'étiquetage
- Définir des directives claires : Inclure des exemples d'annotations correctes et incorrectes, ainsi que des cas limites.
- Utiliser des raccourcis clavier : Augmenter la vitesse et la cohérence en apprenant les raccourcis clavier pour vos outils.
- Calibrer tôt : Demander à 2 à 3 étiqueteurs d'annoter les mêmes 50 à 100 éléments, comparer les résultats et affiner le guide.
- Ajouter des pré-annotations : Si vous avez un modèle de base, importez les prédictions pour accélérer les corrections.
- Équilibrer débit et qualité : Utiliser le consensus ou les files d'attente de révision lorsque les enjeux sont élevés.
À propos, pour rédiger des directives d'annotation claires et cohérentes ou pour convertir des connaissances du domaine en listes de contrôle conviviales pour les étiqueteurs, Sider.AI peut rédiger et affiner rapidement les instructions tout en conservant un journal des modifications que les équipes peuvent suivre. Étape 6 : Gérer les étiqueteurs, les révisions et l'assurance qualité
Label Studio prend en charge les équipes :
- Attribuer des tâches à des annotateurs spécifiques
- Activer les workflows de révision/approbation
- Suivre les progrès et les performances des étiqueteurs
- Utiliser le consensus (plusieurs annotations par tâche) pour mesurer l'accord
Définir des critères d'acceptation explicites (par exemple, seuil IoU pour les boîtes, règles de limites d'étendue, durée minimale de la région audio) et les appliquer lors de la révision.
Vérifications d'assurance qualité courantes :
- Étiquettes manquantes ou classes incorrectes
- Étanchéité incohérente des boîtes englobantes
- Entités qui se chevauchent dans NER
- Dérives de définitions au fil du temps (mettre à jour le guide !)
Étape 7 : Exporter les annotations
Lorsque votre lot est prêt, exportez les annotations pour l'entraînement. Label Studio stocke les annotations en JSON en interne et vous permet d'exporter vers plusieurs formats. Consultez la documentation officielle sur l'exportation pour la liste actuelle et les étapes.
Les formats typiques incluent :
- JSON Label Studio brut (le plus complet et sans perte)
- COCO (pour la détection/segmentation)
- YOLO (pour la détection d'objets)
- CSV/TSV pour les tâches plus simples
Notes importantes :
- Certains outils (par exemple, pinceau/segmentations) ne correspondent pas parfaitement à certains formats - COCO et YOLO peuvent ne pas prendre en charge directement les pinceaux de forme libre. Consultez les conseils de la communauté sur les mises en garde relatives à l'exportation de segmentation.
- Des convertisseurs existent pour transformer le JSON Label Studio en YOLO, mais des lacunes peuvent survenir en fonction de l'outil d'étiquetage utilisé et des métadonnées que vous avez conservées.
Flux d'exportation pratique :
- Exécutez une petite exportation de test tôt ; validez que votre script d'entraînement l'analyse.
- Verrouillez votre préréglage d'exportation (ordre des classes, hypothèses de résolution, etc.).
- Documentez toutes les étapes de conversion (scripts, hachages de version) pour la reproductibilité.
Étape 8 : Intégrer à votre pipeline ML
- Utilisez l'API pour extraire les annotations terminées dans vos tâches d'entraînement.
- Conservez des divisions déterministes : attachez des métadonnées comme
split: train/val/test aux tâches.
- Versionnez tout : les manifestes d'ensemble de données, les exportations d'annotations, les configurations de modèle.
- Fermez la boucle : exécutez une analyse des erreurs, identifiez les clusters d'échec et planifiez des cycles de ré-étiquetage.
Modèle de workflow :
- Étiqueter un ensemble de semences
- Entraîner un modèle de base
- Extraire des exemples difficiles à partir des erreurs du modèle
- Ré-étiqueter les tranches ciblées
Cette boucle d'apprentissage actif améliore la qualité plus rapidement que l'étiquetage à la force brute.
Dépannage des problèmes courants
- "Mon exportation ne se chargera pas dans YOLO/COCO."
- Vérifiez la compatibilité des outils (par exemple, pinceaux vs. polygones). Convertissez vers des formes compatibles lorsque cela est possible et consultez les documents d'exportation et les notes de la communauté.
- "Les étiquettes ne correspondent pas à l'ordre de ma classe d'entraînement."
- Corrigez l'ordre tôt. Normalisez les noms des étiquettes et conservez le mappage dans votre pipeline.
- "Les annotateurs sont très en désaccord."
- Ajoutez des cycles de calibration, clarifiez les règles et envisagez des étapes de consensus ou d'arbitrage.
- "L'annotation est lente."
- Utilisez des pré-annotations, des raccourcis clavier et des accélérations spécifiques à l'outil (par exemple, auto-segmentation, alignement). Éliminez les tâches de faible valeur.
Une liste de contrôle de démarrage rapide de 30 minutes
- Installer Label Studio (pip ou Docker)
- Créer un projet avec le modèle le plus pertinent
- Importer 50 à 100 éléments d'échantillon
- Rédiger des directives avec des cas limites et des exemples
- Attribuer deux étiqueteurs pour un lot de calibration
- Examiner les désaccords et mettre à jour les règles
- Tester l'exportation dans votre code d'entraînement
- Commencer la mise à l'échelle
Pour une présentation officielle et concise, consultez "Démarrage" et le guide "Démarrage rapide".
Conseils avancés pour les utilisateurs expérimentés
- Widgets personnalisés : Étendez l'interface pour les outils spécifiques au domaine.
- Webhooks : Déclenchez des tâches (par exemple, lancez des conversions ou un entraînement de modèle) lorsque les tâches sont terminées.
- Étiquetage assisté par modèle : Utilisez des pré-étiquettes à partir de vos modèles internes ou cloud pour réduire le travail manuel.
- Confidentialité des données : Exécutez sur site, limitez les exportations et enregistrez l'accès pour les ensembles de données réglementés.
- Analytique : Suivez la distribution par classe et les métriques par étiqueteur pour repérer les biais.
Conclusion : Du prototype aux ensembles de données prêts pour la production
Label Studio vous aide à passer rapidement du concept aux données d'entraînement cohérentes : choisissez un modèle, définissez votre schéma, calibrez votre équipe et exportez dans les formats dont vos modèles ont besoin. Gardez vos directives vivantes, validez les exportations tôt et fermez la boucle avec l'apprentissage actif. Avec ces habitudes, vous passerez moins de temps à vous battre avec les formats et plus de temps à expédier des modèles qui fonctionnent.
Pour des plongées plus profondes et des modèles, voir :
- Page d'accueil de Label Studio
- Guide de démarrage rapide
- Formats d'exportation et mises en garde
FAQ
Q1 : À quoi sert Label Studio ?
Label Studio est une plateforme open source pour l'annotation d'images, de texte, d'audio, de séries temporelles et de vidéos. Il vous permet de concevoir des interfaces d'étiquetage personnalisées et d'exporter des annotations dans des formats que vos pipelines d'entraînement ML peuvent utiliser.
Q2 : Comment démarrer un nouveau projet dans Label Studio ?
Créez un projet à partir de l'interface utilisateur, sélectionnez un modèle qui correspond à votre tâche et personnalisez la configuration d'étiquetage. Ensuite, importez des données (fichiers locaux, URL ou stockage cloud) et attribuez des tâches aux annotateurs.
Q3 : Quels formats d'exportation Label Studio prend-il en charge ?
Vous pouvez exporter du JSON brut ainsi que des formats comme COCO, YOLO, Pascal VOC et CSV/TSV. Certains outils (comme les masques de pinceau) peuvent ne pas correspondre à tous les formats ; consultez les documents d'exportation pour plus de détails.
Q4 : Comment puis-je accélérer l'étiquetage dans Label Studio ?
Utilisez des pré-annotations à partir d'un modèle de base, apprenez les raccourcis clavier et simplifiez votre schéma d'étiquette. Exécutez des cycles de calibration pour réduire le retravail et définissez des critères de révision pour détecter les erreurs tôt.
Q5 : Puis-je exécuter Label Studio avec une équipe ?
Oui. Attribuez des tâches aux annotateurs, activez les révisions et utilisez le consensus pour mesurer l'accord. Stockez les données et les annotations dans des backends fiables et automatisez les exportations avec des webhooks ou l'API.