Hur man använder Label Studio: En komplett guide utan fluff för 2025
Om du utvecklar datorseende, NLP eller multimodal AI kommer du troligen att stöta på samma flaskhals: högkvalitativ märkt data. Label Studio, en plattform med öppen källkod för dataetikettering, ger dig flexibel kontroll över annoteringar av bilder, text, ljud, tidsserier och video utan att låsa dig till en enskild ML-stack. I denna praktiska, steg-för-steg-handledning visar vi dig hur du använder Label Studio – från installation till export – så att du tryggt kan gå från ”tomt projekt” till ”produktionsklara etiketter”.
Vi kommer att följa en praktisk och lösningsorienterad stil: korta steg, tydliga beslut och hjälpsamma tips för att undvika vanliga fallgropar.
Vad du kommer att lära dig
- Hur man installerar och startar Label Studio
- Hur man skapar ditt första projekt och väljer en etikettmall
- Hur man importerar data (lokala filer, molnbuckets, URL:er)
- Hur man konfigurerar etiketteringsgränssnittet för bilder, text, ljud eller video
- Hur man hanterar etiketterare, granskningar och kvalitetssäkring
- Hur man exporterar annoteringar till format som är kompatibla med dina träningspipelines
Värt att notera: Om du orkestrerar forskning med flera modeller eller utarbetar datasetdokumentation kan en AI-copilot som Sider.AI hjälpa till att generera uppgiftsriktlinjer eller autosammanfattningar av annoteringspolicyer för att hålla teamen samordnade. Du kan kolla in den på Sider.ai. Varför Label Studio?
- Flexibelt schema: Definiera anpassad etiketteringskonfiguration för begränsningsrutor, polygoner, nyckelpunkter, textspann, relationer, ljudregioner med mera.
- Brett utbud av datatyper: Bilder, text, ljud, HTML, tidsserier och video.
- Teamarbetsflöden: Tilldela uppgifter, möjliggör konsensus, granska annoteringar och hantera kvalitet.
- Utbyggbart: Integrera med lagringsbackends, webhooks och modellassisterad etikettering.
För officiell översikt och nedladdningar, se Label Studios hemsida.
Steg 1: Installera Label Studio
Du kan köra Label Studio lokalt med Python eller Docker. Välj ett av följande:
Alternativ A: Python (pip)
# Skapa en virtuell miljö (rekommenderas)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
# Installera Label Studio
pip install label-studio
# Starta
label-studio start
Besök sedan den utskrivna lokala URL:en (ofta `).
Alternativ B: Docker
docker run -it -p 8080:8080 heartexlabs/label-studio:latest
Om du är nybörjare på Label Studio är den officiella guiden "Komma igång" koncis och uppdateras regelbundet, och snabbstarten fokuserar på de minimala stegen för att etikettera ett exempeldataset.
Proffstips: För team kan du överväga en hanterad databas (PostgreSQL) och monterad lagring för motståndskraft.
Steg 2: Skapa ett projekt
- Logga in på användargränssnittet och klicka på "Skapa projekt".
- Ge det ett tydligt namn (t.ex. "Retail Shelf Detection v1") och en beskrivning (inkludera datasetversion och syfte).
- Välj "Etiketteringsinställning". Du kan:
- Börja från en mall (t.ex. objektidentifiering, NER, sentiment, ljudregioner)
- Eller skriv en anpassad XML-konfiguration för att skräddarsy verktyg och klasser
Snabbstartsguiden hjälper dig att välja en mall, byta namn på klasser och spara konfigurationen.
Steg 3: Importera din data
Du kan importera data via användargränssnittet eller API:et. Vanliga metoder:
- Ladda upp lokala filer (dra-och-släpp)
- Ange URL:er till fjärrfiler
- Anslut molnlagring (S3, GCS, Azure Blob) via inställningar
- Använd REST API för programmatisk inmatning
Dataposter inkluderar vanligtvis en data-nyttolast som pekar på din tillgång (t.ex. "image": " eller "text": "Detta är en mening."`). Håll filnamnen stabila för att förenkla mappningen under exporten.
Kvalitetstips: Versionshantera ditt dataset och behåll ett manifest över källa → annoteringsexport så att du kan reproducera träningskörningar.
Steg 4: Konfigurera etiketteringsgränssnittet
Etiketteringsgränssnittet definierar verktyg och klasser. Du kommer att se XML-liknande konfiguration där du väljer komponenter som RectangleLabels, PolygonLabels, KeyPointLabels, TextArea, Choices, Audio, TimeSeries osv.
Exempel:
Objektidentifiering av bilder
<View>
<Image name="img" value="$image"/>
<RectangleLabels name="label" toName="img">
<Label value="Product" background="#34D399"/>
<Label value="PriceTag" background="#60A5FA"/>
</RectangleLabels>
</View>
Namngiven entitetsigenkänning av text (NER)
<View>
<Text name="txt" value="$text"/>
<Labels name="label" toName="txt">
<Label value="ORG"/>
<Label value="PERSON"/>
<Label value="LOC"/>
</Labels>
</View>
Etikettering av ljudregioner
<View>
<Audio name="audio" value="$audio"/>
<Labels name="label" toName="audio">
<Label value="Speech"/>
<Label value="Noise"/>
<Label value="Music"/>
</Labels>
</View>
Börja med den mall som ligger närmast din uppgift och iterera. Håll klassnamnen stabila mellan versioner för att underlätta sammanslagningar av dataset.
Steg 5: Bästa metoder för etikettering
- Definiera tydliga riktlinjer: Inkludera exempel på korrekta kontra felaktiga annoteringar och gränsfall.
- Använd snabbtangenter: Träna hastighet och konsistens genom att lära dig tangentbordsgenvägarna för dina verktyg.
- Kalibrera tidigt: Låt 2–3 etiketterare annotera samma 50–100 objekt, jämför resultat och förfina guiden.
- Lägg till förhandsannoteringar: Om du har en baslinjemodell kan du importera förutsägelser för att påskynda korrigeringar.
- Balansera genomströmning och kvalitet: Använd konsensus- eller granskningsköer när insatserna är höga.
Förresten, för att skriva tydliga, konsekventa annoteringsriktlinjer eller omvandla domänkunskap till etiketterarvänliga checklistor kan Sider.AI snabbt utarbeta och förfina instruktioner samtidigt som en ändringslogg som teamen kan följa bevaras. Steg 6: Hantera etiketterare, granskningar och kvalitetssäkring
Label Studio stöder team:
- Tilldela uppgifter till specifika annotatorer
- Möjliggör gransknings-/godkännandearbetsflöden
- Spåra framsteg och etiketterares prestanda
- Använd konsensus (flera annoteringar per uppgift) för att mäta överensstämmelse
Ange explicita godkännandekriterier (t.ex. IoU-tröskel för rutor, span-gränsregler, minsta ljudregionlängd) och upprätthåll dem under granskningen.
Vanliga kvalitetssäkringskontroller:
- Saknade etiketter eller felaktiga klasser
- Inkonsekvent åtdragning av begränsningsrutor
- Överlappande entiteter i NER
- Förändrade definitioner över tid (uppdatera guiden!)
Steg 7: Exportera annoteringar
När din batch är klar exporterar du annoteringar för träning. Label Studio lagrar annoteringar internt i JSON och låter dig exportera till flera format. Se de officiella exportdokumenten för aktuell lista och steg.
Typiska format inkluderar:
- Rå Label Studio JSON (mest komplett och förlustfritt)
- COCO (för identifiering/segmentering)
- YOLO (för objektidentifiering)
- CSV/TSV för enklare uppgifter
Viktiga noteringar:
- Vissa verktyg (t.ex. pensel/segmenteringar) kan inte mappas rent till vissa format – COCO och YOLO kanske inte stöder frihandspenslar direkt. Se communityns vägledning om segmenteringsexportvarningar.
- Konverterare finns för att omvandla Label Studio JSON till YOLO, men luckor kan uppstå beroende på vilket etiketteringsverktyg som används och vilka metadata du behöll.
Praktiskt exportflöde:
- Kör en liten testexport tidigt; validera att ditt träningsskript parsar den.
- Lås din exportförinställning (klassordning, upplösningsantaganden osv.).
- Dokumentera alla konverteringssteg (skript, versionshashar) för reproducerbarhet.
Steg 8: Integrera med din ML-pipeline
- Använd API:et för att hämta slutförda annoteringar till dina träningsjobb.
- Håll delningarna deterministiska: bifoga metadata som
split: train/val/test till uppgifter.
- Versionshantera allt: datasetmanifest, annoteringsexporter, modellkonfigurationer.
- Slut kretsloppet: kör felanalys, identifiera felkluster och schemalägg ometiketteringsrundor.
Arbetsflödesmönster:
- Etiketter en startuppsättning
- Bryt svåra exempel från modellfel
- Ometikettera riktade segment
Denna aktiva inlärningsloop ökar kvaliteten snabbare än brute-force-etikettering.
Felsökning av vanliga problem
- "Min export kan inte läsas in i YOLO/COCO."
- Kontrollera verktygskompatibilitet (t.ex. penslar kontra polygoner). Konvertera till kompatibla former när det är möjligt och läs exportdokumenten och communityns anteckningar.
- "Etiketterna matchar inte min träningsklassordning."
- Åtgärda ordningen tidigt. Standardisera etikettnamn och bevara mappningen i din pipeline.
- "Annotatorer är mycket oense."
- Lägg till kalibreringsrundor, förtydliga regler och överväg konsensus- eller skiljedomssteg.
- Använd förhandsannoteringar, snabbtangenter och verktygsspecifika hastighetsökningar (t.ex. autosegmentering, snäppning). Beskär uppgifter med lågt värde.
En 30-minuters checklista för snabbstart
- Installera Label Studio (pip eller Docker)
- Skapa ett projekt med den mest relevanta mallen
- Importera 50–100 exempelobjekt
- Utarbeta riktlinjer med gränsfall och exempel
- Tilldela två etiketterare för en kalibreringsbatch
- Granska oenigheter och uppdatera regler
- Testa export till din träningskod
För en officiell, koncis genomgång, återbesök "Komma igång" och "Snabbstartsguiden".
Avancerade tips för avancerade användare
- Anpassade widgets: Utöka gränssnittet för domänspecifika verktyg.
- Webhooks: Utlös jobb (t.ex. starta konverteringar eller modellträning) när uppgifter är slutförda.
- Modellassisterad etikettering: Använd förhandsetiketter från dina egna modeller eller molnmodeller för att minska manuellt arbete.
- Datasekretess: Kör lokalt, begränsa exporter och logga åtkomst för reglerade dataset.
- Analys: Spåra fördelning per klass och mätvärden per etiketterare för att upptäcka snedvridning.
Slutsats: Från prototyp till produktionsklara dataset
Label Studio hjälper dig att snabbt gå från koncept till konsekvent träningsdata: välj en mall, definiera ditt schema, kalibrera ditt team och exportera i de format som dina modeller behöver. Håll dina riktlinjer levande, validera exporter tidigt och slut kretsloppet med aktiv inlärning. Med dessa vanor kommer du att spendera mindre tid på att brottas med format och mer tid på att leverera modeller som fungerar.
För djupare dyk och mallar, se:
- Exportformat och varningar
Vanliga frågor
F1: Vad används Label Studio till?
Label Studio är en plattform med öppen källkod för att annotera bilder, text, ljud, tidsserier och video. Den låter dig utforma anpassade etiketteringsgränssnitt och exportera annoteringar till format som dina ML-träningspipelines kan använda.
F2: Hur startar jag ett nytt projekt i Label Studio?
Skapa ett projekt från användargränssnittet, välj en mall som matchar din uppgift och anpassa etiketteringskonfigurationen. Importera sedan data (lokala filer, URL:er eller molnlagring) och tilldela uppgifter till annotatorer.
F3: Vilka exportformat stöder Label Studio?
Du kan exportera rå JSON samt format som COCO, YOLO, Pascal VOC och CSV/TSV. Vissa verktyg (som penselmasker) kanske inte kan mappas till alla format; kontrollera exportdokumenten för mer information.
F4: Hur kan jag påskynda etiketteringen i Label Studio?
Använd förhandsannoteringar från en baslinjemodell, lär dig snabbtangenter och förenkla ditt etikettschema. Kör kalibreringsrundor för att minska omarbete och ställ in granskningskriterier för att fånga upp fel tidigt.
F5: Kan jag köra Label Studio med ett team?
Ja. Tilldela uppgifter till annotatorer, möjliggör granskningar och använd konsensus för att mäta överensstämmelse. Lagra data och annoteringar i tillförlitliga backends och automatisera exporter med webhooks eller API:et.