What is Label Studio used for?

Label Studio is an open‑source platform for annotating images, text, audio, time series, and video. It lets you design custom labeling interfaces and export annotations to formats your ML training pipelines can use.

How do I start a new project in Label Studio?

Create a project from the UI, select a template that matches your task, and customize the labeling config. Then import data (local files, URLs, or cloud storage) and assign tasks to annotators.

Which export formats does Label Studio support?

You can export raw JSON as well as formats like COCO, YOLO, Pascal VOC, and CSV/TSV. Some tools (like brush masks) may not map to all formats; check the export docs for details.

How can I speed up labeling in Label Studio?

Use pre‑annotations from a baseline model, learn hotkeys, and simplify your label schema. Run calibration rounds to reduce rework and set review criteria to catch errors early.

Can I run Label Studio with a team?

Yes. Assign tasks to annotators, enable reviews, and use consensus to measure agreement. Store data and annotations in reliable backends and automate exports with webhooks or the API.

Como Usar o Label Studio: Um Guia Completo e Direto ao Ponto para 2025

Se você está desenvolvendo visão computacional, PNL ou IA multimodal, provavelmente enfrentará o mesmo gargalo: dados rotulados de alta qualidade. O Label Studio, uma plataforma de rotulagem de dados de código aberto, oferece controle flexível sobre anotações de imagem, texto, áudio, séries temporais e vídeo, sem prendê-lo a uma única pilha de ML. Neste tutorial prático e passo a passo, mostraremos como usar o Label Studio — da instalação à exportação — para que você possa passar de um “projeto em branco” a “rótulos prontos para produção” com confiança.

Seguiremos um estilo prático e orientado a soluções: passos curtos, decisões claras e dicas úteis para evitar armadilhas comuns.

O Que Você Aprenderá

Como instalar e iniciar o Label Studio

Como criar seu primeiro projeto e escolher um modelo de rotulagem

Como importar dados (arquivos locais, buckets na nuvem, URLs)

Como configurar a interface de rotulagem para imagens, texto, áudio ou vídeo

Como gerenciar rotuladores, revisões e garantia de qualidade

Como exportar anotações para formatos compatíveis com seus pipelines de treinamento

Vale a pena notar: Se você está orquestrando pesquisa multi-modelo ou redigindo documentação de conjunto de dados, um copiloto de IA como Sider.AI pode ajudar a gerar diretrizes de tarefas ou auto-resumos de políticas de anotação para manter as equipes alinhadas. Você pode conferir em Sider.ai.

Por Que Label Studio?

Esquema flexível: Defina configurações de rotulagem personalizadas para caixas delimitadoras, polígonos, pontos-chave, extensões de texto, relações, regiões de áudio e muito mais.

Ampla variedade de tipos de dados: Imagens, texto, áudio, HTML, séries temporais e vídeo.

Fluxos de trabalho em equipe: Atribua tarefas, habilite consenso, revise anotações e gerencie a qualidade.

Extensível: Integre com backends de armazenamento, webhooks e rotulagem assistida por modelo.

Para uma visão geral oficial e downloads, consulte a página inicial do Label Studio.

Passo 1: Instale o Label Studio

Você pode executar o Label Studio localmente com Python ou Docker. Escolha uma abordagem:

Opção A: Python (pip)

# Crie um ambiente virtual (recomendado)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
# Instale o Label Studio
pip install label-studio
# Inicie
label-studio start

Em seguida, visite o URL local impresso (geralmente ``).

Opção B: Docker

docker run -it -p 8080:8080 heartexlabs/label-studio:latest

Se você é novo no Label Studio, o guia oficial “Começando” é conciso e atualizado regularmente, e o início rápido se concentra nas etapas mínimas para rotular um conjunto de dados de amostra.

Dica profissional: Para equipes, considere um banco de dados gerenciado (PostgreSQL) e armazenamento montado para resiliência.

Passo 2: Crie um Projeto

Faça login na interface do usuário e clique em “Criar Projeto”.

Dê a ele um nome claro (por exemplo, “Detecção de Prateleiras de Varejo v1”) e uma descrição (inclua a versão e o propósito do conjunto de dados).

Escolha “Configuração de Rotulagem”. Você pode:

Começar a partir de um modelo (por exemplo, detecção de objetos, NER, sentimento, regiões de áudio)

Ou escrever uma configuração XML personalizada para adaptar ferramentas e classes

O assistente de início rápido ajuda você a escolher um modelo, renomear classes e salvar a configuração.

Passo 3: Importe Seus Dados

Você pode importar dados através da interface do usuário ou da API. Caminhos comuns:

Carregar arquivos locais (arrastar e soltar)

Fornecer URLs para arquivos remotos

Conectar armazenamento na nuvem (S3, GCS, Azure Blob) através das configurações

Usar a API REST para ingestão programática

Os registros de dados geralmente incluem um payload de data que aponta para seu ativo (por exemplo, "image": " ou "text": "Esta é uma frase."`). Mantenha os nomes de arquivos estáveis para simplificar o mapeamento durante a exportação.

Dica de qualidade: Versionar seu conjunto de dados e manter um manifesto de fonte → exportação de anotação para que você possa reproduzir execuções de treinamento.

Passo 4: Configure a Interface de Rotulagem

A interface de rotulagem define ferramentas e classes. Você verá uma configuração semelhante a XML onde você seleciona componentes como RectangleLabels, PolygonLabels, KeyPointLabels, TextArea, Choices, Audio, TimeSeries, etc.

Exemplos:

Detecção de Objetos em Imagens

<View>
<Image name="img" value="$image"/>
<RectangleLabels name="label" toName="img">
<Label value="Product" background="#34D399"/>
<Label value="PriceTag" background="#60A5FA"/>
</RectangleLabels>
</View>

Reconhecimento de Entidades Nomeadas (NER) em Texto

<View>
<Text name="txt" value="$text"/>
<Labels name="label" toName="txt">
<Label value="ORG"/>
<Label value="PERSON"/>
<Label value="LOC"/>
</Labels>
</View>

Rotulagem de Regiões de Áudio

<View>
<Audio name="audio" value="$audio"/>
<Labels name="label" toName="audio">
<Label value="Speech"/>
<Label value="Noise"/>
<Label value="Music"/>
</Labels>
</View>

Comece com o modelo mais próximo da sua tarefa e itere. Mantenha os nomes das classes estáveis entre as versões para facilitar a mesclagem de conjuntos de dados.

Passo 5: Melhores Práticas de Rotulagem

Defina diretrizes claras: Inclua exemplos de anotações corretas vs. incorretas e casos extremos.

Use hotkeys: Aumente a velocidade e a consistência aprendendo os atalhos de teclado para suas ferramentas.

Calibre cedo: Peça a 2–3 rotuladores para anotar os mesmos 50–100 itens, compare os resultados e refine o guia.

Adicione pré-anotações: Se você tiver um modelo de linha de base, importe as previsões para acelerar as correções.

Equilibre rendimento e qualidade: Use consenso ou filas de revisão quando as apostas forem altas.

A propósito, para escrever diretrizes de anotação claras e consistentes ou converter conhecimento de domínio em listas de verificação amigáveis para o rotulador, Sider.AI pode redigir e refinar instruções rapidamente, mantendo um changelog que as equipes podem seguir.

Passo 6: Gerencie Rotuladores, Revisões e QA

O Label Studio suporta equipes:

Atribua tarefas a anotadores específicos

Habilite fluxos de trabalho de revisão/aprovação

Acompanhe o progresso e o desempenho do rotulador

Use o consenso (várias anotações por tarefa) para medir a concordância

Defina critérios de aceitação explícitos (por exemplo, limite de IoU para caixas, regras de limite de extensão, duração mínima da região de áudio) e aplique-os durante a revisão.

Verificações de QA comuns:

Rótulos ausentes ou classes erradas

Ajuste inconsistente da caixa delimitadora

Entidades sobrepostas em NER

Desvio de definições ao longo do tempo (atualize o guia!)

Passo 7: Exporte Anotações

Quando seu lote estiver pronto, exporte as anotações para o treinamento. O Label Studio armazena anotações em JSON internamente e permite que você exporte para vários formatos. Consulte a documentação oficial de exportação para a lista atual e as etapas.

Formatos típicos incluem:

JSON bruto do Label Studio (mais completo e sem perdas)

COCO (para detecção/segmentação)

YOLO (para detecção de objetos)

Pascal VOC

CSV/TSV para tarefas mais simples

Notas importantes:

Algumas ferramentas (por exemplo, pincel/segmentações) não mapeiam de forma limpa para certos formatos — COCO e YOLO podem não suportar pincéis de forma livre diretamente. Consulte a orientação da comunidade sobre ressalvas de exportação de segmentação.

Existem conversores para transformar o JSON do Label Studio para YOLO, mas podem ocorrer lacunas dependendo da ferramenta de rotulagem usada e dos metadados que você reteve.

Fluxo de exportação prático:

Execute uma pequena exportação de teste no início; valide se seu script de treinamento a analisa.

Bloqueie sua predefinição de exportação (ordem de classe, suposições de resolução, etc.).

Documente quaisquer etapas de conversão (scripts, hashes de versão) para reprodutibilidade.

Passo 8: Integre Com Seu Pipeline de ML

Use a API para extrair anotações concluídas para seus trabalhos de treinamento.

Mantenha as divisões determinísticas: anexe metadados como split: train/val/test às tarefas.

Versionar tudo: manifestos de conjunto de dados, exportações de anotação, configurações de modelo.

Feche o loop: execute a análise de erros, identifique clusters de falha e agende rodadas de re-rotulagem.

Padrão de fluxo de trabalho:

Rotule um conjunto inicial

Treine um modelo de linha de base

Extraia exemplos difíceis de erros do modelo

Re-rotule fatias direcionadas

Repita

Este loop de aprendizado ativo aumenta a qualidade mais rapidamente do que a rotulagem de força bruta.

Solução de Problemas Comuns

“Minha exportação não carrega no YOLO/COCO.”

Verifique a compatibilidade da ferramenta (por exemplo, pincéis vs. polígonos). Converta para formas compatíveis quando possível e consulte os documentos de exportação e as notas da comunidade.

“Os rótulos não correspondem à minha ordem de classe de treinamento.”

Corrija a ordem cedo. Padronize os nomes dos rótulos e preserve o mapeamento em seu pipeline.

“Os anotadores discordam muito.”

Adicione rodadas de calibração, esclareça as regras e considere etapas de consenso ou arbitragem.

“A anotação está lenta.”

Use pré-anotações, hotkeys e acelerações específicas da ferramenta (por exemplo, auto-segmentação, snapping). Elimine tarefas de baixo valor.

Uma Lista de Verificação de Início Rápido de 30 Minutos

Instale o Label Studio (pip ou Docker)

Crie um projeto com o modelo mais relevante

Importe 50–100 itens de amostra

Redija diretrizes com casos extremos e exemplos

Atribua dois rotuladores para um lote de calibração

Revise as discordâncias e atualize as regras

Teste a exportação em seu código de treinamento

Comece a escalar

Para um passo a passo oficial e conciso, revise “Começando” e o guia “Início Rápido”.

Dicas Avançadas para Usuários Avançados

Widgets personalizados: Estenda a interface para ferramentas específicas do domínio.

Webhooks: Acione trabalhos (por exemplo, inicie conversões ou treinamento de modelo) quando as tarefas forem concluídas.

Rotulagem assistida por modelo: Use pré-rótulos de seus modelos internos ou na nuvem para reduzir o trabalho manual.

Privacidade de dados: Execute on-prem, restrinja as exportações e registre o acesso para conjuntos de dados regulamentados.

Análise: Acompanhe a distribuição por classe e as métricas por rotulador para identificar distorções.

Conclusão: Do Protótipo a Conjuntos de Dados Prontos para Produção

O Label Studio ajuda você a passar rapidamente do conceito a dados de treinamento consistentes: escolha um modelo, defina seu esquema, calibre sua equipe e exporte nos formatos que seus modelos precisam. Mantenha suas diretrizes ativas, valide as exportações cedo e feche o loop com aprendizado ativo. Com esses hábitos, você gastará menos tempo lutando com formatos e mais tempo enviando modelos que funcionam.

Para mergulhos mais profundos e modelos, consulte:

Página inicial do Label Studio

Tutorial de Começando

Guia de início rápido

Formatos de exportação e ressalvas

FAQ

Q1: Para que é usado o Label Studio? O Label Studio é uma plataforma de código aberto para anotar imagens, texto, áudio, séries temporais e vídeo. Ele permite que você crie interfaces de rotulagem personalizadas e exporte anotações para formatos que seus pipelines de treinamento de ML podem usar.

Q2: Como inicio um novo projeto no Label Studio? Crie um projeto na interface do usuário, selecione um modelo que corresponda à sua tarefa e personalize a configuração de rotulagem. Em seguida, importe dados (arquivos locais, URLs ou armazenamento na nuvem) e atribua tarefas aos anotadores.

Q3: Quais formatos de exportação o Label Studio suporta? Você pode exportar JSON bruto, bem como formatos como COCO, YOLO, Pascal VOC e CSV/TSV. Algumas ferramentas (como máscaras de pincel) podem não mapear para todos os formatos; verifique os documentos de exportação para obter detalhes.

Q4: Como posso acelerar a rotulagem no Label Studio? Use pré-anotações de um modelo de linha de base, aprenda hotkeys e simplifique seu esquema de rótulos. Execute rodadas de calibração para reduzir o retrabalho e defina critérios de revisão para identificar erros precocemente.

Q5: Posso executar o Label Studio com uma equipe? Sim. Atribua tarefas aos anotadores, habilite revisões e use o consenso para medir a concordância. Armazene dados e anotações em backends confiáveis e automatize as exportações com webhooks ou a API.