Как использовать Label Studio: Полное руководство без лишней информации на 2025 год
Если вы занимаетесь машинным зрением, обработкой естественного языка (NLP) или мультимодальным искусственным интеллектом, вы, вероятно, столкнетесь с одной и той же проблемой: высококачественные размеченные данные. Label Studio, платформа с открытым исходным кодом для разметки данных, предоставляет вам гибкий контроль над аннотациями изображений, текста, аудио, временных рядов и видео, не привязывая вас к единому стеку машинного обучения. В этом практическом пошаговом руководстве мы покажем вам, как использовать Label Studio — от установки до экспорта — чтобы вы могли уверенно перейти от «пустого проекта» к «меткам, готовым к использованию в production».
Мы будем придерживаться практичного и ориентированного на решения стиля: короткие шаги, четкие решения и полезные советы, чтобы избежать распространенных ошибок.
Что вы узнаете
- Как установить и запустить Label Studio
- Как создать свой первый проект и выбрать шаблон для разметки
- Как импортировать данные (локальные файлы, облачные хранилища, URL-адреса)
- Как настроить интерфейс разметки для изображений, текста, аудио или видео
- Как управлять разметчиками, проверками и контролем качества
- Как экспортировать аннотации в форматы, совместимые с вашими конвейерами обучения
Стоит отметить: Если вы организуете исследование с использованием нескольких моделей или составляете документацию по набору данных, AI-ассистент, такой как Sider.AI, может помочь создать рекомендации по задачам или автоматические сводки политик аннотирования, чтобы обеспечить согласованность работы команд. Вы можете ознакомиться с ним по адресу Sider.ai. Почему Label Studio?
- Гибкая схема: Определите пользовательскую конфигурацию разметки для ограничивающих рамок, полигонов, ключевых точек, текстовых диапазонов, отношений, аудио регионов и многого другого.
- Широкий спектр типов данных: Изображения, текст, аудио, HTML, временные ряды и видео.
- Командные рабочие процессы: Назначайте задачи, включайте консенсус, проверяйте аннотации и управляйте качеством.
- Расширяемость: Интегрируйтесь с серверными хранилищами, веб-хуками и разметкой с помощью моделей.
Официальный обзор и загрузки можно найти на главной странице Label Studio.
Шаг 1: Установите Label Studio
Вы можете запустить Label Studio локально с помощью Python или Docker. Выберите один из подходов:
Вариант A: Python (pip)
# Создайте виртуальное окружение (рекомендуется)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
# Установите Label Studio
pip install label-studio
# Запустите
label-studio start
Затем посетите указанный локальный URL-адрес (обычно `).
Вариант B: Docker
docker run -it -p 8080:8080 heartexlabs/label-studio:latest
Если вы новичок в Label Studio, официальное руководство «Getting Started» является кратким и регулярно обновляется, а краткое руководство посвящено минимальным шагам для разметки примера набора данных.
Pro tip: Для команд рассмотрите возможность использования управляемой базы данных (PostgreSQL) и подключенного хранилища для обеспечения отказоустойчивости.
Шаг 2: Создайте проект
- Войдите в пользовательский интерфейс и нажмите «Create Project» («Создать проект»).
- Дайте ему понятное имя (например, «Retail Shelf Detection v1») и описание (укажите версию и цель набора данных).
- Выберите «Labeling Setup» («Настройка разметки»). Вы можете:
- Начать с шаблона (например, обнаружение объектов, NER, определение тональности, аудио регионы)
- Или написать пользовательскую XML-конфигурацию для настройки инструментов и классов
Мастер быстрого старта поможет вам выбрать шаблон, переименовать классы и сохранить конфигурацию.
Шаг 3: Импортируйте ваши данные
Вы можете импортировать данные через пользовательский интерфейс или API. Общие пути:
- Загрузить локальные файлы (перетаскиванием)
- Предоставить URL-адреса для удаленных файлов
- Форматы экспорта и предостережения
- Использовать REST API для программного приема
Записи данных обычно включают полезную нагрузку data, которая указывает на ваш актив (например, "image": " или "text": "Это предложение."`). Сохраняйте стабильные имена файлов, чтобы упростить сопоставление во время экспорта.
Совет по качеству: Версионируйте свой набор данных и ведите манифест source → annotation export, чтобы можно было воспроизводить прогоны обучения.
Шаг 4: Настройте интерфейс разметки
Интерфейс разметки определяет инструменты и классы. Вы увидите XML-подобную конфигурацию, где вы выбираете такие компоненты, как RectangleLabels, PolygonLabels, KeyPointLabels, TextArea, Choices, Audio, TimeSeries и т. д.
Примеры:
Обнаружение объектов на изображениях
<View>
<Image name="img" value="$image"/>
<RectangleLabels name="label" toName="img">
<Label value="Product" background="#34D399"/>
<Label value="PriceTag" background="#60A5FA"/>
</RectangleLabels>
</View>
Распознавание именованных сущностей в тексте (NER)
<View>
<Text name="txt" value="$text"/>
<Labels name="label" toName="txt">
<Label value="ORG"/>
<Label value="PERSON"/>
<Label value="LOC"/>
</Labels>
</View>
Разметка аудио регионов
<View>
<Audio name="audio" value="$audio"/>
<Labels name="label" toName="audio">
<Label value="Speech"/>
<Label value="Noise"/>
<Label value="Music"/>
</Labels>
</View>
Начните с шаблона, наиболее близкого к вашей задаче, и итерируйте. Сохраняйте стабильные имена классов в разных версиях, чтобы упростить объединение наборов данных.
Шаг 5: Лучшие практики разметки
- Определите четкие рекомендации: Включите примеры правильных и неправильных аннотаций и крайних случаев.
- Используйте горячие клавиши: Увеличьте скорость и последовательность, изучив сочетания клавиш для ваших инструментов.
- Откалибруйте рано: Попросите 2–3 разметчиков аннотировать одни и те же 50–100 элементов, сравните результаты и уточните руководство.
- Добавьте предварительные аннотации: Если у вас есть базовая модель, импортируйте прогнозы, чтобы ускорить исправления.
- Сбалансируйте пропускную способность и качество: Используйте консенсус или очереди проверки, когда ставки высоки.
Кстати, для написания четких, последовательных инструкций по аннотированию или преобразования знаний предметной области в удобные для разметчиков контрольные списки, Sider.AI может быстро составить и уточнить инструкции, сохраняя при этом журнал изменений, за которым могут следить команды. Шаг 6: Управляйте разметчиками, проверками и контролем качества
Label Studio поддерживает команды:
- Назначайте задачи конкретным аннотаторам
- Включите рабочие процессы проверки/утверждения
- Отслеживайте прогресс и производительность разметчика
- Используйте консенсус (несколько аннотаций для каждой задачи) для измерения согласованности
Установите явные критерии приемлемости (например, пороговое значение IoU для прямоугольников, правила границ диапазонов, минимальная продолжительность аудиорегиона) и применяйте их во время проверки.
Общие проверки контроля качества:
- Отсутствующие метки или неправильные классы
- Непостоянная плотность ограничивающей рамки
- Перекрывающиеся сущности в NER
- Изменение определений с течением времени (обновите руководство!)
Шаг 7: Экспорт аннотаций
Когда ваш пакет готов, экспортируйте аннотации для обучения. Label Studio хранит аннотации во внутреннем формате JSON и позволяет экспортировать их в несколько форматов. См. официальную документацию по экспорту для получения текущего списка и шагов.
Типичные форматы включают:
- Raw Label Studio JSON (наиболее полный и без потерь)
- COCO (для обнаружения/сегментации)
- YOLO (для обнаружения объектов)
- CSV/TSV для более простых задач
Важные замечания:
- Некоторые инструменты (например, кисть/сегментация) не отображаются четко в определенных форматах — COCO и YOLO могут не поддерживать кисти произвольной формы напрямую. См. рекомендации сообщества по предостережениям при экспорте сегментации.
- Существуют преобразователи для преобразования Label Studio JSON в YOLO, но могут возникать пробелы в зависимости от используемого инструмента разметки и сохраненных вами метаданных.
Практический поток экспорта:
- Запустите небольшой тестовый экспорт на ранней стадии; убедитесь, что ваш скрипт обучения анализирует его.
- Заблокируйте предустановку экспорта (порядок классов, предположения о разрешении и т. д.).
- Задокументируйте любые шаги преобразования (скрипты, хеши версий) для воспроизводимости.
Шаг 8: Интегрируйтесь со своим конвейером машинного обучения
- Используйте API для извлечения завершенных аннотаций в свои задания обучения.
- Сохраняйте детерминированность разбиений: прикрепляйте метаданные, такие как
split: train/val/test, к задачам.
- Версионируйте все: манифесты наборов данных, экспорт аннотаций, конфигурации моделей.
- Замкните цикл: проведите анализ ошибок, выявите кластеры сбоев и запланируйте повторные циклы разметки.
Шаблон рабочего процесса:
- Разметьте начальный набор
- Извлеките сложные примеры из ошибок модели
- Повторно разметьте целевые срезы
Этот цикл активного обучения повышает качество быстрее, чем грубая разметка.
Устранение распространенных проблем
- «Мой экспорт не загружается в YOLO/COCO».
- Проверьте совместимость инструментов (например, кисти и полигоны). Преобразуйте в совместимые фигуры, когда это возможно, и обратитесь к документации по экспорту и примечаниям сообщества.
- «Метки не соответствуют порядку классов обучения».
- Исправьте порядок на ранней стадии. Стандартизируйте имена меток и сохраните сопоставление в своем конвейере.
- «Аннотаторы сильно расходятся во мнениях».
- Добавьте циклы калибровки, уточните правила и рассмотрите шаги консенсуса или арбитража.
- «Аннотация выполняется медленно».
- Используйте предварительные аннотации, горячие клавиши и ускорения для конкретных инструментов (например, автоматическая сегментация, привязка). Сократите задачи с низкой ценностью.
Контрольный список быстрого старта за 30 минут
- Установите Label Studio (pip или Docker)
- Создайте проект с наиболее подходящим шаблоном
- Импортируйте 50–100 образцов
- Составьте рекомендации с крайними случаями и примерами
- Назначьте двух разметчиков для пакета калибровки
- Просмотрите разногласия и обновите правила
- Проверьте экспорт в свой код обучения
Для получения официального краткого обзора вернитесь к «Getting Started» и «Quick Start» guide.
Расширенные советы для опытных пользователей
- Пользовательские виджеты: Расширьте интерфейс для инструментов, специфичных для предметной области.
- Веб-хуки: Запускайте задания (например, запускайте преобразования или обучение модели) при завершении задач.
- Разметка с помощью моделей: Используйте предварительные метки из ваших внутренних или облачных моделей, чтобы уменьшить объем ручной работы.
- Конфиденциальность данных: Запускайте локально, ограничивайте экспорт и регистрируйте доступ для регулируемых наборов данных.
- Аналитика: Отслеживайте распределение по классам и показатели по разметчикам, чтобы выявить перекос.
Вывод: От прототипа к наборам данных, готовым к использованию в Production
Label Studio помогает быстро перейти от концепции к согласованным данным для обучения: выберите шаблон, определите свою схему, откалибруйте свою команду и экспортируйте в форматах, необходимых вашим моделям. Поддерживайте актуальность своих рекомендаций, проверяйте экспорт на ранней стадии и замыкайте цикл активным обучением. Придерживаясь этих привычек, вы будете тратить меньше времени на борьбу с форматами и больше времени на поставку работающих моделей.
Для более глубокого изучения и шаблонов см.:
- Домашняя страница Label Studio
- Учебник «Getting Started»
FAQ
Q1:Для чего используется Label Studio?
Label Studio — это платформа с открытым исходным кодом для аннотирования изображений, текста, аудио, временных рядов и видео. Она позволяет разрабатывать пользовательские интерфейсы разметки и экспортировать аннотации в форматы, которые могут использовать ваши конвейеры обучения ML.
Q2:Как начать новый проект в Label Studio?
Создайте проект из пользовательского интерфейса, выберите шаблон, соответствующий вашей задаче, и настройте конфигурацию разметки. Затем импортируйте данные (локальные файлы, URL-адреса или облачное хранилище) и назначьте задачи аннотаторам.
Q3:Какие форматы экспорта поддерживает Label Studio?
Вы можете экспортировать необработанный JSON, а также такие форматы, как COCO, YOLO, Pascal VOC и CSV/TSV. Некоторые инструменты (например, кисти-маски) могут не соответствовать всем форматам; подробности см. в документации по экспорту.
Q4:Как я могу ускорить разметку в Label Studio?
Используйте предварительные аннотации из базовой модели, изучите горячие клавиши и упростите схему меток. Проведите циклы калибровки, чтобы уменьшить объем переделок, и установите критерии проверки, чтобы выявлять ошибки на ранней стадии.
Q5:Могу ли я запустить Label Studio с командой?
Да. Назначайте задачи аннотаторам, включайте проверки и используйте консенсус для измерения согласованности. Храните данные и аннотации в надежных бэкендах и автоматизируйте экспорт с помощью веб-хуков или API.