نحوه استفاده از Label Studio: یک راهنمای کامل و بدون حاشیه برای سال 2025
اگر در حال ساخت بینایی کامپیوتر، پردازش زبان طبیعی (NLP) یا هوش مصنوعی چندوجهی هستید، احتمالاً با همان گلوگاه مواجه خواهید شد: دادههای برچسبگذاری شده با کیفیت بالا. Label Studio، یک پلتفرم متنباز برای برچسبگذاری دادهها، به شما کنترل انعطافپذیری بر روی حاشیهنویسی تصاویر، متن، صدا، سریهای زمانی و ویدیو میدهد، بدون اینکه شما را به یک پشته ML واحد محدود کند. در این آموزش عملی و گامبهگام، نحوه استفاده از Label Studio را از نصب تا خروجی نشان خواهیم داد، بنابراین میتوانید با اطمینان از «پروژه خالی» به «برچسبهای آماده تولید» حرکت کنید.
ما از یک سبک عملی و راهحلمحور پیروی خواهیم کرد: مراحل کوتاه، تصمیمات واضح و نکات مفید برای جلوگیری از اشتباهات رایج.
آنچه خواهید آموخت
- نحوه نصب و راهاندازی Label Studio
- نحوه ایجاد اولین پروژه و انتخاب یک قالب برچسبگذاری
- نحوه وارد کردن دادهها (فایلهای محلی، سطلهای ابری، URLها)
- نحوه تنظیم رابط برچسبگذاری برای تصاویر، متن، صدا یا ویدیو
- نحوه مدیریت برچسبزنها، بازبینیها و تضمین کیفیت
- نحوه خروجی گرفتن حاشیهنویسیها به فرمتهای سازگار با خطوط لوله آموزش شما
شایان ذکر است: اگر در حال سازماندهی تحقیقات چندمدلی یا تهیه مستندات مجموعه داده هستید، یک دستیار هوش مصنوعی مانند Sider.AI میتواند به تولید دستورالعملهای وظایف یا خلاصههای خودکار سیاستهای حاشیهنویسی کمک کند تا تیمها همسو بمانند. میتوانید آن را در Sider.ai بررسی کنید. چرا Label Studio؟
- طرحواره انعطافپذیر: پیکربندی برچسبگذاری سفارشی را برای جعبههای محدودکننده، چند ضلعیها، نقاط کلیدی، بازههای متنی، روابط، مناطق صوتی و موارد دیگر تعریف کنید.
- انواع داده گسترده: تصاویر، متن، صدا، HTML، سریهای زمانی و ویدیو.
- جریانهای کاری تیمی: اختصاص وظایف، فعال کردن توافق، بررسی حاشیهنویسیها و مدیریت کیفیت.
- قابل گسترش: ادغام با پشتیبانهای ذخیرهسازی، وبهوکها و برچسبگذاری به کمک مدل.
برای بررسی اجمالی رسمی و دانلودها، به صفحه اصلی Label Studio مراجعه کنید.
مرحله 1: نصب Label Studio
میتوانید Label Studio را به صورت محلی با پایتون یا Docker اجرا کنید. یک روش را انتخاب کنید:
گزینه A: پایتون (pip)
# ایجاد یک محیط مجازی (توصیه میشود)
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
# نصب Label Studio
pip install label-studio
# اجرا
label-studio start
سپس از URL محلی چاپ شده (اغلب `) بازدید کنید.
گزینه B: Docker
docker run -it -p 8080:8080 heartexlabs/label-studio:latest
اگر با Label Studio تازه کار هستید، راهنمای رسمی «شروع به کار» مختصر و به طور مرتب بهروزرسانی میشود و شروع سریع بر حداقل مراحل برای برچسبگذاری یک مجموعه داده نمونه تمرکز دارد.
نکته حرفهای: برای تیمها، یک پایگاه داده مدیریت شده (PostgreSQL) و فضای ذخیرهسازی متصل را برای انعطافپذیری در نظر بگیرید.
مرحله 2: ایجاد یک پروژه
- وارد UI شوید و روی «Create Project» کلیک کنید.
- یک نام واضح (به عنوان مثال، «Retail Shelf Detection v1») و توضیحات (شامل نسخه مجموعه داده و هدف) به آن بدهید.
- «Labeling Setup» را انتخاب کنید. شما میتوانید:
- از یک الگو شروع کنید (به عنوان مثال، تشخیص شی، NER، احساسات، مناطق صوتی)
- یا یک پیکربندی XML سفارشی برای تنظیم ابزارها و کلاسها بنویسید
جادوگر شروع سریع به شما کمک میکند تا یک الگو را انتخاب کنید، کلاسها را تغییر نام دهید و پیکربندی را ذخیره کنید.
مرحله 3: وارد کردن دادههای خود
میتوانید دادهها را از طریق UI یا API وارد کنید. مسیرهای مشترک:
- بارگذاری فایلهای محلی (کشیدن و رها کردن)
- ارائه URL به فایلهای راه دور
- اتصال فضای ذخیرهسازی ابری (S3، GCS، Azure Blob) از طریق تنظیمات
- استفاده از REST API برای ورود برنامهنویسی
رکوردهای داده معمولاً شامل یک بار data هستند که به دارایی شما اشاره دارد (به عنوان مثال، "image": " یا "text": "This is a sentence."`). نام فایلها را ثابت نگه دارید تا نقشهبرداری در هنگام خروجی گرفتن ساده شود.
نکته کیفی: مجموعه داده خود را نسخه بندی کنید و یک مانیفست از منبع → خروجی حاشیهنویسی نگه دارید تا بتوانید اجرای آموزش را بازتولید کنید.
مرحله 4: پیکربندی رابط برچسبگذاری
رابط برچسبگذاری ابزارها و کلاسها را تعریف میکند. شما پیکربندی XML مانند را مشاهده خواهید کرد که در آن اجزایی مانند RectangleLabels، PolygonLabels، KeyPointLabels، TextArea، Choices، Audio، TimeSeries و غیره را انتخاب میکنید.
مثالها:
تشخیص شی تصویر
<View>
<Image name="img" value="$image"/>
<RectangleLabels name="label" toName="img">
<Label value="Product" background="#34D399"/>
<Label value="PriceTag" background="#60A5FA"/>
</RectangleLabels>
</View>
تشخیص موجودیت نامدار متن (NER)
<View>
<Text name="txt" value="$text"/>
<Labels name="label" toName="txt">
<Label value="ORG"/>
<Label value="PERSON"/>
<Label value="LOC"/>
</Labels>
</View>
برچسبگذاری منطقه صوتی
<View>
<Audio name="audio" value="$audio"/>
<Labels name="label" toName="audio">
<Label value="Speech"/>
<Label value="Noise"/>
<Label value="Music"/>
</Labels>
</View>
با قالبی که نزدیکترین به وظیفه شما است شروع کنید و تکرار کنید. نام کلاسها را در نسخههای مختلف ثابت نگه دارید تا ادغام مجموعه داده آسانتر شود.
مرحله 5: بهترین روشهای برچسبگذاری
- دستورالعملهای واضح را تعریف کنید: نمونههایی از حاشیهنویسیهای صحیح در مقابل نادرست و موارد حاشیهای را درج کنید.
- از کلیدهای میانبر استفاده کنید: با یادگیری میانبرهای صفحه کلید برای ابزارهای خود، سرعت و سازگاری را آموزش دهید.
- زود کالیبره کنید: 2-3 برچسبزن یکسان 50-100 مورد را حاشیهنویسی کنند، نتایج را مقایسه کنند و راهنما را اصلاح کنند.
- حاشیهنویسیهای از پیش تعیین شده را اضافه کنید: اگر یک مدل پایه دارید، پیشبینیها را وارد کنید تا اصلاحات سرعت یابد.
- بین توان عملیاتی و کیفیت تعادل برقرار کنید: هنگامی که ریسک بالاست، از صفهای توافق یا بررسی استفاده کنید.
به هر حال، برای نوشتن دستورالعملهای حاشیهنویسی واضح و سازگار یا تبدیل دانش دامنه به چک لیستهای کاربرپسند برای برچسبزن، Sider.AI میتواند به سرعت دستورالعملها را پیشنویس و اصلاح کند و در عین حال یک گزارش تغییرات را نگه دارد که تیمها بتوانند دنبال کنند. مرحله 6: مدیریت برچسبزنها، بازبینیها و QA
Label Studio از تیمها پشتیبانی میکند:
- اختصاص وظایف به حاشیهنویسان خاص
- فعال کردن جریانهای کاری بررسی/تأیید
- پیگیری پیشرفت و عملکرد برچسبزن
- استفاده از توافق (حاشیهنویسیهای متعدد در هر کار) برای اندازهگیری توافق
معیارهای پذیرش صریح را تعیین کنید (به عنوان مثال، آستانه IoU برای جعبهها، قوانین مرزی بازه، حداقل مدت زمان منطقه صوتی) و آنها را در طول بررسی اعمال کنید.
بررسیهای QA مشترک:
- برچسبهای گمشده یا کلاسهای اشتباه
- سفتی جعبه محدودکننده ناسازگار
- موجودیتهای همپوشانی در NER
- تغییر تعریفها در طول زمان (راهنما را به روز کنید!)
مرحله 7: خروجی گرفتن حاشیهنویسیها
هنگامی که دستهبندی شما آماده شد، حاشیهنویسیها را برای آموزش خروجی بگیرید. Label Studio حاشیهنویسیها را به صورت داخلی در JSON ذخیره میکند و به شما امکان میدهد تا به فرمتهای متعددی خروجی بگیرید. برای لیست فعلی و مراحل، به اسناد رسمی خروجی مراجعه کنید.
فرمتهای معمولی عبارتند از:
- JSON خام Label Studio (کاملترین و بدون اتلاف)
- COCO (برای تشخیص/بخشبندی)
- CSV/TSV برای کارهای سادهتر
یادداشتهای مهم:
- برخی از ابزارها (به عنوان مثال، برس/بخشبندیها) به طور تمیز به فرمتهای خاص نگاشت نمیشوند—COCO و YOLO ممکن است به طور مستقیم از برسهای فرم آزاد پشتیبانی نکنند. راهنماییهای انجمن در مورد هشدارهای خروجی بخشبندی را ببینید.
- مبدلهایی برای تبدیل JSON Label Studio به YOLO وجود دارند، اما بسته به ابزار برچسبگذاری استفاده شده و فرادادهای که حفظ کردهاید، ممکن است شکافهایی رخ دهد.
جریان خروجی عملی:
- یک خروجی آزمایشی کوچک را زود اجرا کنید. تأیید کنید که اسکریپت آموزشی شما آن را تجزیه میکند.
- از پیش تنظیم خروجی خود را قفل کنید (ترتیب کلاس، فرضیات وضوح و غیره).
- هر گونه مرحله تبدیل (اسکریپتها، هشهای نسخه) را برای تکرارپذیری مستند کنید.
مرحله 8: ادغام با خط لوله ML خود
- از API برای کشیدن حاشیهنویسیهای تکمیل شده به مشاغل آموزشی خود استفاده کنید.
- تقسیمها را قطعی نگه دارید: فرادادهای مانند
split: train/val/test را به وظایف متصل کنید.
- همه چیز را نسخه بندی کنید: مانیفستهای مجموعه داده، خروجیهای حاشیهنویسی، پیکربندیهای مدل.
- حلقه را ببندید: تجزیه و تحلیل خطا را اجرا کنید، خوشههای خرابی را شناسایی کنید و دورهای برچسبگذاری مجدد را برنامهریزی کنید.
الگوی گردش کار:
- یک مجموعه بذر را برچسب بزنید
- یک مدل پایه را آموزش دهید
- مثالهای سخت را از خطاهای مدل استخراج کنید
- برشهای هدفمند را دوباره برچسب بزنید
این حلقه یادگیری فعال، کیفیت را سریعتر از برچسبگذاری بیرحمانه افزایش میدهد.
عیبیابی مسائل رایج
- «خروجی من در YOLO/COCO بارگیری نمیشود.»
- سازگاری ابزار را بررسی کنید (به عنوان مثال، برسها در مقابل چند ضلعیها). در صورت امکان به اشکال سازگار تبدیل کنید و به اسناد خروجی و یادداشتهای انجمن مراجعه کنید.
- «برچسبها با ترتیب کلاس آموزشی من مطابقت ندارند.»
- سفارش را زود اصلاح کنید. نام برچسبها را استاندارد کنید و نگاشت را در خط لوله خود حفظ کنید.
- «حاشیهنویسها اختلاف زیادی دارند.»
- دورهای کالیبراسیون را اضافه کنید، قوانین را روشن کنید و مراحل توافق یا داوری را در نظر بگیرید.
- از حاشیهنویسیهای از پیش تعیین شده، کلیدهای میانبر و افزایش سرعت خاص ابزار (به عنوان مثال، بخشبندی خودکار، چسباندن) استفاده کنید. وظایف کم ارزش را هرس کنید.
یک چک لیست شروع سریع 30 دقیقهای
- نصب Label Studio (pip یا Docker)
- ایجاد یک پروژه با مرتبطترین الگو
- وارد کردن 50-100 مورد نمونه
- پیشنویس دستورالعملها با موارد حاشیهای و مثالها
- اختصاص دو برچسبزن برای یک دستهبندی کالیبراسیون
- بررسی اختلافات و به روز رسانی قوانین
- تست خروجی در کد آموزشی خود
برای یک راهنمای رسمی و مختصر، دوباره به «شروع به کار» و راهنمای «شروع سریع» مراجعه کنید.
نکات پیشرفته برای کاربران قدرتمند
- ویجتهای سفارشی: رابط را برای ابزارهای خاص دامنه گسترش دهید.
- وبهوکها: مشاغل ماشه (به عنوان مثال، شروع تبدیلها یا آموزش مدل) هنگام تکمیل وظایف.
- برچسبگذاری به کمک مدل: از پیش برچسبها از مدلهای داخلی یا ابری خود برای کاهش کار دستی استفاده کنید.
- حریم خصوصی دادهها: اجرا در محل، محدود کردن خروجیها و ثبت دسترسی برای مجموعههای داده تنظیم شده.
- تجزیه و تحلیل: توزیع در هر کلاس و معیارهای هر برچسبزن را برای تشخیص انحراف بررسی کنید.
نتیجهگیری: از نمونه اولیه تا مجموعههای داده آماده تولید
Label Studio به شما کمک میکند تا به سرعت از مفهوم به دادههای آموزشی سازگار حرکت کنید: یک الگو را انتخاب کنید، طرحواره خود را تعریف کنید، تیم خود را کالیبره کنید و در قالبهایی که مدلهای شما نیاز دارند خروجی بگیرید. دستورالعملهای خود را زنده نگه دارید، خروجیها را زود تأیید کنید و حلقه را با یادگیری فعال ببندید. با این عادتها، زمان کمتری را صرف دست و پنجه نرم کردن با فرمتها و زمان بیشتری را صرف ارسال مدلهایی میکنید که کار میکنند.
برای غواصیهای عمیقتر و الگوها، به موارد زیر مراجعه کنید:
سؤالات متداول
س 1: Label Studio برای چه مواردی استفاده میشود؟ Label Studio یک پلتفرم متنباز برای حاشیهنویسی تصاویر، متن، صدا، سریهای زمانی و ویدیو است. این به شما امکان میدهد رابطهای برچسبگذاری سفارشی را طراحی کنید و حاشیهنویسیها را به فرمتهایی صادر کنید که خطوط لوله آموزش ML شما میتوانند از آنها استفاده کنند.
س 2: چگونه یک پروژه جدید را در Label Studio شروع کنم؟ یک پروژه را از UI ایجاد کنید، یک الگو را انتخاب کنید که با وظیفه شما مطابقت دارد و پیکربندی برچسبگذاری را سفارشی کنید. سپس دادهها (فایلهای محلی، URLها یا فضای ذخیرهسازی ابری) را وارد کنید و وظایف را به حاشیهنویسان اختصاص دهید.
س 3: Label Studio از کدام فرمتهای خروجی پشتیبانی میکند؟ میتوانید JSON خام و همچنین فرمتهایی مانند COCO، YOLO، Pascal VOC و CSV/TSV را صادر کنید. برخی از ابزارها (مانند ماسکهای برس) ممکن است به همه فرمتها نگاشت نشوند. برای اطلاعات بیشتر، اسناد خروجی را بررسی کنید.
س 4: چگونه میتوانم برچسبگذاری را در Label Studio سرعت بخشم؟ از حاشیهنویسیهای از پیش تعیین شده از یک مدل پایه استفاده کنید، کلیدهای میانبر را یاد بگیرید و طرحواره برچسب خود را ساده کنید. دورهای کالیبراسیون را برای کاهش بازسازی اجرا کنید و معیارهای بررسی را برای تشخیص زودهنگام خطاها تنظیم کنید.
س 5: آیا میتوانم Label Studio را با یک تیم اجرا کنم؟ بله. وظایف را به حاشیهنویسان اختصاص دهید، بررسیها را فعال کنید و از توافق برای اندازهگیری توافق استفاده کنید. دادهها و حاشیهنویسیها را در پشتیبانهای قابل اعتماد ذخیره کنید و صادرات را با وبهوکها یا API خودکار کنید.