लेबल स्टूडियो का उपयोग कैसे करें: 2025 के लिए एक संपूर्ण, बिना दिखावे वाली गाइड
यदि आप कंप्यूटर विज़न, एनएलपी, या मल्टीमॉडल एआई बना रहे हैं, तो आप शायद उसी बाधा का सामना करेंगे: उच्च-गुणवत्ता वाला लेबल किया गया डेटा। लेबल स्टूडियो, एक ओपन-सोर्स डेटा लेबलिंग प्लेटफ़ॉर्म, आपको एक ही एमएल स्टैक में लॉक किए बिना इमेज, टेक्स्ट, ऑडियो, टाइम सीरीज़ और वीडियो एनोटेशन पर लचीला नियंत्रण देता है। इस व्यावहारिक, चरण-दर-चरण ट्यूटोरियल में, हम आपको दिखाएंगे कि लेबल स्टूडियो का उपयोग कैसे करें—इंस्टॉलेशन से लेकर एक्सपोर्ट तक—ताकि आप आत्मविश्वास के साथ “ब्लैंक प्रोजेक्ट” से “प्रोडक्शन-रेडी लेबल” तक जा सकें।
हम एक व्यावहारिक और समाधान-उन्मुख शैली का पालन करेंगे: छोटे कदम, स्पष्ट निर्णय और सामान्य गलतियों से बचने के लिए सहायक सुझाव।
आप क्या सीखेंगे
- लेबल स्टूडियो को इंस्टॉल और लॉन्च कैसे करें
- अपनी पहली परियोजना कैसे बनाएं और एक लेबलिंग टेम्पलेट कैसे चुनें
- डेटा कैसे आयात करें (स्थानीय फाइलें, क्लाउड बकेट, यूआरएल)
- इमेज, टेक्स्ट, ऑडियो या वीडियो के लिए लेबलिंग इंटरफ़ेस कैसे सेट करें
- लेबलर्स, समीक्षाओं और गुणवत्ता आश्वासन का प्रबंधन कैसे करें
- अपने प्रशिक्षण पाइपलाइनों के साथ संगत स्वरूपों में एनोटेशन कैसे निर्यात करें
ध्यान देने योग्य: यदि आप मल्टी-मॉडल रिसर्च का संचालन कर रहे हैं या डेटासेट दस्तावेज़ का मसौदा तैयार कर रहे हैं, तो Sider.AI जैसा एक एआई कोपायलट कार्य दिशानिर्देश उत्पन्न करने या टीमों को संरेखित रखने के लिए एनोटेशन नीतियों के ऑटो-सारांश बनाने में मदद कर सकता है। आप इसे Sider.ai पर देख सकते हैं। लेबल स्टूडियो क्यों?
- लचीला स्कीमा: बाउंडिंग बॉक्स, पॉलीगॉन, कीपॉइंट, टेक्स्ट स्पैन, रिलेशन, ऑडियो रीजन और बहुत कुछ के लिए कस्टम लेबलिंग कॉन्फ़िगरेशन को परिभाषित करें।
- व्यापक डेटा प्रकार: इमेज, टेक्स्ट, ऑडियो, एचटीएमएल, टाइम सीरीज़ और वीडियो।
- टीम वर्कफ़्लो: कार्यों को असाइन करें, सहमति सक्षम करें, एनोटेशन की समीक्षा करें और गुणवत्ता का प्रबंधन करें।
- विस्तार योग्य: स्टोरेज बैकएंड, वेबहुक और मॉडल-सहायता प्राप्त लेबलिंग के साथ एकीकृत करें।
आधिकारिक अवलोकन और डाउनलोड के लिए, लेबल स्टूडियो होमपेज देखें।
चरण 1: लेबल स्टूडियो इंस्टॉल करें
आप लेबल स्टूडियो को पायथन या डॉकर के साथ स्थानीय रूप से चला सकते हैं। एक दृष्टिकोण चुनें:
विकल्प ए: पायथन (pip)
# एक वर्चुअल वातावरण बनाएं (अनुशंसित)
python -m venv .venv
source .venv/bin/activate # विंडोज: .venv\Scripts\activate
# लेबल स्टूडियो इंस्टॉल करें
pip install label-studio
# लॉन्च
label-studio start
फिर मुद्रित स्थानीय URL पर जाएं (अक्सर ``)।
विकल्प बी: डॉकर
docker run -it -p 8080:8080 heartexlabs/label-studio:latest
यदि आप लेबल स्टूडियो में नए हैं, तो आधिकारिक “आरंभ करना” गाइड संक्षिप्त और नियमित रूप से अपडेट किया जाता है, और त्वरित शुरुआत एक नमूना डेटासेट को लेबल करने के लिए न्यूनतम चरणों पर केंद्रित है।
प्रो टिप: टीमों के लिए, लचीलापन के लिए प्रबंधित डेटाबेस (PostgreSQL) और माउंटेड स्टोरेज पर विचार करें।
चरण 2: एक प्रोजेक्ट बनाएं
- यूआई में लॉग इन करें और “प्रोजेक्ट बनाएं” पर क्लिक करें।
- इसे एक स्पष्ट नाम दें (जैसे, “रिटेल शेल्फ डिटेक्शन v1”) और विवरण (डेटासेट संस्करण और उद्देश्य शामिल करें)।
- “लेबलिंग सेटअप” चुनें। आप कर सकते हैं:
- एक टेम्पलेट से शुरू करें (जैसे, ऑब्जेक्ट डिटेक्शन, एनईआर, सेंटीमेंट, ऑडियो रीजन)
- या टूल और क्लास को दर्जी करने के लिए एक कस्टम XML कॉन्फ़िगरेशन लिखें
त्वरित शुरुआत विज़ार्ड आपको एक टेम्पलेट चुनने, क्लास का नाम बदलने और कॉन्फ़िगरेशन को बचाने में मदद करता है।
चरण 3: अपना डेटा आयात करें
आप यूआई या एपीआई के माध्यम से डेटा आयात कर सकते हैं। सामान्य पथ:
- स्थानीय फाइलें अपलोड करें (ड्रैग-एंड-ड्रॉप)
- दूरस्थ फाइलों के लिए यूआरएल प्रदान करें
- सेटिंग के माध्यम से क्लाउड स्टोरेज (एस3, जीसीएस, एज़्योर ब्लब) कनेक्ट करें
- प्रोग्रामेटिक इंजेक्शन के लिए REST एपीआई का उपयोग करें
डेटा रिकॉर्ड में आमतौर पर एक data पेलोड शामिल होता है जो आपकी संपत्ति की ओर इशारा करता है (जैसे, "image": " या "text": "यह एक वाक्य है।"`)। निर्यात के दौरान मैपिंग को सरल बनाने के लिए फ़ाइल नामों को स्थिर रखें।
गुणवत्ता टिप: अपने डेटासेट को संस्करणित करें और स्रोत → एनोटेशन निर्यात का एक मेनिफेस्ट रखें ताकि आप प्रशिक्षण रन को पुन: उत्पन्न कर सकें।
चरण 4: लेबलिंग इंटरफ़ेस कॉन्फ़िगर करें
लेबलिंग इंटरफ़ेस टूल और क्लास को परिभाषित करता है। आपको XML-जैसे कॉन्फ़िगरेशन दिखाई देंगे जहां आप RectangleLabels, PolygonLabels, KeyPointLabels, TextArea, Choices, Audio, TimeSeries, आदि जैसे घटकों का चयन करते हैं।
उदाहरण:
इमेज ऑब्जेक्ट डिटेक्शन
<View>
<Image name="img" value="$image"/>
<RectangleLabels name="label" toName="img">
<Label value="Product" background="#34D399"/>
<Label value="PriceTag" background="#60A5FA"/>
</RectangleLabels>
</View>
टेक्स्ट नेम्ड एंटिटी रिकॉग्निशन (एनईआर)
<View>
<Text name="txt" value="$text"/>
<Labels name="label" toName="txt">
<Label value="ORG"/>
<Label value="PERSON"/>
<Label value="LOC"/>
</Labels>
</View>
ऑडियो रीजन लेबलिंग
<View>
<Audio name="audio" value="$audio"/>
<Labels name="label" toName="audio">
<Label value="Speech"/>
<Label value="Noise"/>
<Label value="Music"/>
</Labels>
</View>
अपने कार्य के सबसे करीब टेम्पलेट से शुरू करें और दोहराएं। डेटासेट विलय को आसान बनाने के लिए क्लास नामों को संस्करणों में स्थिर रखें।
चरण 5: लेबलिंग सर्वोत्तम अभ्यास
- स्पष्ट दिशानिर्देश परिभाषित करें: सही बनाम गलत एनोटेशन और एज केस के उदाहरण शामिल करें।
- हॉटकी का उपयोग करें: अपने टूल के लिए कीबोर्ड शॉर्टकट सीखकर गति और स्थिरता को प्रशिक्षित करें।
- जल्दी कैलिब्रेट करें: 2-3 लेबलर्स को एक ही 50-100 आइटम एनोटेट करने दें, परिणामों की तुलना करें और गाइड को परिष्कृत करें।
- प्री-एनोटेशन जोड़ें: यदि आपके पास एक बेसलाइन मॉडल है, तो सुधारों को गति देने के लिए भविष्यवाणियां आयात करें।
- थ्रूपुट और गुणवत्ता को संतुलित करें: जब दांव ऊंचे हों तो सहमति या समीक्षा कतारों का उपयोग करें।
वैसे, कुरकुरी, सुसंगत एनोटेशन दिशानिर्देश लिखने या डोमेन ज्ञान को लेबलर के अनुकूल चेकलिस्ट में बदलने के लिए, Sider.AI टीमों द्वारा अनुसरण किए जा सकने वाले चेंजलॉग को रखते हुए, निर्देशों का मसौदा तैयार कर सकता है और उन्हें परिष्कृत कर सकता है। चरण 6: लेबलर्स, समीक्षाओं और क्यूए का प्रबंधन करें
लेबल स्टूडियो टीमों का समर्थन करता है:
- विशिष्ट एनोटेटरों को कार्य असाइन करें
- समीक्षा/अनुमोदन वर्कफ़्लो सक्षम करें
- प्रगति और लेबलर प्रदर्शन को ट्रैक करें
- सहमति का उपयोग करें (प्रति कार्य कई एनोटेशन) समझौते को मापने के लिए
स्पष्ट स्वीकृति मानदंड सेट करें (उदाहरण के लिए, बक्से के लिए IoU थ्रेसहोल्ड, स्पैन बाउंड्री नियम, न्यूनतम ऑडियो रीजन अवधि) और समीक्षा के दौरान उन्हें लागू करें।
सामान्य क्यूए जांच:
- असंगत बाउंडिंग बॉक्स टाइटनेस
- एनईआर में ओवरलैपिंग इकाइयां
- समय के साथ परिभाषाओं को बहाव (गाइड अपडेट करें!)
चरण 7: एनोटेशन निर्यात करें
जब आपका बैच तैयार हो जाए, तो प्रशिक्षण के लिए एनोटेशन निर्यात करें। लेबल स्टूडियो आंतरिक रूप से JSON में एनोटेशन संग्रहीत करता है और आपको कई प्रारूपों में निर्यात करने देता है। वर्तमान सूची और चरणों के लिए आधिकारिक निर्यात डॉक्स देखें।
विशिष्ट प्रारूपों में शामिल हैं:
- कच्चा लेबल स्टूडियो JSON (सबसे पूर्ण और दोषरहित)
- COCO (डिटेक्शन/सेगमेंटेशन के लिए)
- YOLO (ऑब्जेक्ट डिटेक्शन के लिए)
- सरल कार्यों के लिए CSV/TSV
महत्वपूर्ण नोट्स:
- कुछ टूल (जैसे, ब्रश/सेगमेंटेशन) कुछ प्रारूपों के लिए स्पष्ट रूप से मैप नहीं करते हैं—COCO और YOLO सीधे फ्री-फॉर्म ब्रश का समर्थन नहीं कर सकते हैं। सेगमेंटेशन एक्सपोर्ट चेतावनियों पर सामुदायिक मार्गदर्शन देखें।
- लेबल स्टूडियो JSON को YOLO में बदलने के लिए कन्वर्टर्स मौजूद हैं, लेकिन उपयोग किए गए लेबलिंग टूल और आपके द्वारा बनाए गए मेटाडेटा के आधार पर अंतराल हो सकते हैं।
व्यावहारिक निर्यात प्रवाह:
- जल्दी एक छोटा परीक्षण निर्यात चलाएं; सत्यापित करें कि आपकी प्रशिक्षण स्क्रिप्ट इसे पार्स करती है।
- अपने निर्यात प्रीसेट को लॉक करें (क्लास ऑर्डर, रिज़ॉल्यूशन धारणाएं, आदि)।
- प्रजनन क्षमता के लिए किसी भी रूपांतरण चरण (स्क्रिप्ट, संस्करण हैश) का दस्तावेजीकरण करें।
चरण 8: अपने एमएल पाइपलाइन के साथ एकीकृत करें
- अपने प्रशिक्षण कार्यों में पूर्ण एनोटेशन खींचने के लिए एपीआई का उपयोग करें।
- विभाजन को नियतात्मक रखें: कार्यों के लिए
split: train/val/test जैसे मेटाडेटा संलग्न करें।
- सब कुछ संस्करणित करें: डेटासेट मेनिफेस्ट, एनोटेशन एक्सपोर्ट, मॉडल कॉन्फ़िगरेशन।
- लूप को बंद करें: त्रुटि विश्लेषण चलाएं, विफलता समूहों की पहचान करें और रीलेबलिंग राउंड शेड्यूल करें।
वर्कफ़्लो पैटर्न:
- एक बेसलाइन मॉडल को प्रशिक्षित करें
- मॉडल त्रुटियों से कठिन उदाहरण निकालें
- लक्षित स्लाइस को रीलेबल करें
यह सक्रिय-शिक्षण लूप क्रूर-बल लेबलिंग की तुलना में गुणवत्ता को तेजी से बढ़ाता है।
सामान्य समस्याओं का निवारण
- “मेरा एक्सपोर्ट YOLO/COCO में लोड नहीं होगा।”
- टूल संगतता जांचें (जैसे, ब्रश बनाम पॉलीगॉन)। जब संभव हो तो संगत आकृतियों में कनवर्ट करें और निर्यात डॉक्स और सामुदायिक नोट्स से परामर्श लें।
- “लेबल मेरे प्रशिक्षण क्लास ऑर्डर से मेल नहीं खाते हैं।”
- जल्दी ऑर्डरिंग ठीक करें। लेबल नामों को मानकीकृत करें और अपनी पाइपलाइन में मैपिंग को संरक्षित करें।
- “एनोटेटर बहुत असहमत हैं।”
- कैलिब्रेशन राउंड जोड़ें, नियमों को स्पष्ट करें और सहमति या मध्यस्थता चरणों पर विचार करें।
- प्री-एनोटेशन, हॉटकी और टूल-विशिष्ट स्पीडअप (जैसे, ऑटो-सेगमेंट, स्नैपिंग) का उपयोग करें। कम-मूल्य वाले कार्यों को काटें।
30 मिनट की त्वरित शुरुआत चेकलिस्ट
- लेबल स्टूडियो इंस्टॉल करें (pip या डॉकर)
- सबसे प्रासंगिक टेम्पलेट के साथ एक प्रोजेक्ट बनाएं
- 50-100 नमूना आइटम आयात करें
- एज केस और उदाहरणों के साथ दिशानिर्देशों का मसौदा तैयार करें
- कैलिब्रेशन बैच के लिए दो लेबलर असाइन करें
- असहमतियों की समीक्षा करें और नियमों को अपडेट करें
- अपनी प्रशिक्षण कोड में निर्यात का परीक्षण करें
एक आधिकारिक, संक्षिप्त वॉकथ्रू के लिए, “आरंभ करना” और “त्वरित शुरुआत” गाइड पर दोबारा गौर करें।
पावर यूजर्स के लिए उन्नत टिप्स
- कस्टम विजेट: डोमेन-विशिष्ट टूल के लिए इंटरफ़ेस का विस्तार करें।
- वेबहुक: कार्य पूरा होने पर नौकरियों को ट्रिगर करें (जैसे, रूपांतरण या मॉडल प्रशिक्षण शुरू करें)।
- मॉडल-सहायता प्राप्त लेबलिंग: मैनुअल काम को कम करने के लिए अपने इन-हाउस या क्लाउड मॉडल से प्री-लेबल का उपयोग करें।
- डेटा गोपनीयता: ऑन-प्रेम चलाएं, निर्यात को प्रतिबंधित करें और विनियमित डेटासेट के लिए एक्सेस लॉग करें।
- एनालिटिक्स: झुकाव को देखने के लिए प्रति-क्लास वितरण और प्रति-लेबलर मेट्रिक्स को ट्रैक करें।
निष्कर्ष: प्रोटोटाइप से लेकर प्रोडक्शन-रेडी डेटासेट तक
लेबल स्टूडियो आपको अवधारणा से लेकर सुसंगत प्रशिक्षण डेटा तक तेजी से आगे बढ़ने में मदद करता है: एक टेम्पलेट चुनें, अपना स्कीमा परिभाषित करें, अपनी टीम को कैलिब्रेट करें और उन स्वरूपों में निर्यात करें जिनकी आपके मॉडल को आवश्यकता है। अपने दिशानिर्देशों को जीवित रखें, जल्दी निर्यात को मान्य करें और सक्रिय सीखने के साथ लूप को बंद करें। उन आदतों के साथ, आप प्रारूपों के साथ कम समय बिताएंगे और काम करने वाले मॉडल को शिपिंग करने में अधिक समय बिताएंगे।
गहरे गोता और टेम्पलेट के लिए, देखें:
- निर्यात प्रारूप और चेतावनियाँ
सामान्य प्रश्न
Q1:लेबल स्टूडियो का उपयोग किस लिए किया जाता है?
लेबल स्टूडियो इमेज, टेक्स्ट, ऑडियो, टाइम सीरीज़ और वीडियो को एनोटेट करने के लिए एक ओपन-सोर्स प्लेटफ़ॉर्म है। यह आपको कस्टम लेबलिंग इंटरफेस डिजाइन करने और एनोटेशन को उन प्रारूपों में निर्यात करने देता है जिनका उपयोग आपकी एमएल प्रशिक्षण पाइपलाइन कर सकती हैं।
Q2:मैं लेबल स्टूडियो में एक नई परियोजना कैसे शुरू करूं?
यूआई से एक प्रोजेक्ट बनाएं, एक टेम्पलेट चुनें जो आपके कार्य से मेल खाता हो, और लेबलिंग कॉन्फ़िगरेशन को कस्टमाइज़ करें। फिर डेटा आयात करें (स्थानीय फाइलें, यूआरएल या क्लाउड स्टोरेज) और एनोटेटरों को कार्य असाइन करें।
Q3:लेबल स्टूडियो कौन से निर्यात प्रारूपों का समर्थन करता है?
आप कच्चे JSON के साथ-साथ COCO, YOLO, पास्कल वीओसी और CSV/TSV जैसे प्रारूपों को निर्यात कर सकते हैं। कुछ टूल (जैसे ब्रश मास्क) सभी प्रारूपों में मैप नहीं हो सकते हैं; विवरण के लिए निर्यात डॉक्स देखें।
Q4:मैं लेबल स्टूडियो में लेबलिंग को कैसे गति दे सकता हूं?
एक बेसलाइन मॉडल से प्री-एनोटेशन का उपयोग करें, हॉटकी सीखें और अपने लेबल स्कीमा को सरल बनाएं। रीवर्क को कम करने के लिए कैलिब्रेशन राउंड चलाएं और जल्दी त्रुटियों को पकड़ने के लिए समीक्षा मानदंड सेट करें।
Q5:क्या मैं एक टीम के साथ लेबल स्टूडियो चला सकता हूं?
हाँ। एनोटेटरों को कार्य असाइन करें, समीक्षा सक्षम करें और समझौते को मापने के लिए सहमति का उपयोग करें। डेटा और एनोटेशन को विश्वसनीय बैकएंड में संग्रहीत करें और वेबहुक या एपीआई के साथ निर्यात को स्वचालित करें।