तो आपकी AI कैमरा सोचता है कि हर महिला एक नर्स है और हर पुरुष एक CEO है। कूल, कूल, कूल।
क्या आपने कभी किसी "AI-enhanced" ऐप पर एक तस्वीर अपलोड की है और उसे आत्मविश्वास से आपकी दोस्त की साड़ी को बाथरोब के रूप में लेबल करते हुए देखा है? या किसी मेडिकल इमेजिंग सिस्टम को यह कहते हुए सुना है कि आपकी बांह पर तिल एक ब्लूबेरी है? यह AI इमेजिंग में डेटासेट बायस (dataset bias) है, और यह सिर्फ अजीब नहीं है - यह खतरनाक हो सकता है। इसे एक बच्चे को केवल स्वरों के साथ वर्णमाला सिखाने जैसा समझें। निश्चित रूप से, वे कुछ गाएंगे। आप नहीं चाहेंगे कि वे दवा लिखें।
हम एक अजीब क्षण में हैं जहाँ कंप्यूटर विज़न हर जगह होने के लिए काफी अच्छा है - आपका फोन, आपकी कार, आपके डॉक्टर का कार्यालय - लेकिन फिर भी बिंदु, संदर्भ और कभी-कभी पूरे लोगों के समूहों को याद करने के लिए काफी बुरा है। अपराधी आमतौर पर गणित नहीं है। यह डेटा है। विशेष रूप से, वह डेटा जिसने इन मॉडलों को एक बहुत ही संकीर्ण लेंस के माध्यम से दुनिया को देखने के लिए प्रशिक्षित किया।
आइए जानते हैं कि AI इमेजिंग में डेटासेट बायस (dataset bias) कैसे आता है, गड़बड़ करता है, और - सबसे महत्वपूर्ण बात - आप इसे अपनी बिल्ली को क्रोइसैन (croissant) कहने से कैसे रोक सकते हैं।
AI इमेजिंग में डेटासेट बायस (dataset bias) क्या है? वह संक्षिप्त संस्करण जिसे आपकी चाची वास्तव में पढ़ेंगी
AI इमेजिंग में डेटासेट बायस (dataset bias) तब होता है जब किसी मॉडल को प्रशिक्षित करने के लिए उपयोग की जाने वाली छवियां वास्तविक दुनिया का प्रतिनिधित्व नहीं करती हैं। यदि आपका डेटासेट ज्यादातर एक जनसांख्यिकी के चेहरे, एक सीमित सीमा से त्वचा के रंग, या सही स्टूडियो लाइटिंग में फोटो खींची गई वस्तुएं हैं (नमस्ते, इन्फ्लुएंसर रिंग लाइट्स!), तो मॉडल वास्तविकता का एक विकृत संस्करण सीखता है।
- सिलेक्शन बायस (Selection bias): आपने उन छवियों को चुना जिन्हें प्राप्त करना सबसे आसान था - स्टॉक फोटो, सफेद पृष्ठभूमि और कभी-कभी संदिग्ध रूप से खुश सलाद खाने वाला।
- लेबल बायस (Label bias): मनुष्य छवियों को लेबल करते हैं। मनुष्य राय लाते हैं। कभी-कभी वे राय "ग्राउंड ट्रुथ" की तुलना में अधिक "क्रिएटिव राइटिंग" होती हैं।
- संदर्भ बायस (Context bias): एक महिला के बगल में एक स्टेथोस्कोप (stethoscope)? जरूर एक नर्स होगी। एक ही वस्तु एक आदमी के बगल में? डॉक्टर। मॉडल ने डेटासेट से स्टीरियोटाइप (stereotype) सीखा।
- डोमेन बायस (Domain bias): आपने चमकदार उत्पाद तस्वीरों पर प्रशिक्षण लिया, फिर मंद कारखाने के फर्श में तैनात किया। आश्चर्य: फोर्कलिफ्ट बिगफुट (Bigfoot) जैसा दिखता है।
यदि आप एक AI को केवल एक पड़ोस के माध्यम से दुनिया को देखना सिखाते हैं, तो आश्चर्यचकित न हों जब वह शहर में खो जाए।
इतनी मजेदार नहीं लगने वाली बातें: जहाँ बायस (bias) एक मीम (meme) बनना बंद कर देता है
AI इमेजिंग में बायस (bias) केवल मीम (meme) योग्य विफलताओं का उत्पादन नहीं करता है। यह इसमें दिखता है:
- मेडिकल इमेजिंग: त्वचाविज्ञान डेटासेट में कम प्रतिनिधित्व वाले त्वचा टोन से मेलेनोमा (melanoma) जैसी स्थितियों के लिए खराब पहचान दर हो सकती है। जब पिक्सेल प्रशिक्षण उदाहरणों से मेल नहीं खाते हैं, तो त्रुटियां बढ़ जाती हैं।
- सुरक्षा और निगरानी: चेहरे की पहचान में गलत पहचान को गलत गिरफ्तारी से जोड़ा गया है, विशेष रूप से रंग के लोगों के लिए। एक महान उपयोगकर्ता अनुभव नहीं।
- भर्ती और पहचान सत्यापन: चेहरे का मिलान जो गैर-बाइनरी (non-binary) या ट्रांस (trans) चेहरों को गलत करता है, वह सिर्फ कष्टप्रद नहीं है - यह बहिष्करणकारी है।
- स्वायत्त प्रणाली: कैलिफ़ोर्निया की धूप में ज्यादातर प्रशिक्षित एक सेल्फ-ड्राइविंग कार शायद मिनेसोटा में बर्फ से ढके स्टॉप साइन को नहीं पहचान पाएगी। कार लापरवाह नहीं है। यह आश्रय है।
जब मॉडल की दुनिया छोटी होती है, तो असली लोग कीमत चुकाते हैं।
यह कैसे आता है: छवि डेटासेट बायस (dataset bias) के चार घुड़सवार
1) "फ्री स्टफ बायस (free stuff bias)"
छवियों के लिए ओपन वेब (open web) को स्क्रैप (scrape) करना मूल रूप से पिक्सेल के लिए डंपस्टर-डाइविंग (dumpster-diving) है। आपको बहुत सारे सेलिब्रिटी हेडशॉट, टेक कॉन्फ्रेंस बैज और उत्पाद शॉट्स मिलेंगे जो ऐसा लगता है जैसे वे चंद्रमा पर शूट किए गए थे। हर दिन, गंदी वास्तविकता? कम तो। यह आपके मॉडल को कुछ चेहरों, स्थानों और वाइब्स (vibes) की ओर झुकाता है।
2) "एनोटेशन ड्रिफ्ट (annotation drift)"
दो लेबलर (labeler) एक लेबलिंग जॉब (labeling job) में चलते हैं। एक हुडी (hoodie) को "स्पोर्ट्सवियर (sportswear)" के रूप में टैग (tag) करता है, दूसरा इसे "कैज़ुअलवियर (casualwear)" कहता है, और तीसरा इसे "स्ट्रीटवियर (streetwear)" कहता है। मॉडल सीखता है कि कपड़े अराजकता हैं। इससे भी बदतर, लेबलर (labeler) सांस्कृतिक धारणाएँ लाते हैं - जैसे कि कौन "बॉस (boss)" दिखता है या किसे "प्राकृतिक" हेयरस्टाइल (hairstyle) माना जाता है।
3) "कॉन्टेक्स्ट क्रच (context crutch)"
मॉडलों को शॉर्टकट पसंद हैं। यदि आपके डेटासेट में शेफ (chef) की 90% तस्वीरों में पुरुष हैं, तो मॉडल "शेफ (chef)" की भविष्यवाणी करने के लिए लिंग संकेतों को एक शॉर्टकट के रूप में उपयोग करेगा। यह बुद्धिमत्ता नहीं है; यह एक पक्षपाती चीट शीट (cheat sheet) है।
4) "डोमेन मिसमैच (domain mismatch)"
DSLR ग्लैम शॉट्स (glam shots) पर ट्रेन (train) करें, लो-रेस (low-res) सुरक्षा कैम (cam) पर तैनात करें। दिन के समय की छवियों पर ट्रेन (train) करें, रात में तैनात करें। शहरी सड़कों पर ट्रेन (train) करें, ग्रामीण सड़कों पर तैनात करें। आपका मॉडल अनिवार्य रूप से चार्जर के बिना यात्रा कर रहा है।
पीएचडी (PhD)—या लाइ डिटेक्टर (lie detector) के बिना बायस (bias) की पहचान करना
यहां बताया गया है कि आप कैसे जानते हैं कि आपके AI इमेजिंग मॉडल में एक बायस (bias) की समस्या है, आपके डेमो (demo) में उस डूबती हुई भावना से परे:
- परफॉर्मेंस गैप (performance gaps): जनसांख्यिकी, लाइटिंग, भूगोल या डिवाइस प्रकार द्वारा अपने वैलिडेशन मेट्रिक्स (validation metrics) को स्लाइस (slice) करें। यदि सटीकता कुछ समूहों के लिए बिना केस के फोन की तरह गिरती है, तो आपको बायस (bias) हो गया है।
- कंफ्यूजन मैट्रिसेस (confusion matrices) जो आपको भ्रमित करते हैं: यदि मॉडल विशिष्ट कक्षाओं को मिलाता रहता है - मान लीजिए, हिजाब को टोपी के साथ - तो यह एक डेटासेट टेल (dataset tell) है।
- फीचर एट्रिब्यूशन ऑडिट (feature attribution audits): Grad-CAM जैसे टूल (tool) प्रकट कर सकते हैं कि आपका "कैट (cat)" डिटेक्टर (detector) वास्तव में एक सोफे पैटर्न (pattern) में कीइंग (keying) कर रहा है। बधाई हो, आपने असबाब पहचान को प्रशिक्षित किया।
- रियल-वर्ल्ड पायलट ड्रिफ्ट (real-world pilot drift): जंगली में छोटे पायलट (pilot) चलाएं। यदि मॉडल बेसमेंट (basement) में एक पौधे की तरह फ्लोरोसेंट लाइटिंग के तहत घबराता है, तो उसे अधिक विविध डेटा की आवश्यकता है।
टूलकिट: आपके उत्पाद रोडमैप को काटने से पहले डेटासेट बायस (dataset bias) को कैसे कम किया जाए
बायस (bias) से लड़ने को होम रेनोवेशन (home renovation) के रूप में कल्पना करें। आप पैच (patch) कर सकते हैं, सुदृढ़ कर सकते हैं, या फाड़ सकते हैं और पुनर्निर्माण कर सकते हैं। आपका बजट: समय, डेटा और विनम्रता।
1) एक संग्रहालय की तरह क्यूरेट (curate) करें (न कि एक फ्ली मार्केट)
- कवरेज (coverage) को परिभाषित करें: उन जनसांख्यिकी, लाइटिंग कंडीशंस (lighting conditions), कैमरा टाइप्स (camera types), भूगोल और वातावरण लिखें जिन्हें आपके सिस्टम को संभालना चाहिए। यदि यह लिखा नहीं गया है, तो यह इच्छाधारी सोच है।
- कोटा (quota) निर्धारित करें: हाँ, कोटा (quota)। यदि आपके 30% उपयोगकर्ता कम रोशनी में हैं, तो आपके डेटासेट का 30% कम रोशनी वाली छवियां होनी चाहिए। वही त्वचा टोन रेंज (Fitzpatrick जैसे स्केल को प्रॉक्सी के रूप में उपयोग करें), आयु समूहों, कपड़ों की शैलियों और सांस्कृतिक संदर्भों के लिए जाता है।
- अपने डेटा को मल्टी-सोर्स (multi-source) करें: स्टॉक फोटो डेसर्ट (dessert) हैं। आपको होम-कुक्ड मील्स (home-cooked meals) की भी आवश्यकता है: उपयोगकर्ता द्वारा योगदान की गई तस्वीरें (सहमति के साथ), बायस (bias) ऑडिट (audit) वाले सार्वजनिक डेटासेट, और कम प्रतिनिधित्व वाले समूहों से लक्षित डेटा संग्रह।
2) एक वकील की तरह लेबल (label) करें (लेकिन अधिक दोस्ताना)
- स्पष्ट टैक्सोनॉमी (taxonomy): एक लेबलिंग गाइड (labeling guide) लिखें। नहीं, एक असली। एज केस (edge case), उदाहरण और क्या नहीं करना शामिल करें। लेबलर (labeler) “वाइब्स (vibes)” को कम करें।
- विविध एनोटेटर (annotator): यदि आपके सभी एनोटेटर (annotator) एक ही तीन कॉफी शॉप (coffee shop) में गए, तो आपके लेबल भी होंगे। भौगोलिक और सांस्कृतिक विविधता मदद करती है।
- एग्रीमेंट चेक (agreement check): इंटर-एनोटेटर एग्रीमेंट (inter-annotator agreement) को मापें और एक लीड लेबलर (lead labeler) के साथ असहमति का फैसला करें। नॉनसेंस (nonsense) का औसत न निकालें।
- सेंसिटिव एट्रिब्यूट (sensitive attribute): जब उपयुक्त और सहमति हो, तो मूल्यांकन के लिए प्रोटेक्टेड-एट्रिब्यूट टैग (protected-attribute tag) एकत्र करें। जब तक आप नियंत्रित निष्पक्षता हस्तक्षेप नहीं कर रहे हैं, तब तक उन्हें प्रशिक्षण से बाहर रखें।
3) एक वैज्ञानिक की तरह ट्रेन (train) करें (स्नैक्स के साथ)
- बैलेंस्ड सैंपलिंग (balanced sampling): स्ट्रैटिफाइड सैंपलिंग (stratified sampling) और क्लास रीवेटिंग (class reweighting) का उपयोग करें ताकि मॉडल बहुसंख्यक वर्ग में डूब न जाए।
- डेटा ऑगमेंटेशन (data augmentation), जिम्मेदारी से: लाइटिंग, एंगल्स (angles), ऑक्लूजन (occlusions) और बैकग्राउंड (background) को बदलें। सिंथेटिक डेटा (synthetic data) मदद कर सकता है, लेकिन एक गेम इंजन (game engine) को अपनी पूरी वास्तविकता का आविष्कार न करने दें।
- डीबायसिंग ऑब्जेक्टिव (debiasing objective): निष्पक्षता-जागरूक लॉस (loss) या कॉन्स्ट्रेन्ट (constraint) शामिल करें जो समूहों में प्रदर्शन अंतराल को कम करते हैं।
- डोमेन एडॉप्शन (domain adaptation): यदि परिनियोजन अंधेरा, शोरगुल वाला या लो-रेस (low-res) है, तो उस दुनिया का अनुकरण करें। बेहतर: उस दुनिया में इकट्ठा करो।
4) एक सनकी की तरह टेस्ट (test) करें
- स्लाइस-एंड-डाइस इवैल्यूएशन (slice-and-dice evaluation): उपसमूह द्वारा सटीकता, परिशुद्धता/याद और अंशांकन रिपोर्ट करें। यदि आप इसे नहीं देख सकते हैं, तो आप इसे ठीक नहीं करेंगे।
- काउंटरफैक्टुअल टेस्ट (counterfactual test): विषय को स्थिर रखते हुए संदर्भ को स्वैप (swap) करें। क्या एक ब्रीफकेस (briefcase) पकड़े हुए एक महिला "टीचर (teacher)" बन जाती है जबकि एक ब्रीफकेस (briefcase) वाला आदमी "CEO" है? यह 4K में पकड़ा गया कॉन्टेक्स्ट बायस (context bias) है।
- स्ट्रेस टेस्ट (stress test): अपने मॉडल पर प्रतिकूल चमक, मोशन ब्लर (motion blur), बर्फ, कोहरा, मास्क और टोपी फेंकें। मूल रूप से न्यूरल नेट (neural net) के लिए हैलोवीन (Halloween)।
5) इस तरह मॉनिटर (monitor) करें जैसे आपका मतलब है
- ड्रिफ्ट डिटेक्शन (drift detection): लॉन्च (launch) के बाद इनपुट डिस्ट्रीब्यूशन (input distribution) में बदलाव को ट्रैक (track) करें। जब आपका ऐप अचानक ब्राजील में बड़ा हो जाता है, तो आप जानना चाहेंगे।
- ह्यूमन-इन-द-लूप (human-in-the-loop): उपयोगकर्ताओं को त्रुटियों और बायस (bias) को चिह्नित करने दें, और वास्तव में रिपोर्ट (report) पढ़ें। हाँ, यहां तक कि सभी-कैप्स (all-caps) वाले भी।
- रिट्रेन रिदम (retrain rhythm): रिफ्रेश (refresh) शेड्यूल (schedule) करें। बासी मॉडल सीनियराइटिस (senioritis) वाले पक्षपाती मॉडल हैं।
रियल-वर्ल्ड सिनेरियो (real-world scenarios): जहां डेटासेट बायस (dataset bias) वाइब (vibe) को बर्बाद कर देता है
- डर्मेटोलॉजी AI: यदि आपकी प्रशिक्षण छवियां ज्यादातर हल्के त्वचा टोन हैं, तो गहरे रंग की त्वचा पर घाव कम पाए जाते हैं। समाधान: जनसंख्या भर के क्लीनिक से स्रोतों में विविधता लाएं और त्वचा टोन श्रेणियों द्वारा मूल्यांकन करें।
- रिटेल लॉस प्रिवेंशन (retail loss prevention): स्वच्छ, उज्ज्वल स्टोर (store) से टेस्ट फुटेज (test footage) पर प्रशिक्षित मॉडल भीड़भाड़ वाले, मंद दुकानों में मिसफायर (misfire) करते हैं। समाधान: क्षेत्रों और मौसमों के अनुसार वास्तविक स्टोर (store) से एकत्र करें। इसके अलावा, शायद हुडी (hoodie) को अपराधी न बनाएं।
- एग्रीकल्चर इमेजिंग (agriculture imaging): दिन के समय ड्रोन छवियों पर प्रशिक्षित एक मॉडल शाम को कीटों को याद करता है। समाधान: दिन के विभिन्न समय और सेंसर प्रकार (RGB + थर्मल) शामिल करें। पौधों की नाइटलाइफ़ भी होती है।
- डॉक्यूमेंट स्कैनिंग (document scanning): घुंघराले बालों या सिर ढँकने पर पासपोर्ट सेल्फी चेक (selfie check) विफल हो जाते हैं। समाधान: प्रशिक्षण को व्यापक बनाएं और स्पष्ट रूप से बालों की बनावट और कवरिंग (covering) का मूल्यांकन करें। बोनस: UI प्रॉम्प्ट (prompt) और लाइटिंग गाइडेंस (lighting guidance) में सुधार करें।
मिथक जो मैं सुनता रहता हूँ (और हाँ, मैं रसीदें लाया हूँ)
- "बड़े डेटासेट = कम बायस।" यदि आपका बड़ा डेटासेट सिर्फ एक ही चीज़ का अधिक है, तो आपने समस्या को सुपरसाइज (supersize) कर दिया है। यह गलत कॉफी का वेंटि (venti) ऑर्डर करने जैसा है।
- "हम इसे एक चतुर एल्गोरिथ्म के साथ पोस्ट में ठीक कर देंगे।" एल्गोरिथ्म बायस (bias) को कम कर सकते हैं, लेकिन आप एक आलू को पॉलिश नहीं कर सकते और इसे हीरा नहीं कह सकते। बेहतर स्पड (spud) से शुरुआत करें—एर, डेटा।
- "निष्पक्षता का मतलब है सभी के लिए समान सटीकता।" कभी-कभी समता लक्ष्य होता है; कभी-कभी समान अवसर या कैलिब्रेटेड स्कोर (calibrated score) अधिक मायने रखते हैं। उन मेट्रिक्स (metrics) को चुनें जो उस नुकसान से मेल खाते हैं जिसे आप रोकना चाहते हैं।
- "सिंथेटिक डेटा (synthetic data) विविधता को हल करता है।" यह अंतराल को भरने में मदद करता है, लेकिन यदि जनरेटर ने वास्तविक छवियों से बायस (bias) सीखा है, तो आपने बस समस्या को 4K में क्लोन (clone) कर लिया है।
एक व्यावहारिक, चरण-दर-चरण बायस (bias) चेकअप जिसे आप वास्तव में इस सप्ताह चला सकते हैं
- अपनी डेटासेट का इन्वेंट्री (inventory) करें: एक साधारण टेबल (table) बनाएं जिसमें यह कौन और क्या है - जनसांख्यिकी, लाइटिंग, डिवाइस, स्थान। लाल रंग में अंतराल को हाइलाइट (highlight) करें। दिखावा करें कि आप अपने खुद के मॉडल को ग्रेड (grade) कर रहे हैं।
- एक निष्पक्षता इवैल (fairness eval) सेट (set) बनाएं: 1,000-10,000 छवियों को उन समूहों में स्तरीकृत किया गया है जिनकी आप परवाह करते हैं। यह आपकी वार्षिक शारीरिक है।
- दो बायस (bias) मेट्रिक्स (metrics) चुनें: उपसमूह सटीकता और अंशांकन त्रुटि के साथ शुरुआत करें। यदि आपका ऐप उच्च-दांव (मेडिकल, पहचान) है, तो समान अवसर या झूठी-नकारात्मक दर अंतराल जोड़ें।
- थ्रेसहोल्ड (threshold) सेट (set) करें: "कुल सटीकता के 95% से कम का कोई उपसमूह नहीं" एक शुरुआत है। इसे लिखो। इसे एक दीवार पर चिपकाओ।
- ट्राइएज (triage) और रिट्रेन (retrain): लक्षित डेटा संग्रह के साथ अंतराल भरें, अपने सैंपलर (sampler) को रीवेट (reweight) करें, और डोमेन ऑगमेंटेशन (domain augmentation) आज़माएं जहां आप तैनात करते हैं। निष्पक्षता इवैल (fairness eval) को फिर से चलाएँ। तब तक दोहराएं जब तक कि आपका वॉल पोस्टर आप पर चिल्लाना बंद न कर दे।
हेड्स अप: विनियम, ऑडिट (audit), और आपका कानूनी टीम अचानक लंच क्यों पसंद करती है
कानून और मानक पकड़ रहे हैं। प्रभाव आकलन, प्रशिक्षण डेटा का दस्तावेजीकरण और परिनियोजन के बाद निगरानी के लिए आवश्यकताओं की अपेक्षा करें - खासकर स्वास्थ्य सेवा, भर्ती और सार्वजनिक क्षेत्र के उपयोग में। अनुवाद: रिकॉर्ड रखें। डेटासेट के लिए डेटाशीट, मॉडल के लिए मॉडल कार्ड और हर बड़े बदलाव के लिए एक पेपर ट्रेल (paper trail)। आपका भविष्य का स्व—और एक नियामक—आपको धन्यवाद देगा।
जब आपकी स्प्रेडशीट रोना शुरू कर दे तो आज़माने लायक टूल (tool)
- बायस इवैल्यूएशन लाइब्रेरी (bias evaluation libraries): ओपन-सोर्स टूलकिट (open-source toolkit) की तलाश करें जो उपसमूह मेट्रिक्स (metrics), अंशांकन और निष्पक्षता कॉन्स्ट्रेन्ट (constraint) की रिपोर्ट (report) करते हैं। कई सामान्य ML फ्रेमवर्क के साथ एकीकृत होते हैं।
- एक्सप्लेनेबिलिटी (explainability): सैलिएंसी मैप (saliency map), Grad-CAM, SHAP। यह देखने के लिए उनका उपयोग करें कि मॉडल वास्तव में क्या देख रहा है। यदि यह लोगो (logo) है न कि उत्पाद, तो आपको क्रश (crush) की समस्या है।
- डेटा ब्राउज़र (data browsers): सिस्टम जो आपको मेटाडेटा (metadata) द्वारा फ़िल्टर (filter) करने, वितरण अंतराल को देखने और नियर-डुप्लिकेट (near-duplicate) को चिह्नित करने देते हैं। कम क्लोन (clone), अधिक कवरेज (coverage) का लक्ष्य रखें।
उल्लेखनीय: यदि आप डेटासेट का चयन या ऑडिट (audit) करते समय एक सैनिटी चेक (sanity check) चाहते हैं, तो Sider.AI आपको वितरणों की त्वरित तुलना करने, कम प्रतिनिधित्व वाले स्लाइस (slice) को हाइलाइट (highlight) करने और उत्पादन बग बनने से पहले "उह-ओह" सहसंबंधों को सरफेस (surface) करने में मदद कर सकता है। इसे उस दोस्त के रूप में सोचें जो आपको बताता है कि आपके दांतों में पालक है—धीरे से, और चार्ट के साथ। मानव पक्ष: टीमें बायस (bias) को ठीक करती हैं, टूलबार नहीं
- विविध टीमें अलग-अलग ब्लाइंड स्पॉट (blind spot) पर ध्यान देती हैं। यदि आपकी टीम में हर कोई एक ही तीन शहरों में छुट्टियां मनाता है, तो आपका मॉडल भी ऐसा ही करेगा।
- प्रोत्साहन मायने रखते हैं। यदि सफलता केवल "कुल सटीकता" है, तो लोग पक्षपाती मॉडल को शिप (ship) करेंगे जो लीडरबोर्ड (leaderboard) जीतता है। निष्पक्षता लक्ष्य निर्धारित करें और उन्हें हिट (hit) करने पर पुरस्कृत करें।
- उपयोगकर्ताओं से बात करें, खासकर उन लोगों से जिन्हें सबसे खराब परिणाम मिलते हैं। वे आपको बताएंगे कि आपका डैशबोर्ड नहीं बताएगा।
क्विक विन्स (quick wins) बनाम लॉन्ग हॉल्स (long hauls): अपनी समय सीमा के आधार पर क्या करें
- कल शिप (ship) करें: अपने सबसे खराब प्रदर्शन करने वाले उपसमूह के लिए लक्षित ऑगमेंटेशन (augmentation) जोड़ें, अपने नुकसान को रीवेट (reweight) करें, और ड्रिफ्ट (drift) के लिए अलर्ट (alert) के साथ एक निगरानी डैशबोर्ड पर थप्पड़ मारें।
- अगले महीने शिप (ship) करें: अंतराल पर ध्यान केंद्रित करते हुए एक छोटा लेकिन शक्तिशाली डेटासेट एकत्र करें, निष्पक्षता कॉन्स्ट्रेन्ट (constraint) के साथ रिट्रेन (retrain) करें और एक काउंटरफैक्टुअल टेस्ट सूट (counterfactual test suite) चलाएं।
- अगली तिमाही में शिप (ship) करें: कोटा (quota)-आधारित सैंपलिंग (sampling), निरंतर बायस (bias) इवैल (eval) और रिलीज (release) से पहले एक क्रॉस-फंक्शनल (cross-functional) समीक्षा शामिल करने के लिए अपनी डेटा पाइपलाइन (data pipeline) को फिर से डिज़ाइन करें।
चेकलिस्ट (checklist) जिसका आप वास्तव में उपयोग करेंगे
- क्या हम जानते हैं कि हमारे डेटा में कौन है और कौन गायब है?
- क्या हमने उपसमूह प्रदर्शन लक्ष्य निर्धारित किए?
- क्या हमारे लेबल लगातार और सांस्कृतिक रूप से जागरूक हैं?
- क्या हमने उन वातावरणों में परीक्षण किया है जिनमें हमारे उपयोगकर्ता रहते हैं - न कि केवल हमारी प्रयोगशाला में?
- जब चीजें गलत हो जाती हैं तो क्या हम मॉडल निर्णयों को समझा सकते हैं?
- क्या हमारे पास लॉन्च (launch) के बाद अपडेट (update) करने और मॉनिटर (monitor) करने की योजना है?
इसे प्रिंट (print) करें। इसे फ्रेम (frame) करें। या इसे अपने एस्प्रेसो (espresso) मशीन से चिपका दें।
जब बायस (bias) फीचर (feature) हो, बग नहीं: सीमाओं को पहचानना
कुछ इमेजिंग कार्य सांस्कृतिक मानदंडों (फैशन, इशारे, प्रतीक) को एन्कोड (encode) करते हैं जो सार्वभौमिक नहीं हैं। कभी-कभी सही जवाब एक आकार-फिट-सभी निष्पक्षता का पीछा करने के बजाय क्षेत्र, संस्कृति या उपयोग के मामले के अनुसार मॉडल को स्थानीयकृत करना होता है। लक्ष्य एक AI बनाना नहीं है जो सभी के बारे में सब कुछ जानता है - यह एक ऐसा AI बनाना है जो जानता है कि यह कब नहीं जानता है।
मुख्य बात: अपने AI को बुलबुले में बड़ा न होने दें
AI इमेजिंग में डेटासेट बायस (dataset bias) आपकी कैमरा को पेपर टॉवल ट्यूब (paper towel tube) के माध्यम से दुनिया को देखना सिखाने जैसा है: आपको एक संकीर्ण दृश्य और सिरदर्द मिलता है। लेकिन आप बर्बाद नहीं हुए हैं।
- अपने डेटा का ऑडिट (audit) इस तरह करें जैसे कि यह मायने रखता है—क्योंकि यह मायने रखता है।
- इरादे से लेबल (label) करें, कॉन्स्ट्रेन्ट (constraint) के साथ ट्रेन (train) करें और संदेह के साथ टेस्ट (test) करें।
- मॉनिटर (monitor) करें, सुनें और ठीक करें क्योंकि वास्तविक दुनिया अनिवार्य रूप से आपको आश्चर्यचकित करती है।
ऐसा करें, और आपका AI बाथरोब के लिए साड़ी और उपज के लिए तिल को भ्रमित करना बंद कर देगा। यह लोगों की मदद करने के लिए भी काफी अच्छा हो सकता है—सुरक्षित रूप से, निष्पक्ष रूप से, और जंगली, गंदी वास्तविकता में जहाँ हम सभी वास्तव में रहते हैं।
अब अपना डेटासेट चेक (check) करने जाएं। मैं इंतजार करूंगा। और मैं कोने में वह व्यक्ति होऊंगा, जो आपके मॉडल से फुसफुसा रहा होगा: "यह तुम नहीं हो, यह तुम्हारा प्रशिक्षण सेट है।"
FAQ
Q1: AI इमेजिंग में डेटासेट बायस (dataset bias) क्या है, सरल अंग्रेजी में?
यह तब होता है जब प्रशिक्षण छवियां वास्तविक दुनिया से मेल नहीं खातीं—बहुत कम त्वचा टोन, लाइटिंग कंडीशंस (lighting conditions) या संदर्भ। मॉडल एक संकीर्ण वास्तविकता सीखता है और उस बुलबुले के बाहर कुछ भी मिलने पर पक्षपाती या गलत भविष्यवाणियां करता है।
Q2: मैं शिप (ship) करने से पहले डेटासेट बायस (dataset bias) का पता कैसे लगाऊं?
उपसमूह द्वारा अपने मेट्रिक्स (metrics) को स्लाइस (slice) करें—जनसांख्यिकी, लाइटिंग, डिवाइस—और प्रदर्शन अंतराल देखें। संदर्भ और लेबलिंग बायस (bias) को जल्दी पकड़ने के लिए काउंटरफैक्टुअल टेस्ट (counterfactual test) और एक छोटा, क्यूरेटेड (curated) निष्पक्षता इवैल (fairness eval) सेट (set) जोड़ें।
Q3: क्या सिंथेटिक डेटा (synthetic data) कंप्यूटर विज़न में डेटासेट बायस (dataset bias) को ठीक कर सकता है?
सिंथेटिक डेटा (synthetic data) दुर्लभ लाइटिंग या एंगल्स (angles) जैसे अंतराल को भर सकता है, लेकिन यह आपके मौजूदा बायस (bias) को भी क्लोन (clone) कर सकता है। विविध वास्तविक दुनिया की छवियों को बदलने के बजाय, कम प्रतिनिधित्व वाले परिदृश्यों को बढ़ाने के लिए इसका उपयोग करें।
Q4: हर चीज का पुनर्निर्माण किए बिना बायस (bias) को कम करने के त्वरित तरीके क्या हैं?
वर्गों को रीवेट (reweight) करें, लक्षित ऑगमेंटेशन (augmentation) जोड़ें और अपने सबसे खराब प्रदर्शन करने वाले समूहों पर ध्यान केंद्रित करते हुए एक छोटा डेटासेट एकत्र करें। फिर निष्पक्षता-जागरूक लॉस (loss) के साथ रिट्रेन (retrain) करें और लॉन्च (launch) के बाद ड्रिफ्ट (drift) को मॉनिटर (monitor) करें।
Q5: इमेजिंग बायस (bias) को मापने के लिए मुझे किन मेट्रिक्स (metrics) का उपयोग करना चाहिए?
उपसमूह सटीकता और अंशांकन त्रुटि के साथ शुरुआत करें, फिर उच्च-दांव कार्यों के लिए समान अवसर या झूठी-नकारात्मक दर अंतराल पर विचार करें। उन मेट्रिक्स (metrics) को चुनें जो उस नुकसान के साथ संरेखित हों जिसे आप सबसे अधिक रोकना चाहते हैं।