உங்கள் AI கேமரா ஒவ்வொரு பெண்ணையும் நர்ஸாகவும், ஒவ்வொரு ஆணையும் CEO-வாகவும் நினைக்கிறது. கூல், கூல், கூல்.
எப்போதாவது ஒரு புகைப்படத்தை "AI- மேம்படுத்தப்பட்ட" செயலியில் பதிவேற்றி, அது உங்கள் நண்பரின் சேலையை குளியல் அங்கி என்று நம்பிக்கையுடன் லேபிளிடுவதைப் பார்த்திருக்கிறீர்களா? அல்லது உங்கள் கையில் உள்ள மச்சம் ஒரு அவுரிநெல்லி என்று மருத்துவ இமேஜிங் அமைப்பு வலியுறுத்துவதைப் பார்த்திருக்கிறீர்களா? அதுதான் AI இமேஜிங்கில் உள்ள தரவுத்தொகுப்பு சார்பு (Dataset bias), மேலும் இது சங்கடமானது மட்டுமல்ல— ஆபத்தானதாகவும் இருக்கலாம். உயிரெழுத்துக்களை மட்டும் வைத்து ஒரு குழந்தைக்கு எழுத்துக்களைக் கற்பிப்பதைப் போல நினைத்துப் பாருங்கள். நிச்சயமாக, அவர்கள் ஏதாவது பாடுவார்கள். ஆனால் அவர்களை வைத்து மருந்துச் சீட்டு எழுத உங்களுக்கு விருப்பமிருக்காது.
நாம் ஒரு வினோதமான தருணத்தில் இருக்கிறோம், அதாவது கம்ப்யூட்டர் விஷன் எல்லா இடங்களிலும் இருக்கும் அளவுக்கு நன்றாக இருக்கிறது—உங்கள் போன், உங்கள் கார், உங்கள் டாக்டரின் அலுவலகம்—ஆனால் இன்னும் பாயிண்ட், கான்டெக்ஸ்ட், மற்றும் சில சமயங்களில் முழு குழுக்களையும் தவறவிடும் அளவுக்கு மோசமாக உள்ளது. குற்றவாளி பொதுவாக கணிதம் அல்ல. அது தரவு. குறிப்பாக, இந்த மாதிரிகள் உலகத்தை மிகக் குறுகிய கண்ணோட்டத்தில் பார்க்க பயிற்சி அளித்த தரவு.
AI இமேஜிங்கில் தரவுத்தொகுப்பு சார்பு (Dataset bias) எப்படி ஊடுருவுகிறது, குழப்புகிறது, மேலும் - மிக முக்கியமாக - உங்கள் பூனையை க்ரோசண்ட் என்று அழைப்பதில் இருந்து எப்படி தடுப்பது என்பதைப் பற்றி பார்ப்போம்.
AI இமேஜிங்கில் தரவுத்தொகுப்பு சார்பு (Dataset bias) என்றால் என்ன? உங்கள் அத்தை உண்மையில் படிக்கக்கூடிய சுருக்கமான விளக்கம்
ஒரு மாதிரியைப் பயிற்றுவிக்கப் பயன்படுத்தப்படும் படங்கள் உண்மையான உலகத்தைப் பிரதிபலிக்காதபோது AI இமேஜிங்கில் தரவுத்தொகுப்பு சார்பு (Dataset bias) ஏற்படுகிறது. உங்கள் தரவுத்தொகுப்பு பெரும்பாலும் ஒரு குறிப்பிட்ட மக்கள்தொகையிலிருந்து வரும் முகங்கள், வரையறுக்கப்பட்ட வரம்பிலிருந்து வரும் தோல் நிறங்கள் அல்லது சரியான ஸ்டுடியோ வெளிச்சத்தில் புகைப்படம் எடுக்கப்பட்ட பொருள்கள் (ஹாய், இன்ஃப்ளூயன்ஸர் ரிங் லைட்கள்!) ஆகியவற்றைக் கொண்டிருந்தால், மாதிரி யதார்த்தத்தின் ஒரு பக்கச்சார்பான பதிப்பைக் கற்றுக்கொள்கிறது.
- தேர்வு சார்பு: நீங்கள் எளிதாகப் பெறக்கூடிய படங்களைத் தேர்ந்தெடுத்தீர்கள்—ஸ்டாக் புகைப்படங்கள், வெள்ளை பின்னணிகள் மற்றும் எப்போதாவது சந்தேகத்திற்கிடமான மகிழ்ச்சியான சாலட் சாப்பிடுபவர்.
- லேபிள் சார்பு: மனிதர்கள் படங்களுக்கு லேபிளிடுகிறார்கள். மனிதர்கள் கருத்துக்களைக் கொண்டு வருகிறார்கள். சில சமயங்களில் அந்த கருத்துக்கள் "உண்மையான உண்மையை" விட "கிரியேட்டிவ் ரைட்டிங்" ஆக இருக்கும்.
- சூழல் சார்பு: ஒரு பெண்ணின் அருகில் ஒரு ஸ்டெதாஸ்கோப் இருக்கிறதா? நிச்சயமாக ஒரு நர்ஸாக இருக்க வேண்டும். அதே பொருள் ஒரு ஆணின் அருகில் இருக்கிறதா? டாக்டர். மாதிரி தரவுத்தொகுப்பிலிருந்து அந்த ஒருதலைப்பட்ச கருத்தை கற்றுக்கொண்டது.
- டொமைன் சார்பு: நீங்கள் பளபளப்பான தயாரிப்பு புகைப்படங்களில் பயிற்சி அளித்தீர்கள், பின்னர் மங்கலான தொழிற்சாலை தளங்களில் பயன்படுத்தினீர்கள். ஆச்சரியம்: ஃபோர்க்லிஃப்ட் பிக்ஃபுட் போல் தெரிகிறது.
நீங்கள் ஒரு AI-க்கு ஒரே ஒரு சுற்றுப்புறத்தின் மூலம் உலகத்தைப் பார்க்கக் கற்பித்தால், அது டவுன்டவுனில் தொலைந்து போனால் ஆச்சரியப்பட வேண்டாம்.
சிரிப்புக்கு இடமில்லாத விளைவுகள்: எங்கே சார்பு ஒரு மீம் ஆகிவிடுவதில்லை
AI இமேஜிங்கில் உள்ள சார்பு வெறுமனே மீம் செய்யக்கூடிய தவறுகளை உருவாக்குவதில்லை. இது எங்கேல்லாம் தென்படுகிறது:
- மருத்துவ இமேஜிங்: தோல் மருத்துவத் தரவுத்தொகுப்புகளில் குறைவாகக் குறிப்பிடப்படும் தோல் நிறங்கள், மெலனோமா போன்ற நிலைகளைக் கண்டறிவதில் மோசமான விகிதங்களுக்கு வழிவகுக்கும். பிக்சல்கள் பயிற்சி உதாரணங்களுடன் பொருந்தவில்லை என்றால், பிழைகள் அதிகரிக்கும்.
- பாதுகாப்பு மற்றும் கண்காணிப்பு: முக அங்கீகாரத்தில் தவறான அடையாளங்காண்தல் தவறான கைதுகளுடன் இணைக்கப்பட்டுள்ளது, குறிப்பாக நிறமுள்ளவர்களுக்கு. இது ஒரு சிறந்த பயனர் அனுபவம் அல்ல.
- வேலைக்கு அமர்த்தல் மற்றும் அடையாள சரிபார்ப்பு: ஆண்-பெண் அல்லாத அல்லது திருநங்கை முகங்களை சரியாகப் பொருத்த தவறினால் அது வெறுப்பாக இருப்பது மட்டுமல்ல—அது விலக்குவதாகவும் உள்ளது.
- தன்னாட்சி அமைப்புகள்: கலிபோர்னியா வெயிலில் பெரும்பாலும் பயிற்சி பெற்ற ஒரு தானியங்கி கார், மினசோட்டாவில் பனி மூடிய ஸ்டாப் சைனை அடையாளம் காணாமல் போகலாம். அந்த கார் பொறுப்பற்றது அல்ல. அது பாதுகாப்பாக வைக்கப்பட்டுள்ளது.
மாதிரியின் உலகம் சிறியதாக இருக்கும்போது, உண்மையான மனிதர்கள் விலைக் கொடுக்கிறார்கள்.
இது எப்படி ஊடுருவுகிறது: படத் தரவுத்தொகுப்பு சார்பின் நான்கு குதிரை வீரர்கள்
1) "இலவசப் பொருட்கள் சார்பு"
படங்களுக்காக திறந்த இணையத்தை ஸ்கிராப் செய்வது அடிப்படையில் பிக்சல்களுக்கான குப்பைத் தொட்டியில் மூழ்குவது போன்றது. நீங்கள் நிறைய பிரபலங்களின் முகப் படங்கள், தொழில்நுட்ப மாநாட்டு பேட்ஜ்கள் மற்றும் சந்திரனில் எடுத்தது போல் இருக்கும் தயாரிப்பு படங்களைக் காண்பீர்கள். அன்றாட, குழப்பமான யதார்த்தம்? குறைவாகவே. இது உங்கள் மாதிரியை சில முகங்கள், இடங்கள் மற்றும் அதிர்வுகள் நோக்கி சாய்க்கிறது.
2) "குறிப்பு விளக்கம் விலகல்"
இரண்டு லேபிளர்கள் ஒரு லேபிளிங் வேலையில் நுழைகிறார்கள். ஒருவர் ஒரு ஹூடியை "ஸ்போர்ட்ஸ்வேர்" என்று குறிக்கிறார், மற்றவர் அதை "கேசுவல்வேர்" என்று கூறுகிறார், மேலும் மூன்றாவது அதை "ஸ்ட்ரீட்வேர்" என்று அழைக்கிறார். ஆடைகள் குழப்பமானவை என்று மாதிரி கற்றுக்கொள்கிறது. அதைவிட மோசமாக, லேபிளர்கள் கலாச்சார அனுமானங்களைக் கொண்டு வருகிறார்கள்—யார் "பாஸ்" போல் இருக்கிறார் அல்லது எது "இயற்கையான" சிகை அலங்காரம் என்பது போன்றவை.
3) "சூழல் ஊன்றுகோல்"
மாதிரிகள் குறுக்குவழிகளை விரும்புகின்றன. உங்கள் தரவுத்தொகுப்பில் உள்ள சமையல்காரர்களின் 90% புகைப்படங்களில் ஆண்கள் இருந்தால், மாதிரி "சமையல்காரரை" கணிக்க பாலின குறிப்புகளை குறுக்குவழியாகப் பயன்படுத்தும். அது நுண்ணறிவு அல்ல; அது ஒருதலைப்பட்சமான சீட் ஷீட்.
4) "டொமைன் பொருந்தாதது"
DSLR கவர்ச்சிப் படங்களில் பயிற்சி செய்யுங்கள், குறைந்த ரெசல்யூஷன் பாதுகாப்பு கேமராக்களில் பயன்படுத்துங்கள். பகல் நேரப் படங்களில் பயிற்சி செய்யுங்கள், இரவில் பயன்படுத்துங்கள். நகர்ப்புற வீதிகளில் பயிற்சி செய்யுங்கள், கிராமப்புற சாலைகளில் பயன்படுத்துங்கள். உங்கள் மாதிரி அடிப்படையில் சார்ஜர் இல்லாமல் பயணம் செய்கிறது.
PhD இல்லாமல் சார்பைக் கண்டுபிடிப்பது—அல்லது பொய் கண்டுபிடிக்கும் கருவி
உங்கள் AI இமேஜிங் மாதிரிக்கு ஒரு சார்பு பிரச்சினை உள்ளது என்பதை நீங்கள் எப்படி அறிவீர்கள், உங்கள் டெமோவில் உள்ள அந்த மூழ்கும் உணர்வுக்கு அப்பால்:
- செயல்திறன் இடைவெளிகள்: மக்கள்தொகை, வெளிச்சம், புவியியல் அல்லது சாதன வகை மூலம் உங்கள் சரிபார்ப்பு அளவீடுகளை ஸ்லைஸ் செய்யுங்கள். சில குழுக்களுக்கு ஒரு கேஸ் இல்லாத போனைப் போல துல்லியம் குறைந்தால், உங்களுக்கு சார்பு உள்ளது.
- உங்களை குழப்பும் குழப்பமான மேட்ரிக்ஸ்கள்: மாதிரி குறிப்பிட்ட வகுப்புகளைக் கலந்துகொண்டே இருந்தால்—ஹிஜாப்களை தொப்பிகளுடன் என்று வைத்துக்கொள்வோம்—அது ஒரு தரவுத்தொகுப்பு தகவல்.
- அம்ச பண்புக்கூறு தணிக்கைகள்: Grad-CAM போன்ற கருவிகள் உங்கள் "பூனை" கண்டறிதல் உண்மையில் ஒரு சோபா பேட்டர்னில் உள்ளதா என்பதை வெளிப்படுத்த முடியும். வாழ்த்துகள், நீங்கள் மெத்தை அங்கீகாரத்திற்கு பயிற்சி அளித்தீர்கள்.
- உண்மையான உலக பைலட் விலகல்: காடுகளில் சிறிய பைலட்களை இயக்குங்கள். ஒரு அடித்தளத்தில் ஒரு செடியைப் போல ஒளிரும் விளக்குகளின் கீழ் மாதிரி பதற்றமடைந்தால், அதற்கு இன்னும் பலதரப்பட்ட தரவு தேவை.
கருவித்தொகுப்பு: உங்கள் தயாரிப்பு ரோட்மேப் கடிப்பதைத் தடுக்கும் முன் தரவுத்தொகுப்பு சார்பைக் குறைப்பது எப்படி
சார்பு-சண்டையை வீட்டு புதுப்பித்தலாக கற்பனை செய்து பாருங்கள். நீங்கள் ஒட்டுப்போடலாம், வலுப்படுத்தலாம் அல்லது கிழித்துவிட்டு மீண்டும் கட்டலாம். உங்கள் பட்ஜெட்: நேரம், தரவு மற்றும் பணிவு.
1) ஒரு அருங்காட்சியகத்தைப் போலத் தொகுக்கவும் (ஒரு பிளே மார்க்கெட் அல்ல)
- கவரேஜை வரையறுக்கவும்: உங்கள் அமைப்பு கையாள வேண்டிய மக்கள்தொகை, வெளிச்ச நிலைமைகள், கேமரா வகைகள், புவியியல் மற்றும் சூழல்களை எழுதுங்கள். அது எழுதப்படவில்லை என்றால், அது ஒரு ஆசை.
- ஒதுக்கீடுகளை அமைக்கவும்: ஆமாம், ஒதுக்கீடுகள். உங்கள் பயனர்களில் 30% பேர் குறைந்த வெளிச்சத்தில் இருந்தால், உங்கள் தரவுத்தொகுப்பில் 30% குறைந்த ஒளி படங்களாக இருக்க வேண்டும். தோல் நிற வரம்புகள் (ஃபிட்ஸ்பாட்ரிக் போன்ற அளவைப் பயன்படுத்துங்கள்), வயது குழுக்கள், ஆடை பாணிகள் மற்றும் கலாச்சார சூழல்களுக்கும் இது பொருந்தும்.
- உங்கள் தரவை பல மூலங்களிலிருந்து பெறுங்கள்: ஸ்டாக் புகைப்படங்கள் இனிப்பு. உங்களுக்கு வீட்டில் சமைத்த உணவுகளும் தேவை: பயனர் வழங்கிய புகைப்படங்கள் (சம்மதத்துடன்), சார்பு தணிக்கைகளுடன் பொது தரவுத்தொகுப்புகள் மற்றும் குறைவான பிரதிநிதித்துவம் உள்ள குழுக்களிடமிருந்து குறிவைக்கப்பட்ட தரவு சேகரிப்பு.
2) ஒரு வழக்கறிஞரைப் போல லேபிளிடுங்கள் (ஆனால் நட்புடன்)
- தெளிவான வகைப்பாடு: லேபிளிங் வழிகாட்டியை எழுதுங்கள். இல்லை, உண்மையான ஒன்றை. விளிம்பு வழக்குகள், எடுத்துக்காட்டுகள் மற்றும் என்ன செய்யக்கூடாது என்பதைச் சேர்க்கவும். லேபிளரின் "அதிர்வுகளை" குறைக்கவும்.
- பலதரப்பட்ட அனோடேட்டர்கள்: உங்கள் அனோடேட்டர்கள் அனைவரும் ஒரே மூன்று காபி கடைகளுக்குச் சென்றால், உங்கள் லேபிள்களும் அவ்வாறே இருக்கும். புவியியல் மற்றும் கலாச்சார பன்முகத்தன்மை உதவுகிறது.
- ஒப்பந்தச் சரிபார்ப்புகள்: இன்டர்-அனோடேட்டர் ஒப்பந்தத்தை அளந்து, ஒரு லீட் லேபிளருடன் கருத்து வேறுபாடுகளைத் தீர்க்கவும். முட்டாள்தனமாக சராசரியாக வேண்டாம்.
- உணர்திறன் பண்புகள்: பொருத்தமானதாகவும் ஒப்புதல் அளிக்கப்பட்டதாகவும் இருக்கும்போது, மதிப்பீட்டிற்கான பாதுகாக்கப்பட்ட-பண்புக்கூறு குறிச்சொற்களைச் சேகரிக்கவும். நீங்கள் கட்டுப்படுத்தப்பட்ட நியாயத்தன்மை தலையீடுகளைச் செய்யாவிட்டால் அவற்றைப் பயிற்சியிலிருந்து விலக்கி வைக்கவும்.
3) ஒரு விஞ்ஞானியைப் போலப் பயிற்சி செய்யுங்கள் (சிற்றுண்டிகளுடன்)
- சமநிலையான மாதிரி: அடுக்கு மாதிரி மற்றும் வகுப்பு மறு எடையை பயன்படுத்தவும், இதனால் மாதிரி பெரும்பான்மை வகுப்பில் மூழ்கிவிடாது.
- தரவு விரிவாக்கம், பொறுப்புடன்: வெளிச்சம், கோணங்கள், மறைப்புகள் மற்றும் பின்னணிகளை மாற்றவும். செயற்கை தரவு உதவக்கூடும், ஆனால் ஒரு கேம் எஞ்சின் உங்கள் முழு யதார்த்தத்தையும் கண்டுபிடிக்க விடாதீர்கள்.
- சார்பு நீக்கும் நோக்கங்கள்: குழுக்கள் முழுவதும் செயல்திறன் இடைவெளிகளைக் குறைக்கும் நியாயத்தன்மை-உணர்ந்த இழப்புகள் அல்லது கட்டுப்பாடுகளைச் சேர்க்கவும்.
- டொமைன் தழுவல்: பயன்பாடு இருட்டாக, சத்தமாக அல்லது குறைந்த ரெசல்யூஷனாக இருந்தால், அந்த உலகத்தை உருவகப்படுத்துங்கள். சிறந்தது: அந்த உலகில் சேகரிக்கவும்.
4) ஒரு சந்தேகிப்பவரைப் போல சோதிக்கவும்
- ஸ்லைஸ்-அண்ட்-டைஸ் மதிப்பீடு: துல்லியம், துல்லியம்/நினைவுகூருதல் மற்றும் துணைக்குழுவால் அளவீடு செய்தல் ஆகியவற்றை தெரிவிக்கவும். நீங்கள் அதைப் பார்க்க முடியாவிட்டால், அதைச் சரிசெய்ய மாட்டீர்கள்.
- எதிர் உண்மைச் சோதனைகள்: பொருளை மாறாமல் வைத்து சூழலை மாற்றவும். ஒரு சூட்கேஸை வைத்திருக்கும் ஒரு பெண் "ஆசிரியர்" ஆகிறாரா, அதே நேரத்தில் ஒரு சூட்கேஸுடன் இருக்கும் ஒரு ஆண் "CEO" ஆகிறாரா? அது 4K இல் பிடிக்கப்பட்ட சூழல் சார்பு.
- அழுத்த சோதனைகள்: உங்கள் மாதிரியில் விரோதமான பிரதிபலிப்பு, மோஷன் மங்கலடிப்பு, பனி, மூடுபனி, முகமூடிகள் மற்றும் தொப்பிகளை வீசுங்கள். அடிப்படையில் நியூரல் நெட்வொர்க்குகளுக்கான ஹாலோவீன்.
5) நீங்கள் நினைப்பதைப்போல் கண்காணிக்கவும்
- விலகல் கண்டறிதல்: வெளியீட்டிற்குப் பிறகு உள்ளீட்டு விநியோகத்தில் ஏற்படும் மாற்றங்களைக் கண்காணிக்கவும். உங்கள் பயன்பாடு திடீரென பிரேசிலில் பெரியதாகும்போது, நீங்கள் தெரிந்துகொள்ள விரும்புவீர்கள்.
- மனிதன்-இன்-தி-லூப்: பிழைகள் மற்றும் சார்புகளைக் கொடியிட பயனர்களை அனுமதிக்கவும், மேலும் அறிக்கைகளை உண்மையில் படிக்கவும். ஆம், அனைத்து கேப்ஸ் உள்ளவைகளையும் கூட.
- மறு பயிற்சி தாளம்: புதுப்பிப்புகளைத் திட்டமிடுங்கள். பழைய மாதிரிகள் முதுமை மறதி நோயுள்ள சார்பு மாதிரிகள்.
உண்மையான உலக சூழ்நிலைகள்: எங்கே தரவுத்தொகுப்பு சார்பு அதிர்வை கெடுக்கிறது
- தோல் மருத்துவம் AI: உங்கள் பயிற்சிப் படங்கள் பெரும்பாலும் இலகுவான தோல் நிறங்களாக இருந்தால், அடர் சருமத்தில் உள்ள காயங்கள் குறைவாகக் கண்டறியப்படும். தீர்வு: பல்வேறு மக்கள்தொகையினரின் கிளினிக்குகளிலிருந்து ஆதாரங்களைத் தரப்படுத்தி, தோல் நிற வகைகளால் மதிப்பீடு செய்யுங்கள்.
- சில்லறை இழப்பு தடுப்பு: சுத்தமான, பிரகாசமான கடைகளில் இருந்து சோதனை காட்சிகளில் பயிற்சி பெற்ற மாதிரிகள், நெரிசலான, மங்கலான கடைகளில் தவறாகப் போகின்றன. தீர்வு: பிராந்தியங்கள் மற்றும் பருவங்கள் முழுவதும் உண்மையான கடைகளில் இருந்து சேகரிக்கவும். மேலும், ஹூடிகளை குற்றமாக்க வேண்டாம்.
- விவசாய இமேஜிங்: பகல்நேர ட்ரோன் படங்களில் பயிற்சி பெற்ற ஒரு மாதிரி, மாலை நேரத்தில் பூச்சிகளைத் தவறவிடுகிறது. தீர்வு: நாளின் வெவ்வேறு நேரங்களையும் சென்சார் வகைகளையும் சேர்க்கவும் (RGB + வெப்பம்). தாவரங்களுக்கும் இரவு வாழ்க்கை உள்ளது.
- ஆவண ஸ்கேனிங்: பாஸ்போர்ட் செல்ஃபி சரிபார்ப்புகள் சுருள் முடி அல்லது தலை உறைகளில் தோல்வியடைகின்றன. தீர்வு: பயிற்சியை விரிவுபடுத்துங்கள் மற்றும் முடி அமைப்புகள் மற்றும் உறைகளை வெளிப்படையாக மதிப்பிடுங்கள். போனஸ்: UI தூண்டுதல்கள் மற்றும் விளக்கு வழிகாட்டுதல்களை மேம்படுத்தவும்.
நான் தொடர்ந்து கேட்கும் கட்டுக்கதைகள் (மற்றும் ஆமாம், நான் ரசீதுகளைக் கொண்டு வந்தேன்)
- "பெரிய தரவுத்தொகுப்புகள் = குறைவான சார்பு." உங்கள் பெரிய தரவுத்தொகுப்பு அதே மாதிரியாக இருந்தால், நீங்கள் சிக்கலை பெரிதாக்கிவிட்டீர்கள். அது தவறான காபியின் வென்டியை ஆர்டர் செய்வது போன்றது.
- "நாங்கள் ஒரு புத்திசாலித்தனமான அல்காரிதம் மூலம் அதை சரிசெய்வோம்." அல்காரிதம்கள் சார்பைக் குறைக்கலாம், ஆனால் நீங்கள் ஒரு உருளையை மெருகூட்டி அதை வைரம் என்று அழைக்க முடியாது. சிறந்த ஸ்பட்களுடன் தொடங்குங்கள்—எர், தரவு.
- "நியாயம் என்பது அனைவருக்கும் ஒரே துல்லியம்." சில சமயங்களில் சமநிலைதான் குறிக்கோள்; சில சமயங்களில் சமமான முரண்பாடுகள் அல்லது அளவீடு செய்யப்பட்ட மதிப்பெண்கள் மிகவும் முக்கியம். நீங்கள் தடுக்க விரும்பும் தீங்குக்கு பொருந்தக்கூடிய அளவீடுகளைத் தேர்ந்தெடுக்கவும்.
- "செயற்கை தரவு பன்முகத்தன்மையை தீர்க்கிறது." இது இடைவெளிகளை நிரப்ப உதவுகிறது, ஆனால் ஜெனரேட்டர் உண்மையான படங்களிலிருந்து சார்புகளைக் கற்றுக் கொண்டால், நீங்கள் சிக்கலை 4K இல் குளோன் செய்தீர்கள்.
நீங்கள் உண்மையில் இந்த வாரம் இயக்கக்கூடிய ஒரு நடைமுறை, படிப்படியான சார்பு சரிபார்ப்பு
- உங்கள் தரவுத்தொகுப்பை சரக்குகளாகக் காட்டுங்கள்: அதில் யார் மற்றும் என்ன இருக்கிறது என்பதற்கான ஒரு எளிய அட்டவணையை உருவாக்கவும்—மக்கள்தொகை, வெளிச்சம், சாதனங்கள், இடங்கள். சிவப்பு நிறத்தில் உள்ள இடைவெளிகளை முன்னிலைப்படுத்தவும். உங்கள் சொந்த மாதிரியை தரப்படுத்துவதாக பாவனை செய்யுங்கள்.
- ஒரு நியாயமான மதிப்பீட்டு தொகுப்பை உருவாக்குங்கள்: நீங்கள் கவலைப்படும் குழுக்கள் முழுவதும் அடுக்குப்படுத்தப்பட்ட 1,000-10,000 படங்கள். இது உங்கள் ஆண்டு உடல்நிலை சரிபார்ப்பு.
- இரண்டு சார்பு அளவீடுகளைத் தேர்ந்தெடுக்கவும்: துணைக்குழு துல்லியம் மற்றும் அளவீட்டு பிழையுடன் தொடங்கவும். உங்கள் பயன்பாடு உயர் பங்குகளைக் கொண்டிருந்தால் (மருத்துவம், அடையாளம்), சமமான முரண்பாடுகள் அல்லது தவறான-எதிர்மறை விகித இடைவெளிகளைச் சேர்க்கவும்.
- வரம்புகளை அமைக்கவும்: "ஒட்டுமொத்த துல்லியத்தில் 95% க்கு கீழ் எந்த துணைக்குழுவும் இல்லை" என்பது ஒரு தொடக்கம். அதை எழுதி வையுங்கள். சுவரில் ஒட்டுங்கள்.
- பிரித்தல் மற்றும் மறு பயிற்சி: குறிவைக்கப்பட்ட தரவு சேகரிப்பு மூலம் இடைவெளிகளை நிரப்பவும், உங்கள் மாதிரியை மீண்டும் எடையிடவும், மேலும் நீங்கள் பயன்படுத்தும் இடத்தில் டொமைன் விரிவாக்கத்தை முயற்சிக்கவும். நியாயத்தன்மை மதிப்பீட்டை மீண்டும் இயக்கவும். உங்கள் சுவர் சுவரொட்டி கத்துவதை நிறுத்தும் வரை மீண்டும் செய்யவும்.
தலைகீழாக: ஒழுங்குமுறைகள், தணிக்கைகள் மற்றும் உங்கள் சட்டக் குழு ஏன் திடீரென மதிய உணவை விரும்புகிறது
சட்டங்களும் தரநிலைகளும் நெருங்கி வருகின்றன. தாக்கம் மதிப்பீடுகளுக்கான தேவைகள், பயிற்சித் தரவு ஆவணப்படுத்தல் மற்றும் பயன்பாட்டிற்குப் பிந்தைய கண்காணிப்பு—குறிப்பாக சுகாதாரம், வேலைக்கு அமர்த்தல் மற்றும் பொதுத்துறை பயன்பாடுகளில் இருக்கும் என்று எதிர்பார்க்கலாம். மொழிபெயர்ப்பு: பதிவுகளை வைத்திருங்கள். தரவுத்தொகுப்புகளுக்கான தரவுத்தாள்கள், மாதிரிகளுக்கான மாதிரி அட்டைகள் மற்றும் ஒவ்வொரு பெரிய மாற்றத்திற்கும் ஒரு காகித பாதை. உங்கள் எதிர்கால சுயமும்—ஒரு ஒழுங்குமுறை அதிகாரியும் உங்களுக்கு நன்றி சொல்வார்கள்.
உங்கள் விரிதாள் அழத் தொடங்கும் போது முயற்சி செய்ய வேண்டிய கருவிகள்
- சார்பு மதிப்பீட்டு நூலகங்கள்: துணைக்குழு அளவீடுகள், அளவீடு மற்றும் நியாயத்தன்மை கட்டுப்பாடுகளை தெரிவிக்கும் திறந்த மூல கருவித்தொகுப்புகளைத் தேடுங்கள். பல பொதுவான ML கட்டமைப்புகளுடன் ஒருங்கிணைக்கப்படுகின்றன.
- விளக்கக்கூடிய தன்மை: சலியன்சி வரைபடங்கள், Grad-CAM, SHAP. மாதிரி உண்மையில் என்ன பார்க்கிறது என்பதைப் பார்க்க அவற்றைப் பயன்படுத்தவும். அது லோகோவாகவும் தயாரிப்பு இல்லாமலும் இருந்தால், உங்களுக்கு ஒரு ஈர்ப்பு பிரச்சனை உள்ளது.
- தரவு உலாவிகள்: மெட்டா தரவின் மூலம் வடிகட்டவும், விநியோக இடைவெளிகளை காட்சிப்படுத்தவும் மற்றும் அருகில் உள்ள நகல்களை கொடியிடவும் உங்களை அனுமதிக்கும் அமைப்புகள். குறைவான குளோன்களை இலக்காகக் கொள்ளுங்கள், அதிக கவரேஜ் செய்யுங்கள்.
குறிப்பிடத்தக்கது: தரவுத்தொகுப்புகளைத் தேர்ந்தெடுக்கும்போது அல்லது தணிக்கை செய்யும் போது நீங்கள் ஒரு மனதைச் சரிபார்க்க விரும்பினால், விநியோகங்களை விரைவாக ஒப்பிடவும், குறைவான பிரதிநிதித்துவம் உள்ள ஸ்லைஸ்களை முன்னிலைப்படுத்தவும் மற்றும் உற்பத்தி பிழைகளாக மாறுவதற்கு முன்பு "அய்யோ" தொடர்புகளை மேற்பரப்பில் கொண்டு வர Sider.AI உங்களுக்கு உதவ முடியும். அதை உங்கள் பற்களில் கீரை இருப்பதை உங்களுக்கு சொல்லும் நண்பராக நினைத்துப் பாருங்கள்—மென்மையாக, மற்றும் விளக்கப்படங்களுடன். மனிதப் பக்கம்: கருவிகள் அல்ல, குழுக்கள் சார்பைச் சரிசெய்கின்றன
- பல்வேறு குழுக்கள் வெவ்வேறு பார்வையற்ற இடங்களைக் கவனிக்கின்றன. உங்கள் குழுவில் உள்ள அனைவரும் ஒரே மூன்று நகரங்களில் விடுமுறைக்குச் சென்றால், உங்கள் மாதிரியும் அவ்வாறே செய்யும்.
- ஊக்கத்தொகைகள் முக்கியம். வெற்றி என்பது "ஒட்டுமொத்த துல்லியம்" மட்டுமே என்றால், மக்கள் லீடர்போர்டில் வெல்லும் சார்பு மாதிரியை அனுப்புவார்கள். நியாயத்தன்மை இலக்குகளை அமைத்து அவற்றை அடைவதற்கு வெகுமதி அளிக்கவும்.
- பயனர்களுடன் பேசுங்கள், குறிப்பாக மோசமான முடிவுகளைப் பெறுபவர்களுடன். உங்கள் டாஷ்போர்டு என்ன சொல்லவில்லையோ அதை அவர்கள் உங்களுக்குச் சொல்வார்கள்.
விரைவான வெற்றிகள் எதிராக நீண்ட தூரம்: உங்கள் காலக்கெடுவின் அடிப்படையில் என்ன செய்வது
- நாளை அனுப்பவும்: உங்கள் மோசமான செயல்திறன் கொண்ட துணைக்குழுவுக்கு குறிவைக்கப்பட்ட விரிவாக்கத்தைச் சேர்க்கவும், உங்கள் இழப்பை மீண்டும் எடையிடவும் மற்றும் விலகலுக்கான எச்சரிக்கைகளுடன் ஒரு கண்காணிப்பு டாஷ்போர்டில் அறைக்கவும்.
- அடுத்த மாதம் அனுப்பவும்: இடைவெளிகளில் கவனம் செலுத்திய சிறிய ஆனால் சக்திவாய்ந்த தரவுத்தொகுப்பைச் சேகரிக்கவும், நியாயத்தன்மை கட்டுப்பாடுகளுடன் மீண்டும் பயிற்சி செய்யவும் மற்றும் ஒரு எதிர் உண்மைச் சோதனை தொகுப்பை இயக்கவும்.
- அடுத்த காலாண்டில் அனுப்பவும்: ஒதுக்கீடு அடிப்படையிலான மாதிரி, தொடர்ச்சியான சார்பு மதிப்பீடுகள் மற்றும் வெளியீட்டிற்கு முன் குறுக்கு-செயல்பாட்டு மதிப்பாய்வு ஆகியவற்றை உள்ளடக்குவதற்கு உங்கள் தரவு பைப்லைனை மறுவடிவமைக்கவும்.
நீங்கள் உண்மையில் பயன்படுத்தும் சரிபார்ப்பு பட்டியல்
- எங்கள் தரவில் யார் இருக்கிறார்கள் மற்றும் யார் காணவில்லை என்பது எங்களுக்குத் தெரியுமா?
- துணைக்குழு செயல்திறன் இலக்குகளை நாங்கள் நிர்ணயித்தோமா?
- எங்கள் லேபிள்கள் சீரானதாகவும், கலாச்சார ரீதியாக அறிந்ததாகவும் இருக்கிறதா?
- எங்கள் பயனர்கள் வாழும் சூழல்களில் நாங்கள் சோதித்தோம்—எங்கள் ஆய்வகத்தில் மட்டுமல்லவா?
- சரியாகப் போகாதபோது மாதிரி முடிவுகளை நாங்கள் விளக்க முடியுமா?
- வெளியீட்டிற்குப் பிறகு புதுப்பிக்கவும் கண்காணிக்கவும் எங்களிடம் திட்டம் உள்ளதா?
அதை அச்சிடுங்கள். ஃப்ரேம் செய்யுங்கள். அல்லது உங்கள் எஸ்பிரெசோ இயந்திரத்தில் ஒட்டவும்.
சார்பு ஒரு பிழை அல்ல, ஒரு அம்சம் இருக்கும்போது: வரம்புகளை அங்கீகரித்தல்
சில இமேஜிங் பணிகள் உலகளாவியதாக இல்லாத கலாச்சார விதிமுறைகளை (ஃபேஷன், சைகைகள், சின்னங்கள்) குறியாக்கம் செய்கின்றன. சில நேரங்களில் சரியான பதில் ஒட்டுமொத்த நியாயத்தை துரத்துவதை விட, பிராந்தியம், கலாச்சாரம் அல்லது பயன்பாட்டு நிகழ்வின் மூலம் மாதிரிகளை உள்ளூர்மயமாக்குவது ஆகும். எல்லாவற்றையும் பற்றி அனைவருக்கும் தெரிந்த ஒரு AI-ஐ உருவாக்குவது இலக்கு அல்ல—அதற்குத் தெரியாதபோது அதைக் கட்டியெழுப்புவதுதான் இலக்கு.
கடைசி வரி: உங்கள் AI ஒரு குமிழில் வளர விடாதீர்கள்
AI இமேஜிங்கில் தரவுத்தொகுப்பு சார்பு என்பது உங்கள் கேமராவை காகித துண்டு குழாய் மூலம் உலகத்தைப் பார்க்கக் கற்பிப்பது போன்றது: உங்களுக்கு ஒரு குறுகிய பார்வையும் தலைவலியும் கிடைக்கும். ஆனால் நீங்கள் அழிந்துவிடவில்லை.
- உங்கள் தரவை முக்கியமானது போல் தணிக்கை செய்யுங்கள்—ஏனெனில் அதுதான்.
- நோக்கத்துடன் லேபிளிடுங்கள், கட்டுப்பாடுகளுடன் பயிற்சி செய்யுங்கள், மற்றும் சந்தேகத்துடன் சோதிக்கவும்.
- கண்காணிக்கவும், கேட்கவும் மற்றும் உண்மையான உலகம் உங்களை தவிர்க்க முடியாமல் ஆச்சரியப்படுத்தும் போது சரிசெய்யவும்.
இதைச் செய்யுங்கள், உங்கள் AI சேலைகளை குளியல் அங்கியாகவும், மச்சங்களை உற்பத்தியாகவும் குழப்புவதை நிறுத்தும். இது மக்களுக்கு உதவ போதுமானதாக இருக்கலாம்—பாதுகாப்பாக, நியாயமாக மற்றும் நாம் அனைவரும் உண்மையில் வாழும் காட்டு, குழப்பமான யதார்த்தத்தில்.
இப்போது உங்கள் தரவுத்தொகுப்பை சரிபார்க்கவும். நான் காத்திருப்பேன். நான் தான் அந்த மூலையில் இருப்பேன், உங்கள் மாதிரியிடம் கிசுகிசுப்பேன்: "அது நீ இல்லை, அது உன் பயிற்சி தொகுப்பு."
அடிக்கடி கேட்கப்படும் கேள்விகள்
கே1: AI இமேஜிங்கில் தரவுத்தொகுப்பு சார்பு என்றால் என்ன, சாதாரண ஆங்கிலத்தில்?
பயிற்சி படங்கள் உண்மையான உலகத்துடன் பொருந்தாதபோது—தோல் நிறங்கள், விளக்கு நிலைமைகள் அல்லது சூழல்கள் மிகக் குறைவு. மாதிரி ஒரு குறுகிய யதார்த்தத்தைக் கற்றுக்கொள்கிறது, மேலும் அந்த குமிழிக்கு வெளியே எதையும் சந்திக்கும்போது சார்பு அல்லது தவறான கணிப்புகளைச் செய்கிறது.
கே2: நான் அனுப்புவதற்கு முன்பு தரவுத்தொகுப்பு சார்பை நான் எப்படி கண்டறிவது?
உங்கள் அளவீடுகளை துணைக்குழுவால்—மக்கள்தொகை, வெளிச்சம், சாதனங்கள்—துண்டாக்கி செயல்திறன் இடைவெளிகளைப் பாருங்கள். சூழல் மற்றும் லேபிளிங் சார்பை ஆரம்பத்தில் பிடிக்க எதிர் உண்மைச் சோதனைகள் மற்றும் ஒரு சிறிய, தொகுக்கப்பட்ட நியாயமான மதிப்பீட்டு தொகுப்பைச் சேர்க்கவும்.
கே3: கம்ப்யூட்டர் விஷனில் செயற்கை தரவு தரவுத்தொகுப்பு சார்பை சரிசெய்ய முடியுமா?
செயற்கை தரவு அரிதான விளக்குகள் அல்லது கோணங்கள் போன்ற இடைவெளிகளை நிரப்ப முடியும், ஆனால் இது உங்கள் இருக்கும் சார்பையும் குளோன் செய்ய முடியும். குறைந்த பிரதிநிதித்துவம் உள்ள காட்சிகளை அதிகரிக்க அதைப் பயன்படுத்தவும், பல்வேறு உண்மையான உலகப் படங்களை மாற்ற வேண்டாம்.
கே4: எல்லாவற்றையும் மீண்டும் கட்டாமல் சார்பைக் குறைக்க விரைவான வழிகள் என்ன?
வகுப்புகளை மீண்டும் எடையிடவும், குறிவைக்கப்பட்ட விரிவாக்கங்களைச் சேர்க்கவும் மற்றும் உங்கள் மோசமான செயல்திறன் கொண்ட குழுக்களில் கவனம் செலுத்திய ஒரு சிறிய தரவுத்தொகுப்பைச் சேகரிக்கவும். பின்னர் நியாயத்தன்மை-உணர்ந்த இழப்புகளுடன் மீண்டும் பயிற்சி செய்யவும் மற்றும் வெளியீட்டிற்குப் பிறகு விலகலைக் கண்காணிக்கவும்.
கே5: இமேஜிங் சார்பை அளவிட நான் எந்த அளவீடுகளைப் பயன்படுத்த வேண்டும்?
துணைக்குழு துல்லியம் மற்றும் அளவீட்டு பிழையுடன் தொடங்கவும், பின்னர் உயர் பங்குகளைக் கொண்ட பணிகளுக்கு சமமான முரண்பாடுகள் அல்லது தவறான-எதிர்மறை விகித இடைவெளிகளைக் கருத்தில் கொள்ளவும். நீங்கள் மிகவும் தடுக்க விரும்பும் தீங்குடன் ஒத்துப்போகும் அளவீடுகளைத் தேர்ந்தெடுக்கவும்.