Така че вашата AI камера смята, че всяка жена е медицинска сестра, а всеки мъж е главен изпълнителен директор. Готино, готино, готино.
Качвали ли сте някога снимка в приложение, „подобрено с AI“, и сте гледали как уверено обозначава сарито на ваша приятелка като халат? Или сте виждали медицинска система за изображения да настоява, че бенката на ръката ви е боровинка? Това е пристрастие в набора от данни при AI изображенията и то не е просто неловко – може да бъде опасно. Представете си го като да учите детето на азбуката само с гласни. Разбира се, ще изпеят нещо. Но не бихте искали да пишат рецепти.
Намираме се в странен момент, в който компютърното зрение е достатъчно добро, за да бъде навсякъде – във вашия телефон, вашата кола, лекарския ви кабинет – но все още достатъчно лошо, за да пропусне смисъла, контекста и понякога цели групи от хора. Виновникът обикновено не е математиката. Това са данните. По-конкретно данните, които обучиха тези модели да виждат света през много тесен обектив.
Нека разгледаме как се прокрадва пристрастието в набора от данни при AI изображенията, как обърква нещата и – най-важното – как можете да го предотвратите да нарече котката ви кроасан.
Какво представлява пристрастието в набора от данни при AI изображенията? Кратката версия, която леля ви ще прочете
Пристрастие в набора от данни при AI изображенията възниква, когато изображенията, използвани за обучение на модел, не представят реалния свят. Ако вашият набор от данни е съставен предимно от лица от една демографска група, нюанси на кожата от ограничен диапазон или обекти, снимани при перфектно студийно осветление (здравей, ring lights на инфлуенсърите!), моделът научава изкривена версия на реалността.
- Пристрастие при избора: Избрали сте изображенията, които са били най-лесни за получаване – стокови снимки, бели фонове и от време на време подозрително щастлив човек, ядящ салата.
- Пристрастие при етикетирането: Хората етикетират изображения. Хората носят мнения. Понякога тези мнения са по-скоро „творческо писане“, отколкото „основна истина“.
- Контекстуално пристрастие: Стетоскоп до жена? Трябва да е медицинска сестра. Същият обект до мъж? Лекар. Моделът е научил стереотипа от набора от данни.
- Домейн пристрастие: Обучили сте модела върху лъскави продуктови снимки, след което сте го внедрили в тъмни фабрични помещения. Изненада: мотокарът изглежда като Bigfoot.
Ако научите AI да вижда света само през един квартал, не се изненадвайте, когато се изгуби в центъра на града.
Не толкова смешните залози: къде пристрастието спира да бъде мем
Пристрастието в AI изображенията не създава само мемета. То се проявява в:
- Медицински изображения: Недостатъчно представени нюанси на кожата в наборите от данни за дерматология могат да доведат до по-лоши нива на откриване на състояния като меланом. Когато пикселите не съответстват на примерите за обучение, грешките се увеличават.
- Безопасност и наблюдение: Неправилната идентификация при разпознаването на лица е свързана с неправомерни арести, особено на цветнокожи хора. Не е страхотно потребителско изживяване.
- Наемане на работа и проверка на самоличността: Съпоставянето на лица, което се проваля с недвоични или транссексуални лица, не е просто досадно – то е изключващо.
- Автономни системи: Самоуправляваща се кола, обучена предимно на калифорнийско слънце, може да не разпознае покрит със сняг пътен знак в Минесота. Колата не е безразсъдна. Тя е защитена.
Когато светът на модела е малък, реалните хора плащат цената.
Как се прокрадва: четирите конници на пристрастието в наборите от данни с изображения
1) „Пристрастието към безплатните неща“
Събирането на изображения от отворения интернет е основно гмуркане в контейнер за пиксели. Ще намерите много снимки на глави на знаменитости, значки от технологични конференции и продуктови снимки, които изглеждат като заснети на луната. Ежедневието, мръсната реалност? По-малко. Това наклонява модела ви към определени лица, места и вибрации.
2) „Отклонението в анотациите“
Двама етикетировчици влизат в работа по етикетиране. Единият маркира суичър като „спортно облекло“, другият казва „ежедневно облекло“, а третият го нарича „улично облекло“. Моделът научава, че дрехите са хаос. Още по-лошо, етикетировчиците носят културни предположения – като например кой изглежда като „шеф“ или какво се счита за „естествена“ прическа.
3) „Контекстуалният патерица“
Моделите обичат преките пътища. Ако 90% от снимките на готвачи във вашия набор от данни показват мъже, моделът ще използва половите знаци като пряк път, за да предскаже „готвач“. Това не е интелигентност; това е пристрастен cheat sheet.
4) „Несъответствието на домейните“
Обучавате модела върху бляскави снимки с DSLR, внедрявате го върху охранителни камери с ниска разделителна способност. Обучавате го върху дневни изображения, внедрявате го през нощта. Обучавате го върху градски улици, внедрявате го върху селски пътища. Вашият модел по същество пътува без зарядно устройство.
Откриване на пристрастия без докторска степен – или детектор на лъжата
Ето как да разберете, че вашият AI модел за изображения има проблем с пристрастията, освен онова неприятно усещане във вашата демонстрация:
- Разлики в производителността: Разделете вашите показатели за валидиране по демографски признак, осветление, география или тип устройство. Ако точността спадне като телефон без калъф за определени групи, имате пристрастие.
- Матрици на объркване, които ви объркват: Ако моделът продължава да смесва конкретни класове – да речем, хиджаби с шапки – това е знак за набора от данни.
- Одити на атрибуцията на характеристиките: Инструменти като Grad-CAM могат да разкрият, че вашият детектор за „котки“ всъщност се фокусира върху модел на дивана. Поздравления, обучихте разпознаване на тапицерии.
- Дрифт на пилот в реалния свят: Пуснете малки пилотни проекти в дивата природа. Ако моделът изпадне в паника под флуоресцентно осветление като растение в мазе, той се нуждае от по-разнообразни данни.
Инструментариумът: как да намалите пристрастията в набора от данни, преди те да захапят вашата пътна карта на продукта
Представете си борбата с пристрастията като ремонт на дома. Можете да закърпите, да подсилите или да съборите и да построите наново. Вашият бюджет: време, данни и смирение.
1) Подбирайте като музей (а не като битпазар)
- Определете покритието: Запишете демографските данни, условията на осветление, типовете камери, географските райони и средите, с които вашата система трябва да се справи. Ако не е написано, това е пожелателно мислене.
- Задайте квоти: Да, квоти. Ако 30% от вашите потребители са при слаба светлина, 30% от вашия набор от данни трябва да бъдат изображения при слаба светлина. Същото важи и за диапазоните на тоновете на кожата (използвайте скали като Fitzpatrick като заместител), възрастовите групи, стиловете на облекло и културните контексти.
- Извличайте данните си от няколко източника: Стоковите снимки са десерт. Имате нужда и от домашно приготвени ястия: снимки, предоставени от потребителите (със съгласие), публични набори от данни с одити за пристрастия и целенасочено събиране на данни от недостатъчно представени групи.
2) Етикетирайте като адвокат (но по-приятелски)
- Ясна таксономия: Напишете ръководство за етикетиране. Не, истинско. Включете гранични случаи, примери и какво да не правите. Намалете „вибрациите“ на етикетировчика.
- Разнообразни анотатори: Ако всички ваши анотатори са ходили в едни и същи три кафенета, вашите етикети също ще бъдат такива. Географското и културното разнообразие помага.
- Проверки за съгласие: Измерете съгласието между анотаторите и разрешете несъгласията с водещ етикетировчик. Не осреднявайте до глупости.
- Чувствителни атрибути: Когато е уместно и със съгласие, събирайте защитени тагове на атрибути за оценка. Дръжте ги извън обучението, освен ако не извършвате контролирани интервенции за справедливост.
3) Обучавайте като учен (с леки закуски)
- Балансирано вземане на проби: Използвайте стратифицирано вземане на проби и претегляне на класовете, така че моделът да не се удави в класа на мнозинството.
- Увеличаване на данните, отговорно: Променяйте осветлението, ъглите, оклузиите и фоновете. Синтетичните данни могат да помогнат, но не позволявайте на игрален двигател да изобрети цялата ви реалност.
- Цели за премахване на пристрастията: Включете загуби или ограничения, отчитащи справедливостта, които минимизират разликите в производителността между групите.
- Адаптиране на домейна: Ако внедряването е тъмно, шумно или с ниска разделителна способност, симулирайте този свят. По-добре: събирайте в този свят.
4) Тествайте като циник
- Оценка на принципа „Раздели и владей“: Отчетете точността, прецизността/възвръщаемостта и калибрирането по подгрупи. Ако не можете да го видите, няма да го поправите.
- Контрафактични тестове: Разменете контекста, като запазите обекта постоянен. Дали една жена, държаща куфарче, става „учител“, докато мъж с куфарче е „главен изпълнителен директор“? Това е контекстуално пристрастие, хванато в 4K.
- Стрес тестове: Хвърлете враждебен отблясък, размазване при движение, сняг, мъгла, маски и шапки към вашия модел. По принцип Halloween за невронни мрежи.
5) Наблюдавайте сериозно
- Откриване на дрифт: Проследявайте промените в входното разпределение след стартиране. Когато приложението ви внезапно стане голямо в Бразилия, ще искате да знаете.
- Човек в цикъла: Позволете на потребителите да маркират грешки и пристрастия и наистина да четат отчетите. Да, дори тези с главни букви.
- Ритъм на преобучение: Планирайте опреснявания. Застоялите модели са пристрастни модели със senioritis.
Реални сценарии: където пристрастието в набора от данни съсипва атмосферата
- Дерматологичен AI: Ако вашите изображения за обучение са предимно с по-светли тонове на кожата, лезиите върху по-тъмна кожа се откриват по-малко. Коригирайте: диверсифицирайте източниците от клиники в различните популации и оценявайте по категории тонове на кожата.
- Предотвратяване на загуби в търговията на дребно: Моделите, обучени върху тестови кадри от чисти, светли магазини, се провалят в претъпкани, тъмни магазини. Коригирайте: събирайте от реални магазини в различни региони и сезони. Също така, може би не криминализирайте суичърите.
- Селскостопански изображения: Модел, обучен върху дневни изображения от дрон, пропуска вредители по здрач. Коригирайте: включете различни часове на деня и видове сензори (RGB + термичен). Растенията също имат нощен живот.
- Сканиране на документи: Проверките на селфита на паспорти се провалят при къдрава коса или покривала за глава. Коригирайте: разширете обучението и изрично оценете текстурите и покривалата на косата. Бонус: подобрете подканите на потребителския интерфейс и насоките за осветление.
Митове, които продължавам да чувам (и да, донесох разписки)
- „По-големите набори от данни = по-малко пристрастия.“ Ако вашият голям набор от данни е просто повече от същото, вие сте уголемили проблема. Това е като да поръчате venti от грешното кафе.
- „Ще го оправим в постпродукцията с интелигентен алгоритъм.“ Алгоритмите могат да смекчат пристрастията, но не можете да полирате картоф и да го наречете диамант. Започнете с по-добри картофи – или данни.
- „Справедливостта означава еднаква точност за всички.“ Понякога паритетът е целта; понякога изравнените шансове или калибрираните резултати имат по-голямо значение. Изберете показатели, които съответстват на вредата, която искате да предотвратите.
- „Синтетичните данни решават разнообразието.“ Помага за запълване на пропуските, но ако генераторът е научил пристрастия от реални изображения, вие просто сте клонирали проблема в 4K.
Практична, стъпка по стъпка проверка за пристрастия, която всъщност можете да извършите тази седмица
- Инвентаризирайте вашия набор от данни: Създайте проста таблица за това кой и какво има в нея – демографски данни, осветление, устройства, местоположения. Очертайте пропуските в червено. Представете си, че оценявате собствения си модел.
- Създайте набор за оценка на справедливостта: 1000–10 000 изображения, стратифицирани в групите, за които се грижите. Това е вашият годишен физически преглед.
- Изберете два показателя за пристрастия: Започнете с точност на подгрупите и грешка при калибриране. Ако приложението ви е с високи залози (медицинско, идентичност), добавете изравнени коефициенти или разлики в нивата на фалшиво отрицателни резултати.
- Задайте прагове: „Няма подгрупа под 95% от общата точност“ е началото. Запишете го. Залепете го на стената.
- Триене и преобучение: Запълнете пропуските с целенасочено събиране на данни, претеглете отново вашия sampler и опитайте разширяване на домейна, където внедрявате. Изпълнете отново оценката на справедливостта. Повторете, докато вашият плакат на стената спре да ви крещи.
Внимание: Регламенти, одити и защо вашият правен екип внезапно обича обяда
Законите и стандартите наваксват. Очаквайте изисквания за оценки на въздействието, документация на данните за обучение и наблюдение след внедряване – особено в здравеопазването, наемането на работа и използването в публичния сектор. Превод: водете записи. Информационни листове за набори от данни, карти на модели за модели и хартиена следа за всяка голяма промяна. Вашето бъдещо аз – и регулатор – ще ви благодарят.
Инструменти, които си струва да опитате, когато вашата електронна таблица започне да плаче
- Библиотеки за оценка на пристрастията: Потърсете инструменти с отворен код, които отчитат показатели за подгрупи, калибриране и ограничения за справедливост. Много от тях се интегрират с общи ML рамки.
- Обяснителност: Карти на изпъкналост, Grad-CAM, SHAP. Използвайте ги, за да видите какво всъщност гледа моделът. Ако това е логото, а не продуктът, имате проблем с влюбването.
- Браузъри на данни: Системи, които ви позволяват да филтрирате по метаданни, да визуализирате разликите в разпределението и да маркирате почти дубликати. Стремете се към по-малко клонинги, повече покритие.
Струва си да се отбележи: Ако искате проверка на здравия разум, докато избирате или одитирате набори от данни, Sider.AI може да ви помогне бързо да сравните разпределенията, да подчертаете недостатъчно представени срезове и да извадите на повърхността корелациите „ъ-ъ“ преди те да станат производствени грешки. Мислете за това като за приятел, който ви казва, че имате спанак между зъбите – нежно и с графики. Човешката страна: екипите коригират пристрастията, а не лентите с инструменти
- Разнообразните екипи забелязват различни слепи петна. Ако всички във вашия екип почиват в едни и същи три града, вашият модел също ще го направи.
- Стимулите имат значение. Ако успехът е само „обща точност“, хората ще изпратят пристрастния модел, който печели класацията. Задайте цели за справедливост и възнаградете постигането им.
- Говорете с потребителите, особено с тези, които получават най-лошите резултати. Те ще ви кажат това, което вашето табло за управление няма.
Бързи победи срещу дълги пътувания: какво да правите въз основа на крайния си срок
- Изпратете утре: Добавете целенасочено разширяване за вашата най-слабо представяща се подгрупа, претеглете отново загубата си и поставете табло за наблюдение с предупреждения за дрифт.
- Изпратете следващия месец: Съберете малък, но мощен набор от данни, фокусиран върху пропуските, преобучете с ограничения за справедливост и изпълнете набор от контрафактични тестове.
- Изпратете следващото тримесечие: Преработете вашата тръбопровод за данни, за да включите вземане на проби на базата на квоти, непрекъснати оценки на пристрастията и междуфункционален преглед преди пускане.
Контролният списък, който всъщност ще използвате
- Знаем ли кой е в нашите данни и кой липсва?
- Задали ли сме цели за ефективност на подгрупите?
- Последователни и културно осъзнати ли са нашите етикети?
- Тествахме ли в средите, в които живеят нашите потребители – не само в нашата лаборатория?
- Можем ли да обясним решенията на модела, когато нещата се объркат?
- Имаме ли план за актуализиране и наблюдение след пускане?
Отпечатайте го. Рамкирайте го. Или го залепете на вашата машина за еспресо.
Когато пристрастието е функцията, а не грешката: разпознаване на границите
Някои задачи за изображения кодират културни норми (мода, жестове, символи), които не са универсални. Понякога правилният отговор е да локализирате моделите по регион, култура или случай на употреба, вместо да преследвате справедливост, която отговаря на всички. Целта не е да се направи AI, който знае всичко за всички – а да се изгради такъв, който знае кога не знае.
Най-важното: не позволявайте на вашия AI да израсне в балон
Пристрастието в набора от данни при AI изображенията е като да научите камерата си да вижда света през тръба от кухненска ролка: получавате тесен поглед и главоболие. Но не сте обречени.
- Одитирайте данните си така, сякаш има значение – защото има.
- Етикетирайте с намерение, обучавайте с ограничения и тествайте със скептицизъм.
- Наблюдавайте, слушайте и коригирайте, тъй като реалният свят неизбежно ще ви изненада.
Направете това и вашият AI ще спре да бърка саритата с халати и бенките с продукти. Може дори да е достатъчно добър, за да помага на хората – безопасно, справедливо и в дивата, разхвърляна реалност, в която всички ние всъщност живеем.
Сега отидете и проверете вашия набор от данни. Аз ще чакам. И аз ще бъда този в ъгъла, който шепне на вашия модел: „Не си ти, а твоят набор за обучение.“
ЧЗВ
В1: Какво е пристрастие в набора от данни при AI изображенията, на обикновен език?
Това е, когато изображенията за обучение не съвпадат с реалния свят – твърде малко тонове на кожата, условия на осветление или контексти. Моделът научава тясна реалност и прави пристрастни или грешни прогнози, когато срещне нещо извън този балон.
В2: Как да открия пристрастие в набора от данни, преди да изпратя?
Разделете вашите показатели по подгрупи – демографски данни, осветление, устройства – и потърсете разлики в производителността. Добавете контрафактични тестове и малък, подбран набор за оценка на справедливостта, за да хванете контекста и пристрастията в етикетирането рано.
В3: Могат ли синтетичните данни да коригират пристрастията в набора от данни при компютърно зрение?
Синтетичните данни могат да запълнят пропуски като рядко осветление или ъгли, но също така могат да клонират съществуващите ви пристрастия. Използвайте ги, за да увеличите недостатъчно представени сценарии, а не да заменяте разнообразни изображения от реалния свят.
В4: Кои са бързите начини за намаляване на пристрастията, без да се налага да изграждате всичко наново?
Претеглете отново класовете, добавете целенасочени разширения и съберете малък набор от данни, фокусиран върху вашите най-слабо представящи се групи. След това преобучете със загуби, отчитащи справедливостта, и наблюдавайте дрифта след стартиране.
В5: Кои показатели трябва да използвам за измерване на пристрастията при изображения?
Започнете с точност на подгрупите и грешка при калибриране, след това обмислете изравнени коефициенти или разлики в нивата на фалшиво отрицателни резултати за задачи с високи залози. Изберете показатели, които са в съответствие с вредата, която най-много искате да предотвратите.