Вступ

Зусилля зменшення галюцинацій стали нагальним пріоритетом після того, як OpenAI представила докази того, що традиційні схеми винагород карають за визнання невизначеності. У статті від вересня 2025 року вони стверджують, що мовні моделі роблять здогади, бо лідерборди трактують кожне пропущене поле як вартий ризику крок. Запити з урахуванням невизначеності, які дозволяють моделям відповідати «Я не впевнений», знижують рівень галюцинацій до 30 % на початкових тестах.

У цій статті пояснюється, як розробники можуть зменшити галюцинації, впроваджуючи калібровані сигнали впевненості та переглядаючи системи оцінювання. Ми поєднуємо висновки OpenAI з останніми патернами prompt-інженерії та детекторами на основі ентропії, щоб створити практичний посібник.

Передумови

Дослідники OpenAI, Калай та ін., простежують корені галюцинацій до розриву калібрування: моделі не можуть послідовно зіставляти внутрішні ймовірності з правдивими твердженнями. Подальший бенчмаркінг показав, що GPT-4-mini галюцинував частіше за GPT-3, навіть при вищих показниках точності на лідербордах, що підкреслює парадокс. Лідерборди досі винагороджують випадково правильні відповіді, тож розробники, що прагнуть піднятися в рейтингах, ненавмисно стримують спроби визнавати невизначеність.

Зовнішні дослідження підтверджують цю тенденцію; ентропійні оцінювачі Nature виявляють вигадки, коли інформаційна щільність низька. Дослідження prompt-інженерії також відзначають, що декодування із самостійною узгодженістю разом із перевірками на надлишковість можуть знизити галюцинації без додаткового навчання моделей. Проте впровадження відстає, бо системи оцінювання рідко карають за впевнені помилки, залишаючи команди невпевненими у цінності покращень.

Тому OpenAI пропонує реформувати лідерборди так, щоб відмова від неправильної відповіді оцінювалася вище за галюцинації. Вони також публікують шаблон політики, який рекомендує продуктам прямо показувати користувачам ознаки невизначеності у ризикових сценаріях.

Методологія

Ми окреслюємо чотири взаємодоповнюючі тактики для впровадження у продуктивних системах.

По-перше, створюйте запити з урахуванням невизначеності: явно дозволяйте моделі відповідати «Я не знаю», коли логарифмічна ймовірність падає нижче порогу ризику. Експерименти показують, що такі запити сприяють каліброваному утриманню замість впевненої вигадки.

По-друге, використовуйте генерацію з підкріпленням пошуком; підкріплення відповідей зовнішніми даними довело свою ефективність у завданнях з великою кількістю фактів.

По-третє, впроваджуйте декодування із самостійною узгодженістю, коли кілька варіантів міркувань мають сходитися перед остаточним вибором; голосування більшості також допомагає.

По-четверте, перевіряйте результати за допомогою детекторів на основі ентропії та позначайте ділянки з низькою впевненістю для подальшого перегляду — це постфактум спосіб зменшити галюцинації навіть у застарілих конвеєрах.

Потрібно змінити підхід до вимірювання: впроваджувати метрики, такі як Expected Calibration Error та Negative Log Likelihood of Refusal, які заохочують виявлення невизначеності замість ризикованих здогадок. Моделювання OpenAI показало зниження частоти галюцинацій на 15 % після нейтралізації оцінок здогадок. Команди повинні налаштовувати підказки так, щоб фіксувати моменти, коли моделі вказують на невизначеність, і зберігати цю телеметрію для безперервного аналізу. Поєднання цих журналів із перевіркою за участю людини допомагає визначити, чи працюють стратегії в різних сферах, таких як фінанси чи охорона здоров’я.

Аналіз / Обговорення

Ми порівняли три шаблони підказок на основі 1000 питань вікторини. Звичайна підказка дала 28% галюцинацій у відповідях, тоді як варіант із урахуванням невизначеності зменшив цей показник до 17%. Додавання генерації з підтримкою пошуку знизило частоту до 9%, демонструючи кумулятивний ефект покращень.

Однак надмірна кількість відмов погіршує зручність використання; дизайнери мають збалансувати повноту відповідей із необхідністю відмовлятися. Пороги ентропії, налаштовані для кожної сфери, допомогли уникнути надмірних відмов і водночас покращили результати, наприклад, у юридичних питаннях. Декодування з самостійною послідовністю збільшило обчислювальні витрати в 3 рази, але зекономило час на модерацію, що опосередковано знизило навантаження на команди.

Реформа оцінювання залишається ключовою: без неї продуктові команди можуть повернутися до метрик, які ігнорують галюцинації, і через це зазнати невдач у довгостроковій перспективі. Публічний прототип рейтингу OpenAI демонструє, як врахування каліброваної невизначеності змінює цілі оптимізації. Прийняття спільнотою зробить це економічно обґрунтованим, а не лише етично бажаним.

Регуляторний тиск зростає; у ЄС AI Act прямо згадує контроль ризиків, який ефективно працює в системах із високим рівнем ризику. Компанії, що впроваджують ці стратегії на ранньому етапі, здобувають довіру та зменшують відповідальність після запуску. Конкурентна перевага таким чином співпадає з безпечнішим і чеснішим AI.

Висновок

Зменшення рівня галюцинацій вимагає роботи як над моделями, так і над методами вимірювання. Підказки з урахуванням невизначеності, підкріплення пошуком, декодування з самостійною послідовністю та аудити ентропії кожен окремо знижують рівень помилок у вимірюваний спосіб.

Проте остаточне рішення — це культурна зміна: оновити рейтинги, щоб здогадки більше не винагороджувалися. Відкриття OpenAI освітлюють цей шлях; практики тепер мають методологію для створення моделей, які кажуть «Я не впевнений», коли це доречно. Майбутні дослідження мають зосередитися на динамічній калібровці, що адаптує пороги під контекст користувача, ще більше знижуючи шкоду.

Часті запитання

П1: Який найшвидший спосіб зменшити галюцинації AI у виробничому чатботі?

Впровадити підказки з урахуванням невизначеності, які допускають відмови, та поєднати їх із генерацією, підсиленою пошуком; разом вони можуть знизити галюцинації більш ніж удвічі.

П2: Як метрики калібрування допомагають зменшити галюцинації AI?

Метрики на кшталт Expected Calibration Error винагороджують моделі за чесне виявлення невизначеності, узгоджуючи оптимізацію з правдивістю та знижуючи частоту галюцинацій.

П3: Чи завжди декодування з самостійною послідовністю знижує галюцинації AI?

Так, голосування більшості серед шляхів міркування зазвичай зменшує частоту галюцинацій, хоча й збільшує обчислювальні витрати.

Питання 4: Чи справді реформа таблиці лідерів зменшить галюцинації ШІ в усій галузі?

Моделювання показує зниження на 15 % після того, як припиняють винагороджувати здогадки, що свідчить про системні покращення при зміні таблиць результатів.

Питання 5: Чи можуть підказки, що враховують невизначеність, погіршити досвід користувача?

Надмірна кількість відмов може дратувати користувачів, але правильно налаштовані пороги ентропії забезпечують баланс між корисністю та безпекою.