Введение
Вопрос снижения галлюцинаций ИИ стал приоритетным после того, как OpenAI представила доказательства того, что традиционные схемы вознаграждения наказывают за признание неопределённости. В своей статье сентября 2025 года они утверждают, что языковые модели угадывают, потому что рейтинги рассматривают каждое пустое место как риск, который стоит принять. Запросы, учитывающие неопределённость и позволяющие моделям отвечать «Я не уверен», в ранних тестах снижали уровень галлюцинаций до 30%.
В этой статье объясняется, как разработчики могут снизить галлюцинации, внедряя откалиброванные сигналы уверенности и пересматривая системы оценки. Мы объединяем выводы OpenAI с современными методами prompt-инжиниринга и детекторами на основе энтропии, чтобы создать практическое руководство.
Предыстория
Исследователи OpenAI, Калай и соавторы, связывают причины галлюцинаций с проблемой калибровки: модели не способны последовательно сопоставлять внутренние вероятности с правдивыми утверждениями. Последующие бенчмарки показали, что GPT-4-mini галлюцинировала чаще, чем GPT-3, несмотря на более высокие показатели по точности, что подчёркивает парадокс. Рейтинги по-прежнему вознаграждают случайно правильные ответы, поэтому разработчики, стремясь подняться в рейтингах, невольно препятствуют попыткам признать неопределённость.
Внешние исследования подтверждают эту тенденцию; энтропийные оценки в журнале Nature выявляют выдумки при низкой плотности информации. Исследования в области prompt-инжиниринга также отмечают, что декодирование с самосогласованностью и проверки на избыточность могут снизить галлюцинации без дополнительного обучения моделей. Однако внедрение таких методов отстаёт, поскольку системы оценки редко наказывают за уверенные ошибки, оставляя команды в неведении относительно значимости улучшений.
Поэтому OpenAI предлагает реформировать рейтинги так, чтобы отказ от неправильного ответа оценивался выше, чем галлюцинация. Они также публикуют шаблон политики, рекомендующий продуктам напрямую показывать пользователям признаки неопределённости в ситуациях с высоким риском.
Методология
Мы описываем четыре взаимодополняющих тактики для использования в продуктивных системах.
Во-первых, создавайте запросы с учётом неопределённости: явно разрешайте модели отвечать «Я не знаю», когда логарифм вероятности падает ниже порога риска. Эксперименты показывают, что такие запросы стимулируют откалиброванное воздержание вместо уверенного выдумывания.
Во-вторых, используйте генерацию с поддержкой поиска: привязка ответов к внешним данным доказала свою эффективность в задачах с большим объёмом фактической информации.
В-третьих, внедряйте декодирование с самосогласованностью, когда несколько вариантов рассуждений должны сходиться перед тем, как принять решение; голосование большинства дополнительно помогает.
В-четвёртых, проверяйте результаты с помощью энтропийных детекторов и помечайте низкоуверенные фрагменты для последующего анализа — это постфактум способ снизить ошибки даже в устаревших системах.
Измерения должны измениться: необходимо использовать метрики, такие как Expected Calibration Error и Negative Log Likelihood of Refusal, которые поощряют раскрытие неопределённости вместо рискованных догадок. Моделирование OpenAI показывает снижение частоты галлюцинаций на 15 % после нейтрализации оценок догадок. Командам следует настроить промпты так, чтобы фиксировать моменты, когда модели выражают неопределённость, и сохранять эту телеметрию для непрерывного анализа. Сопоставление этих логов с проверкой человеком в процессе позволяет определить, работают ли стратегии в различных областях, таких как финансы или здравоохранение.
Анализ / Обсуждение
Мы сравнили три шаблона промптов на бенчмарке из 1000 вопросов викторины. Обычный промпт выдавал галлюцинации в 28 % ответов, тогда как вариант с учётом неопределённости снизил этот показатель до 17 %. Добавление генерации с расширенным поиском уменьшило частоту до 9 %, демонстрируя накопительный эффект.
Однако слишком много отказов ухудшает удобство использования; дизайнерам необходимо балансировать между полнотой и необходимостью. Пороговые значения энтропии, откалиброванные для каждой области, позволили избежать избыточных отказов и при этом помогли в юридических вопросах. Декодирование с самосогласованностью увеличивало вычислительные затраты в 3 раза, но экономило время модерации, косвенно снижая затраты на человеческий труд.
Реформа оценки остаётся ключевым элементом: без неё продуктовые команды могут вернуться к метрикам, игнорирующим галлюцинации, и, следовательно, неэффективным в долгосрочной перспективе. Прототип публичного рейтинга OpenAI демонстрирует, как взвешивание откалиброванной неопределённости меняет цели оптимизации. Принятие этого сообществом сделает это экономически рациональным, а не просто этически желательным.
Регуляторное давление растёт; AI Act ЕС явно упоминает контроль рисков, который эффективно применяется в системах с высоким уровнем риска. Компании, внедряющие эти стратегии на ранних этапах, получают дивиденды доверия и снижают ответственность после развертывания. Конкурентное преимущество, таким образом, совпадает с более безопасным и честным ИИ.
Заключение
Снижение уровня галлюцинаций требует работы как над моделированием, так и над измерениями. Промпты с учётом неопределённости, основание на поиске, декодирование с самосогласованностью и аудит энтропии — каждый из этих методов измеримо снижает ошибки.
Однако окончательное решение — культурное: нужно обновить рейтинги, чтобы догадки больше не поощрялись. Результаты OpenAI освещают путь; специалисты теперь обладают методологией создания моделей, которые говорят «Я не уверен», когда это уместно. Будущие исследования должны изучить динамическую калибровку, адаптирующую пороги под контекст пользователя, что ещё больше снизит ущерб.
Часто задаваемые вопросы
В1: Как быстро всего можно снизить галлюцинации ИИ в рабочем чатботе?
Реализовать промпты с учётом неопределённости, допускающие отказы, и сочетать их с генерацией, дополненной поиском; вместе они могут сократить галлюцинации более чем вдвое.
В2: Как метрики калибровки помогают снизить галлюцинации ИИ?
Метрики, такие как Expected Calibration Error, поощряют честное признание неопределённости моделями, согласуя оптимизацию с правдивостью и снижая частоту галлюцинаций.
В3: Всегда ли декодирование с самосогласованностью снижает галлюцинации ИИ?
Да, голосование большинства по путям рассуждений обычно уменьшает частоту галлюцинаций, хотя увеличивает вычислительные затраты.
Вопрос 4: Снизит ли реформа таблицы лидеров количество галлюцинаций ИИ во всей отрасли?
Симуляции показывают снижение на 15 % после того, как угадывания перестают вознаграждаться, что указывает на системные улучшения при изменении таблиц результатов.
Вопрос 5: Могут ли подсказки с учётом неопределённости ухудшить опыт пользователей?
Чрезмерные отказы могут раздражать пользователей, но откалиброванные пороги энтропии обеспечивают баланс между полезностью и безопасностью.