Въведение

Усилията за намаляване на халюцинациите станаха спешен приоритет след като OpenAI представи доказателства, че конвенционалните схеми за възнаграждение наказват признаването на несигурност. Тяхната статия от септември 2025 г. твърди, че езиковите модели гадаят, защото класациите третираха всяко празно място като риск, който си струва да се поеме. Подсказките, осъзнаващи несигурността, които позволяват на моделите да казват „Не съм сигурен“, намаляват честотата на халюцинациите до 30 % в ранните тестове.

Тази статия обяснява как разработчиците могат да намалят халюцинациите чрез внедряване на калибрирани сигнали за увереност и ревизиране на оценъчните класации. Комбинираме откритията на OpenAI с последните модели за инженеринг на подсказки и детектори, базирани на ентропия, за да създадем практическо ръководство.

Предистория

Изследователите на OpenAI Калай и съавтори проследяват корените на халюцинациите до пропуск в калибрацията: моделите не могат последователно да съпоставят вътрешните вероятности с истински изявления. По-късни бенчмаркове показват, че GPT-4-mini халюцинира по-често от GPT-3, въпреки че постига по-високи резултати в класации, базирани само на точност, подчертавайки парадокса. Класациите все още възнаграждават отговори, които са верни по случайност, затова разработчиците, стремящи се към по-високи позиции, неволно обезкуражават опитите за признаване на несигурност.

Външни изследвания потвърждават този модел; ентропийно-базирани оценители като тези в Nature сигнализират за конфабулации, когато плътността на информация е ниска. Изследванията в инженерството на подсказки също отбелязват, че декодирането с вътрешна последователност и проверки за излишък могат да намалят халюцинациите без допълнително обучение на модела. Въпреки това приемането им изостава, тъй като оценъчните комплекти рядко наказват уверени грешки, оставяйки екипите несигурни кои подобрения са значими.

Затова OpenAI предлага реформа на класациите, така че отказът от неправилни отговори да се оценява по-високо от халюцинирането. Те също публикуват шаблон за политика, който призовава продуктите да показват директно индикации за несигурност на потребителите в рискови ситуации.

Методология

Очертаваме четири допълващи се тактики за внедряване в продукционни системи.

Първо, създайте подсказки, осъзнаващи несигурността: изрично позволявайте на модела да отговаря „Не знам“, когато логаритмичната вероятност падне под прага на риска. Експериментите показват, че такива подсказки намаляват халюцинациите, като насърчават калибрирано въздържане, а не уверено измисляне.

Второ, използвайте генериране с допълване чрез извличане; базирането на отговорите на външни данни е доказано ефективно при задачи с много факти.

Трето, внедрете декодиране с вътрешна последователност, при което множество извадки от разсъждения трябва да съвпадат преди окончателния отговор; гласуването на мнозинството допълнително помага.

Четвърто, проверявайте изходите с ентропийно-базирани детектори и маркирайте зони с ниска увереност за преглед — това е постфактум метод, който може да се приложи дори в наследени системи.

Необходимо е промяна в измерванията: приемете метрики като Очаквана грешка на калибриране (Expected Calibration Error) и Отрицателна логаритмична вероятност на отказ (Negative Log Likelihood of Refusal), които поощряват разкриването на несигурност пред рискованото гадаене. Симулациите на OpenAI показват 15% спад в честотата на халюцинациите, след като оценките за гадаене са неутрализирани. Екипите трябва да настроят подсказките така, че да записват кога моделите показват несигурност и да съхраняват тази телеметрия за непрекъснат анализ. Съчетаването на тези записи с преглед от човек в цикъла разкрива дали стратегиите действително работят в различни области като финанси или здравеопазване.

Анализ / Обсъждане

Сравнихме три модела на подсказки върху тест с 1000 въпроса от областта на общата култура. Обикновена подсказка халюцинира 28% от отговорите, докато вариант с осъзнаване на несигурността успя да намали това до 17%. Добавянето на генерация с допълнително извличане на информация намали процента до 9%, показвайки възможност за натрупване на ползи.

Въпреки това, прекалено много откази влошават удобството за потребителя; дизайнерите трябва да балансират пълнотата на отговорите с необходимостта от отказ. Прагът на ентропия, калибриран за всяка област, предотврати прекомерни откази и все пак помогна при правни въпроси. Декодирането със самосъгласуваност увеличи изчислителните разходи трикратно, но спести време за модериране, което косвено намали човешките разходи за екипите.

Реформата в оценяването остава ключова: без нея продуктовите екипи могат да се върнат към метрики, които игнорират халюцинациите и по този начин не успяват да осигурят дългосрочна надеждност. Публичният лидерборд прототип на OpenAI демонстрира как претеглянето на калибрираната несигурност променя целите на оптимизацията. Приемането от общността би направило това икономически рационално, а не просто етично желателно.

Регулаторният натиск се увеличава; Законът за изкуствения интелект на ЕС изрично споменава контроли на риска, които са ефективни при системи с висок риск. Компаниите, които внедряват тези стратегии рано, печелят доверие и намаляват отговорността след внедряване. Конкурентното предимство по този начин се съчетава с по-безопасен и по-честен AI.

Заключение

Намаляването на честотата на халюцинациите изисква справяне както с моделирането, така и с измерванията. Подсказки с осъзнаване на несигурността, основаване на отговорите на извличане, декодиране със самосъгласуваност и одити на ентропията – всеки от тези методи намалява грешките по измерим начин.

Въпреки това, окончателното решение е културно: актуализирайте лидербордовете така, че гадаенето вече да не бъде възнаграждавано. Откритията на OpenAI осветяват пътя; практиците вече разполагат с методологията да изграждат модели, които казват „Не съм сигурен“, когато е уместно. Бъдещите изследвания трябва да проучат динамичното калибриране, което адаптира праговете според контекста на потребителя, като по този начин допълнително намалява вредите.

Често задавани въпроси (FAQs)

В1: Кой е най-бързият начин за намаляване на халюцинациите в продукционен чатбот?

Внедрете подсказки с осъзнаване на несигурността, които позволяват откази, и ги комбинирайте с генерация, подсилена с извличане на информация; заедно те могат да намалят халюцинациите с повече от половина.

В2: Как метриките за калибриране помагат за намаляване на халюцинациите?

Метрики като Очаквана грешка на калибриране поощряват моделите за честна несигурност, като съобразяват оптимизацията с истинността и намаляват честотата на халюцинациите.

В3: Дали декодирането със самосъгласуваност винаги намалява халюцинациите?

Да, гласуването на мнозинството през различни пътища на разсъждение обикновено намалява честотата на халюцинациите, въпреки че увеличава изчислителните разходи.

В4: Ще намали ли реформата на класацията наистина халюцинациите на ИИ в цялата индустрия?

Симулациите показват спад от 15 %, след като предположенията вече не се възнаграждават, което предполага системни ползи при промяна на резултатните таблици.

В5: Могат ли подсказки, осъзнаващи несигурността, да навредят на потребителското изживяване?

Прекомерните откази могат да разочароват потребителите, но калибрираните прагове на ентропия постигат баланс между полезност и безопасност.