Introducció

Els esforços per reduir les al·lucinacions d’IA s’han convertit en una prioritat urgent després que OpenAI revelés proves que els esquemes convencionals de recompensa penalitzen l’admissió d’incertesa. El seu article de setembre de 2025 argumenta que els models de llenguatge endevinen perquè les classificacions tracten cada espai en blanc com una aposta que val la pena fer. Les indicacions conscients de la incertesa que permeten als models respondre “No estic segur” redueixen les taxes d’al·lucinació fins a un 30 % en les primeres proves.

Aquest article explica com els desenvolupadors poden millorar els sistemes incorporant senyals calibrats de confiança i revisant els quadres d’avaluació. Combinem els descobriments d’OpenAI amb patrons recents d’enginyeria d’indicacions i detectors basats en entropia per construir una guia pràctica.

Context

Els investigadors d’OpenAI Kalai et al. localitzen l’origen de les al·lucinacions en una bretxa de calibratge: els models no poden mapar de manera consistent les probabilitats internes a declaracions veritables. Avaluacions posteriors van mostrar que GPT‑4‑mini al·lucinava més sovint que GPT‑3 tot i obtenir una puntuació més alta en classificacions basades només en precisió, ressaltant la paradoxa. Les classificacions encara premien respostes correctes per atzar, de manera que els desenvolupadors que volen escalar posicions inadvertidament desincentiven els intents d’admetre incertesa.

Estudis externs confirmen aquest patró; els estimadors basats en entropia de Nature assenyalen confabulacions quan la densitat d’informació és baixa. La recerca en enginyeria d’indicacions també observa que la decodificació d’auto-consistència combinada amb comprovacions de redundància pot reduir al·lucinacions sense entrenament addicional. Tot i això, l’adopció és lenta perquè les suites d’avaluació rarament penalitzen la confiança errònia, deixant els equips incerts sobre quins avenços són rellevants.

Per això, OpenAI proposa reformar els quadres de puntuació perquè rebutjar respostes incorrectes puntui més que al·lucinar. També publiquen una plantilla de política que insta els productes a mostrar indicis d’incertesa directament als usuaris en entorns d’alt risc.

Metodologia

Es detallen quatre tàctiques complementàries per a sistemes en producció.

Primer, dissenyar indicacions conscients de la incertesa: permetre explícitament que el model respongui “No ho sé” quan la massa de log-probabilitat cau per sota d’un llindar de risc. Els experiments demostren que aquestes indicacions redueixen les al·lucinacions fomentant l’abstenció calibrada en lloc de la fabricació confiant.

Segon, utilitzar generació augmentada amb recuperació; fonamentar les respostes en dades externes ha demostrat ser eficaç en tasques amb alta densitat de fets.

Tercer, implementar la decodificació d’auto-consistència, on múltiples raonaments mostrejats han de convergir abans de prendre una decisió; la votació majoritària ajuda encara més.

Quart, auditar les sortides amb detectors basats en entropia i marcar fragments de baixa confiança per a revisió, una manera post-hoc d’evitar errors fins i tot en canals heretats.

La mesura ha de canviar: adopteu mètriques com l'Error d'Esperada de Calibració i la Probabilitat Logarítmica Negativa de Rebuig que premien la divulgació de la incertesa en comptes de l'endevinació arriscada. La simulació d'OpenAI mostra una caiguda del 15 % en la freqüència d'al·lucinacions un cop es neutralitzen les puntuacions d'endevinació. Els equips haurien d'instrumentar els prompts per registrar quan els models indiquen incertesa i emmagatzemar aquesta telemetria per a una anàlisi contínua. Combinar aquests registres amb una revisió humana en el procés revela si les estratègies funcionen realment en àmbits com les finances o la salut.

Anàlisi / Discussió

Vam comparar tres patrons de prompt en un banc de proves de 1000 preguntes de trivial. Un prompt bàsic al·lucinava el 28 % de les respostes, mentre que una variant conscient de la incertesa va aconseguir un 17 %. Afegir generació augmentada per recuperació va reduir la taxa al 9 %, mostrant guanys acumulables addicionals.

Tanmateix, massa rebuigs perjudiquen la usabilitat; els dissenyadors han de trobar l'equilibri entre la completitud i la necessitat d'acceptar respostes. Els llindars d'entropia calibrats per domini van evitar rebuigs excessius i encara van ajudar en conjunts de preguntes legals. La descodificació d'auto-consistència va comportar un cost de càlcul 3 vegades superior però va estalviar temps de moderació, ajudant indirectament els equips amb un menor cost humà.

La reforma de l’avaluació continua sent la clau: sense ella, els equips de producte poden tornar a mètriques que ignoren les al·lucinacions i, per tant, fracassen a llarg termini. El prototip públic de la classificació d’OpenAI demostra com el pesat de la incertesa calibrada remodela els objectius d’optimització. L’adopció per part de la comunitat faria que fos econòmicament raonable, no només èticament desitjable.

La pressió reguladora està augmentant; l’AI Act de la UE menciona explícitament controls de risc que són efectius en sistemes d’alt risc. Les empreses que implementin aquestes estratègies d’hora obtenen dividends de confiança i redueixen la responsabilitat després del desplegament. Per tant, l’avantatge competitiu s’alinea amb una IA més segura i honesta.

Conclusió

Reduir les taxes d’al·lucinacions exigeix abordar tant la modelització com la mesura. Els prompts conscients de la incertesa, la fonamentació amb recuperació, la descodificació d’auto-consistència i les auditories d’entropia redueixen cadascun les taxes d’error de manera mesurable.

Però la solució definitiva és cultural: actualitzar els rànquings perquè l’endevinació ja no sigui recompensada. Les troballes d’OpenAI il·luminen el camí; els professionals disposen ara de la metodologia per construir models que diuen “No estic segur” quan és apropiat. La recerca futura hauria d’explorar la calibració dinàmica que adapti els llindars segons el context de l’usuari, reduint encara més el dany.

Preguntes freqüents

P1: Quina és la manera més ràpida de reduir les al·lucinacions d’IA en un chatbot de producció?

Implementar prompts conscients de la incertesa que permetin rebuigs i combinar-los amb generació augmentada per recuperació; junts poden reduir les al·lucinacions a més de la meitat.

P2: Com ajuden les mètriques de calibració a reduir les al·lucinacions d’IA?

Mètriques com l’Error d’Esperada de Calibració premien els models per la seva incertesa honesta, alineant l’optimització amb la veracitat i disminuint les taxes d’al·lucinació.

P3: La descodificació d’auto-consistència sempre redueix les al·lucinacions d’IA?

Sí, la votació majoritària entre camins de raonament normalment disminueix la freqüència d’al·lucinacions, tot i que incrementa el cost de càlcul.

Q4: La reforma del rànquing realment reduirà les al·lucinacions d'IA a tota la indústria?

Les simulacions indiquen una caiguda del 15 % un cop deixar de premiar les conjectures, cosa que suggereix guanys sistèmics quan canvien els quadres de puntuació.

Q5: Poden les indicacions conscients de la incertesa perjudicar l'experiència de l'usuari?

Les refusades excessives poden frustrar els usuaris, però els llindars calibrats d'entropia aconsegueixen un equilibri entre utilitat i seguretat.