Įvadas
Pastangos sumažinti AI haliucinacijas tapo skubia užduotimi po to, kai OpenAI paskelbė įrodymus, kad tradicinės apdovanojimų schemos bausto už neapibrėžtumo pripažinimą. 2025 m. rugsėjo mėn. jų straipsnyje teigiama, kad kalbos modeliai spėlioja, nes lyderių lentelės traktuoja kiekvieną spragą kaip vertą rizikos. Neapibrėžtumą atitinkantys užklausimai, leidžiantys modeliams atsakyti „Nesu tikras“, ankstyvuose bandymuose sumažino haliucinacijų dažnį iki 30 %.
Šiame straipsnyje paaiškinama, kaip kūrėjai gali sumažinti haliucinacijas įterpdami kalibruotus pasitikėjimo signalus ir peržiūrėdami vertinimo lenteles. Mes deriname OpenAI atradimus su naujausiomis užklausimų inžinerijos praktikomis ir entropijos pagrindu veikiančiais detektoriais, kad sukurtume praktišką vadovą.
Fonas
OpenAI tyrėjai Kalai ir kt. haliucinacijų priežastis sieja su kalibracijos spraga: modeliai nesugeba nuosekliai susieti vidinių tikimybių su tiesa atitinkančiais teiginiais. Vėlesni testavimai parodė, kad GPT-4-mini haliucinavo dažniau nei GPT-3, nors lyderių lentelėse, vertinančiose tik tikslumą, surinko aukštesnius balus, pabrėžiant paradoksą. Lyderių lentelės vis dar apdovanoja atsitiktinai teisingus atsakymus, todėl kūrėjai, siekdami pakilti reitinguose, netyčia atbaido nuo neapibrėžtumo pripažinimo.
Išoriniai tyrimai patvirtina šį modelį; žurnalo Nature entropijos pagrindu veikiantys vertintojai nustato klaidingas išvadas, kai informacijos tankis yra žemas. Užklausimų inžinerijos tyrimai taip pat rodo, kad savikonsistencijos dekodavimas kartu su perteklinių patikrinimų taikymu gali sumažinti klaidas be papildomo modelio mokymo. Tačiau šių metodų diegimas vėluoja, nes vertinimo sistemos retai baudžia už pernelyg pasitikėjimą klaidingais atsakymais, todėl komandos nėra tikros, kurie patobulinimai yra svarbūs.
Todėl OpenAI siūlo reformuoti vertinimo lenteles taip, kad atsisakymas pateikti neteisingą atsakymą būtų vertinamas aukščiau nei haliucinavimas. Jie taip pat pateikia politikos šabloną, skatinantį produktus aukšto rizikos situacijose tiesiogiai vartotojams rodyti neapibrėžtumo indikacijas.
Metodika
Išskiriame keturias papildomas taktikas, kurias galima taikyti gamybos sistemose.
Pirma, kurkite neapibrėžtumą atitinkančius užklausimus: aiškiai leiskite modeliui atsakyti „Nesu tikras“, kai logaritminė tikimybės masė nukrenta žemiau rizikos slenksčio. Eksperimentai rodo, kad tokie užklausimai skatina kalibruotą susilaikymą vietoje užtikrinto išgalvojimo.
Antra, naudokite informacijos paieškos pagrindu veikiančią generaciją; atsakymų pagrindimas išoriniais duomenimis įrodytas kaip veiksmingas užduotyse, kur daug faktinės informacijos.
Trečia, įgyvendinkite savikonsistencijos dekodavimą, kai keli argumentavimo pavyzdžiai turi sutapti prieš pateikiant galutinį atsakymą; daugumos balsavimas taip pat padeda.
Ketvirta, tikrinkite rezultatus naudodami entropijos pagrindu veikiančius detektorius ir pažymėkite žemą pasitikėjimą turinčias vietas peržiūrai – tai post-facto būdas sumažinti klaidas net ir senose sistemose.
Matuoti reikia kitaip: taikyti metrikas, tokias kaip Tikėtinas Kalibravimo Klaidos dydis (Expected Calibration Error) ir Neigiamas Atmetimo Logaritminis Tikimybės Rodiklis (Negative Log Likelihood of Refusal), kurios skatina neapibrėžtumo atskleidimą vietoje rizikingo spėjimo. OpenAI simuliacija parodė 15 % sumažėjimą haliucinacijų dažnyje, kai spėjimo balai buvo neutralizuoti. Komandos turėtų įdiegti užklausų registravimą, fiksuojant, kada modeliai rodo neapibrėžtumą, ir saugoti šią telemetriją nuolatinei analizei. Šių įrašų derinimas su žmogaus įsikišimu leidžia įvertinti, ar strategijos iš tiesų veikia įvairiose srityse, tokiose kaip finansai ar sveikata.
Analizė / Diskusija
Palyginome tris užklausų šablonus su 1000 klausimų trivių rinkiniu. Paprastas užklausos variantas sukėlė 28 % atsakymų su haliucinacijomis, o neapibrėžtumą atsižvelgiantis variantas sumažino šį rodiklį iki 17 %. Pridėjus gavimo pagrindu sustiprintą generavimą, dažnis sumažėjo iki 9 %, kas rodo galimybę derinti priemones ir toliau mažinti klaidų skaičių.
Tačiau per daug atsisakymų mažina naudojimo patogumą; dizaineriai turi subalansuoti išsamumą ir būtinybę atsisakyti. Entropijos ribos, kalibruotos pagal sritį, padėjo išvengti perteklinių atsisakymų ir buvo naudingos teisinio pobūdžio klausimų rinkiniuose. Savarankiško nuoseklumo dekodavimas pareikalavo tris kartus daugiau skaičiavimo resursų, bet sutaupė moderavimo laiką, netiesiogiai padėdamas komandoms sumažinti žmogaus darbo sąnaudas.
Vertinimo reformos išlieka kertiniu akmeniu: be jų produktų komandos gali grįžti prie metrikų, kurios ignoruoja haliucinacijas ir taip nesugeba užtikrinti ilgalaikio patikimumo. OpenAI viešas lyderių lentelės prototipas demonstruoja, kaip kalibruoto neapibrėžtumo svoris keičia optimizavimo tikslus. Bendruomenės priėmimas padarytų tai ekonomiškai racionalu, ne tik etiškai pageidautina.
Reguliavimo spaudimas didėja; ES AI aktas aiškiai nurodo rizikos kontrolę, kuri efektyviai veikia aukštos rizikos sistemose. Įmonės, kurios anksti įgyvendina šias strategijas, gauna pasitikėjimo dividendus ir sumažina atsakomybę po diegimo. Konkurencinis pranašumas taip sutampa su saugesne ir sąžiningesne dirbtiniu intelektu.
Išvada
Haliucinacijų mažinimas reikalauja spręsti tiek modeliavimą, tiek matavimą. Neapibrėžtumą atsižvelgiantys užklausų šablonai, gavimo pagrindu pagrįstas įtvirtinimas, savarankiško nuoseklumo dekodavimas ir entropijos auditai kiekvienas ženkliai sumažina klaidų rodiklius.
Vis dėlto galutinis sprendimas yra kultūrinis: atnaujinti lyderių lenteles taip, kad spėjimai nebebūtų skatinami. OpenAI atradimai apšviečia kelią; praktikams dabar yra metodika kurti modelius, kurie tinkamu momentu sakytų „Aš nesu tikras“. Ateities tyrimai turėtų tirti dinamišką kalibravimą, prisitaikantį prie vartotojo konteksto ribų, dar labiau mažinant žalą.
DUK
Klausimas 1: Koks greičiausias būdas sumažinti AI haliucinacijas gamybiniame pokalbių robote?
Įdiegti neapibrėžtumą atsižvelgiančius užklausų šablonus, leidžiančius atsisakymus, ir derinti juos su gavimo pagrindu sustiprintu generavimu; kartu jie gali sumažinti haliucinacijas daugiau nei per pusę.
Klausimas 2: Kaip kalibravimo metrikos padeda mažinti AI haliucinacijas?
Tokios metrikos kaip Tikėtinas Kalibravimo Klaidos dydis skatina modelius būti sąžiningais dėl neapibrėžtumo, suderindamos optimizavimą su tiesa ir mažindamos haliucinacijų dažnį.
Klausimas 3: Ar savarankiško nuoseklumo dekodavimas visada sumažina AI haliucinacijas?
Taip, daugumos balsavimo principas per skirtingus samprotavimo kelius paprastai sumažina haliucinacijų dažnį, nors tai padidina skaičiavimo išlaidas.
4 klausimas: ar lyderių lentelės reforma tikrai sumažins dirbtinio intelekto klaidas visoje pramonėje?
Simuliacijos rodo 15 % sumažėjimą, kai spėjimai nebeapdovanojami, kas rodo sisteminius pranašumus keičiantis rezultatų lentelėms.
5 klausimas: ar neapibrėžtumo suvokimą įtraukiantys užklausimai gali pakenkti naudotojo patirčiai?
Per didelis atsisakymų skaičius gali erzinti vartotojus, tačiau tinkamai nustatyti entropijos slenksčiai leidžia subalansuoti naudingumą ir saugumą.