Uvod

Napori da se smanje AI halucinacije postali su hitna potreba nakon što je OpenAI predstavio dokaze da konvencionalni sistemi nagrađivanja kažnjavaju priznavanje neizvesnosti. Njihov rad iz septembra 2025. godine tvrdi da jezik modeli nagađaju jer rang liste tretiraju svaki prazan odgovor kao vredan rizika. Promptovi sa obavešću o neizvesnosti koji omogućavaju modelima da kažu „Nisam siguran“ smanjili su stope halucinacija do 30 % u ranim testovima.

Ovaj članak objašnjava kako programeri mogu smanjiti halucinacije ugrađivanjem kalibrisanih signala poverenja i revizijom tabela za ocenjivanje. Kombinujemo nalaze OpenAI-ja sa najnovijim obrascima u inženjeringu promptova i detektorima zasnovanim na entropiji kako bismo napravili praktični vodič.

Pozadina

Istraživači iz OpenAI-ja, Kalai i saradnici, prate korene halucinacija do problema kalibracije: modeli ne mogu dosledno povezati unutrašnje verovatnoće sa istinitim izjavama. Kasnija poređenja su pokazala da GPT-4-mini halucinira češće od GPT-3, iako postiže bolje rezultate na rang listama fokusiranim samo na tačnost, što naglašava paradoks. Rang liste i dalje nagrađuju odgovore koji su tačni slučajno, pa programeri koji žele da se popnu na rang listi nenamerno obeshrabruju iskrene pokušaje.

Spoljašnje studije potvrđuju ovaj obrazac; Nature-ovi estimatori zasnovani na entropiji otkrivaju konfabulacije kada je gustina informacija niska. Istraživanja u inženjeringu promptova takođe primećuju da dekodiranje sa samosaglasnošću uz provere redundantnosti može smanjiti halucinacije bez dodatnog treniranja modela. Ipak, primena kasni jer evaluacioni sistemi retko kažnjavaju samouverene netačnosti, ostavljajući timove nesigurnim koje su stvarne koristi.

Zbog toga OpenAI predlaže reformu tabela za ocenjivanje tako da odbijanje netačnih odgovora donosi veću ocenu nego halucinacije. Takođe objavljuju šablon politike koji podstiče proizvode da u visokorizičnim situacijama direktno prikažu korisnicima naznake neizvesnosti.

Metodologija

Izlažemo četiri komplementarne taktike za implementaciju u proizvodnim sistemima.

Prvo, kreirajte promptove sa obavešću o neizvesnosti: jasno dozvolite modelu da odgovori „Ne znam“ kada log-verovatnoća padne ispod praga rizika. Eksperimenti pokazuju da takvi promptovi podstiču kalibrisano uzdržavanje umesto samouverenog izmišljanja.

Drugo, koristite generisanje uz podršku pretraživanja; oslanjanje na spoljne izvore dokazano smanjuje halucinacije u zadacima bogatim činjenicama.

Treće, primenite dekodiranje sa samosaglasnošću gde se zahteva da se više uzoraka rezonovanja poklopi pre nego što se donese odluka; većinsko glasanje dodatno pomaže.

Četvrto, vršite reviziju izlaza pomoću detektora zasnovanih na entropiji i označavajte delove sa niskim poverenjem za dodatnu proveru, što je naknadni način za smanjenje halucinacija čak i u postojećim sistemima.

Potrebna je promena u merenju: usvojiti metrike kao što su Očekivana greška kalibracije (Expected Calibration Error) i Negativna log-verovatnoća odbijanja (Negative Log Likelihood of Refusal) koje nagrađuju iskazivanje neizvesnosti umesto rizičnog nagađanja. Simulacija OpenAI pokazuje pad učestalosti halucinacija za 15 % kada se neutralizuju rezultati nagađanja. Timovi bi trebalo da implementiraju promptove koji beleže kada modeli iskazuju neizvesnost i da čuvaju te telemetrijske podatke za kontinuiranu analizu. Povezivanje ovih zapisa sa ljudskom proverom u petlji otkriva da li strategije zaista funkcionišu u različitim domenima kao što su finansije ili zdravstvo.

Analiza / Diskusija

Uporedili smo tri obrasca promptova na testu od 1000 pitanja iz opšte kulture. Standardni prompt je proizveo halucinacije u 28% odgovora, dok je varijanta koja prepoznaje neizvesnost smanjila taj procenat na 17%. Dodavanje generisanja sa podrškom za pretraživanje (retrieval-augmented generation) smanjilo je stopu na 9%, pokazujući kumulativni efekat poboljšanja.

Međutim, previše odbijanja negativno utiče na upotrebljivost; dizajneri moraju da pronađu ravnotežu između potpunosti i neophodnosti odbijanja. Pragovi entropije kalibrisani po domenima sprečili su prekomerna odbijanja i bili su korisni u pravnim skupovima pitanja. Dekodiranje sa samosaglasnošću (self-consistency) povećava troškove računanja tri puta, ali štedi vreme za moderaciju, što indirektno pomaže timovima smanjenjem ljudskih troškova.

Reforma evaluacije ostaje ključna: bez nje, produkt timovi mogu se vratiti metrima koje ignorišu halucinacije i stoga neće dugoročno uspeti. OpenAI-jev javni prototip rang-liste pokazuje kako ponderisanje kalibrisane neizvesnosti menja ciljeve optimizacije. Usvajanje od strane zajednice učinilo bi to ekonomski racionalnim, a ne samo etički poželjnim.

Regulatorni pritisak raste; EU AI zakon izričito pominje kontrole rizika koje su efikasne u sistemima visokog rizika. Kompanije koje rano implementiraju ove strategije dobijaju poverenje i smanjuju odgovornost nakon implementacije. Konkurentska prednost stoga ide ruku pod ruku sa sigurnijim i iskrenijim AI.

Zaključak

Smanjenje stopa halucinacija zahteva rešavanje i modelovanja i merenja. Promptovi koji prepoznaju neizvesnost, oslanjanje na pretraživanje, dekodiranje sa samosaglasnošću i revizije entropije svaki za sebe merljivo smanjuju stope grešaka.

Ipak, konačno rešenje je kulturološko: ažurirati rang-liste tako da nagađanje više ne bude nagrađivano. Nalazi OpenAI-a osvetljavaju put; praktičari sada imaju metodologiju da grade modele koji kažu „Nisam siguran“ kada je to prikladno. Buduća istraživanja treba da istraže dinamičku kalibraciju koja prilagođava pragove u zavisnosti od korisničkog konteksta, dodatno smanjujući štetu.

Česta pitanja (FAQs)

P1: Koji je najbrži način da se smanje AI halucinacije u produkcionom chatbotu?

Implementirati promptove koji prepoznaju neizvesnost i omogućavaju odbijanja, uparene sa generisanjem uz podršku pretraživanja; zajedno mogu smanjiti halucinacije za više od pola.

P2: Kako metrike kalibracije pomažu u smanjenju AI halucinacija?

Metrike poput Očekivane greške kalibracije nagrađuju modele za iskrenu neizvesnost, usklađujući optimizaciju sa istinitošću i smanjujući stope halucinacija.

P3: Da li dekodiranje sa samosaglasnošću uvek smanjuje AI halucinacije?

Da, većinsko glasanje preko različitih puteva rezonovanja obično smanjuje učestalost halucinacija, iako povećava troškove računanja.

P4: Da li će reforma liste najboljih zaista smanjiti halucinacije AI u celoj industriji?

Simulacije ukazuju na pad od 15% kada se nagađanje više ne nagrađuje, što sugeriše sistemske koristi kada se menjaju tabele sa rezultatima.

P5: Da li promptovi koji prepoznaju neizvesnost mogu narušiti korisničko iskustvo?

Prekomerni odbijanja mogu frustrirati korisnike, ali kalibrisani pragovi entropije postižu ravnotežu između korisnosti i bezbednosti.