Pengenalan

Usaha untuk mengurangkan halusinasi AI menjadi keutamaan mendesak selepas OpenAI mendedahkan bukti bahawa skim ganjaran konvensional menghukum pengakuan ketidaktentuan. Kertas kerja mereka pada September 2025 berhujah bahawa model bahasa membuat tekaan kerana papan pendahulu menganggap setiap ruang kosong sebagai risiko yang berbaloi diambil. Promp berasaskan ketidaktentuan yang membenarkan model berkata “Saya tidak pasti” menurunkan kadar halusinasi sehingga 30% dalam ujian awal.

Artikel ini menerangkan bagaimana pembangun boleh mengurangkan halusinasi dengan menyematkan isyarat keyakinan yang dikalibrasi dan mengubah suai papan skor penilaian. Kami menggabungkan penemuan OpenAI dengan corak kejuruteraan promp terkini dan pengesan berasaskan entropi untuk membina panduan praktikal.

Latar Belakang

Penyelidik OpenAI, Kalai et al., mengesan punca halusinasi kepada jurang kalibrasi: model tidak dapat memetakan kebarangkalian dalaman secara konsisten kepada kenyataan yang benar. Penanda aras kemudian menunjukkan GPT-4-mini mengalami halusinasi lebih kerap daripada GPT-3 walaupun memperoleh skor lebih tinggi pada papan pendahulu berasaskan ketepatan sahaja, menegaskan paradoks tersebut. Papan pendahulu masih memberi ganjaran kepada jawapan betul secara kebetulan, menyebabkan pembangun yang ingin naik pangkat secara tidak sengaja menghalang usaha untuk mengaku ketidaktentuan.

Kajian luaran mengesahkan corak ini; penilai berasaskan entropi Nature menandakan konfabulasi apabila ketumpatan maklumat rendah. Penyelidikan kejuruteraan promp juga mencatat bahawa penyahkodan konsistensi kendiri bersama semakan redundansi boleh mengurangkan halusinasi tanpa latihan tambahan model. Namun, penerimaan lambat kerana set penilaian jarang menghukum kesilapan yakin, meninggalkan pasukan tidak pasti apakah peningkatan yang penting.

Oleh itu, OpenAI mencadangkan pembaharuan papan skor supaya menolak jawapan salah diberi skor lebih rendah daripada menolak menjawab. Mereka juga menerbitkan templat polisi yang menggesa produk memaparkan petunjuk ketidaktentuan secara langsung kepada pengguna dalam situasi berisiko tinggi.

Metodologi

Kami menggariskan empat taktik pelengkap untuk sistem produksi.

Pertama, cipta promp berasaskan ketidaktentuan: benarkan model secara eksplisit menjawab “Saya tidak tahu” apabila jisim log-kebarangkalian jatuh di bawah ambang risiko. Eksperimen menunjukkan promp ini mengurangkan halusinasi dengan menggalakkan penolakan yang dikalibrasi berbanding fabrikasi yakin.

Kedua, gunakan generasi diperkaya pengambilan; mengukuhkan jawapan dengan data luaran terbukti berkesan dalam tugasan berasaskan fakta tinggi.

Ketiga, laksanakan penyahkodan konsistensi kendiri di mana pelbagai penalaran yang diambil sampel mesti bersetuju sebelum keputusan dibuat; pengundian majoriti turut membantu.

Keempat, audit output menggunakan pengesan berasaskan entropi dan tandakan rentang keyakinan rendah untuk semakan, satu cara pasca-hoc untuk mengurangkan halusinasi walaupun dalam saluran warisan.

Pengukuran mesti berubah: gunakan metrik seperti Expected Calibration Error dan Negative Log Likelihood of Refusal yang menggalakkan pendedahan ketidakpastian berbanding tekaan berisiko. Simulasi OpenAI menunjukkan penurunan 15% dalam kekerapan halusinasi apabila skor tekaan dinetralkan. Pasukan perlu memasang arahan untuk merekod bila model menunjukkan ketidakpastian dan menyimpan telemetri ini untuk analisis berterusan. Menggabungkan log ini dengan tinjauan manusia dalam proses mendedahkan sama ada strategi berkesan merentas domain seperti kewangan atau kesihatan.

Analisis / Perbincangan

Kami membandingkan tiga corak arahan pada penanda aras 1000 soalan trivia. Arahan vanilla menghasilkan halusinasi pada 28% jawapan, manakala varian yang sedar ketidakpastian berjaya mengurangkannya kepada 17%. Menambah retrieval-augmented generation mengurangkan kadar tersebut kepada 9%, menunjukkan peningkatan berlapis yang lebih jauh.

Walau bagaimanapun, terlalu banyak penolakan menjejaskan kebolehgunaan; pereka mesti mengimbangi kelengkapan dengan keperluan untuk menolak. Ambang entropi yang dikalibrasi mengikut domain mengelakkan penolakan berlebihan dan masih membantu dalam set soalan undang-undang. Self-consistency decoding memerlukan kos pengkomputeran 3× tetapi menjimatkan masa pengawalan, secara tidak langsung membantu pasukan dengan kos manusia yang lebih rendah.

Pembaharuan penilaian kekal sebagai kunci utama: tanpa itu, pasukan produk mungkin kembali kepada metrik yang mengabaikan halusinasi dan oleh itu gagal untuk jangka panjang. Prototip papan pendahulu awam OpenAI menunjukkan bagaimana pemberatan ketidakpastian yang dikalibrasi membentuk semula sasaran pengoptimuman. Penggunaan komuniti akan menjadikannya rasional secara ekonomi, bukan sekadar diingini secara etika.

Tekanan peraturan semakin meningkat; EU AI Act secara eksplisit menyebut kawalan risiko yang berkesan dalam sistem berisiko tinggi. Syarikat yang melaksanakan strategi ini awal akan mendapat dividen kepercayaan dan mengurangkan liabiliti selepas pelaksanaan. Kelebihan kompetitif oleh itu selari dengan AI yang lebih selamat dan jujur.

Kesimpulan

Pengurangan kadar halusinasi menuntut pendekatan terhadap kedua-dua pemodelan dan pengukuran. Arahan yang sedar ketidakpastian, pengukuhan retrieval, self-consistency decoding, dan audit entropi masing-masing mengurangkan kadar kesilapan secara boleh diukur.

Namun, penyelesaian utama adalah budaya: kemas kini papan pendahulu supaya tekaan tidak lagi diberikan ganjaran. Penemuan OpenAI menerangi jalan; pengamal kini memiliki metodologi untuk membina model yang berkata “Saya tidak pasti” apabila sesuai. Penyelidikan masa depan harus meneroka kalibrasi dinamik yang menyesuaikan ambang mengikut konteks pengguna, sekali gus mengurangkan kemudaratan lebih lanjut.

Soalan Lazim

S1: Apakah cara terpantas untuk mengurangkan halusinasi AI dalam chatbot produksi?

Laksanakan arahan yang sedar ketidakpastian yang membenarkan penolakan dan gabungkan dengan retrieval-augmented generation; gabungan ini boleh mengurangkan halusinasi lebih daripada separuh.

S2: Bagaimana metrik kalibrasi membantu mengurangkan halusinasi AI?

Metrik seperti Expected Calibration Error memberi ganjaran kepada model untuk ketidakpastian yang jujur, menyelaraskan pengoptimuman dengan ketulenan dan menurunkan kadar halusinasi.

S3: Adakah self-consistency decoding sentiasa mengurangkan halusinasi AI?

Ya, pengundian majoriti merentas laluan penaakulan biasanya mengurangkan kekerapan halusinasi, walaupun ia meningkatkan kos pengkomputeran.

S4: Adakah reformasi papan pendahulu benar-benar akan mengurangkan halusinasi AI secara meluas dalam industri?

Simulasi menunjukkan penurunan sebanyak 15% apabila tekaan tidak lagi diberi ganjaran, mencadangkan keuntungan sistemik apabila papan skor berubah.

S5: Bolehkah arahan yang menyedari ketidakpastian menjejaskan pengalaman pengguna?

Penolakan yang berlebihan boleh mengecewakan pengguna, tetapi ambang entropi yang dikalibrasi mencapai keseimbangan antara keberkesanan dan keselamatan.