導言
在 OpenAI 揭露傳統獎勵機制會懲罰承認不確定性的證據後,相關努力成為當務之急。他們於 2025 年 9 月發表的論文指出,語言模型之所以會猜測,是因為排行榜將每個空白視為值得一試的賭注。不確定性感知提示允許模型回答「我不確定」,在早期測試中將幻覺率降低了多達 30%。
本文說明開發者如何透過嵌入校準過的信心訊號及修訂評估排行榜來減少幻覺。我們結合 OpenAI 的研究成果與近期的提示工程模式及基於熵的偵測器,打造實用的操作手冊。
背景
OpenAI 研究員 Kalai 等人追溯幻覺根源至校準差距:模型無法穩定地將內部機率映射至真實陳述。後續基準測試顯示 GPT-4-mini 的幻覺率高於 GPT-3,儘管其在僅評估準確度的排行榜上得分更高,凸顯出此悖論。排行榜仍獎勵偶然正確的答案,導致開發者為了提升排名,無意中阻礙了承認不確定性的嘗試。
外部研究也呼應此趨勢;《Nature》期刊提出的基於熵的估計器在資訊密度低時能標示出捏造內容。提示工程研究同時指出,自洽解碼結合冗餘檢查可在無需額外模型訓練下減少幻覺。然而,由於評估套件很少懲罰自信錯誤,團隊難以判斷哪些改進才是真正有效。
因此,OpenAI 建議改革排行榜,使拒絕錯誤答案的行為比產生幻覺獲得更高分數。他們也發布政策範本,鼓勵產品在高風險情境中直接向用戶揭示不確定性提示。
方法論
我們概述四項互補策略,適用於生產系統中減少幻覺。
首先,設計不確定性感知提示:當對數機率質量低於風險閾值時,明確允許模型回答「我不知道」。實驗證明,此類提示能促使模型採取校準過的放棄,而非自信捏造。
其次,採用檢索增強生成技術;在事實密集任務中,以外部資料作為答案依據已被證明能有效降低幻覺。
第三,實施自洽解碼,要求多次抽樣推理結果達成一致後才做出回答;多數投票機制亦有助於提升準確性。
第四,利用基於熵的偵測器審核輸出,標示低信心區段供後續審查,這是即使在舊有流程中也能採用的事後控管方法。
衡量標準必須改變:採用如「期望校準誤差」(Expected Calibration Error)及「拒絕的負對數似然」(Negative Log Likelihood of Refusal)等指標,這些指標獎勵模型揭露不確定性,而非冒險猜測。OpenAI 的模擬顯示,一旦猜測分數被中和,幻覺頻率下降了 15%。團隊應在提示中加入記錄模型表示不確定的時刻,並儲存這些遙測數據以進行持續分析。將這些記錄與人類介入審查結合,可揭示策略是否在金融或健康等多領域中有效。
分析/討論
我們在一千題問答基準測試中比較了三種提示模式。普通提示的幻覺率為 28%,而具備不確定性感知的變體降低至 17%。加入檢索增強生成後,幻覺率進一步降至 9%,展現出可疊加的效益。
然而,過多拒絕會影響使用性;設計者必須在完整性與必要拒絕間取得平衡。針對不同領域校準的熵閾值避免了過度拒絕,且在法律相關問題集中仍有效。自洽解碼雖然增加了三倍的運算成本,但節省了審核時間,間接降低了團隊的人力負擔。
評估改革仍是關鍵:若無此,產品團隊可能回到忽略幻覺的指標,導致長期失敗。OpenAI 的公開排行榜原型展示了如何透過加權校準不確定性來重塑優化目標。社群採用此方法將使其在經濟上合理,而非僅是道德上的期望。
監管壓力日益增加;歐盟 AI 法案明確提及對高風險系統的風險控制。提前實施這些策略的公司將獲得信任紅利,並減少部署後的責任風險。因此,競爭優勢與更安全、更誠實的 AI 相符。
結論
降低幻覺率需同時從建模與衡量著手。不確定性感知提示、檢索依據、自洽解碼及熵審計皆以可量化方式降低錯誤率。
然而,最終的解決之道在於文化:更新排行榜,讓猜測不再被獎勵。OpenAI 的發現指明了方向;實務者現在擁有在適當情況下讓模型說「我不確定」的方法。未來研究應探索可依用戶情境動態調整閾值的校準機制,進一步減少傷害。
常見問題
問1:在生產環境的聊天機器人中,最快減少 AI 幻覺的方法是什麼?
實施允許拒絕的不確定性感知提示,並搭配檢索增強生成;兩者結合可將幻覺減少超過一半。
問2:校準指標如何幫助減少 AI 幻覺?
像期望校準誤差這類指標獎勵模型誠實表達不確定性,使優化與真實性對齊,降低幻覺率。
問3:自洽解碼是否總能減少 AI 幻覺?
是的,多條推理路徑的多數投票通常能降低幻覺頻率,儘管會增加運算成本。
Q4:排行榜改革真的能在整個產業範圍內減少 AI 幻覺嗎?
模擬顯示,一旦不再獎勵猜測,幻覺率將下降約 15%,這意味著當排行榜改變時,系統性表現會有所提升。
Q5:具有不確定性感知的提示會影響用戶體驗嗎?
過度拒絕可能會讓用戶感到挫折,但透過校準熵閾值,可以在實用性與安全性之間取得平衡。