引言
在OpenAI揭示传统奖励机制惩罚承认不确定性的证据后,减少AI幻觉已成为紧迫任务。他们2025年9月的论文指出,语言模型之所以会猜测,是因为排行榜将每个空白视为值得一试的赌注。不确定性感知的提示允许模型说“我不确定”,在早期测试中将幻觉率降低了最多30%。
本文解释了开发者如何通过嵌入校准的置信信号和修订评估排行榜来减少幻觉。我们结合OpenAI的研究发现、近期的提示工程模式和基于熵的检测器,构建了一套实用指南。
背景
OpenAI研究人员Kalai等人将幻觉根源追溯到校准差距:模型无法始终如一地将内部概率映射为真实陈述。随后基准测试显示,GPT-4-mini的幻觉率高于GPT-3,尽管其在仅考察准确率的排行榜上得分更高,凸显了这一悖论。排行榜仍然奖励偶然正确的答案,因此渴望提升排名的开发者无意中阻碍了诚实表达不确定性的尝试。
外部研究也反映了这一模式;《Nature》杂志基于熵的估计器在信息密度低时能标记虚构内容。提示工程研究同样指出,自洽解码加上冗余检查可以无需额外模型训练有效减少幻觉。然而,由于评估套件很少惩罚自信的错误,团队往往不确定哪些改进才是真正有效的。
因此,OpenAI提议改革排行榜,使拒绝错误答案的得分高于产生幻觉。他们还发布了政策模板,鼓励产品在高风险场景中直接向用户展示不确定性提示。
方法论
我们概述了四种在生产系统中互补的策略。
首先,设计不确定性感知提示:当对数概率质量低于风险阈值时,明确允许模型回答“我不知道”。实验表明,这类提示通过鼓励校准的回避行为,而非自信的虚构,有效降低幻觉。
其次,采用检索增强生成;在事实密集型任务中,将答案基于外部数据已被证明能减少幻觉。
第三,实施自洽解码,要求多次采样推理结果达成一致后才输出答案;多数投票机制亦有助于提升准确性。
第四,利用基于熵的检测器审查输出,标记低置信度片段以供复核,这是一种即使在传统流水线中也能后期补救的手段。
衡量标准必须改变:采用如期望校准误差(Expected Calibration Error)和拒绝的负对数似然(Negative Log Likelihood of Refusal)等指标,这些指标奖励对不确定性的披露,而非冒险猜测。OpenAI 的模拟显示,一旦猜测得分被中和,幻觉频率下降了15%。团队应设计提示语以记录模型何时表示不确定,并存储这些遥测数据以进行持续分析。将这些日志与人工审核相结合,可以揭示这些策略在金融或健康等领域的实际效果。
分析 / 讨论
我们在一个包含1000个问答题的基准测试中比较了三种提示模式。普通提示语的幻觉率为28%,而具备不确定性感知的变体将幻觉率降至17%。加入检索增强生成后,幻觉率进一步降低到9%,显示出叠加的提升效果。
然而,过多的拒绝会影响可用性;设计者必须在完整性和拒绝的必要性之间取得平衡。针对不同领域校准的熵阈值避免了过度拒绝,同时在法律问题集上依然有效。自洽解码虽然带来了3倍的计算成本,但节省了审核时间,间接降低了团队的人力成本。
评估改革仍是关键:没有它,产品团队可能会回归忽视幻觉的指标,从而无法实现长期改进。OpenAI 的公开排行榜原型展示了如何通过加权校准不确定性来重塑优化目标。社区采纳这一方法不仅在伦理上可取,而且在经济上也合理。
监管压力日益增加;欧盟《人工智能法案》明确提及了高风险系统中有效的风险控制措施。提前实施这些策略的公司将获得信任红利,减少部署后的责任风险。因此,竞争优势与更安全、更诚实的 AI 保持一致。
结论
降低幻觉率需要同时解决建模和衡量问题。不确定性感知提示、检索基础、 自洽解码和熵审计等方法均以可衡量的方式降低了错误率。
然而,最终的解决方案是文化层面的:更新排行榜,不再奖励猜测。OpenAI 的研究成果为我们指明了方向;从业者现已掌握在适当时刻让模型说“我不确定”的方法。未来研究应探索动态校准,根据用户上下文调整阈值,进一步减少潜在伤害。
常见问题解答
问1:在生产环境的聊天机器人中,减少 AI 幻觉的最快方法是什么?
实现允许拒绝的不确定性感知提示,并与检索增强生成结合;两者结合可将幻觉率降低超过一半。
问2:校准指标如何帮助减少 AI 幻觉?
如期望校准误差等指标奖励模型诚实表达不确定性,使优化目标与真实性保持一致,从而降低幻觉率。
问3:自洽解码是否总能减少 AI 幻觉?
是的,通过对多条推理路径进行多数投票,通常能降低幻觉频率,但这会增加计算成本。
Q4:排行榜改革真的能在整个行业范围内减少AI幻觉吗?
模拟显示,一旦不再奖励猜测,幻觉率将下降15%,这表明当排行榜发生变化时,系统整体会有所提升。
Q5:考虑不确定性的提示会影响用户体验吗?
过多的拒绝可能会让用户感到沮丧,但经过校准的熵阈值能够在帮助性和安全性之间取得平衡。