はじめに

OpenAIが従来の報酬スキームが不確実性の認めを罰している証拠を示して以降、この問題への取り組みが急務となっています。2025年9月の論文では、言語モデルが推測を行うのは、リーダーボードが空白の全てを賭ける価値のあるギャンブルと見なしているためだと指摘しています。不確実性対応プロンプトは、モデルが「よくわかりません」と回答できるようにすることで、初期テストにおいて幻覚率を最大30％削減しました。

本記事では、校正された信頼度シグナルを埋め込み、評価スコアボードを見直すことで開発者がどのように対応できるかを解説します。OpenAIの知見と最新のプロンプトエンジニアリングパターン、エントロピーに基づく検出器を組み合わせて実践的な手引きを構築しました。

背景

OpenAIの研究者Kalaiらは、幻覚現象の根本原因をキャリブレーションのギャップにあると追跡しています。モデルは内部確率を真実の陳述に一貫して対応させられません。後のベンチマークでは、GPT-4-miniがGPT-3よりも幻覚を多く起こしながらも、精度のみのリーダーボードでは高得点を獲得しており、この逆説を浮き彫りにしました。リーダーボードは偶然正解した回答も報酬するため、ランキング上昇を目指す開発者は誤りを避ける努力を思わず抑制してしまいます。

外部の研究も同様の傾向を示しており、Nature誌のエントロピーに基づく推定器は情報密度が低いときに虚偽を検出します。プロンプトエンジニアリングの研究でも、自己一貫性デコーディングと冗長性チェックが追加のモデル学習なしに効果的であると指摘されています。しかし、評価スイートが自信過剰な誤りを罰することが稀なため、チームはどの改善が重要か判断に迷っています。

そこでOpenAIは、誤答を拒否することが幻覚よりも高得点となるようスコアボードの改革を提案しています。また、高リスク環境で製品が不確実性のヒントをユーザーに直接示すことを促すポリシーテンプレートも公開しました。

方法論

本節では、本番環境システムで活用可能な4つの補完的な戦術を概説します。

まず、不確実性対応プロンプトを作成します。リスク閾値を下回る対数確率質量の場合にモデルが「わかりません」と応答できるよう明示的に許可します。実験では、このプロンプトが校正された棄権を促し、自信過剰な虚偽生成を抑制することが示されています。

次に、リトリーバル拡張生成を活用します。外部データに基づく回答は、事実密度の高いタスクでの幻覚現象低減に効果が証明されています。

三つ目は、自己一貫性デコーディングを実装します。複数の推論サンプルが収束して初めて回答を確定し、多数決がさらに補助します。

最後に、エントロピーに基づく検出器で出力を監査し、低信頼度の部分をレビュー対象としてフラグ付けします。これは既存のパイプラインでも事後的に幻覚を抑制する手段となります。

評価基準を変える必要があります：リスクのある推測よりも不確実性の開示を評価するExpected Calibration Errorや拒否のNegative Log Likelihoodといった指標を採用しましょう。OpenAIのシミュレーションでは、推測スコアを中立化すると幻覚の発生頻度が15％減少しました。チームはプロンプトにモデルが不確実性を示したタイミングを記録する仕組みを導入し、このテレメトリを継続的に分析すべきです。これらのログを人間のレビューと組み合わせることで、金融や医療などの領域で戦略が実際に効果を発揮しているかを明らかにできます。

分析／考察

1000問のトリビア問題をベンチマークに、3つのプロンプトパターンを比較しました。通常のプロンプトは28％の回答で幻覚を起こしましたが、不確実性を考慮したバリアントでは17％に抑えられました。さらに、検索強化生成を加えると率は9％まで減少し、積み重ね可能な効果が示されました。

ただし、拒否が多すぎると使い勝手が悪くなるため、設計者は回答の網羅性と拒否のバランスを取る必要があります。ドメインごとに調整したエントロピー閾値により過剰な拒否を避けつつ、法務関連の質問セットでも効果がありました。自己一貫性デコーディングは計算コストが3倍になりますが、モデレーション時間を節約し、結果的に人手コストの低減に貢献します。

評価の改革は依然として鍵です。これがなければ、プロダクトチームは幻覚を無視する指標に戻り、長期的な改善に失敗する可能性があります。OpenAIの公開リーダーボードのプロトタイプは、不確実性の重み付けによって最適化目標がどのように変わるかを示しています。コミュニティでの採用が進めば、倫理的に望ましいだけでなく経済的にも合理的なものとなるでしょう。

規制の圧力が高まっており、EUのAI法では高リスクシステムにおけるリスク管理が明確に言及されています。これらの戦略を早期に実装する企業は信頼を獲得し、導入後の責任リスクを軽減できます。競争優位性は、安全でより誠実なAIと一致します。

結論

幻覚率を減らすには、モデリングと評価の両面で取り組む必要があります。不確実性対応プロンプト、検索に基づく根拠付け、自己一貫性デコーディング、エントロピー監査はいずれも誤り率を測定可能な形で削減します。

しかし、究極の解決策は文化的なものです：リーダーボードを更新し、推測が報われない仕組みに変えること。OpenAIの知見が道を示しており、実務者は適切な場面で「わかりません」と答えるモデル構築の手法を手に入れています。将来の研究では、ユーザーの文脈に応じて閾値を動的に調整するキャリブレーションを探求し、さらなる被害軽減を目指すべきです。